Metody statystyczne
Literatura Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010. Stąpor K. Wykłady z metod statystycznych dla informatyków z przykładami w języku R. Wydawnictwo Politechniki Sląskiej. 2015 W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, Część I i II, PWN, 2006 Jóźwiak J., Podgórski J., Statystyka od podstaw, PWE, Warszawa 2012. Stąpor K., Skowronek M. Przykłady i zadania do wykładu z metod statystycznych dla informatyków. Wydawnictwo Politechniki Sląśkiej. 2013 Online: https://www.probabilitycourse.com/
Wykład 1 1. Statystyka - Wprowadzenie 2. Statystyka opisowa: Rozkład empiryczny cechy Metody prezentacji rozkładu cechy
Statystyka - wprowadzenie
Statystyka - podstawowe pojęcia (cz. 1) Statystyka - dyscyplina wiedzy zajmująca się metodami pozyskiwania, prezentacji i analizy danych odnoszących się do powtarzalnych, masowych zjawisk lub wyników eksperymentów "Alternatywna" definicja statystyki. Cytat: "Kłamstwa, bezczelne kłamstwa i statystyka" Statystyka opisowa - sumaryczny opis danych, np. obliczenie średniej, ile jest jakich przypadków. Jest to wstępne opracowanie danych, bez posługiwania się rachunkiem prawdopodobieństwa Statystyka matematyczna - wnioskowanie o badanej zbiorowości na podstawie danych częściowych, bo zebranie wszystkich danych jest niemożliwe, kosztowne lub niecelowe. Korzysta się z rachunku prawdopodobieństwa. Zakres wykładów: Statystyka opisowa (descriptive statistics) Rachunek prawdopodobieństwa (probability calculus) Statystyka matematyczna (mathematical statistics)
Przykład: Statystyka - podstawowe pojęcia (cz. 2) Badamy wejścia na nasz serwis WWW: jakie były używane przeglądarki, jak długo trwał pobyt w naszym serwisie, jak dużo podstron było w tym czasie odwiedzonych. Prezentujemy dane np. na wykresie jaka przeglądarka jest najpopularniejsza. Dokonujemy analizy np. obliczamy jaki był średni czas pobytu w naszym serwisie. Zebraliśmy dane części odwiedzających i na podstawie tych danych wnioskujemy o wszystkich odwiedzających Badanie statystyczne - proces pozyskiwania danych, w powyższym przykładzie będzie automatyczne Zbiorowość generalna (populacja generalna, population) czyli co albo kogo badamy - kompletny zbiór elementów lub możliwych wyników generujących dane do badań statystycznych. Np. wejścia na nasz serwis WWW, mieszkańcy Polski, samochody, dni miesiąca (badamy czy było słonecznie), możliwe wyniki pomiaru wytrzymałości materiału. Cecha (właściwość, variable) statystyczna czyli pod jakim kątem badamy - właściwość elementów zbiorowości, którą badamy. Np. zbiorowość: wejścia na nasz serwis WWW - badamy cechę: jaka była użyta przeglądarka, zbiorowość: mieszkańcy Polski - cecha: ile zarabiają zbiorowość: samochody - cecha: jaka marka
Statystyka - podstawowe pojęcia (cz. 3) Badanie pełne (całkowite) - badamy wszystkie elementy zbiorowości. Dostarcza pełnej informacji, ale często jest niecelowe (crash-testy) lub niewykonalne. Koszt badania może być większy niż korzyści z analizy danych. Badanie częściowe - badamy tylko część elementów zbiorowości. Główne zadanie statystyki to wnioskowanie o właściwościach zbiorowości na podstawie badań częściowych (np. sondaż przedwyborczy - wynik wyborów) Próba (sample)- część zbiorowości poddania badaniu częściowemu. Próba losowa - próba dobrana przez losowanie elementów zbiorowości. Próbę dobiera się tak, aby była reprezentacyjna dla całej zbiorowości
Statystyka - podstawowe pojęcia (cz. 4) Cechy statystyczne: jakościowe (niemierzalne) - kolor oczu, płeć, wykształcenie (categorical data, qualitative data) mierzalne (ilościowe) - można wyrazić liczbowo (numerical data, quantitative data): typu skokowego (dyskretnego): liczba osób w rodzinie typu ciągłego: waga typ skokowy - przyjmuje skończoną lub przeliczalną liczbę wartości (discrete) typ ciągły - może przyjąć każdą wartość rzeczywistą z pewnego przedziału (continuous) Uwaga: Dla cechy jakościowej można przypisać wartości liczbowe, np. kolorom - numery i traktować je jako mierzalne
Rozkład empiryczny cechy
Dane indywidualne (cz. 1) Dane indywidualne uzyskane z badania (posłużą jako przykład na dalszej części wykładu): Zanotowano 25 odwiedzin (wizyt) na jakimś portalu internetowym. Ile podstron obejrzanych w czasie wizyty: 3,1,3,2,3,2,1,4,2,4,4,2,1,4,5,3,3,2,4,2,2,3,2,5,3 Jak długo trwała wizyta (w min.): 64,77,51,70,69,50,72,47,93,52,60,56,63,59,58,82,60,63,65,67,61,71,66,62,68 Jaka przeglądarka była używana: F,F,C,IE,IE,F,C,C,F,IE,F,IE,C,C,IE,C,C,F,F,IE,IE,F,C,C,C F - Firefox, IE - Internet Explorer, C - Chrome Zbiorowość: wizyty. Próbka liczy 25 elementów (25 obserwacji) Badanie dotyczy 3 cech: ile podstron - cecha mierzalna skokowa czas pobytu - cecha mierzalna ciągła typ przeglądarki - cecha jakościowa Cechy oznaczamy dużymi literami alfabetu: X, Y, Z Indywidualne wartości poszczególnych cech oznaczamy: x i, y i z i (i=1,2,...,n) indeks dolny oznacza numer elementu (obserwacji) Liczebność próbki oznaczamy przez n. W przykładzie n=25 Liczebność pełnej populacji oznaczamy przez N
Dane indywidualne (cz. 2) Przed przystąpieniem do analizy zebrane dane indywidualne dobrze przedstawić tabelarycznie, aby były bardziej czytelne. W takiej postaci wprowadza się je do specjalistycznego programu statystycznego (np. SPSS, R) lub arkusza kalkulacyjnego (np. Excel - MS Office, Calc - Libre Office), jeśli analizę będziemy przeprowadzać z pomocą programu komputerowego: Numer obserwacji X Y Z 1 3 64 F 2 1 77 F 3 3 51 C............ 25 3 68 F
Rozkład empiryczny cechy (empirical distribution) Aby przystąpić do jakichkolwiek analiz statystycznych należy określić empiryczny rozkład cechy Empiryczny rozkład cechy: uszeregowanym rosnąco wartościom (przyjmowanym przez cechę) przyporządkowanie częstości ich występowania. Uwaga: Gdy cecha jest jakościowa to "uszeregowanie rosnąco" należy rozumieć jako np. alfabetyczne. Można też przypisać dla cechy jakościowej liczby i zrobić to uszeregowanie wg tych liczb Częstość może być podana jako częstość absolutna (absolute frequency) lub częstość względna (relative frequncy, percentage). Częstość absolutna danej wartości cechy to inaczej liczebność czyli ile razy dana wartość występuje. Częstość względna cechy = liczebność (częstość) absolutna cechy / liczebność całego badanego zbioru
Metody prezentacji rozkładu empirycznego cechy
Szereg rozdzielczy - prezentacja rozkładu za pomocą tabeli (cz. 1) Szereg rozdzielczy - tabelaryczne przedstawienie empirycznego rozkładu cechy (frequency table, frequency distribution table) W pierwszej kolumnie podajemy wartości cechy (lub przedziały wartości), a w następnych częstość występowania tej wartości. Szereg rozdzielczy używanych przeglądarek www (cecha jakościowa) Typ przęglądarki Częstość absolutna (Liczba wizyt) Częstość względna Chrome 10 10/25 = 0,4 Firefox 8 8/25 =0,32 Internet Explorer 7 7/25 = 0,28 Razem 25 1
Szereg rozdzielczy (cz. 2) Szereg rozdzielczy obejrzanych podstron portal WWW (cecha mierzalna) Liczba podstron x i Częstość absolutna (Liczba wizyt) n i Częstość względna w i =n i /n 1 3 0,12 2 8 0,32 3 7 0,28 4 5 0,20 5 2 0,08 Razem 25 1
Szereg rozdzielczy (cz. 3) Szereg rozdzielczy dla rozkładu cechy mierzalnej ciągłej (np. czas pobytu na portalu) gdy dokładny pomiar otrzymalibyśmy 25 różnych wartości (25 różnych czasów z dokładnością np. do sekundy). Liczebność każdej wartości byłaby 1. Więc szereg zrobiony w ten sposób przedstawiałby mało czytelną informację, szczególnie, gdy wartości byłoby dużo więcej niż 25 jak postępujemy: obszar między najmniejszą a największą wartością dzielimy na przedziały rozłączne (klasy). Częstości są przypisywane nie wartościom a przedziałom (czyli podajemy ile wartości jest w danym przedziale). Przyjmuje się upraszczające założenie, że wszystkie wartości w danym przedziale są identyczne ze środkiem przedziału przedziały są najczęściej tej samej długości. Ewentualnie pozostawia się skrajne przedziały otwarte liczba przedziałów jest zazwyczaj od 5 do 20. Tak, aby szereg rozdzielczy dawał przejrzysty obraz rozkładu Uwaga: Praktyka: Gdy cecha skokowa przyjmuje dużo różnych wartości traktuje się ją jak ciągłą i w szeregu w takiej sytuacji również przedstawiamy liczebność przedziałów.
Szereg rozdzielczy (cz. 4) Szereg rozdzielczy czasu pobytu na portalu WWW Czas pobytu w min. Częstość absolutna (Liczba wizyt) n i Częstość względna w i =n i /n 45-55 4 0,16 55-65 11 0,44 65-75 7 0,28 75-85 2 0,08 85-95 1 0,04 Razem 25 1 Obszar zmienności: 93-47 = 46. 5 klas (przedziałów) o rozpiętości 10 Przyjmujemy, że przedziały są prawostronnie domknięte, np. 55 wliczamy do przedziału 45-55. Można takie przedziały: 46-55, 56-65 itd.
Szereg kumulacyjny Szereg kumulacyjny to rodzaj szeregu rozdzielczego, w którym dla wartości cechy zamiast częstości podaje się częstość skumulowaną (absolutną lub względną) (cumulative frequency table, cumulative percentage). Częstość skumulowana (absolutna lub względna) to suma częstości danej wartości i wartości poprzedzających Szereg kumulacyjny liczby obejrzanych stron Liczba podstron Skumulowana częstość x i absolutna (liczba wizyt) n i (x i ) Skumulowana częstość względna w i (x i ) 1 3 0,12 2 11 (=3+8) 0,44 (=0,12+0,32) 3 18 (=3+8+7) 0,72 (=0,12+0,32+0,28) 4 23 0,92 5 25 1,00 Oznaczenia: n i (x i ) = x 1 +...+x i (Zsumowane częstości absolutne do i-tej) Oznaczenia: w i (x i ) = w 1 +...+w i (Zsumowane częstości względne do i-tej) Informacja, którą możemy łatwo odczytać: np. prawie połowa wizyt (0,44) to nie więcej niż obejrzane 2 strony
Szereg kumulacyjny (cz. 2) Szereg kumulacyjny czasu pobytu na portalu WWW Czas pobytu w min. x i Skumulowana częstość absolutna (Liczba wizyt) n i (x i ) Skumulowana częstość względna w i (x i ) 45-55 4 0,16 55-65 15 0,60 65-75 22 0,88 75-85 24 0,96 85-95 25 1,00 Informacja, którą możemy łatwo odczytać: np. 60% wizyt to maksymalnie 65 minut czasu pobytu na portalu
Histogram - graficzne przedstawienie rozkładu (histogram) Histogram - graficzne przedstawienie rozkładu empirycznego cechy za pomocą wykresu słupkowego (vertical bar chart) Oś pozioma - wartości cechy Oś pionowa - częstości (liczebności) danej wartości cechy. Może być to częstość absolutna, względna lub skumulowana W przypadku cechy skokowej lub jakościowej słupki wykresu nie stykają się. W przypadku cechy ciągłej słupki wykresu stykają się. Szerokość słupka jest taka jaka wielkość przedziału wartości. Wysokość słupka wskazuje częstość wartości cechy należących do danego przedziału Krótko: histogram - przedstawienie na wykresie słupkowym częstości występowania cechy.
Wielobok liczebności - inny sposób graficznego przedstawienia rozkładu Wielobok liczebności (frequency polygon)- inny sposób graficznego przedstawienia rozkładu empirycznego cechy. Wielobok liczebności jest łamaną otrzymaną przez połączenie środków górnych podstaw prostokątów histogramu. Dla cechy ciągłej przy małej rozpiętości przedziałów wielobok liczebności staje się krzywą rozkładu ("wygładzona łamana")
Podsumowanie Najważniejsze pojęcia: populacja (zbiorowość) cecha jakościowa i mierzalna (skokowa i ciągła) empiryczny rozkład cechy tabelaryczne przedstawienie empirycznego rozkład cechy: szereg rozdzielczy, szereg skumulowany graficzne za pomocą wykresu przedstawienie empirycznego rozkład cechy: histogram, wielobok liczebności