STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu, znak zodiaku, miejscowość zamieszkania, zawód, kierunek studiów... jakościowe uporządkowane - skala porządkowa wykształcenie, ocena z egzaminu (ndst/dst/...), klasa samochodu, poziom np. stresu lub zadowolenia ilościowe - na skali przedziałowej temperatura, rok urodzenia, ocena z egzaminu (2/3/...) ilościowe - na skali ilorazowej waga, wzrost, ciśnienie, czas reakcji, zarobki, natężenie prądu, zużycie paliwa, liczba (czegokolwiek) JAKOŚCIOWE te przy których opis liczbami jest bezużyteczny (najwyżej służy do zakodowania) ILOŚCIOWE wyrażane liczbami. Jeśli wartość 0 ma naturalną interpretację ( nic ), skala pomiaru jest ilorazowa; jeśli zależy od konwencji przedziałowa.

Nadto cechy ilościowe dzielą się na: skokowe (dyskretne) mogące przyjmować tylko jedną ze skończenie (w domyśle: niezbyt) wielu wartości: liczby: lat, dzieci, straconych bramek, punktów na teście, wyroków ciągłe mogące teoretycznie przyjmować wartości z nieskończonego (w domyśle: bardzo dużego) zbioru: waga, odległość, powierzchnia (mieszkania, kraju), czas (reakcji, dojazdu do pracy, odsiadki...), dochody, zużycie paliwa, liczba mieszkańców miasta

PREZENTACJA I CHARAKTERYSTYKI ROZKŁADU CECHY ILOŚCIOWEJ W PRÓBIE (rozkładu empirycznego) Oznaczamy: n liczebność próby (obserwowanych jednostek), x 1, x 2,..., x n kolejne zaobserwowane wartości cechy (szereg szczegółowy, szereg wyliczający), x (1), x (2),..., x (n) zaobserwowane wartości cechy uporządkowane rosnąco, k liczba różnych zaobserwowanych wartości (dla cechy skokowej) Przykład 1. Liczba szkód ubezpieczeniowych zaobserwowanych w ciągu 4 lat u kolejnych 20 ubezpieczonych samochodów w pewnym towarzystwie: 0, 6, 1, 1, 0, 3, 2, 0, 4, 1, 11, 2, 0, 1, 0, 0, 0, 1, 3, 0. Szereg wyliczający powyżej ; n = 20, Szereg wyliczający uporządkowany x (1), x (2),..., x (20) = 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 3, 4, 6, 11 np. x (1) = x (2) =... = x (8) = 0, x (9) = 1, x (19) = 6. k = 7 tyle jest obserwowanych wartości ({0, 1, 2, 3, 4, 6, 11}). Szereg rozdzielczy : tabela pogrupowanych i uporządkowanych wartości cechy zaobserwowanych w próbie wraz z liczebnościami ich występowania: Dla cechy skokowej i niewielkiego k szereg punktowy: m 1, m 2,..., m k wartości, n 1, n 2,..., n k liczebności :

Nr klasy Wartość Liczebność Częstość j m j n j w j j = 1 0 8 0,4 j = 2 1 5 0,25 j = 3 2 2 0,1 j = 4 3 2 0,1 j = 5 4 1 0,05 j = 6 6 1 0,05 j = k = 7 11 1 0,05 (zazwyczaj podaje się liczebności lub częstości). Dla cechy ciągłej zazwyczaj k jest bliskie n i większość spośród n j jest równa 1. Zamiast szeregu punktowego tworzymy wówczas szereg rozdzielczy przedziałowy, grupując zaobserwowane wartości w przedziały klasowe : k liczba przedziałów klasowych (zaleca się by k 5 log n), ]xd j, xg j ] j-ty przedział klasowy (j = 1, 2,... k), h j = xg j xd j jego długość (dobrze żeby h 1 = h 2 =... = h k = h), n j liczba obserwacji w tym przedziale. Oczywiście dla obu typów szeregów rozdzielczych: k n j = n.

Częstości w próbie Dla j-tej zaobserwowanej wartości bądź j-tego przedziału klasowego: w j = n j n częstość występowania wartości m j (bądź wartości w przedziale ]xd j, xg j ]). Oczywiście k w j = 1. Przedstawienie graficzne: Wielobok liczebności łamana łącząca wszystkie punkty (m j, n j ) dla szeregu punktowego, (x o j, n j ) dla szeregu przedziałowego, gdzie x o j = xg j+xd j 2 (środek j-tego przedziału). Histogram wykres słupkowy dla cechy ciągłej (przy stałej h). Wielobok częstości łamana łącząca wszystkie punkty (m j, w j ) bądź (x o j, w j ).

MIARY POŁOŻENIA ROZKŁADU EMPIRYCZNEGO Średnia empiryczna (średnia z próby) : DEFINICJA. x = 1 n n x i. Obliczanie z punktowego szeregu rozdzielczego: x = 1 n k m j n j = k m j w j. Obliczanie (przybliżone) z przedziałowego szeregu rozdzielczego: x 1 n k x o j n j = k x o j w j. Istotne własności: n (x i x) = 0 ; n (x i x) 2 n (x i y) 2 y R ; wielkość x zależy od wszystkich obserwacji x 1, x 2,..., x n. Mediana z próby DEFINICJA. me (x 1, x 2,..., x n ) dowolna liczba a taka. że: co najmniej połowa zaobserwowanych wartości x 1, x 2,..., x n to liczby a, co najmniej połowa zaobserwowanych wartości x 1, x 2,..., x n to liczby a. Znajdowanie z uporządkowanego szeregu wyliczającego: * me (x 1, x 2,..., x n ) = x ( n+1 2 ) gdy liczba obserwacji (n) jest nieparzysta, * me (x 1, x 2,..., x n ) = dowolna liczba z przedziału [x ( n 2 ), x ( n 2 +1)] gdy liczba obserwacji jest parzysta.

W praktyce przy parzystym n często przyjmuje się me(x 1, x 2,..., x n ) = 1 2 (x ( n 2 ) + x ( n 2 +1)). Znajdowanie (przybliżone) z przedziałowego szeregu rozdzielczego: me(x 1, x 2,..., x n ) xd j + h j 1 n j n 2 j 1 l=1 n l gdzie j numer przedziału klasowego zawierającego obserwację x ( n+1 2 ), h j jego długość. Istotna własność mediany: Nie zależy od obserwacji skrajnych. Przykład 2. Szereg rozdzielczy płac pracowników z wyższym wykształceniem w pewnej małej firmie: Płaca Liczba pracowników 3000 6 3500 8 3600 6 4000 4 5000 3 7000 2 14000 1 n = 30 me = x 15 = x 16 = 3600 ; x = 4220

Dominanta (moda) = wartość najczęsciej obserwowana w próbie: m = ta m j że dla każdej innej klasy l zachodzi n l < n j. Wspólne własności wszystkich miar położenia: Jeżeli i = 1, 2,... n y i = x i + c, to y = x + c, me (Y ) = me (X) +c i tak samo dla dominanty. (Przesunięcie wszystkich zaobserwowanych wartości o tę samą wielkość c powoduje przesunięcie średniej, dominanty i mediany o c). Jeżeli i = 1, 2,... n y i = a x i, to y = a x, me (Y ) = a me (X) i tak samo dla dominanty. (Pomnożenie wszystkich wartości w próbie przez tę samą wielkość a powoduje pomnożenie średniej, dominanty i mediany przez a). Kwantyle DEFINICJA. Dla dowolnej liczby p takiej że 0 < p < 1 kwantyl rzędu p (z próby (x 1, x 2,..., x n )) dowolna liczba k p taka. że: co najmniej np z zaobserwowanych wartości x 1, x 2,..., x n to liczby k p, co najmniej n(1 p) spośród zaobserwowanych wartości x 1,..., x n to liczby k p. Znajdowanie z uporządkowanego szeregu wyliczającego: * k p = x ( np ) gdy n p nie jest liczbą całkowitą, * k p = dowolna liczba z przedziału [x (np), x (np+1) ] gdy n p jest liczbą całkowitą. (Tu: a = sufit liczby a = najmniejsza liczba całkowita a).

Kwantyl rzędu p = 1/4 : k 0,25 = Q 1 (pierwszy kwartyl) ; Kwantyl rzędu p = 3/4 : k 0,75 = Q 3 (trzeci kwartyl) ; Kwantyl rzędu p = 1/2 : k 0,5 = Q 2 (drugi kwartyl) (= co?) Kwantyle rzędu 0,1, 0,2,..., 0,9 decyle Rozstęp międzykwartylowy IQR = Q 3 Q 1 Przykłady: zarobki w firmie, odległości dojazdu na uczelnię Wykres pudełkowy ( pudełko z wąsami ) dla rozkładu empirycznego Pudełko: Lewy kraniec w Q 1, prawy w Q 3 Długość pudełka = IQR Pionowa kreska w pudełku w punkcie me Wąsy: Lewy: od najmniejszej zaobserwowanej wartości Q 1 3 2 IQR do Q 1 Prawy: od Q 3 do największej zaobserwowanej wartości Q 3 + 3 2 IQR Długość każdego wąsa: nie więcej niż 1,5 IQR Obserwacje odstające (poza końcami wąsów) zaznaczone kropkami

MIARY ZRÓŻNICOWANIA ROZKŁADU EMPIRYCZNEGO Rozstęp międzykwartylowy IQR niewrażliwy na obserwacje skrajne (odstające) Rozstęp : x (n) x (1) różnica między największą a najmniejszą zaobserwowaną wartością; Wariancja empiryczna DEFINICJA. s 2 = 1 n 1 n lub równoważnie: s 2 = 1 n 1 (x i x) 2. n x 2 i nx 2 Obliczanie z punktowego szeregu rozdzielczego: s 2 = 1 n 1 k. n j (m j x) 2 = 1 n 1 k n j m 2 j nx 2 Wariancja empiryczna na ogół mocno zależy od obserwacji odstających. Odchylenie standardowe w próbie: s = s 2. Własności miar zróżnicowania: Jeżeli i = 1, 2,... n y i = x i + c, to s 2 (Y ) = s 2 (X), IQR (Y ) = IQR (X) i tak samo dla innych miar. (Przesunięcie wszystkich zaobserwowanych wartości o tę samą wielkość c nie zmienia miar zróżnicowania rozkładu). Jeżeli i = 1, 2,... n y i = a x i, to s 2 (Y ) = a 2 s 2 (X), s(y ) = as(x), IQR (Y ) = a IQR (X). (Pomnożenie wszystkich wartości w próbie przez tę samą wielkość a powoduje pomnożenie odchylenia standardowego i rozstępów przez a, a wariancji empirycznej przez a 2 ).

MIARY ASYMETRII ROZKŁADU EMPIRYCZNEGO Rozkład w próbie jest symetryczny, jeżeli dla każdej obserwowanej wartości m j < x istnieje wartość m l > x taka że m l x = x m j oraz n l = n j. (Inaczej jego wieloboki liczebności i częstości są symetryczne). Rozkłady asymetryczne = lewo- lub prawostronnie skośne. Klasyczny współczynnik asymetrii: A 3 = 1 (n 1)s 3 n (x i x) 3 = Współczynnik skośności: k = x me s 1 (n 1)s 3 k n j (m j x) 3 Pozycyjny współczynnik skośności: A 3 = Q 3 me (me Q 1 ) Q 3 Q 1. Wszystkie one przyjmują wartości: 0 dla rozkładów symetrycznych, > 0 dla rozkładów prawostronnie skośnych, < 0 dla lewostronnie skośnych. WIELKOŚCI SKUMULOWANE dla ROZKŁADU EMPIRYCZNEGO Przypomnienie: Liczebność dla j tej (od dołu) obserwowanej wartości m j : n j liczba obserwacji dokładnie tej wartości; dla j tego przedziału klasowego : n j liczba obserwacji wartości w tym przedziale, ]xd j, xg j ] Liczebność skumulowana dla j tej (od dołu) obserwowanej wartości m j lub j- tego przedziału klasowego: nc j = j n l

liczba wszystkich obserwacji o wartościach nie przekraczających m j (lub xg j ). Częstość skumulowana dla m j lub przedziału jak wyżej: wc j = j l=1 w l = nc j n częstość obserwacji o wartościach nie przekraczających m j (lub xg j ). Wielobok liczebności skumulowanych - łamana łącząca wszystkie punkty (m j, nc j ) dla szeregu punktowego, (x o j, nc j ) dla szeregu przedziałowego. Dystrybuanta empiryczna: funkcja rzeczywista określona na całym R tak: F n (z) = = liczba obserwacji nie większych od z n 0 dla z < m 1 (= x (1) ), wc j dla z [m j, m j+1 [ 1 dla z > m k (= x (n) ). = częstość występowania w próbie wartości nie większych od z. Właściwości: wyznacza rozkład, jest niemalejąca i prawostronnie ciągła, przyjmuje tylko skończoną liczbę wartości (k) dla skończonej próby, lim x F n (x) = 0, lim x F n (x) = 1. Związki z kwantylami: k p = = dowolny z dla którego F n (z) = p jeśli taki z istnieje, najmniejszy taki z że F n (z) > p w przeciwnym przypadku. =

MIARA ZALEŻNOŚCI ROZKŁADU EMPIRYCZNEGO DWÓCH CECH TEJ SAMEJ PRÓBY np. wzrostu i wagi w próbie / populacji mężczyzn, wyniku egzaminów z psychologii i ze statystyki w grupie studentów,... Współczynnik korelacji cech X i Y w próbie: r X,Y = 1 n 1 n x i x s X y i y s Y gdzie s X jest odchyleniem standardowym cechy X w próbie, a s Y cechy Y. Własności: Zawsze: 1 r X,Y 1. Jeżeli c, d > 0, to r cx,dy = r X,Y. (Przeskalowanie wszystkich wartości jednej lub obu cech nie zmienia współczynnika korelacji). Interpretacja (nie zawsze poprawna): r X,Y bliskie 1 (bliskie 1) oznacza silną zależność rosnącą (malejącą) między cechami, r X,Y bliskie 0 oznacza brak zależności.