Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33
Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia, dyspersji) miary asymetrii miary koncentracji. Miary zmienności (dyspersji, rozproszenia ) służa do określania zróżnicowania jednostek zbiorowości (tzn. jak bardzo jednostki różnia się między soba) ze względu na wartość badanej cechy. Magdalena Alama-Bućko Statystyka 19 marca 2018 2 / 33
Miary zmienności dziela się na: a) miary bezwzględne (podawane w jednostkach takich, jak dana cecha) miary klasyczne: wariancja odchylenie standardowe odchylenie przeciętne miary pozycyjne: rozstęp odchylenie ćwiartkowe b) miary względne (podawane w %) współczynnik zmienności (pozycyjny i klasyczny ) Magdalena Alama-Bućko Statystyka 19 marca 2018 3 / 33
Miary bezwzględne Magdalena Alama-Bućko Statystyka 19 marca 2018 4 / 33
Wariancja - to średnia arytmetyczna kwadratów odchyleń wartości cechy od średniej (jednostka wariancji : jednostka 2 czyli m 2, kg 2,...) s 2 = (x 1 x) 2 + (x 2 x) 2 +... + (x n x) 2 n Szereg rozdzielczy punktowy = 1 n n (x i x) 2. s 2 = (x 1 x) 2 n 1 +... + (x k x) 2 n k n Szereg rozdzielczy przedziałowy s 2 = (ˆx 1 x) 2 n 1 +... + (ˆx k x) 2 n k n = 1 n = 1 n k n i (x i x) 2 k n i (ˆx i x) 2 gdzie ˆx j jest środkiem j- tego przedziału, czyli (x j, x j+1 ]. Magdalena Alama-Bućko Statystyka 19 marca 2018 5 / 33
Po przekształceniu wzoru na s 2 : szereg szczegółowy s 2 = 1 n n (x i x) 2 = 1 n n x 2 i ( 1 n n ) 2 x i = 1 n n x 2 i x 2 szereg rozdzielczy punktowy s 2 = 1 n k n i (x i x) 2 = 1 n k ( 1 n i xi 2 n k ) 2 n i x i = 1 n k n i x 2 i x 2 szereg rozdzielczy przedziałowy s 2 = 1 n k n i (ˆx i x) 2 = 1 n k n i ˆx 2 i x 2 gdzie ˆx j jest środkiem j- tego przedziału, czyli (x j, x j+1 ]. Magdalena Alama-Bućko Statystyka 19 marca 2018 6 / 33
zatem wariancję można wyliczyć również z wzoru s 2 = x 2 (x) 2, gdzie pierwsza średnia oznacza średnia arytmetyczna z kwadratów obserwacji oczywiście s 2 = 1 n n (x i x) 2 0 s 2 = 0, gdy wszystkie obserwacje sa sobie równe, czyli x 1 = x 2 =... = x n = x. Magdalena Alama-Bućko Statystyka 19 marca 2018 7 / 33
Przykład 1 (1, 1, 1, 2, 2, 3, 4) x = 1 7 (1 + 1 + 1 + 2 + 2 + 3 + 4) = 14 7 = 2 s 2 = 1 n 7 (x i x) 2 = (1 2)2 + (1 2) 2 + (1 2) 2 + (2 2) 2 7 + (2 2)2 + (3 2) 2 + (4 2) 2 8 7. 7 = 1 + 1 + 1 + 0 + 0 + 1 + 4 7 = Magdalena Alama-Bućko Statystyka 19 marca 2018 8 / 33
Przykład 2 szereg rozdzielczy punktowy x i n i x i n i x i x (x i x) 2 n i (x i x) 2 1 3 3-1 1 3 2 2 4 0 0 0 3 1 3 1 1 1 4 1 4 2 4 4 n = 7 14 8 x = 3 + 4 + 3 + 5 7 = 14 7 = 2 k s 2 = 1 n n i (x i x) 2 = 1 7 8 = 8 7 Magdalena Alama-Bućko Statystyka 19 marca 2018 9 / 33
Przykład 3 szereg rozdzielczy przedziałowy przedział n i ˆx i ˆx i n i (ˆx i x) 2 n i (ˆx i x) 2 [4.12, 4.55] 6 4.33 25.98 2.4336 14.6016 (4.55, 4.98] 6 4.76 28.56 1.2769 7.6614 (4.98, 5.41] 9 5.19 46.71 0.49 4.41 (5.41, 5.84] 13 5.62 73.06 0.0729 0.9477 (5.84, 6.27] 11 6.05 66.55 0.9477 0.2816 (6.27, 6.7] 9 6.48 58.32 0.3481 3.1329 (6.7, 7.13] 7 6.91 48.37 1.0404 7.2828 (7.13, 7.56] 8 7.34 58.72 2.1025 16.82 n =69 406.27 55.138 x = 1 69 s 2 = 1 n 8 k n i ˆx i = 406.27 69 = 5.89. n i (ˆx i x) 2 = 55.138 69 = 0.7991. Magdalena Alama-Bućko Statystyka 19 marca 2018 10 / 33
Odchylenie standardowe to pierwiastek kwadratowy z wariancji, czyli s = s 2. wyraża się w tych samych jednostkach, co badana cecha, tzn. w metrach, kilogramach,... Interpretacja: Przeciętne odchylenie od średniej wynosi s jednostek. w przykładzie 1 : s 2 = 8 7 = 1.1428 s = 1.069. w przykładzie 2: to samo co w przykładzie 1 w przykładzie 3: s 2 = 0.7991 s = 0.894. Magdalena Alama-Bućko Statystyka 19 marca 2018 11 / 33
Typowy obszar zmienności x s < x typ < x + s Na ogół około 2/3 jednostek (czyli 67%) badanej zbiorowości przyjmuje wartości w tego przedziału. Dla około 67% jednostek wartości badanej cechy różnia się od wartości średniej o +/ s jednostek, co zapisujemy x ± s. Magdalena Alama-Bućko Statystyka 19 marca 2018 12 / 33
w przykładzie 1 i 2: x = 2, s = 1.069, zatem 2 1.069 < x typ < 2 + 1.069 0.931 < x typ < 3.069 Typowy "obiekt" przyjmował wartości od 0.931 do 3.069. w przykładzie 3: x = 5.89, s = 0.89. 5.89 0.89 < x typ < 5.89 + 0.89 5 < x typ < 6.78 Typowe "drzewo" w tym drzewostanie ma wysokość od 5m do 6,78m. Magdalena Alama-Bućko Statystyka 19 marca 2018 13 / 33
Odchylenie przeciętne (średnie) - to średnia arytmetyczna wartości bezwzględnej odchyleń wartości cechy od średniej (w jednostkach takich jak cecha, czyli metrach, kg,...) d = x 1 x + x 2 x +... + x n x n Szereg rozdzielczy punktowy d = x 1 x n 1 +... + x k x n k n Szereg rozdzielczy przedziałowy d = ˆx 1 x n 1 +... + ˆx k x n k n = 1 n = 1 n = 1 n n x i x. k n i x i x k n i ˆx i x gdzie ˆx j jest środkiem j- tego przedziału, czyli (x j, x j+1 ]. Magdalena Alama-Bućko Statystyka 19 marca 2018 14 / 33
Rozstęp z próby: R = x max x min. różnica między najmniejsza i największa obserwacja oczywiście R 0 R = 0? np. amplituda temperatur np. rozpiętość czasu potrzebnego na wykonanie pewnej określonej czynności Magdalena Alama-Bućko Statystyka 19 marca 2018 15 / 33
Odchylenie ćwiartkowe: Q = Q 3 Q 1 2 mierzy poziom zróżnicowania tylko części jednostek ( 50% środkowych obserwacji, po odrzuceniu 25% obserwacji najmniejszych i 25% obserwacji największych) miara ta nie jest wrażliwa na skrajne (nietypowe wartości) Interpretacja: Przeciętne odchylenie od mediany połowy środkowych jednostek wynosi Q jednostek. Magdalena Alama-Bućko Statystyka 19 marca 2018 16 / 33
w przykładzie 1: Q 1 = 1, Q 3 = 2 Q = 2 1 2 w przykładzie 2 : Q 1 = 1, Q 3 = 3 = 1 2. w przykładzie 3: Q 1 = 5.23m, Q 3 = 6.59m Q = 3 1 2 = 1. Q = 6.59 5.23 2 = 1.36 2 = 0.68m. Przeciętne odchylenie od mediany (czyli Me = 5.86m) połowy środkowych jednostek wynosi 0.68m. Magdalena Alama-Bućko Statystyka 19 marca 2018 17 / 33
Pomiędzy miarami zróżnicowania zachodza relacje: Q < d < s d i s sa miarami dokładniejszymi, bo sa wyliczane na podstawie wszystkich obserwacji Magdalena Alama-Bućko Statystyka 19 marca 2018 18 / 33
Typowy obszar zmienności ( parametry pozycyjne) Me Q < x typ < Me + Q Wartości badanej cechy różnia się od wartości mediany (środkowej) o +/- Q jednostek w zawężonym obszarze zmienności. w przykładzie 2: Me = 2, Q = 1, zatem 2 1 < x typ < 2 + 1 1 < x typ < 3 w przykładzie 3: Me = 5.86, Q = 0.68. 5.86 0.68 < x typ < 5.86 + 0.68 5.18 < x typ < 6.54 Typowe drzewo ma wysokość od 5.18m do 6.54m (w zawężonym obszarze zmienności) Magdalena Alama-Bućko Statystyka 19 marca 2018 19 / 33
Współczynnik zmienności służy do porównywania stopnia zróżnicowania cechy w kilku populacjach Im wyższa wartość współczynnika zróżnicowania, tym silniejsze zróżnicowanie (niejednorodność) badanej zbiorowości. Magdalena Alama-Bućko Statystyka 19 marca 2018 20 / 33
Współczynnik zmienności (klasyczny): V s = s x 100% Interpretacja: Odchylenie standardowe stanowi V s procent średniej arytmetycznej. Przykład 1 : x = 4, s = 1 Przykład 2 : x = 8, s = 2 V s = s x 100% = 1 100% = 25% 4 V s = s x 100% = 2 100% = 25% 8 Taki sam poziom zróżnicowania. Przykład 3 : x = 10, s = 1 V s = s x 100% = 1 100% = 10% najmniejsze zróżnicowanie 10 Magdalena Alama-Bućko Statystyka 19 marca 2018 21 / 33
V d = d x 100%, gdzie d oznacza odchylenie przeciętne. Interpretacja: Odchylenie średnie stanowi V d procent średniej arytmetycznej. Współczynnik zmienności (pozycyjny): V Q = Q Me 100%, gdzie Q oznacza odchylenie ćwiartkowe. Interpretacja: Odchylenie ćwiartkowe stanowi V Q procent wartości mediany. Magdalena Alama-Bućko Statystyka 19 marca 2018 22 / 33
Współczynnik zmienności V jest ilorazem bezwzględnej miary dyspersji i odpowiednich wartości średnich, tzn. x s, d Me Q może być wyrażany w procentach albo wartościach liczbowych Jeżeli wyrażony w procentach to odpowiada na pytanie: Jaki procent "wartości średniej" (tzn. odpowiednio x, Me ) stanowi odpowiednia "miara rozproszenia" (tzn. odchylenia standardowego, odch. średniego, Q). Magdalena Alama-Bućko Statystyka 19 marca 2018 23 / 33
Przy określaniu stopnia zróżnicowania można przyjać następujacy podział: V < 20% - małe zróżnicowanie cechy (słabe) 20% V < 40% - przeciętne zróżnicowanie cechy (umiarkowane) 40% V < 100% - duże zróżnicowanie cechy ( silne) V 100% - bardzo duże zróżnicowanie cechy ( bardzo silne) Magdalena Alama-Bućko Statystyka 19 marca 2018 24 / 33
Zadanie 1 Analizie statystycznej poddano średnie miesięczne zyski 5 firm. Otrzymano m.in. następujace poziomy niektórych statystyk opisowych: n = 5 x = 31915 (średnia) Me = 34100 (mediana) Q 1 = 27500 ( tzw. dolny kwartyl ) Q 3 = 36500 ( tzw. górny kwartyl) s = 7582, 702 ( odchylenie standardowe) Jednocześnie wiadomo, że przeciętny zysk pewnej firmy kształtuje się na poziomie 21200 zł. Czy można ta firmę uznać za typowa wśród badanych? Odpowiedź podać używajac równolegle miar klasycznych i pozycyjnych. Magdalena Alama-Bućko Statystyka 19 marca 2018 25 / 33
Dane: n = 5, x = 31915, Me = 34100, Q 1 = 27500, Q 3 = 36500, s = 7582. Typowy obszar zmienności (klasyczny) x typ (x s, x + s) x typ (31915 7583, 31915 + 7583) x typ (24332, 39498). Typowy obszar zmienności (pozycyjny) x typ (Me Q, Me + Q) Q = Q 3 Q 1 2 = 36500 27500 2 = 9000 2 = 4500 x typ (34100 4500, 34100 + 4500) x typ (29600, 38600). widać, że zysk 21200 nie zawiera się (w żadnym) typowym obszarze zmienności (ani klasycznym, ani pozycyjnym). Koniec Zadania 1. Magdalena Alama-Bućko Statystyka 19 marca 2018 26 / 33
Zadanie 2 W pewnej okolicy zbadano ceny komputerów i bułek. Dla komputerów otrzymano x = 2500zł oraz s = 250 zł. Dla bułek otrzymano x = 0.6zł oraz s = 0.1 zł. Porównać zmienność sprzedawanych komputerów i bułek. Dla komputerów mamy: V s = s x 250 100% = 100% = 10%, 2500 zatem odchylenie standardowe stanowi 10% średniej arytmetycznej (ceny sprzedawanych komputerów). Dla bułek mamy: V s = s x 0.1 100% = 100% = 17%, 0.6 zatem odchylenie standardowe stanowi 17% średniej arytmetycznej (ceny sprzedawanych bułek). Cena bułek jest bardziej zróżnicowana, niż cena komputerów. Magdalena Alama-Bućko Statystyka 19 marca 2018 27 / 33
Rozkład normalny Rozkład normalny to rozkład w którym "szanse" otrzymania poszczególnych wartości opisuje wykres postaci: "dzwonowaty" kształt rozkład symetryczny z maksimum w punkcie x = D = Me czym bardziej oddalamy się od średniej, tym szanse maleja wiele cech ma taki rozkład: wzrost i waga populacji ludzi i zwierzat, bład pomiaru, iloraz inteligencji... Magdalena Alama-Bućko Statystyka 19 marca 2018 28 / 33
Reguła 3σ (czyt. 3-sigma) Dla rozkładów normalnych lub zbliżonych do normalnych zachodzi zasada tzw. 3σ, która mówi że około 68% obserwacji przyjmuje wartości w przedziale (x s, x + s) około 95% obserwacji przyjmuje wartości w przedziale (x 2s, x + 2s) około 99.7% obserwacji przyjmuje wartości w przedziale (x 3s, x + 3s) Magdalena Alama-Bućko Statystyka 19 marca 2018 29 / 33
Przykład Wiadomo, że przeciętna waga (w kilogramach) noworodka jest zmienna losowa o rozkładzie normalnym. Zbadano odpowiednio duża próbę i otrzymano: x = 3.6, s = 0.25. Zatem około 68% noworodków ma wagę z przedziału (x s, x + s) = (3.35, 3.85) około 95% noworodków ma wagę z przedziału (x 2s, x + 2s) = (3.1, 4.1) około 99.7% noworodków ma wagę z przedziału (x 3s, x + 3s) = (2.85, 4.35). Magdalena Alama-Bućko Statystyka 19 marca 2018 30 / 33
Przykład Czas pracy lamp RTG produkowanych w pewnym zakładzie ma rozkład normalny z wartościa średnia 700 godzin i odchyleniem standardowym 120 godzin. Zatem około 68% lamp ma czas świecenia z przedziału (x s, x + s) = (580h, 820h) około 95% lamp ma czas świecenia z przedziału (x 2s, x + 2s) = (460h, 940h) około 99.7% lamp ma czas świecenia z przedziału (x 3s, x + 3s) = (340h, 1060h). Magdalena Alama-Bućko Statystyka 19 marca 2018 31 / 33
Inny rozkład W przypadku, gdy zmienna nie ma rozkładu normalnego (ma inny rozkład) albo znacznie różni się od rozkładu normalnego, powyższy zakres z reguły 3σ ulega zmianie. około 75% obserwacji przyjmuje wartości w przedziale ( dla normalnego 95%) (x 2s, x + 2s) około 89% obserwacji przyjmuje wartości w przedziale ( dla normalnego 99.7%) (x 3s, x + 3s) Magdalena Alama-Bućko Statystyka 19 marca 2018 32 / 33
Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 19 marca 2018 33 / 33