Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 x 1 n n i 1 x i 66,95 1 s x x 306, 77 n 2 2 2 i n i 1 n 1 321,38 n 1 2 s x 2 i x Katarzyna Lubnauer 58 i1
Odchylenie standardowe to pierwiastek z wariancji: 1 k i n i 1 2 s x x lub k 1 s xi x n 1 i1 2 Przykład 38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 s 306,77 17,5 s 321,38 17,9 Katarzyna Lubnauer 59
W szeregach rozdzielczych punktowych stosuje się tzw. wariancję, wyrażającą się wzorem: 1 1 s n x x n x x k 2 2 k 2 2 i i i i n i1 n i1 1 k 2 s ni n 1 i1 xi x 2 x i n i n k wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy Liczebność populacji liczba klas Katarzyna Lubnauer 60
Dla szeregu rozdzielczego przedziałowego: 1 1 s n x x n x x k 2 2 k 2 2 i i i i n i1 n i1 1 k 2 s ni n 1 i1 xi x 2 x i x i n i x 2 i1 środek i - tej klasy (przedziału) liczebność i-tej klasy n Liczebność populacji k liczba klas Katarzyna Lubnauer 61
Współczynnik zmienności (niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe. v s x v s x Przykład Mamy dwie maszyny rozsypujące cukier do torebek: 1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,12 2. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115 sa sb 0,10533 10,31315 Badanie go ma sens tylko dla cech o dodatnich wartościach v A v B s A 0,10533 0,106633 xa 0, 987778 s B 10,31315 0,104584 x 98,61111 B Katarzyna Lubnauer 62
Odchylenie przeciętne Def. Odchylenie przeciętne SD - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej arytmetycznej. W szeregach szczegółowych stosuje się odchylenie przeciętne, wyrażającą się wzorem: D 1 n n i 1 S x x i Katarzyna Lubnauer 63
W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne, wyrażającą się wzorem: 1 k D i i n i 1 S n x x x i n i n k wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy Liczebność populacji liczba klas Katarzyna Lubnauer 64
W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne, wyrażającą się wzorem: 1 k D i i n i 1 S n x x x i n i n k Środek i - tej klasy (przedziału) liczebność i-tej klasy Liczebność populacji liczba klas Katarzyna Lubnauer 65
Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym SD s Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności: v D s D x Katarzyna Lubnauer 66
Rozstęp jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji. Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała najczęściej, czy jaka jest średnia dla tego zbioru obserwacji. R x x Max Min max min Przykład 38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 R xmax xmin 98 38 60 Uwaga Wartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy. Jest to niewątpliwie słabością tej miary dyspersji. Katarzyna Lubnauer 67
Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy. Odstęp międzykwartylowy definiuje się wzorem: IQR Q1 Q3 Przykład 38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 IQR Q1 Q3 79,75 52,5 17,25 Min = 38 Q1=52,5 Q3=79,75 Max = 98 x 66,95 Me=70 Katarzyna Lubnauer 68
Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę. Min = 38 Q1=52,5 Q3=79,75 Max = 98 x 66,95 Me=70 Min = 45 Q1=60,5 Q3=72,5 Max = 88 x 62,25 Me=64 Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu. Jakie wnioski możemy wyciągnąć porównując wykresy? Katarzyna Lubnauer 69
Przedział typowych wartości [x - s, x + s] Jest to przedział, do którego należy większość danych statystycznych, interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego. Katarzyna Lubnauer 70
Zalety i wady różnych miar rozproszenia Miara rozproszenia Zalety Wady Wariancja, odchylenie standardowe Współczynnik zmienności Łatwo policzyć, jest zdefiniowana algebraicznie Uwzględnia wszystkie wartości wariantów cechy Łatwo policzyć, jest zdefiniowana algebraicznie Uwzględnia wszystkie wartości wariantów cechy Można porównywać dwie różniące się wartościami populacje Duży wpływ mają na nią wartości odskakujące Zniekształcenie w przypadku rozkładów skośnych Trudno porównywać przy różnych wielkościach Duży wpływ mają na nią wartości odskakujące Zniekształcenie w przypadku rozkładów skośnych Rozstęp Łatwo znaleźć Zniekształcony przez wartości odskakujące Pomija większość informacji Nie jest zdefiniowana algebraicznie IQR Nie jest zniekształcona w przypadku rozkładów skośnych Brak wpływu wartości odskakujących Dobry w przypadku rozkładów skośnych Pomija większość informacji Nie jest zdefiniowana algebraicznie Nie powinno się stosować do małych prób Katarzyna Lubnauer 71
Miary asymetrii Jak interpretujemy wartości miar asymetrii? x1 0 s1 5,062279 x2 0 s2 5,062279 18 16 14 12 10 8 6 4 2 0 18 16 14 12 10 8 6 4 2 0-3 -2-1 0 1 2 3 4 5 6 7-7 -6-5 -4-3 -2-1 0 1 2 3 Katarzyna Lubnauer 72
Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii. Mówimy, że rozkład może być symetryczny: Katarzyna Lubnauer 73
prawoskośny, lewoskośny Katarzyna Lubnauer 74
Def Rozkład symetryczny występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu. Rozkład prawoskośny - (asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy. Rozkład lewoskośny - (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy. Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to: Współczynnik asymetrii (klasyczny) A 1 n i n i1 x x 3 s 3 Katarzyna Lubnauer 75
Współczynnik asymetrii (klasyczny) dla szeregu punktowego: A 1 k i i n i1 3 n x x s 3 Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego: A 1 k i i n i1 3 n x x s 3 Symbole we wzorach oznaczają to co zawsze. Katarzyna Lubnauer 76
Miary asymetrii Jak interpretujemy wartości miar asymetrii? x1 0 s1 5,062279 x2 0 s2 5,062279 18 16 14 12 10 8 6 4 2 0 18 16 14 12 10 8 6 4 2 0-3 -2-1 0 1 2 3 4 5 6 7-7 -6-5 -4-3 -2-1 0 1 2 3 A1 0,077084 A2 0,077084 Katarzyna Lubnauer 77
Współczynnik asymetrii (klasyczny) - własności na ogół 2 A 2 określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnej o sile asymetrii mówi wartość bezwzględna z A: 0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria 0,8-1,2 umiarkowana asymetria 1,2-1,6 siła asymetria Powyżej 1,6 bardzo silna asymetria. Skośność (inna odmiana klasycznego współczynnika skośności) A 1 2 i1 x x 3 n n i n n s 3 Z tego wzoru policzymy skośność korzystając z Excela. Katarzyna Lubnauer 78
Wskaźnik asymetrii Pearsona: AP x s d Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę) d na ogół 1 AP 1 określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnej o sile asymetrii mówi wartość bezwzględna z AP : 0,0-0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2-0,4 słaba asymetria 0,4-0,6 umiarkowana asymetria 0,6-0,8 silna asymetria Powyżej 0,8 bardzo silna asymetria. Katarzyna Lubnauer 79
Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany, Jeśli średnia jest na prawo od mediany d Me x to mamy asymetrię prawoskośną Jeśli średnia jest na lewo od mediany x Me d to mamy asymetrię lewośną Katarzyna Lubnauer 80
Miary skupienia (koncentracji) Def. Koncentracja oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby. Def. Współczynnikiem kurtozy (koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru: K m s 4 4 gdzie m x x 4 4 1 n i n i 1 Jest 4 momentem centralnym z populacji. W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego K 3 Katarzyna Lubnauer 81
Def. Współczynnikiem ekscesu nazywamy wartość liczoną ze wzoru: K K 3 Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0. Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady: mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0) leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym Katarzyna Lubnauer 82
Katarzyna Lubnauer 83
Katarzyna Lubnauer 84