Statystyka Opisowa Wstępna analiza danych Rodzaje prezentacji danych Miary tendencji centralnej Miary zmienności (zróżnicowania) Miara asymetrii (skośności) Miara spłaszczenia
Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba Próba Populacja Próba
Populacja jest pojmowana jako zbiór wyników wszystkich pomiarów, którymi badacz jest zainteresowany. Próba jest podzbiorem wyników pomiarów wybranych z populacji. Pobierania próby dokonuje się w sposób losowy, tj. w taki sposób, żeby każda możliwa próba złożona z elementów miała taką samą szansę, że zostanie wybrana. Taką wybraną próbę nazywa się prostą próbą losową lub krócej próbą losową. Próba Wnioskowanie statystyczne - przebiega od próby do populacji Populacja
Przykład 1. W trakcie kontroli drogowej 25 przejeżdżających samochodów zanotowano dane: o liczbie pasażerów - cecha mierzalna, skokowa; o zarejestrowanej prędkości - cecha mierzalna, ciągła; o płci kierowcy - cecha niemierzalna. nr kontroli 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 liczba pasażerów 2 0 2 1 2 1 0 3 1 3 3 1 0 3 4 2 2 1 3 1 1 2 1 4 2 prędkość pojazdu [km/h] 64 77 51 70 69 50 72 47 93 52 60 56 63 59 58 82 60 63 65 67 61 71 66 62 68 płeć kierującego k m m m k m m k m k m k m k m m k k m m k m k k m Cechy mogą być: mierzalne skokowe (np. liczba pasażerów) mierzalne ciągłe (np. prędkość pojazdu) niemierzalne (jakościowe, np. płeć)
Wykres punktowy danych o prędkości 0 10 20 30 40 50 60 70 80 90 100 Wykres punktowy danych o liczbie pasażerów 0 1 2 3 4 Wykres słupkowy danych wg płci kierowców 12 8 4 0 11 Kobiety 14 Mężczyźni
Zakres prędkości [km/h] y0i - y1i Liczba samochodów ni Częstość względna wi = ni/n 45-55 4 0,16 55-65 11 0,44 65-75 7 0,28 75-85 2 0,08 85-95 1 0,04 12 9 11 6 7 3 0 4 2 1 45-55 55-65 65-75 75-85 85-95
Pobieranie próby losowej Losowanie proste ma spełniać następujące warunki: każda jednostka populacji ma jednakową szansę znalezienia się w próbie, każda n-elementowa próba ma jednakową szansę bycia wylosowaną. Istnieją dwa sposoby pobierania próby spełniające powyższe warunki: losowanie ze zwracaniem (losowanie proste niezależne), losowanie bez zwracania (losowanie proste zależne). Stosuje się też inne, bardziej skomplikowane, sposoby losowania. Problemem tym zajmuje się dział statystyki zwany metodą reprezentacyjną.
Pobieranie próby losowej Tworzenie wykazu wszystkich elementów populacji, tak zwanego operatu losowania. Losowe generowanie numerów elementów z utworzonego wykazu. Tablica liczb losowych służąca do generowania numerów 57848 24074 96034 56305 49184 79215 95457 63232 19942 26742 63840 35139 58715 24679 16877 44017 80435 66477 49145 47892 10199 97118 17888 20619 95315 29557 42060 93076 13390 75071 13279 87921 21836 10822 99832 34898 51845 69402 47330 34093 90641 84710 45557 91091 66259 50608 64622 75693
Miary opisowe rozkładu cechy Miary tendencji centralnej (Średnia, Mediana, Dominanta) Miary zróżnicowania, zmienności (Wariancja, Odchylenie standardowe, Odstęp międzykwartylowy, Współczynnik zmienności) Miary asymetrii (Współczynnik skośności,współczynnik asymetrii) Miary koncentracji (Kurtoza, Współczynnik Giniego)
P-tym percentylem w zbiorze liczb uporządkowanych według wielkości jest taka wartość obserwacji, poniżej której znajduje się (co najwyżej) P% liczb z tego zbioru. Miejsce P-tego percentyla określa wzór (n+1)p/100, gdzie n jest liczbą elementów zbioru. Pierwszy kwartyl Q1= 25-ty percentyl = wartość, poniżej której znajduje się 1/4 wyników obserwacji Drugi kwartyl (mediana) me= 50-ty percentyl = wartość, poniżej której znajduje się połowa obserwacji Trzeci kwartyl Q3= 75-ty percentyl = wartość, poniżej której znajduje się 3/4 wyników obserwacji
Przykład. Magazyn Forbes co roku publikuje listę najbogatszych osób na świecie. W roku 2007 majątek netto dwudziestu najbogatszych osób w miliardach dolarów wynosił odpowiednio: 33, 26, 24, 21, 19, 20, 18, 18, 52, 56, 27, 22, 18, 49, 22, 20, 23, 32, 20, 18. Znajdziemy 50-ty i 80-ty percentyl. Uporządkujmy najpierw dane od najmniejszej do największej: 18, 18, 18, 18, 19, 20, 20, 20, 21, 22, 22, 23, 24, 26, 27, 32, 33, 49, 52, 56 i ponumerujmy: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 18 18 18 18 19 20 20 20 21 22 22 23 24 26 27 32 33 49 52 56 Aby wyznaczyć 50-ty percentyl musimy wyznaczyć jego miesce wg wzoru (n+1)p/100=(20+1)50/100=10,5. Stąd odszukujemy wartość obserwacji na miejscu 10,5. 10-tą obserwacją jest 22, a 11-tą jest również 22. Zatem obserwacją, która stoi na miejscu 10,5 (w połowie między 10-tą i 11-tą) jest 22. Stąd 50-ty percentyl jest równy 22.
Podobnie dla 80-tego percentyla 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 18 18 18 18 19 20 20 20 21 22 22 23 24 26 27 32 33 49 52 56 16,8 0,8 32 32,8 miejsce 80-tego percentyla przesunięcie 16-tej wartości 16-ta wartość obserwacji 80-ty percentyl
Średnia Średnia = średnia arytmetyczna wartości wszystkich wyników obserwacji: x = x 1 + x 2 +...+ x n n 1. nx = x 1 + x 2 +...+ x n 2. min 16j6n {x j} 6 x 6 max 16j6n {x j} 3. nx (x j x)=0 j=1
Średnia W obliczaniu średniej uwzględnione są wszystkie wartości obserwacji. Inaczej mówiąc, zmiana jakiejkolwiek wartości w zbiorze danych pociąga zmianę wartości średniej. Średnia jest bardzo wrażliwa na skrajne wartości obserwacji (bardzo niskie lub bardzo wysokie). Pojawienie się takich wartości znacznie obciąża wynik i ocenę tendencji centralnej
Średnia w populacji Gdy zbiór wyników obserwacji jest tożsamy z całą populacją (próbą jest populacja), to średnią oznaczamy grecką literą µ. Liczbę elementów populacji oznaczamy przez N nie przez n. Wówczas µ = x 1 + + x N N
Mediana Mediana (wartość środkowa) = 50-ty percentyl. Medianę oznaczamy symbolem me. Jeśli x 1,, x n są kolejnymi uporządkowanymi rosnąco wartościami próby, to x (n+1)/2, gdy n nieparzyste me = (x n/2 + x n/2+1 ) / 2, gdy n parzyste Mediana nie jest wrażliwa na skrajne wartości. Mediana jest lepszą miarą tendencji centralnej w przypadku rozkładów o wyraźnej asymetrii (np. rozkład dochodów obywateli)
Dominanta Dominanta (moda) w zbiorze danych jest to wartość, która w tym zbiorze występuje najczęściej. Do wyznaczenia dominanty potrzebna jest wystarczająco duża liczba obserwacji. Zasadniczo dominantę należy wyznaczać na podstawie danych pogrupowanych w szereg rozdzielczy o tych samych rozpiętościach.
3 2 1 0 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 x =15, 85 mediana=dominanta=16 Wartość 6 9 10 12 13 14 15 16 17 18 19 20 21 22 24 Częstość 1 1 1 1 1 2 1 3 2 2 1 1 1 1 1
Symetryczny zbiór wyników obserwacji Średnia=Mediana=Dominanta
I zbiór obserwacji II zbiór obserwacji 1 2 3 4 5 6 6 7 8 9 10 11 4 5 5 5 6 6 6 6 7 7 7 8 2 I zbiór - dane rozproszone - średnia = 6 1 0 4 1 2 3 4 5 6 7 8 9 10 11 II zbiór - dane skupione - średnia = 6 2 0 1 2 3 4 5 6 7 8 9 10 11
Wariancja Wariancją w zbiorze wyników obserwacji nazywamy przeciętne kwadratowe odchylenie poszczególnych wyników od ich średniej. Wariancja w próbie s 2 = np (x i x) 2 i=1 n 1 Wariancja w populacji 2 = NP (x i µ) 2 i=1 N
I zbiór obserwacji II zbiór obserwacji 1 2 3 4 5 6 6 7 8 9 10 11 4 5 5 5 6 6 6 6 7 7 7 8 2 I zbiór - dane rozproszone, średnia = 6, wariancja = 10 1 0 4 1 2 3 4 5 6 7 8 9 10 11 II zbiór - dane skupione, średnia = 6, wariancja = 1,27 2 0 1 2 3 4 5 6 7 8 9 10 11
Odchylenie standardowe Odchyleniem standardowym w zbiorze wyników obserwacji nazywamy pierwiastek kwadratowy z wariancji Odchylenie standardowe w próbie s = p s 2 = v u t np (x i x) 2 i=1 n 1 Odchylenie standardowe w populacji = p 2 = v u t NP (x i µ) 2 i=1 N
I zbiór obserwacji II zbiór obserwacji 1 2 3 4 5 6 6 7 8 9 10 11 4 5 5 5 6 6 6 6 7 7 7 8 2 I zbiór - dane rozproszone, średnia = 6, wariancja = 10, odchylenie = 3,16 1 0 4 1 2 3 4 5 6 7 8 9 10 11 II zbiór - dane skupione, średnia = 6, wariancja = 1,27, odchylenie = 1,13 2 0 1 2 3 4 5 6 7 8 9 10 11
Rozstęp Rozstępem w zbiorze wyników obserwacji nazywamy różnicę między największą i najmniejszą zaobserwowaną wartością. RozstÍp = x max x min
2 I zbiór - dane rozproszone, średnia = 6, wariancja = 10, odchylenie = 3,16, rozstęp = 11-1=10 1 0 1 2 3 4 5 6 7 8 9 10 11 4 II zbiór - dane skupione, średnia = 6, wariancja = 1,27, odchylenie = 1,13, rozstęp = 8-4=4 2 0 1 2 3 4 5 6 7 8 9 10 11
Odstęp międzykwartylowy Odstępem międzykwartylowym IQR w zbiorze wyników obserwacji nazywamy różnicę między trzecim (górnym) kwartylem Q3 i pierwszym (dolnym) kwartylem Q1. IQR = Q 3 Q 1 Odchylenie ćwiartkowe Q to połowa odstępu IQR Q =(Q 3 Q 1 )/2
pozycja kwartyla 3,25 9,75 Odstęp międzykwartylowy nr 1 2 3 4 5 6 7 8 9 10 11 12 I zbiór obserwacji II zbiór obserwacji 1 2 3 4 5 6 6 7 8 9 10 11 Q1 = 3,25 Q3 = 8,75 4 5 5 5 6 6 6 6 7 7 7 8 IQR=8,75-3,25=5,5 Q1 = 5 Q3 = 7 IQR=7-5=2
Skośność f(x) Symmetric Rozkład symetryczny distribution Right-skewed Rozkład prawoskośny distribution Mean = Median = Mode Mode Mean Średnia = Mediana = Dominanta Dominanta Średnia Mediana x f(x) Left-skewed Rozkład lewoskośny distribution Symmetric Rozkład symetryczny distribution dwumodalny with two modes Mean Mode Mode Mode Średnia Dominanta Dominanta Dominanta Mediana Mean Średnia = Mediana x
Współczynnik asymetrii w populacji A = NP i=1 x i µ 3 N A=0 symetryczny A>0 prawoskośny A<0 lewoskośny
Kurtoza (spłaszczenie) f(x) Leptokurtic Rozkład spiczasty distribution Platykurtic distribution Rozkład spłaszczony x
Absolutny współczynnik spłaszczenia K a = NP i=1 x i µ 4 N Kurtoza względna K = K a 3 K=0 spłaszczenie rozkładu normalnego K>0 rozkład bardziej spiczasty niż normalny K<0 rozkład bardziej spłaszczony niż normalny
Wstępna analiza danych Jest to bogaty zestaw technik graficznych, które: pozwalają na wielostronne spojrzenie na dane, ułatwiają ustalenie trendów i zależności, umożliwiają wyodrębnienie wyników istotnych od nietypowych lub odizolowanych, pozwalają ma szybki i syntetyczny opis zbioru danych.
Zestawienie danych w formie łodyga-liście Pozwala na bardzo szybki wgląd w dane. Przypomina histogram lub operację karbowania. Wykorzystuje fakt, że posługujemy się dziesiętnym systemem liczbowym. Łodygą jest liczba po opuszczeniu jej ostatniej cyfry (liścia); dla liczb: 105, 106, 107, 107, 109 wykres łodyga-liście ma postać 10 56779
Zestawienie danych w formie łodyga-liście oup of 42 engineers to perform a given task: 11, 12, 12, 13, 15, 15, 15, 16, 17, 20, 21, 21, 21, 22, 22, 22, 23, 24, 26, 27, 27, 27, 28, 29, 29, 30, 31, 32, 34, 35, 37, 41, 41, 42, 45, 47, 50, 52, 53, 56, 60, 62 se a stem-and-leaf display to analyze these data. 1 122355567 2 0111222346777899 3 012457 4 11257 5 0236 6 02
Wykres pudełkowy (box plot) Wykres pudełkowy jest obrazem następujących pięciu charakterystyk rozkładu danych: mediana, dolny kwartyl Q1, górny kwartyl Q3, najmniejszy wynik obserwacji, największy wynik obserwacji.
IQR Median Mediana Whisker Wąs Whisker Wąs X X Smallest observation within obserwacji 1.5(IQR) w of lower hinge Najmniejszy wynik granicach 1,5 IQR od Q1 Lower quartile Q1 (hinge) Upper quartile Q3 (hinge) Largest observation Największy wynik within obserwacji 1.5(IQR) w granicach 1,5 IQR of upper hinge od Q3
Obserwacja Outlier nietypowa Smallest Najmniejszy data wynik obserwacji point wewnątrz płotka not wewnętrznego below inner fence Half Wyniki the obserwacji data are mieszczące się w pudełku within the box Largest data Największy point wynik obserwacji not wewnątrz płotka exceeding wewnętrznego inner fence Obserwacja Suspected podejrzana o nietypowość outlier O X X * Outer Płotek zewnętrzny fence Q1-3 Q L 3(IQR) Inner Płotek wewnętrzny fence Q1-1,5 Q L 1.5(IQR) Mediana Q L Q Inner Płotek wewnętrzny fence Q1 Q3 U Q3 + 1,5 Q U + 1.5(IQR) Outer Płotek zewnętrzny fence Q3 + 3 IQR Q U + 3(IQR)
Wykres pudełkowy (box plot) Wykres pudełkowy pomaga: zlokalizować zbiór danych wokół jego podstawowej charakterystyki, jaką jest mediana, zidentyfikować rozproszenie danych biorąc pod uwagę długość pudełka reprezentującą wielkość IQR i długość wąsów reprezentującą rozstęp między wynikami obserwacji, bez brania pod uwagę wyników nietypowych lub podejrzanych o nietypowość, zidentyfikować ewentualną skośność rozkładu danych, zidentyfikować wyniki nietypowe, porównać dwa zbiory danych.
Right-skewed Prawoskośny Left-skewed Symmetric Small Mała wariancja variance Suspected Obserwacja podejrzana outlier * Inner Płotek fence wewnętrzny Lewoskośny Symetryczny A B Outer fence Płotek zewnętrzny Outlier Obserwacja nietypowa Data sets A and B seem to be similar; sets C and D are not similar. Zbiory danych A i B są podobne; zbiory danych C i D nie są podobne C D
Szereg rozdzielczy Jest to zbiorowość wyników obserwacji podzielona na klasy według określonej cechy jakościowej lub ilościowej z podaniem liczebności każdej z wyodrębnionych klas. Histogram to wykres utworzony ze słupków o różnej wysokości. Wysokość słupka reprezentuje częstość, z jaką pojawiały się wyniki obserwacji należące do klasy reprezentowanej przez słupek.
0 100 197 284 309 405 590 0 100 197 284 309 410 595 12 111,5 197,50 284,50 334,50 410 598 13 112,5 197,50 284,50 334,50 410 599 13,50 113,00 197,50 284,50 334,50 420 14 113,5 198 285 335 425,50 14,99 114,49 199 286 336 431 15 114,5 199 286 336 436,5 15 114,5 200 287 337 442 15 114,5 200 287 337 447,5 15,50 115,00 200 287 337 453 15,50 115,00 201,00 288,00 338,00 458,5 15,75 115,25 201,25 288,25 338,25 460 15,90 115,40 201,40 288,40 348,40 479 15,90 115,40 201,40 288,40 348,40 480 15,90 115,40 201,40 288,40 348,40 490 16 115,5 201,5 288,5 348,5 490,90 16 115,5 201,5 288,5 348,5 490,90 17,20 116,70 202,70 289,70 349,70 490,90 17,20 116,70 202,70 289,70 349,70 499 17,50 117,00 203,00 290,00 350,00 499,99 20 117,5 203,5 290,5 370,5 500 25 122,5 203,5 290,5 370,5 515 50 147,5 228,5 298,5 378,5 525 55 152,5 233,5 299 379 550 70 167,5 248,5 299 379 555 80 177,5 258,5 299,90 379,90 560 90 187,5 268,5 299,99 379,99 575 95 192,5 273,5 300 380 580 99 196,5 277,5 305 401 590
600 450 300 150 0 1 50 184
0 100 197 284 309 405 590 0 100 197 284 309 410 595 12 111,5 197,50 284,50 334,50 410 598 13 112,5 197,50 284,50 334,50 410 599 13,50 113,00 197,50 284,50 334,50 420 14 113,5 198 285 335 425,50 14,99 114,49 199 286 336 431 15 114,5 199 286 336 436,5 15 114,5 200 287 337 442 15 114,5 200 287 337 447,5 15,50 115,00 200 287 337 453 15,50 115,00 201,00 288,00 338,00 458,5 15,75 115,25 201,25 288,25 338,25 460 15,90 115,40 201,40 288,40 348,40 479 15,90 115,40 201,40 288,40 348,40 480 15,90 115,40 201,40 288,40 348,40 490 16 115,5 201,5 288,5 348,5 490,90 16 115,5 201,5 288,5 348,5 490,90 17,20 116,70 202,70 289,70 349,70 490,90 17,20 116,70 202,70 289,70 349,70 499 17,50 117,00 203,00 290,00 350,00 499,99 20 117,5 203,5 290,5 370,5 500 25 122,5 203,5 290,5 370,5 515 50 147,5 228,5 298,5 378,5 525 55 152,5 233,5 299 379 550 70 167,5 248,5 299 379 555 80 177,5 258,5 299,90 379,90 560 90 187,5 268,5 299,99 379,99 575 95 192,5 273,5 300 380 580 99 196,5 277,5 305 401 590
Klasa wydatków x Częstość, liczba klientów f(x) Klasa wydatków x Częstość względna 0 x < 100 30 100 x < 200 38 200 x < 300 50 300 x < 400 31 400 x < 500 22 500 x < 600 13 Razem 184 0 x < 100 30/184 = 0,163 100 x < 200 38/184 = 0,207 200 x < 300 50/184 = 0,272 300 x < 400 31/184 = 0,168 400 x < 500 22/184 = 0,120 500 x < 600 13/184 = 0,070 Razem 1,000
50 Histogram częstości absolutnych 37,5 Częstość 25 12,5 0 Od 0 do 100 Od 100 do 200 Od 200 do 300 Od 300 do 400 Od 400 do 500 Od 500 do 600 Wydatki klientów w dolarach
0,3 Histogram częstości względnych Częstość względna 0,2 0,1 0 Od 0 do 100 Od 100 do 200 Od 200 do 300 Od 300 do 400 Od 400 do 500 Od 500 do 600 Wydatki klientów w dolarach
Ustalenie liczby klas - k k n k 1+ 3,322logn k 184 14 k 1+ 3,322log 10 184 9
Klasa wydatków x Częstość, liczba 0 x < 50 klientów 23 f(x) 50 x < 100 7 100 x < 150 24 150 x < 200 14 200 x < 250 18 250 x < 300 32 300 x < 350 22 350 x < 400 9 400 x < 450 11 450 x < 500 11 500 x < 550 3 550 x < 600 10 Razem 184
40 Histogram częstości absolutnych 30 Częstość 20 10 0 Od 0 do 50 Od 50 do 100 Od 100 do 150 Od 150 do 200 Od 200 do 250 Od 250 do 300 Od 300 do 350 Od 350 do 400 Od 400 do 450 Od 450 do 500 Od 500 do 550 Od 550 do 600 Wydatki klientów w dolarach
Klasa dominująca To klasa, do której częstość należenia jest największa. 50 Histogram częstości absolutnych Częstość 37,5 25 12,5 0 Od 0 do 100 Od 100 do 200 Od 200 do 300 Od 300 do 400 Od 400 do 500 Od 500 do 600 Wydatki klientów w dolarach klasa dominująca: od 200 do mniej niż 300
Klasa medialna Medianą w zbiorze danych pogrupowanych jest taka wartość na osi poziomej, która dzieli powierchnię histogramu na dwie równe części. 50 Histogram częstości absolutnych Częstość 37,5 25 12,5 0 Od 0 do 100 Od 100 do 200 Od 200 do 300 Od 300 do 400 Od 400 do 500 Od 500 do 600 Wydatki klientów w dolarach 50% 50%
Klasa medialna Klasą medialną jest klasa zawierająca medianę. 50 Histogram częstości absolutnych Częstość 37,5 25 12,5 0 Od 0 do 100 Od 100 do 200 Od 200 do 300 Od 300 do 400 Od 400 do 500 Od 500 do 600 Wydatki klientów w dolarach
Klasa medialna Medianę dla pogrupowanych danych szacuje się wg wzoru: L + ( j/f )W, gdzie: L - dolna granica klasy medialnej, f - liczebność klasy medialnej, W - rozpiętość przedziału wartości odpowiadającego klasie medialnej, j - liczba danych, które trzeba minąć po osiągnięciu L, żeby dojść do mediany. Miejsce mediany = (n+1)/2 = 185/2 = 92,5
Klasa medialna Medianę dla pogrupowanych danych szacuje się wg wzoru: L + ( j/f )W, gdzie: L - dolna granica klasy medialnej, f - liczebność klasy medialnej, W - rozpiętość przedziału wartości odpowiadającego klasie medialnej, j - liczba danych, które trzeba minąć po osiągnięciu L, żeby dojść do mediany. Miejsce mediany = (n+1)/2 = 185/2 = 92,5 Klasa wydatków x Częstość 0 x < 100 30 100 x < 200 38 200 x < 300 50 300 x < 400 31 400 x < 500 22 500 x < 600 13 Razem 184 30+38=68 68<92,5<118 30+38+50=118 Klasa medialna: od 200 do mniej niż 300.
Klasa medialna Medianę dla pogrupowanych danych szacuje się wg wzoru: L + ( j/f )W, gdzie: L - dolna granica klasy medialnej, f - liczebność klasy medialnej, W - rozpiętość przedziału wartości odpowiadającego klasie medialnej, j - liczba danych, które trzeba minąć po osiągnięciu L, żeby dojść do mediany. Klasa medialna: od 200 do mniej niż 300. Klasa wydatków x Częstość 0 x < 100 30 100 x < 200 38 200 x < 300 50 300 x < 400 31 L = 200, f = 50, W = 100, j = 92,5-68 = 24,5 400 x < 500 22 500 x < 600 13 Razem 184 me = L + ( j/f )W = 249
Średnia i wariancja Średnią i wariancję dla pogrupowanych danych szacuje się wg wzorów: x = k i=1 f i m i n s 2 = k f i (m i ) 2 nx 2 i=1 n 1 gdzie: k - liczba wyróżnionych klas, f i - częstość (liczebność) klasy o numerze i, - środek i-tej klasy. m i
Średnia i wariancja x = k i=1 f i m i n s 2 = k f i (m i ) 2 nx 2 i=1 n 1 Klasa wydatków x Częstość 0 x < 100 30 x = 30 50 + 38 150 + +13 550 184 = 258,70 100 x < 200 38 200 x < 300 50 300 x < 400 31 400 x < 500 22 500 x < 600 13 Razem 184 s 2 = 30 502 + 38 150 2 + +13 550 2 184 258,70 2 184 1 s = s 2 = 21454,03 = 146,47 = 21454,03