Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Podstawy statystyki opisowej Adam Kiersztyn 3 godziny lekcyjne 2011-10-22 10.10-12.30 1 Miary asymetrii i koncentracji Najprostszymi miarami asymetrii sa¾ wskaźniki skośności (W S lub W Q ) dane wzorami W S = X D; W Q = (Q 3 Me) (Me Q 1 ) = Q 3 + Q 1 2 Me oraz wspó czynnik skośności dany wzorem A D = X D : s Ponadto nale zy jeszcze wprowadzić dwa proste wspó czynniki: zmienności v i nierówności H, określone wzorami: v = s X 100%; H = d X 100%: Zanim przystapimy ¾ do omawiania pozosta ych miar asymetrii i koncentracji podamy wzory na momenty zwyk e, absolutne oraz centralne rz ¾edu l: Wzory te podamy w dwóch wersjach, w wariancie dla danych niezgrupowanych oraz w nawiasie w wariancie dla szeregu przedzia owego. Moment zwyk y m l rz¾edu l z próbki x 1 ; x 2 ; : : : ; x n obliczamy ze wzoru! m l = 1 nx x l n i; m k = 1 kx _x l i n i N Moment zwyk y jest, jak atwo zauwa zyć, średnia¾ arytmetyczna¾ l-tych pot¾eg wartości x i : W podobny sposób de niuje si¾e moment absolutny a l rz¾edu l z próbki x 1 ; x 2 ; : : : ; x n. Wyra za si¾e on wzorem! a l = 1 nx jx i j l ; a l = 1 kx j _x i j l n i n N i jest średnia¾ arytmetyczna¾ l-tych pot¾eg modu ów wartości x i : Ponadto rozwa za si¾e moment centralny rz¾edu l zadany wzorem M l = 1 nx x i X l ; Ml = 1 kx _x i X! l ni n N 1
oraz centralny moment absolutny rz ¾edu k dany wzorem b l = 1 nx x i X l ; b l = 1 kx _x i X! l n i n N Nale zy w tym miejscu zauwa zyć, ze moment centralny rz ¾edu 2 jest wariancja, ¾ natomiast centralny moment absolutny rz ¾edu 1 jest odchyleniem przeci ¾etnym. Korzystajac ¾ z powy zszych pomocniczych oznaczeń zde niujmy wybrane miary asymetrii i koncentracji. Jednym z najcz ¾eściej stosowanych jest wspó czynnik asymetrii (skośności) dany wzorem g 1 = M 3 s 3 ; gdzie s jest odchyleniem standardowym, podobna¾ postać ma wspó czynnik koncentracji (skupienia) dany wzorem K = M 4 s 4 ; wspó czynnik ten bywa równie z nazywany kurtoza. ¾ W statystyce opisowej rozwa za si ¾e równie z wspó czynnik sp aszczenia (eksces) dany wzorem g 2 = K 3 = M 4 s 4 3: Ponadto nale zy zauwa zyć, ze nie sa¾ to wszystkie sposoby opisu asymetrii i koncentracji. Mo zna tutaj wymienić m.in. krzywa¾ Lorenza czy te z wspó czynnik Giniego. Przyk ad 1 Rozwa zmy cztery szeregi przedzia owe o takich samych przedzia ach i ró znych liczebno sciach poszczególnych klas. srodek przedzia u szereg I szereg II szereg III szereg IV 1 0 2 0 2 2 6 2 2 4 3 12 10 20 10 4 14 22 12 12 5 12 10 10 20 6 6 2 4 2 7 0 2 2 0 Wyznaczyć srednia¾ arytmetyczna¾ i cztery pierwsze momenty ka zdego typu dla poszczególnych szeregów, a nast ¾epnie obliczyć wprowadzone wcze sniej miary koncentracji i asymetrii. Rozwiazanie: ¾ W kroku pierwszym obliczymy średnia¾ arytmetyczna¾ dla poszczególnych szeregów X 1 = 1 (1 0 + 2 6 + 3 12 + 4 14 + 5 12 + 6 6 + 7 0) = 4 50 2
X 2 = 1 (1 2 + 2 2 + 3 10 + 4 22 + 5 10 + 6 2 + 7 2) = 4 50 X 3 = 1 (1 0 + 2 2 + 3 20 + 4 12 + 5 10 + 6 4 + 7 2) = 4 50 X 4 = 1 (1 2 + 2 4 + 3 10 + 4 12 + 5 20 + 6 2 + 7 0) = 4 50 Zatem w ka zdym z rozwa zanych przypadków średnia wynosi 4, dzi ¾eki takiemu zbiegowi okoliczności b ¾edzie nam atwiej przeprowadzić dalsza¾ cześć obliczeń. Z uwagi na fakt, ze wszystkie obserwacje sa¾ nieujemny momenty zwyk e i momenty absolutne poszczególnych rz ¾edów sa¾ jednakowe. Zatem nie musimy obliczać momentów absolutnych. Zanim przejdziemy do obliczania wartość poszczególnych momentów dla ka zdego szeregu oddzielnie przygotujmy sobie tabel ¾e zawierajac ¾ a¾ dodatkowe obliczenia (oczywiście tabelk¾e ta¾ wykonujemy w Excelu wszyscy wspólnie krok po kroku) x 2 i x 3 i x 4 i x i X x i X 2 x i X 3 x i X 4 xi X xi X 2 xi X 3 xi X 4 1 1 1 3 9 27 81 3 9 27 81 4 8 16 2 4 8 16 2 4 8 16 9 27 81 1 1 1 1 1 1 1 1 16 64 256 0 0 0 0 0 0 0 0 25 125 625 1 1 1 1 1 1 1 1 36 216 1296 2 4 8 16 2 4 8 16 49 343 2401 3 9 27 81 3 9 27 81 Teraz mo zemy w prosty sposób domna zajac ¾ poszczególne elementy powy zszej tabeli przez odpowiednie liczebności, sumujac ¾ kolumny i dzielac ¾ przez liczebność 3
ca kowita¾ otrzymujemy wymagane momenty. Dla pierwszego szeregu mamy: x 2 i n i x 3 i n i x 4 i n i x i X n i x i X 2 ni x i X 3 ni x i X 4 ni 0 0 0 0 0 0 0 24 48 96 12 24 48 96 108 324 972 12 12 12 12 224 896 3584 0 0 0 0 300 1500 7500 12 12 12 12 216 1296 7776 12 24 48 96 0 0 0 0 0 0 0 suma 872 4064 19928 0 72 0 216 x i X n i x i X 2 n i x i X 3 n i x i X 4 n i 0 0 0 0 12 24 48 96 12 12 12 12 0 0 0 0 12 12 12 12 12 24 48 96 0 0 0 0 suma 48 72 120 216 Wówczas dla pierwszego szeregu nasze pomocnicze wskaźniki przyjmuja¾ wartości: m 1 = X = 4; m 2 = 872 m 3 = 4064 m 4 = 19928 M 1 = 0 50 = 0; M 2 = s 2 = 72 M 3 = 0 50 = 0; M 4 = 216 50 b 1 = d = 48 b 2 = M 2 = 72 b 3 = 120 b 4 = M 4 = 216 50 : W analogiczny sposób mo zna wyliczyć powy zsze wskaźniki dla pozosta ych szeregów, mamy wówczas dla drugiego szeregu: m 1 = 4; m 2 = 872 m 3 = 4064 m 4 = 20120 M 1 = 0; M 2 = 72 M 3 = 0; M 4 = 408 b 1 = 40 b 2 = 72 b 3 = 160 b 4 = 408 50 : Natomiast wartości wskaźników dla trzeciego szeregu wynosza¾ m 1 = 4; m 2 = 872 m 3 = 4124 m 4 = 20960 4
M 1 = 0; M 2 = 72 M 3 = 60 M 4 = 288 b 1 = 48 b 2 = 72 b 3 = 132 b 4 = 288 50 : Dla czwartego szeregu mamy nast ¾epujace ¾ wartości m 1 = 4; m 2 = 872 m 3 = 4004 m 4 = 19040 M 1 = 0; M 2 = 72 M 3 = 60 M 4 = 288 b 1 = 48 b 2 = 72 b 3 = 132 b 4 = 288 50 : Mo zemy teraz przystapić ¾ do obliczania miar i porównania tych wartości dla poszczególnych szeregów. szereg I szereg II szereg III szereg IV mediana M e 4 4 4 4 dominanta D 4 4 3 5 średnia X 4 4 4 4 wariancja s 2 1:44 1:44 1:44 1:44 W S 0 0 1 1 5 5 A D 0 0 6 6 g 1 0 0 0:69 0:69 K 2:08 3:94 2:78 2:78 v 30% 30% 30% 30% H 20% 24% 24% 24% W celu lepszego zrozumienia poszczególny miar przedstawimy jeszcze histogramy poszczególnych szeregów. Ćwiczenie 1 Dokonać analizy wyników uzyskanych w powy zszym przyk adzie. 5
2 Wykorzystanie pakietu analiza danych w arkuszu Excel Przejdźmy teraz do przypomnienia sobie mo zliwości jakie daje w zakresie statystyki opisowej arkusz Excel (zak adam, ze korzystali ju z Państwo z tego pakietu i znaja¾ jego podstawowe mo zliwości). Jak wszyscy dobrze wiemy w arkuszu Excel znajduja¾ si ¾e funkcje statystyczne pozwalajace ¾ obliczać podstawowe miary statystyki opisowej. Jednak ze czasami ze wzgl ¾edów praktycznych dobrze jest samemu opracować formu y w analogiczny sposób jak pokazany w przyk adzie z poprzedniego zjazdu. Dzi¾eki tak opracowanym danym mamy wi¾eksza¾ kontrol¾e nad wynikami i mo zemy uniknać ¾ b ¾edów wynikajacych ¾ chocia zby z odstajacych ¾ lub nieprawid owo wprowadzonych wartość liczbowych. Ćwiczenie 2 Przygotować w Excelu skoroszyt, dzi ¾eki któremu b ¾edzie mo zna stworzyć tabel ¾e analogiczna¾ jak w przyk adzie z zesz ego zjazdu. Sprawdzíc poprawno sć wyników a nast ¾epnie zamieníc warto sć x 1 = 5 na warto sć x 1 = 3: Jak zmieni y si ¾e poszczególne wyniki, które miary nie uleg y zmianie? Nale zy w tym miejscu zaznaczyć, ze arkusz Excel posiada wbudowany pakiet analizy danych, w którym mo zemy w jednym miejscu odnaleźć wi ¾ekszość omawianych powy zej miar. W celu skorzystania z pakietu analiza danych nale zy wcześniej do ¾ aczyć odpowiedni dodatek. Ćwiczenie 3 Dla danych z pliku analizadanych.xls wyznaczyć podstawowe miary statystyki opisowej korzystajac ¾ z pakietu analiza danych. 3 Statystyka opisowa w SPSS Do wyznaczania podstawowych charakterystyk statystyki opisowej mo zna wykorzystywać bardziej specjalistyczne narz ¾edzia informatyczne. Podczas tych studiów zapoznamy si¾e z dwoma pakietami statystycznymi, mianowicie z pakietem SPSS oraz programem Statistica. W tym miejscu zapoznamy si ¾e podstawowymi mo zliwościami programu SPSS. Ograniczymy si ¾e tutaj jedynie do wyznaczania statystyk opisowych. Pe niejszej analizy mo zliwości tego pakietu dokonamy na innych przedmiotach. Z uwagi na fakt, i z jest oprogramowanie mniej znane ni z arkusz Excel musimy troch ¾e dok adniej omówić sposób w jaki mo zemy uzyskać podstawowe statystyki opisowe. Po uruchomieniu programu domyślnie pojawia si ¾e 6
okno umo zliwiajace ¾ wczytanie pliku na jakim chcemy dokonywać operacji Po wczytaniu interesujacego ¾ nas pliku przykladspss1.sav chcemy wyznaczyć podstawowe statystyki opisowe. W tym celu menu g ównego wybieramy kolejno Analiza/Opis statystyczny/statystyki opisowe tak jak na zamieszczonym 7
poni zszej rysunku. Nast ¾epnie wybieramy interesujac ¾ a¾ nas zmienna ¾(wiek) i przechodzimy do opcji, gdzie wybieramy wszystkie dost ¾epne charakterystyki, klikamy przycisk dalej i nast ¾epnie OK. Jako wynik otrzymujemy raport z wartościami wybranych charakterystyk. Oczywiście w pakiecie SPSS mo zna wyznaczyć równie z histogram. W tym celu post¾epujemy w nast¾epujacy ¾ sposób: wybieramy z menu 8
wykresy a nast ¾epnie histogram nast ¾epnie wybieramy jako zmienna¾ wiek i klikamy OK Jako wynik otrzymujemy raport zawierajacy ¾ histogram. W tym miejscu pojawia si¾e naturalne pytanie, czy mo zna w jakiś inny sposób wyznaczyć podstawowe statystyki oraz narysować histogram w programie SPSS. 9
Odpowiedź na tak postawione pytanie jest twierdzaca. ¾ menu g ównego Analiza/Opis statystyczny/ Cz ¾estości. Wystarczy wybrać z Nast ¾epnie wybieramy interesujac ¾ a¾ nas zmienna. ¾ Klikamy w przyciski statystyki oraz wykresy, gdzie mo zemy wybrać intere- 10
sujace ¾ nas statystyki opisowe oraz typ wykresu. Jako ostateczny wynik otrzymujemy raport, w którym jednocześnie mamy wyznaczone podstawowe statystyki oraz narysowany histogram. 11
Ćwiczenie 4 Wyznaczyć warto sci podstawowych statystyk dla zmiennej wzrost w pliku przykladspss1.sav. 12