Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Wprowadzenie W przypadku danych liczbowych do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można scharakteryzować rozkład wartości cechy liczbowej w badanej zbiorowości. Poszczególne rodzaje statystyk opisują: przeciętny poziom wartości cechy w badanej zbiorowości (miary położenia); rozproszenie danych (miary zmienności); asymetrię rozkładu danych (miary asymetrii).

Podział statystyk opisowych ze względu na sposób wyznaczania Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - w związku z tym są nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, centyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.

Miary położenia Do najczęściej wyznaczanych miar położenia, zawierających informację o przeciętnym poziomie wartości danych cechy w badanej zbiorowości należą: średnia arytmetyczna; inne rodzaje średnich (harmoniczna, geometryczna); wartość najmniejsza i największa (minimum i maksimum); wartość środkowa mediana; wartość najczęstsza moda; kwartyle; centyle.

Średnia arytmetyczna Średnia arytmetyczna jest najbardziej popularną miarą przeciętnego poziomu cechy liczbowej. Poniżej opisano sposób wyznaczania średniej dla szczegółowego szeregu statystycznego. Wartość cechy (x i ) 15 10 11 9 7 4 15 13 14 x 1 x 2 x 3 x 4 x n-3 x n-2 x n-1 x n x x x n 1 n 1 n n i 1 x i 15 10 11 9 7 4 15 13 14 x 9?

Mediana wartość środkowa Alternatywną metodą opisu danych liczbowych jest wartość środkowa (mediana), która odpowiada poziomu jednostki znajdującej się w środku badanej zbiorowości, jeśli chodzi o poziom rozważanej cechy. Aby wyznaczyć medianę szereg szczegółowy należy uporządkować (rosnąco) i wskazać wartość środkowego obiektu. Wartość cechy (x i ) 4 7 9 10 11 13 14 15 15 x 1 x 2 x 3 x 4 x n-3 x n-2 x n-1 x n Uproszczona definicja i interpretacja mediany może polegać na stwierdzeniu, iż 50% pomiarów jest od niej mniejszych a 50% pomiarów większych. Me

Co jest lepsze mediana czy średnia? Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą też się bardzo wyraźnie różnić. W praktyce zalecamy wyznaczanie obu tych wartości jednocześnie i wyciąganie wniosków na podstawie ich jednoczesnego oglądu. 1000 zł 1200 zł 1400 zł 1700 zł 30000 zł Zarobki w pewnej firmie Średnia = 7060 zł Mediana =1400 zł Po podwyżce płac 1000 zł 1200 zł 1400 zł 1700 zł 60000 zł Średnia = 13060 zł Mediana =1400 zł Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość jeżeli tylko można dowiedz się także ile wynosi mediana.

Centyle Mediana jest wartością, którą znajdujemy w wyniku poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej wartości sytuuje się 50% pomiarów. W wielu sytuacjach analityka interesuje też kwestia poniżej (powyżej) jakiej wartości znajduje się inna część pomiarów (1%, 5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych centylami. Centyl rzędu p (c p ) (0 < p < 1) jest to taka liczba, że poniżej niej znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część pomiarów. Wartość p jest też często podawana w procentach.

Klasyfikacja centyli Niektóre centyle, z uwagi na popularność zastosować mają swoje własne nazwy: c 50 to mediana; c 25 to kwartyl dolny (Q 25 ) a c 75 to kwartyl górny (Q 75 ); c 10, c 20,, c 90 to tak zwane decyle (oznaczane też d 1,, d 9 ).

Statystyki opisowe w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).

Przykład Analiza dotyczy zbioru danych Środki z UE. Celem analizy jest opis poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego w latach 2006-2009 (dla każdego roku osobno). Podczas rozwiązywania przykładu wykorzystane zostaną zarówno poznane uprzednio narzędzia grupowania danych jak i statystyki opisowe. PORÓWNYWALNOŚĆ DANYCH Dane o wykorzystaniu środków z UE zawarte w pliku Środki z UE należy najpierw doprowadzić do porównywalności dokonać przeliczenie na jednego mieszkańca. W tym celu dodajemy na końcu arkusza cztery nowe kolumny, nazywamy je odpowiednio: Środki z UE na 1 mieszk. (2006),, Środki z UE na 1 mieszk. (2009) i wyznaczamy ich wartości za pomocą odpowiednich formuł (wskazówka: dla roku 2006 formuła będzie mieć postać: =v22/v2

Wyznaczanie miar położenia W oknie STATYSTYKI OPISOWE wybieramy nowoutworzone zmienne, w zakładce WIĘCEJ ustalamy zakres statystyk opisowych do wyznaczenia.

Wyniki Wywołujemy tabelę wynikową, dokonujemy formatowania wyników a następnie ich interpretacji. Na podstawie wartości średniej i mediany stwierdzamy, iż wskaźnik wykorzystania środków unijnych w roku 2009 był wyższy niż w pozostałych latach. Porównując wartość średniej i mediany stwierdzamy, iż rozkład wskaźnika wykorzystania środków z UE na 1 mieszk. jest nierównomierny średnia jest większa od mediany, a więc istnieje relatywnie duża liczba gmin o niskim poziomie wykorzystania środków i nieliczni liderzy. Na podstawie wartości modalnej, minimum oraz liczności modalnej stwierdzamy, iż udział gmin nie pozyskujących żadnych środków z UE jest w kolejnych latach coraz niższy W 2006 w co czwartej gminie pozyskano więcej niż 47 złotych na osobę zaś w 2009 wskaźnik ten wyniósł już 177 zł. W 2009 roku 10% najlepszych gmin charakteryzowało się poziomem wykorzystania środków z UE na poziomie co najmniej 362 zł Poziom wskaźnika w najlepszej gminie był w roku 2009 zdecydowanie wyższy niż w poprzednich latach

Ilustracja graficzna wykres ramka-wąsy Wartości statystyk opisowych można zilustrować za pomocą wykresu typu ramka-wąsy. Wykres ten w podstawowej formie można wykonać w oknie analiz STATYSTYKI OPISOWE. W zakładce opcje ustalamy typ wykresu ramka-wąsy: W zakładce podstawowe wywołujemy wykres, który po sformatowaniu wygląda tak

Niekonwencjonalne grupowanie danych Inny sposób opisu danych może polegać na zgrupowaniu gmin ze względu na poziom środków z UE i podaniu liczności każdej z takich grup w latach 2006-2009. Biorąc pod uwagę fakt dużej asymetrii wartości wskaźnika, zastosowano przedziały o nierównych długościach: < 10 zł; [10 zł; 50 zł); [50 zł; 100 zł); [100 zł; 200 zł); 200 zł Możliwość grupowania w przedziałach o niejednakowej długości jest dostępna w programie STATISTICA przy okazji tworzenia wykresów.

Histogramy wielokrotne i opcja granice Histogramy wielokrotne pozwalają na przedstawienie rozkładu kilku cech jednocześnie warunkiem wszakże jest, że są to cechy posiadające zbliżony zakres (i znaczenie) wartości. Wybieramy polecenie WYKRESY / WYKRESY 2W / HISTOGRAMY po czym wybieramy wskaźniki wykorzystania z lat 2006-2009 jako zmienne i ustawiamy opcję wykresu na WIELOKROTNY. W zakładce WIĘCEJ ustawiamy sposób grupowania (PRZEDZIAŁY) na GRANICE i za pomocą przycisku określ granice wprowadzamy wartości odpowiadające przedziałom zaproponowanym na poprzedniej stronie.

Wykres Po wywołaniu wykresu i sformatowaniu uzyskujemy kompletną prezentację graficzną wraz z informacjami o liczbie gmin znajdujących się w poszczególnych kategoriach. Zaletą programu STATISTICA jest możliwość modyfikacji sposobu tworzenia wykresu. Jeżeli na przykład stwierdzilibyśmy, że chcemy dodać jeszcze jeden przedział dla wskaźnika wykorzystania środków z UE możemy to bez trudu uczynić. W tym celu wywołujemy wszystkie opcje wykresu a następnie zakładkę HISTOGRAM i modyfikujemy wprowadzone granice.

Jak się to ma do zasad podanych na wykładzie nr 3? Na wykładzie nr 3 podano ogólne zasady opisywania danych przekrojowych (i innych typów danych). Wynikało z nich, że dane przekrojowe najlepiej opisywać w postaci szeregów szczegółowych uporządkowanych. Jednakże drugim czynnikiem wpływającym na dobór metody opisu danych statystycznych jest ich liczność. W przypadku gmin woj. podkarpackiego, których jest 159 (od roku 2010 160), prezentacja wszystkich danych w postaci szeregu uporządkowanego nie jest możliwa. Dlatego też posłużono się dodatkowo statystykami opisowymi oraz metodami grupowania danych. Nie znaczy to jednak, że wykorzystanie szeregu uporządkowanego jest niemożliwe

Wykres słupkowy pokażmy najlepszych Przedstawienie w formie graficznej, czy tabelarycznej, wartości wskaźnika wykorzystania środków z UE na jednego mieszkańca dla wszystkich gmin jest niemożliwe, gdyż taka prezentacja będzie po prostu nieczytelna. Zasadne wydaje się natomiast zaprezentowanie poziomu wskaźnika dla pewnej liczby (np. 25) najlepszych gmin. Dokonamy takiej prezentacji dla danych z roku 2009. W tym celu sortujemy dane malejąco według wartości wskaźnika z roku 2009, następnie wybieramy polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWE i wybieramy odpowiednią zmienną. Aby utworzyć wykres tylko dla 25 najlepszych gmin (aktualnie przypadków nr 1-25 w arkuszu danych) korzystamy z narzędzia selekcji przypadków, ustawiając warunki w następujący sposób:

Wykres słupkowy pokażmy najlepszych W ramach ćwiczeń proszę sporządzić analogiczne prezentacje dla danych z roku 2006, 2007 i 2008.

Miary zmienności i asymetrii W wielu sytuacjach wyznaczenie samych miar położenia nie pozwala w wyczerpujący sposób opisać rozkładu wartości cechy liczbowej. W takiej sytuacji można zastosować dodatkowo dwie grupy miar: miary zmienności; miary asymetrii.

Miary zmienności Miary zmienności pozwalają ocenić nie tylko przeciętny poziom danej cechy lecz także ich rozproszenie wokół wartości przeciętnej. Do najbardziej popularnych miar zmienności należą: wariancja i odchylenie standardowe; współczynnik zmienności; rozstęp; rozstęp kwartylowy.

Odchylenie standardowe Odchylenie standardowe jest wyliczane jako przeciętne odchylenie pomiarów od wartości średniej. Poniżej opisano szczegółowo procedurę wyznaczania odchylenia standardowego. Wartość cechy (x i ) 15 12 12 13 8 x 1 x 2 x 3 x 4 x 5 x 12 Odchylenia od średniej 3 0 0 1-4 Suma odchyleń od średniej zawsze wynosi 0 Kwadraty odchyleń od średniej 9 0 0 1 16 Średnie kwadratowe odchylenie od średniej nazywane jest wariancją (s 2 ) a jej pierwiastek odchyleniem standardowym (s). s 2 9 0 0 1 16 5 5 s 9 0 0 1 16 5 5 2,24

Właściwości odchylenia standardowego Znajomość odchylenia standardowego i wartości średniej pozwala oszacować położenie większości pomiarów. Dla bardzo wielu danych (co wynika z odpowiednich twierdzeń matematycznych) są bowiem spełnione relacje. ( x s, x s) Przedział zwany typowym przedziałem zmienności zawiera zwykle ok. 68% pomiarów. ( x 2s, x 2s) Przedział zwany rozszerzonym przedziałem zmienności zawiera zwykle ok. 95% pomiarów. ( x 3s, x 3s) Przedział zawiera zwykle ok. 99,7% pomiarów, czyli niemal wszystkie wartości. Pomiary wykraczające poza ten zakres są często określane mianem obserwacji odstających (nietypowych) i niejednokrotnie eliminuje się je z analiz, gdyż mogą zaburzać badane relacje. Powyższe stwierdzenia są prawdziwe, gdy dane rozkładają się w sposób symetryczny (lub doń zbliżony) wokół wartości średniej. Dla tzw. rozkładów asymetrycznych, liczba obserwacji zawierających się w podanych wyżej przedziałach może być radykalnie inna.

Współczynnik zmienności W przypadku porównywania zmienności wielkości wyrażonych w różnych jednostkach (na przykład dochody mieszkańców różnych państw) albo charakteryzujących się różnymi poziomami wartości średniej, konieczne jest wyznaczenie względnego poziomu zmienności. W tym celu wyznacza się tzw. współczynnik zmienności (V). s V 100% x

Rozstęp kwartylowy Na poprzednim wykładzie pokazano jak na wartość średnią wpływa nawet jedna obserwacja nietypowa (odstająca). Również odchylenie standardowe, w przypadku występowania obserwacji nietypowych może przybierać bardzo duże wartości a zakres typowego przedziału zmienności pozbawiony będzie sensu. W takiej sytuacji wyznaczać można tzw. rozstęp kwartylowy, który definiowany jest jako różnica między kwartylem górnym i dolnym. R Q Q 75 Q 25

Inne miary zmienności Bardzo elementarną miarą zmienności, która jednakże bywa niejednokrotnie używana do opisu danych jest rozstęp, określany jako różnica pomiędzy wartością maksymalną i minimalną. R x max x min Inne miary zmienności (na przykład służące do badania zróżnicowania dochodów) są opierane na stosunku wybranych centyli. c / c 99 1 xmax / x min Relacja zarobków 1% najbogatszych i 1% najbiedniejszych członków danego społeczeństwa Poziom zarobków w najbogatszym mieście wojewódzkim w Polsce do zarobków w mieście najbiedniejszym

Miary zmienności w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).

Przykład (plik danych: Wskaźniki UE-27) Celem analizy będzie porównanie zmienności w poziomie PKB na 1 mieszk. w państwach Unii Europejskiej w roku 2000 i 2007. W szczególności rozważona zostanie kwestia zróżnicowania pomiędzy poziomem PKB w poszczególnych państwach. Porównywalność danych wszystkie dane mają charakter wskaźników, więc można je analizować bez żadnych wstępnych przekształceń W oknie analizy STATYSTYKI OPISOWE wybieramy zmienne zawierające informacje o PKB per capita w roku 2000 i 2007 a następnie w zakładce WIĘCEJ ustalamy listę statystyk do policzenia, wybierając: średnią; medianę; minimum i maksimum; odchylenie standardowe; współczynnik zmienności; rozstęp kwartylowy.

Wyniki Po wywołaniu wyników i ich wstępnym sformatowaniu MIARY POŁOŻENIA MIARY ZMIENNOŚCI Na podstawie wartości średniej i mediany stwierdzamy, że PKB per capita wzrósł w państwach UE w latach 2000-2007 (co jest niemal oczywiste i nie jest zbyt odkrywczym wnioskiem). Co ważniejsze zauważamy dosyć dużą różnicę pomiędzy wartością mediany i średniej, co sugeruje, że w UE występują państwa zdecydowanie odstające in plus od pozostałych, jeśli chodzi o PKB. Na podstawie oglądu minimum i maksimum stwierdzamy, że PKB per capita w najgorszym państwie wzrosło ponad 2 razy, zaś w najbogatszym mniej więcej 1,5 razy. Czyli tempo bogacenia się społeczeństw biedniejszych było szybsze co jest zjawiskiem pożądanym Analiza miar zmienności pozwala stwierdzić, iż nierównomierność w poziomie rozwoju państw UE pomiędzy rokiem 2000 i 2007 nieco się zmniejszyła.

Prezentacja graficzna Uzupełnieniem wartości statystyk opisowych może być prezentacja poziomu PKB w formie szeregu uporządkowanego, przedstawionego za pomocą wykresów słupkowych lub liniowych.

Prezentacja graficzna Jeżeli interesuje nas tylko ogólna informacja o rozkładzie PKB per capita w grupie państw UE możemy zgrupować dane w formie histogramu.

Asymetria rozkładu danych W analizie statystycznej istnieją pewne procedury, w których wymagane jest aby dane miały określony typ rozkładu (lub przynajmniej były doń zbliżone). Na przykład wyznaczanie omówionego wcześniej typowego przedziału zmienności traci sens dla danych wykazujących bardzo dużą asymetrię. Dlatego też wskazana jest umiejętność oceny poziomu asymetrii za pomocą odpowiedniego współczynnika. Informacja o rodzaju asymetrii jest też interesująca sama w sobie pozwala lepiej zrozumieć zjawisko opisywane za pomocą cechy liczbowej. Dla przykładu, podczas badania poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego może nas szczególnie interesować, czy rozkład wskaźnika uzyskanych środków na 1 mieszk. jest symetryczny.

Graficzna analiza asymetrii (1) SILNA ASYMETRIA PRAWOSTRONNA Średnia = 299 zł Mediana = 181 zł Skośność = 2,46 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład wykorzystania środków z UE w gminach woj. podkarpackiego charakteryzuje się bardzo silną asymetrię prawostronną (jest wydłużony w prawą stronę). W praktyce oznacza to, że występują pojedyncze wartości wysokie i bardzo wysokie, nieliczne wartości na poziomie średnim i zdecydowana większość wartości na poziomie niskim i bardzo niskim (w większości gmin pozyskano niewiele środków z UE)

Graficzna analiza asymetrii (2) ROZKŁAD (w przybliżeniu) SYMETRYCZNY Średnia = 11,0 Mediana = 11,1 Skośność = 0,08 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład wskaźnika bezrobocia wśród mężczyzn w gminach woj. podkarpackiego jest bardzo zbliżony do symetrycznego. Średni wskaźnik bezrobocia i wartość środkowa są niemal identyczne. Podobna liczba gmin charakteryzuje się wysokim i niskim bezrobociem.

Graficzna analiza asymetrii (3) ROZKŁAD ASYMETRYCZNY LEWOSTRONNIE Średnia = 74,5 Mediana = 76,7 Skośność = -1,02 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład oczekiwanego czasu trwania życia mężczyzn z państwach UE w 2007 roku charakteryzował się asymetrią lewostronną w większości państw wskaźnik ten jest na wysokim bądź bardzo wysokim poziomie a w nielicznych jest na poziomie średnim bądź niskim.

Interpretacja wskaźnika skośności A 0 Współczynnik skośności równy w przybliżeniu 0 pozwala stwierdzić, iż mamy do czynienia z symetrycznym rozkładem danych. Wtedy średnia i wartość środkowa są do siebie zbliżone i można je stosować zamiennie. x Me A > 0 Współczynnik skośności większy od 0 oznacza asymetrię prawostronną. O silnej asymetrii prawostronnej będziemy mówić, gdy A > 1. Wartość średnia jest wyższa niż mediana. x Me A < 0 Współczynnik skośności mniejszy od 0 oznacza asymetrię lewostronną. O silnej asymetrii lewostronnej będziemy mówić, gdy A < -1. Wartość średnia jest niższa niż mediana. x Me