Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Podobne dokumenty
Wykład 5: Statystyki opisowe (część 2)

Wykład 4: Statystyki opisowe (część 1)

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

You created this PDF from an application that is not licensed to print to novapdf printer (

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka. Opisowa analiza zjawisk masowych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyki opisowe i szeregi rozdzielcze

Parametry statystyczne

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyczne metody analizy danych

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

1 Podstawy rachunku prawdopodobieństwa

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Wykład 3: Prezentacja danych statystycznych

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Przedmiot statystyki. Graficzne przedstawienie danych.

Próba własności i parametry

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Ćwiczenia 1-2 Analiza rozkładu empirycznego

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Pozyskiwanie wiedzy z danych

Podstawowe definicje statystyczne

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Miary statystyczne w badaniach pedagogicznych

W1. Wprowadzenie. Statystyka opisowa

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka Matematyczna Anna Janicka

Opisowa analiza struktury zjawisk statystycznych

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Wykład 5: Analiza dynamiki szeregów czasowych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Xi B ni B

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Analiza struktury i przeciętnego poziomu cechy

Wykład 2: Arkusz danych w programie STATISTICA

Laboratorium 3 - statystyka opisowa

Biostatystyka, # 1 /Weterynaria I/

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Dopasowywanie modelu do danych

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka matematyczna dla leśników

Wykład 1: O statystyce i analizie danych. Arkusz danych w programie STATISTICA

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza zróżnicowania, asymetrii i koncentracji

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wprowadzenie do analizy dyskryminacyjnej

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Podstawy statystyki - ćwiczenia r.

Graficzna prezentacja danych statystycznych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zajęcia 1. Statystyki opisowe

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Transkrypt:

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Wprowadzenie W przypadku danych liczbowych do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można scharakteryzować rozkład wartości cechy liczbowej w badanej zbiorowości. Poszczególne rodzaje statystyk opisują: przeciętny poziom wartości cechy w badanej zbiorowości (miary położenia); rozproszenie danych (miary zmienności); asymetrię rozkładu danych (miary asymetrii).

Podział statystyk opisowych ze względu na sposób wyznaczania Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - w związku z tym są nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, centyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.

Miary położenia Do najczęściej wyznaczanych miar położenia, zawierających informację o przeciętnym poziomie wartości danych cechy w badanej zbiorowości należą: średnia arytmetyczna; inne rodzaje średnich (harmoniczna, geometryczna); wartość najmniejsza i największa (minimum i maksimum); wartość środkowa mediana; wartość najczęstsza moda; kwartyle; centyle.

Średnia arytmetyczna Średnia arytmetyczna jest najbardziej popularną miarą przeciętnego poziomu cechy liczbowej. Poniżej opisano sposób wyznaczania średniej dla szczegółowego szeregu statystycznego. Wartość cechy (x i ) 15 10 11 9 7 4 15 13 14 x 1 x 2 x 3 x 4 x n-3 x n-2 x n-1 x n x x x n 1 n 1 n n i 1 x i 15 10 11 9 7 4 15 13 14 x 9?

Mediana wartość środkowa Alternatywną metodą opisu danych liczbowych jest wartość środkowa (mediana), która odpowiada poziomu jednostki znajdującej się w środku badanej zbiorowości, jeśli chodzi o poziom rozważanej cechy. Aby wyznaczyć medianę szereg szczegółowy należy uporządkować (rosnąco) i wskazać wartość środkowego obiektu. Wartość cechy (x i ) 4 7 9 10 11 13 14 15 15 x 1 x 2 x 3 x 4 x n-3 x n-2 x n-1 x n Uproszczona definicja i interpretacja mediany może polegać na stwierdzeniu, iż 50% pomiarów jest od niej mniejszych a 50% pomiarów większych. Me

Co jest lepsze mediana czy średnia? Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą też się bardzo wyraźnie różnić. W praktyce zalecamy wyznaczanie obu tych wartości jednocześnie i wyciąganie wniosków na podstawie ich jednoczesnego oglądu. 1000 zł 1200 zł 1400 zł 1700 zł 30000 zł Zarobki w pewnej firmie Średnia = 7060 zł Mediana =1400 zł Po podwyżce płac 1000 zł 1200 zł 1400 zł 1700 zł 60000 zł Średnia = 13060 zł Mediana =1400 zł Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość jeżeli tylko można dowiedz się także ile wynosi mediana.

Centyle Mediana jest wartością, którą znajdujemy w wyniku poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej wartości sytuuje się 50% pomiarów. W wielu sytuacjach analityka interesuje też kwestia poniżej (powyżej) jakiej wartości znajduje się inna część pomiarów (1%, 5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych centylami. Centyl rzędu p (c p ) (0 < p < 1) jest to taka liczba, że poniżej niej znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część pomiarów. Wartość p jest też często podawana w procentach.

Klasyfikacja centyli Niektóre centyle, z uwagi na popularność zastosować mają swoje własne nazwy: c 50 to mediana; c 25 to kwartyl dolny (Q 25 ) a c 75 to kwartyl górny (Q 75 ); c 10, c 20,, c 90 to tak zwane decyle (oznaczane też d 1,, d 9 ).

Statystyki opisowe w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).

Przykład Analiza dotyczy zbioru danych Środki z UE. Celem analizy jest opis poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego w latach 2006-2009 (dla każdego roku osobno). Podczas rozwiązywania przykładu wykorzystane zostaną zarówno poznane uprzednio narzędzia grupowania danych jak i statystyki opisowe. PORÓWNYWALNOŚĆ DANYCH Dane o wykorzystaniu środków z UE zawarte w pliku Środki z UE należy najpierw doprowadzić do porównywalności dokonać przeliczenie na jednego mieszkańca. W tym celu dodajemy na końcu arkusza cztery nowe kolumny, nazywamy je odpowiednio: Środki z UE na 1 mieszk. (2006),, Środki z UE na 1 mieszk. (2009) i wyznaczamy ich wartości za pomocą odpowiednich formuł (wskazówka: dla roku 2006 formuła będzie mieć postać: =v22/v2

Wyznaczanie miar położenia W oknie STATYSTYKI OPISOWE wybieramy nowoutworzone zmienne, w zakładce WIĘCEJ ustalamy zakres statystyk opisowych do wyznaczenia.

Wyniki Wywołujemy tabelę wynikową, dokonujemy formatowania wyników a następnie ich interpretacji. Na podstawie wartości średniej i mediany stwierdzamy, iż wskaźnik wykorzystania środków unijnych w roku 2009 był wyższy niż w pozostałych latach. Porównując wartość średniej i mediany stwierdzamy, iż rozkład wskaźnika wykorzystania środków z UE na 1 mieszk. jest nierównomierny średnia jest większa od mediany, a więc istnieje relatywnie duża liczba gmin o niskim poziomie wykorzystania środków i nieliczni liderzy. Na podstawie wartości modalnej, minimum oraz liczności modalnej stwierdzamy, iż udział gmin nie pozyskujących żadnych środków z UE jest w kolejnych latach coraz niższy W 2006 w co czwartej gminie pozyskano więcej niż 47 złotych na osobę zaś w 2009 wskaźnik ten wyniósł już 177 zł. W 2009 roku 10% najlepszych gmin charakteryzowało się poziomem wykorzystania środków z UE na poziomie co najmniej 362 zł Poziom wskaźnika w najlepszej gminie był w roku 2009 zdecydowanie wyższy niż w poprzednich latach

Ilustracja graficzna wykres ramka-wąsy Wartości statystyk opisowych można zilustrować za pomocą wykresu typu ramka-wąsy. Wykres ten w podstawowej formie można wykonać w oknie analiz STATYSTYKI OPISOWE. W zakładce opcje ustalamy typ wykresu ramka-wąsy: W zakładce podstawowe wywołujemy wykres, który po sformatowaniu wygląda tak

Niekonwencjonalne grupowanie danych Inny sposób opisu danych może polegać na zgrupowaniu gmin ze względu na poziom środków z UE i podaniu liczności każdej z takich grup w latach 2006-2009. Biorąc pod uwagę fakt dużej asymetrii wartości wskaźnika, zastosowano przedziały o nierównych długościach: < 10 zł; [10 zł; 50 zł); [50 zł; 100 zł); [100 zł; 200 zł); 200 zł Możliwość grupowania w przedziałach o niejednakowej długości jest dostępna w programie STATISTICA przy okazji tworzenia wykresów.

Histogramy wielokrotne i opcja granice Histogramy wielokrotne pozwalają na przedstawienie rozkładu kilku cech jednocześnie warunkiem wszakże jest, że są to cechy posiadające zbliżony zakres (i znaczenie) wartości. Wybieramy polecenie WYKRESY / WYKRESY 2W / HISTOGRAMY po czym wybieramy wskaźniki wykorzystania z lat 2006-2009 jako zmienne i ustawiamy opcję wykresu na WIELOKROTNY. W zakładce WIĘCEJ ustawiamy sposób grupowania (PRZEDZIAŁY) na GRANICE i za pomocą przycisku określ granice wprowadzamy wartości odpowiadające przedziałom zaproponowanym na poprzedniej stronie.

Wykres Po wywołaniu wykresu i sformatowaniu uzyskujemy kompletną prezentację graficzną wraz z informacjami o liczbie gmin znajdujących się w poszczególnych kategoriach. Zaletą programu STATISTICA jest możliwość modyfikacji sposobu tworzenia wykresu. Jeżeli na przykład stwierdzilibyśmy, że chcemy dodać jeszcze jeden przedział dla wskaźnika wykorzystania środków z UE możemy to bez trudu uczynić. W tym celu wywołujemy wszystkie opcje wykresu a następnie zakładkę HISTOGRAM i modyfikujemy wprowadzone granice.

Jak się to ma do zasad podanych na wykładzie nr 3? Na wykładzie nr 3 podano ogólne zasady opisywania danych przekrojowych (i innych typów danych). Wynikało z nich, że dane przekrojowe najlepiej opisywać w postaci szeregów szczegółowych uporządkowanych. Jednakże drugim czynnikiem wpływającym na dobór metody opisu danych statystycznych jest ich liczność. W przypadku gmin woj. podkarpackiego, których jest 159 (od roku 2010 160), prezentacja wszystkich danych w postaci szeregu uporządkowanego nie jest możliwa. Dlatego też posłużono się dodatkowo statystykami opisowymi oraz metodami grupowania danych. Nie znaczy to jednak, że wykorzystanie szeregu uporządkowanego jest niemożliwe

Wykres słupkowy pokażmy najlepszych Przedstawienie w formie graficznej, czy tabelarycznej, wartości wskaźnika wykorzystania środków z UE na jednego mieszkańca dla wszystkich gmin jest niemożliwe, gdyż taka prezentacja będzie po prostu nieczytelna. Zasadne wydaje się natomiast zaprezentowanie poziomu wskaźnika dla pewnej liczby (np. 25) najlepszych gmin. Dokonamy takiej prezentacji dla danych z roku 2009. W tym celu sortujemy dane malejąco według wartości wskaźnika z roku 2009, następnie wybieramy polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWE i wybieramy odpowiednią zmienną. Aby utworzyć wykres tylko dla 25 najlepszych gmin (aktualnie przypadków nr 1-25 w arkuszu danych) korzystamy z narzędzia selekcji przypadków, ustawiając warunki w następujący sposób:

Wykres słupkowy pokażmy najlepszych W ramach ćwiczeń proszę sporządzić analogiczne prezentacje dla danych z roku 2006, 2007 i 2008.

Miary zmienności i asymetrii W wielu sytuacjach wyznaczenie samych miar położenia nie pozwala w wyczerpujący sposób opisać rozkładu wartości cechy liczbowej. W takiej sytuacji można zastosować dodatkowo dwie grupy miar: miary zmienności; miary asymetrii.

Miary zmienności Miary zmienności pozwalają ocenić nie tylko przeciętny poziom danej cechy lecz także ich rozproszenie wokół wartości przeciętnej. Do najbardziej popularnych miar zmienności należą: wariancja i odchylenie standardowe; współczynnik zmienności; rozstęp; rozstęp kwartylowy.

Odchylenie standardowe Odchylenie standardowe jest wyliczane jako przeciętne odchylenie pomiarów od wartości średniej. Poniżej opisano szczegółowo procedurę wyznaczania odchylenia standardowego. Wartość cechy (x i ) 15 12 12 13 8 x 1 x 2 x 3 x 4 x 5 x 12 Odchylenia od średniej 3 0 0 1-4 Suma odchyleń od średniej zawsze wynosi 0 Kwadraty odchyleń od średniej 9 0 0 1 16 Średnie kwadratowe odchylenie od średniej nazywane jest wariancją (s 2 ) a jej pierwiastek odchyleniem standardowym (s). s 2 9 0 0 1 16 5 5 s 9 0 0 1 16 5 5 2,24

Właściwości odchylenia standardowego Znajomość odchylenia standardowego i wartości średniej pozwala oszacować położenie większości pomiarów. Dla bardzo wielu danych (co wynika z odpowiednich twierdzeń matematycznych) są bowiem spełnione relacje. ( x s, x s) Przedział zwany typowym przedziałem zmienności zawiera zwykle ok. 68% pomiarów. ( x 2s, x 2s) Przedział zwany rozszerzonym przedziałem zmienności zawiera zwykle ok. 95% pomiarów. ( x 3s, x 3s) Przedział zawiera zwykle ok. 99,7% pomiarów, czyli niemal wszystkie wartości. Pomiary wykraczające poza ten zakres są często określane mianem obserwacji odstających (nietypowych) i niejednokrotnie eliminuje się je z analiz, gdyż mogą zaburzać badane relacje. Powyższe stwierdzenia są prawdziwe, gdy dane rozkładają się w sposób symetryczny (lub doń zbliżony) wokół wartości średniej. Dla tzw. rozkładów asymetrycznych, liczba obserwacji zawierających się w podanych wyżej przedziałach może być radykalnie inna.

Współczynnik zmienności W przypadku porównywania zmienności wielkości wyrażonych w różnych jednostkach (na przykład dochody mieszkańców różnych państw) albo charakteryzujących się różnymi poziomami wartości średniej, konieczne jest wyznaczenie względnego poziomu zmienności. W tym celu wyznacza się tzw. współczynnik zmienności (V). s V 100% x

Rozstęp kwartylowy Na poprzednim wykładzie pokazano jak na wartość średnią wpływa nawet jedna obserwacja nietypowa (odstająca). Również odchylenie standardowe, w przypadku występowania obserwacji nietypowych może przybierać bardzo duże wartości a zakres typowego przedziału zmienności pozbawiony będzie sensu. W takiej sytuacji wyznaczać można tzw. rozstęp kwartylowy, który definiowany jest jako różnica między kwartylem górnym i dolnym. R Q Q 75 Q 25

Inne miary zmienności Bardzo elementarną miarą zmienności, która jednakże bywa niejednokrotnie używana do opisu danych jest rozstęp, określany jako różnica pomiędzy wartością maksymalną i minimalną. R x max x min Inne miary zmienności (na przykład służące do badania zróżnicowania dochodów) są opierane na stosunku wybranych centyli. c / c 99 1 xmax / x min Relacja zarobków 1% najbogatszych i 1% najbiedniejszych członków danego społeczeństwa Poziom zarobków w najbogatszym mieście wojewódzkim w Polsce do zarobków w mieście najbiedniejszym

Miary zmienności w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).

Przykład (plik danych: Wskaźniki UE-27) Celem analizy będzie porównanie zmienności w poziomie PKB na 1 mieszk. w państwach Unii Europejskiej w roku 2000 i 2007. W szczególności rozważona zostanie kwestia zróżnicowania pomiędzy poziomem PKB w poszczególnych państwach. Porównywalność danych wszystkie dane mają charakter wskaźników, więc można je analizować bez żadnych wstępnych przekształceń W oknie analizy STATYSTYKI OPISOWE wybieramy zmienne zawierające informacje o PKB per capita w roku 2000 i 2007 a następnie w zakładce WIĘCEJ ustalamy listę statystyk do policzenia, wybierając: średnią; medianę; minimum i maksimum; odchylenie standardowe; współczynnik zmienności; rozstęp kwartylowy.

Wyniki Po wywołaniu wyników i ich wstępnym sformatowaniu MIARY POŁOŻENIA MIARY ZMIENNOŚCI Na podstawie wartości średniej i mediany stwierdzamy, że PKB per capita wzrósł w państwach UE w latach 2000-2007 (co jest niemal oczywiste i nie jest zbyt odkrywczym wnioskiem). Co ważniejsze zauważamy dosyć dużą różnicę pomiędzy wartością mediany i średniej, co sugeruje, że w UE występują państwa zdecydowanie odstające in plus od pozostałych, jeśli chodzi o PKB. Na podstawie oglądu minimum i maksimum stwierdzamy, że PKB per capita w najgorszym państwie wzrosło ponad 2 razy, zaś w najbogatszym mniej więcej 1,5 razy. Czyli tempo bogacenia się społeczeństw biedniejszych było szybsze co jest zjawiskiem pożądanym Analiza miar zmienności pozwala stwierdzić, iż nierównomierność w poziomie rozwoju państw UE pomiędzy rokiem 2000 i 2007 nieco się zmniejszyła.

Prezentacja graficzna Uzupełnieniem wartości statystyk opisowych może być prezentacja poziomu PKB w formie szeregu uporządkowanego, przedstawionego za pomocą wykresów słupkowych lub liniowych.

Prezentacja graficzna Jeżeli interesuje nas tylko ogólna informacja o rozkładzie PKB per capita w grupie państw UE możemy zgrupować dane w formie histogramu.

Asymetria rozkładu danych W analizie statystycznej istnieją pewne procedury, w których wymagane jest aby dane miały określony typ rozkładu (lub przynajmniej były doń zbliżone). Na przykład wyznaczanie omówionego wcześniej typowego przedziału zmienności traci sens dla danych wykazujących bardzo dużą asymetrię. Dlatego też wskazana jest umiejętność oceny poziomu asymetrii za pomocą odpowiedniego współczynnika. Informacja o rodzaju asymetrii jest też interesująca sama w sobie pozwala lepiej zrozumieć zjawisko opisywane za pomocą cechy liczbowej. Dla przykładu, podczas badania poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego może nas szczególnie interesować, czy rozkład wskaźnika uzyskanych środków na 1 mieszk. jest symetryczny.

Graficzna analiza asymetrii (1) SILNA ASYMETRIA PRAWOSTRONNA Średnia = 299 zł Mediana = 181 zł Skośność = 2,46 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład wykorzystania środków z UE w gminach woj. podkarpackiego charakteryzuje się bardzo silną asymetrię prawostronną (jest wydłużony w prawą stronę). W praktyce oznacza to, że występują pojedyncze wartości wysokie i bardzo wysokie, nieliczne wartości na poziomie średnim i zdecydowana większość wartości na poziomie niskim i bardzo niskim (w większości gmin pozyskano niewiele środków z UE)

Graficzna analiza asymetrii (2) ROZKŁAD (w przybliżeniu) SYMETRYCZNY Średnia = 11,0 Mediana = 11,1 Skośność = 0,08 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład wskaźnika bezrobocia wśród mężczyzn w gminach woj. podkarpackiego jest bardzo zbliżony do symetrycznego. Średni wskaźnik bezrobocia i wartość środkowa są niemal identyczne. Podobna liczba gmin charakteryzuje się wysokim i niskim bezrobociem.

Graficzna analiza asymetrii (3) ROZKŁAD ASYMETRYCZNY LEWOSTRONNIE Średnia = 74,5 Mediana = 76,7 Skośność = -1,02 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład oczekiwanego czasu trwania życia mężczyzn z państwach UE w 2007 roku charakteryzował się asymetrią lewostronną w większości państw wskaźnik ten jest na wysokim bądź bardzo wysokim poziomie a w nielicznych jest na poziomie średnim bądź niskim.

Interpretacja wskaźnika skośności A 0 Współczynnik skośności równy w przybliżeniu 0 pozwala stwierdzić, iż mamy do czynienia z symetrycznym rozkładem danych. Wtedy średnia i wartość środkowa są do siebie zbliżone i można je stosować zamiennie. x Me A > 0 Współczynnik skośności większy od 0 oznacza asymetrię prawostronną. O silnej asymetrii prawostronnej będziemy mówić, gdy A > 1. Wartość średnia jest wyższa niż mediana. x Me A < 0 Współczynnik skośności mniejszy od 0 oznacza asymetrię lewostronną. O silnej asymetrii lewostronnej będziemy mówić, gdy A < -1. Wartość średnia jest niższa niż mediana. x Me