Wykład 4: Statystyki opisowe (część 1)

Podobne dokumenty
Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 5: Statystyki opisowe (część 2)

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

You created this PDF from an application that is not licensed to print to novapdf printer (

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Wykład 3: Prezentacja danych statystycznych

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka Matematyczna Anna Janicka

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyki opisowe i szeregi rozdzielcze

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

1 Podstawy rachunku prawdopodobieństwa

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wprowadzenie do analizy dyskryminacyjnej

Statystyka. Opisowa analiza zjawisk masowych

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Parametry statystyczne

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

W1. Wprowadzenie. Statystyka opisowa

Wykład 1: O statystyce i analizie danych. Arkusz danych w programie STATISTICA

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Podstawowe definicje statystyczne

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Analiza struktury i przeciętnego poziomu cechy

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyczne metody analizy danych

Próba własności i parametry

Miary statystyczne w badaniach pedagogicznych

Wykład 2: Arkusz danych w programie STATISTICA

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Pozyskiwanie wiedzy z danych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Wykład 5: Analiza dynamiki szeregów czasowych

Laboratorium 3 - statystyka opisowa

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Przedmiot statystyki. Graficzne przedstawienie danych.

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Podstawy statystyki - ćwiczenia r.

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Graficzna prezentacja danych statystycznych

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Opisowa analiza struktury zjawisk statystycznych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Dopasowywanie modelu do danych

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Sposoby prezentacji problemów w statystyce

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Rozkład materiału nauczania

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr 341[02]/MEN/ klasa 3 TE

ZARZĄDZANIE DANYMI W STATISTICA

Wykład 6/7/8: Graficzna analiza danych

Statystyka opisowa- cd.

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Statystyka opisowa. Robert Pietrzykowski.

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Wykład 1: O statystyce i analizie danych

Transkrypt:

Wykład 4: Statystyki opisowe (część 1)

Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można scharakteryzować rozkład wartości cechy liczbowej w badanej zbiorowości. Poszczególne rodzaje statystyk opisują: przeciętny poziom wartości cechy w badanej zbiorowości (miary położenia); rozproszenie danych (miary zmienności); asymetrię rozkładu danych (miary asymetrii).

Podział statystyk opisowych ze względu na sposób wyznaczania Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - w związku z tym są nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, centyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.

Miary położenia Do najczęściej wyznaczanych miar położenia, zawierających informację o przeciętnym poziomie wartości danych cechy w badanej zbiorowości należą: średnia arytmetyczna; inne rodzaje średnich (harmoniczna, geometryczna); wartość najmniejsza i największa (minimum i maksimum); wartość środkowa mediana; wartość najczęstsza moda; kwartyle; centyle.

Średnia arytmetyczna Średnia arytmetyczna jest najbardziej popularną miarą przeciętnego poziomu cechy liczbowej. Poniżej opisano sposób wyznaczania średniej dla szczegółowego szeregu statystycznego. Wartość cechy (x i ) 15 x 1 10 x 2 11 x 3 9 x 4 7 4 x n-3 15 x n-2 13 x n-1 14 x n x x1 xn 1 n n n i 1 x i x 15 10 11 9 7 4 15 13 14 9?

Mediana wartość środkowa Alternatywną metodą opisu danych liczbowych jest wartość środkowa (mediana), która odpowiada poziomu jednostki znajdującej się w środku badanej zbiorowości, jeśli chodzi o poziom rozważanej cechy. Aby wyznaczyć medianę szereg szczegółowy należy uporządkować (rosnąco) i wskazać wartość środkowego obiektu. Wartość cechy (x i ) 4 x 1 7 x 2 9 x 3 10 x 4 11 13 x n-3 14 x n-2 15 x n-1 15 x n Uproszczona definicja i interpretacja mediany może polegać na stwierdzeniu, iż 50% pomiarów jest od niej mniejszych oraz 50% pomiarów jest większych od mediany. Me

Co jest lepsze mediana czy średnia? Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą też się bardzo wyraźnie różnić. W praktyce zalecamy wyznaczanie obu tych wartości jednocześnie i wyciąganie wniosków na podstawie ich jednoczesnego oglądu. 1000 zł 1200 zł 1400 zł 1700 zł 30000 zł Zarobki w pewnej firmie Średnia = 7060 zł Mediana =1400 zł Po podwyżce płac 1000 zł 1200 zł 1400 zł 1700 zł 60000 zł Średnia = 13060 zł Mediana =1400 zł Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość jeżeli tylko można dowiedz się także ile wynosi mediana.

Centyle Mediana jest wartością, którą znajdujemy w wyniku poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej wartości sytuuje się 50% pomiarów. W wielu sytuacjach analityka interesuje też kwestia poniżej (powyżej) jakiej wartości znajduje się inna część pomiarów (1%, 5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych centylami. Centyl rzędu p (c p ) (0 < p < 1) jest to taka liczba, że poniżej niej znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część pomiarów. Wartość p jest też często podawana w procentach.

Klasyfikacja centyli Niektóre centyle, z uwagi na popularność zastosować mają swoje własne nazwy: c 50 to mediana; c 25 to kwartyl dolny (Q 25 ) a c 75 to kwartyl górny (Q 75 ); c 10, c 20,, c 90 to tak zwane decyle (oznaczane też d 1,, d 9 ).

Statystyki opisowe w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).

Przykład Analiza dotyczy zbioru danych Środki z UE. Celem analizy jest opis poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego w latach 2006-2009 (dla każdego roku osobno). Podczas rozwiązywania przykładu wykorzystane zostaną zarówno poznane uprzednio narzędzia grupowania danych jak i statystyki opisowe. PORÓWNYWALNOŚĆ DANYCH Dane o wykorzystaniu środków z UE zawarte w pliku Środki z UE należy najpierw doprowadzić do porównywalności dokonać przeliczenie na jednego mieszkańca. W tym celu dodajemy na końcu arkusza cztery nowe kolumny, nazywamy je odpowiednio: Środki z UE na 1 mieszk. (2006),, Środki z UE na 1 mieszk. (2009) i wyznaczamy ich wartości za pomocą odpowiednich formuł (wskazówka: dla roku 2006 formuła będzie mieć postać: =v22/v2

Wyznaczanie miar położenia W oknie STATYSTYKI OPISOWE wybieramy nowoutworzone zmienne, w zakładce WIĘCEJ ustalamy zakres statystyk opisowych do wyznaczenia.

Wyniki Wywołujemy tabelę wynikową, dokonujemy formatowania wyników a następnie ich interpretacji. Na podstawie wartości średniej i mediany stwierdzamy, iż wskaźnik wykorzystania środków unijnych w roku 2009 był wyższy niż w pozostałych latach. Porównując wartość średniej i mediany stwierdzamy, iż rozkład wskaźnika wykorzystania środków z UE na 1 mieszk. jest nierównomierny średnia jest większa od mediany, a więc istnieje relatywnie duża liczba gmin o niskim poziomie wykorzystania środków i nieliczni liderzy. Na podstawie wartości modalnej, minimum oraz liczności modalnej stwierdzamy, iż udział gmin nie pozyskujących żadnych środków z UE jest w kolejnych latach coraz niższy W 2006 w co czwartej gminie pozyskano więcej niż 47 złotych na osobę zaś w 2009 wskaźnik ten wyniósł już 177 zł. W 2009 roku 10% najlepszych gmin charakteryzowało się poziomem wykorzystania środków z UE na poziomie co najmniej 362 zł Poziom wskaźnika w najlepszej gminie był w roku 2009 zdecydowanie wyższy niż w poprzednich latach

Ilustracja graficzna wykres ramka-wąsy Wartości statystyk opisowych można zilustrować za pomocą wykresu typu ramka-wąsy. Wykres ten w podstawowej formie można wykonać w oknie analiz STATYSTYKI OPISOWE. W zakładce opcje ustalamy typ wykresu ramka-wąsy: W zakładce podstawowe wywołujemy wykres, który po sformatowaniu wygląda tak

Niekonwencjonalne grupowanie danych Inny sposób opisu danych może polegać na zgrupowaniu gmin ze względu na poziom środków z UE i podaniu liczności każdej z takich grup w latach 2006-2009. Biorąc pod uwagę fakt dużej asymetrii wartości wskaźnika, zastosowano przedziały o nierównych długościach: < 10 zł; [10 zł; 50 zł); [50 zł; 100 zł); [100 zł; 200 zł); 200 zł Możliwość grupowania w przedziałach o niejednakowej długości jest dostępna w programie STATISTICA przy okazji tworzenia wykresów.

Histogramy wielokrotne i opcja granice Histogramy wielokrotne pozwalają na przedstawienie rozkładu kilku cech jednocześnie warunkiem wszakże jest, że są to cechy posiadające zbliżony zakres (i znaczenie) wartości. Wybieramy polecenie WYKRESY / WYKRESY 2W / HISTOGRAMY po czym wybieramy wskaźniki wykorzystania z lat 2006-2009 jako zmienne i ustawiamy opcję wykresu na WIELOKROTNY. W zakładce WIĘCEJ ustawiamy sposób grupowania (PRZEDZIAŁY) na GRANICE i za pomocą przycisku określ granice wprowadzamy wartości odpowiadające przedziałom zaproponowanym na poprzedniej stronie.

Wykres Po wywołaniu wykresu i sformatowaniu uzyskujemy kompletną prezentację graficzną wraz z informacjami o liczbie gmin znajdujących się w poszczególnych kategoriach. Zaletą programu STATISTICA jest możliwość modyfikacji sposobu tworzenia wykresu. Jeżeli na przykład stwierdzilibyśmy, że chcemy dodać jeszcze jeden przedział dla wskaźnika wykorzystania środków z UE możemy to bez trudu uczynić. W tym celu wywołujemy wszystkie opcje wykresu a następnie zakładkę HISTOGRAM i modyfikujemy wprowadzone granice.

Jak się to ma do zasad podanych na wykładzie nr 3? Na wykładzie nr 3 podano ogólne zasady opisywania danych przekrojowych (i innych typów danych). Wynikało z nich, że dane przekrojowe najlepiej opisywać w postaci szeregów szczegółowych uporządkowanych. Jednakże drugim czynnikiem wpływającym na dobór metody opisu danych statystycznych jest ich liczność. W przypadku gmin woj. podkarpackiego, których jest 159 (od roku 2010 160), prezentacja wszystkich danych w postaci szeregu uporządkowanego nie jest możliwa. Dlatego też posłużono się dodatkowo statystykami opisowymi oraz metodami grupowania danych. Nie znaczy to jednak, że wykorzystanie szeregu uporządkowanego jest niemożliwe

Wykres słupkowy pokażmy najlepszych Przedstawienie w formie graficznej, czy tabelarycznej, wartości wskaźnika wykorzystania środków z UE na jednego mieszkańca dla wszystkich gmin jest niemożliwe, gdyż taka prezentacja będzie po prostu nieczytelna. Zasadne wydaje się natomiast zaprezentowanie poziomu wskaźnika dla pewnej liczby (np. 25) najlepszych gmin. Dokonamy takiej prezentacji dla danych z roku 2009. W tym celu sortujemy dane malejąco według wartości wskaźnika z roku 2009, następnie wybieramy polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWE i wybieramy odpowiednią zmienną. Aby utworzyć wykres tylko dla 25 najlepszych gmin (aktualnie przypadków nr 1-25 w arkuszu danych) korzystamy z narzędzia selekcji przypadków, ustawiając warunki w następujący sposób:

Wykres słupkowy pokażmy najlepszych W ramach ćwiczeń proszę sporządzić analogiczne prezentacje dla danych z roku 2006, 2007 i 2008.