Wykład 5: Statystyki opisowe (część 2)

Podobne dokumenty
Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Wykład 4: Statystyki opisowe (część 1)

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Opisowa analiza zjawisk masowych

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

1 Podstawy rachunku prawdopodobieństwa

You created this PDF from an application that is not licensed to print to novapdf printer (

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Parametry statystyczne

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Próba własności i parametry

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Miary statystyczne w badaniach pedagogicznych

Pozyskiwanie wiedzy z danych

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka matematyczna dla leśników

Statystyczne metody analizy danych

Statystyki opisowe i szeregi rozdzielcze

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Podstawowe definicje statystyczne

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Xi B ni B

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Przedmiot statystyki. Graficzne przedstawienie danych.

Biostatystyka, # 1 /Weterynaria I/

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Analiza zróżnicowania, asymetrii i koncentracji

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zmienne losowe. Statystyka w 3

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

W1. Wprowadzenie. Statystyka opisowa

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Opisowa analiza struktury zjawisk statystycznych

Wykład 5: Analiza dynamiki szeregów czasowych

Podstawy statystyki - ćwiczenia r.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Laboratorium 3 - statystyka opisowa

Analiza statystyczna w naukach przyrodniczych

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Inteligentna analiza danych

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Zajęcia 1. Statystyki opisowe

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki

Mieczysław Kowerski. Program Polska-Białoruś-Ukraina narzędziem konwergencji gospodarczej województwa lubelskiego

4.2. Statystyczne opracowanie zebranego materiału

Statystyka opisowa- cd.

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Zadania ze statystyki, cz.6

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Statystyka Matematyczna Anna Janicka

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Transkrypt:

Wykład 5: Statystyki opisowe (część 2)

Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz centyle). W wielu sytuacjach wyznaczenie samych miar położenia nie pozwala w wyczerpujący sposób opisać rozkładu wartości cechy liczbowej. W takiej sytuacji można wyznaczyć dodatkowo dwie grupy miar: miary zmienności; miary asymetrii.

Miary zmienności Miary zmienności pozwalają ocenić nie tylko przeciętny poziom danej cechy lecz także ich rozproszenie wokół wartości przeciętnej. Do najbardziej popularnych miar zmienności należą: wariancja i odchylenie standardowe; współczynnik zmienności; rozstęp; rozstęp kwartylowy.

Odchylenie standardowe Odchylenie standardowe jest wyliczane jako przeciętne odchylenie pomiarów od wartości średniej. Poniżej opisano szczegółowo procedurę wyznaczania odchylenia standardowego. Wartość cechy 15 12 12 x 12 (x i ) x 1 x 2 x 3 13 x 4 8 x 5 Odchylenia od średniej 3 0 0 1-4 Suma odchyleń od średniej zawsze wynosi 0 Kwadraty odchyleń od średniej 9 0 0 1 16 Średnie kwadratowe odchylenie od średniej nazywane jest wariancją (s 2 ) a jej pierwiastek odchyleniem standardowym (s). s 2 9 0 0 1 16 5 5 s 9 0 0 1 16 5 5 2,24

Właściwości odchylenia standardowego Znajomość odchylenia standardowego i wartości średniej pozwala oszacować położenie większości pomiarów. Dla bardzo wielu danych (co wynika z odpowiednich twierdzeń matematycznych) są bowiem spełnione relacje. ( x s, x s) Przedział zwany typowym przedziałem zmienności zawiera zwykle ok. 68% pomiarów. ( x 2s, x 2s) Przedział zwany rozszerzonym przedziałem zmienności zawiera zwykle ok. 95% pomiarów. ( x 3s, x 3s) Przedział zawiera zwykle ok. 99,7% pomiarów, czyli niemal wszystkie wartości. Pomiary wykraczające poza ten zakres są często określane mianem obserwacji odstających (nietypowych) i niejednokrotnie eliminuje się je z analiz, gdyż mogą zaburzać badane relacje. Powyższe stwierdzenia są prawdziwe, gdy dane rozkładają się w sposób symetryczny (lub doń zbliżony) wokół wartości średniej. Dla tzw. rozkładów asymetrycznych, liczba obserwacji zawierających się w podanych wyżej przedziałach może być radykalnie inna.

Współczynnik zmienności W przypadku porównywania zmienności wielkości wyrażonych w różnych jednostkach (na przykład dochody mieszkańców różnych państw) albo charakteryzujących się różnymi poziomami wartości średniej, konieczne jest wyznaczenie względnego poziomu zmienności. W tym celu wyznacza się tzw. współczynnik zmienności (V). s V 100% x

Rozstęp kwartylowy Na poprzednim wykładzie pokazano jak na wartość średnią wpływa nawet jedna obserwacja nietypowa (odstająca). Również odchylenie standardowe, w przypadku występowania obserwacji nietypowych może przybierać bardzo duże wartości a zakres typowego przedziału zmienności pozbawiony będzie sensu. W takiej sytuacji wyznaczać można tzw. rozstęp kwartylowy, który definiowany jest jako różnica między kwartylem górnym i dolnym. R Q Q 75 Q 25

Inne miary zmienności Bardzo elementarną miarą zmienności, która jednakże bywa niejednokrotnie używana do opisu danych jest rozstęp, określany jako różnica pomiędzy wartością maksymalną i minimalną. R x max x min Inne miary zmienności (na przykład służące do badania zróżnicowania dochodów) są opierane na stosunku wybranych centyli. c / c 99 1 xmax / x min Relacja zarobków 1% najbogatszych i 1% najbiedniejszych członków danego społeczeństwa Poziom zarobków w najbogatszym mieście wojewódzkim w Polsce do zarobków w mieście najbiedniejszym

Miary zmienności w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).

Przykład (plik danych: Wskaźniki UE-27) Celem analizy będzie porównanie zmienności w poziomie PKB na 1 mieszk. w państwach Unii Europejskiej w roku 2000 i 2007. W szczególności rozważona zostanie kwestia zróżnicowania pomiędzy poziomem PKB w poszczególnych państwach. Porównywalność danych wszystkie dane mają charakter wskaźników, więc można je analizować bez żadnych wstępnych przekształceń W oknie analizy STATYSTYKI OPISOWE wybieramy zmienne zawierające informacje o PKB per capita w roku 2000 i 2007 a następnie w zakładce WIĘCEJ ustalamy listę statystyk do policzenia, wybierając: średnią; medianę; minimum i maksimum; odchylenie standardowe; współczynnik zmienności; rozstęp kwartylowy.

Wyniki Po wywołaniu wyników i ich wstępnym sformatowaniu MIARY POŁOŻENIA MIARY ZMIENNOŚCI Na podstawie wartości średniej i mediany stwierdzamy, że PKB per capita wzrósł w państwach UE w latach 2000-2007 (co jest niemal oczywiste i nie jest zbyt odkrywczym wnioskiem). Co ważniejsze zauważamy dosyć dużą różnicę pomiędzy wartością mediany i średniej, co sugeruje, że w UE występują państwa zdecydowanie odstające in plus od pozostałych, jeśli chodzi o PKB. Na podstawie oglądu minimum i maksimum stwierdzamy, że PKB per capita w najgorszym państwie wzrosło ponad 2 razy, zaś w najbogatszym mniej więcej 1,5 razy. Czyli tempo bogacenia się społeczeństw biedniejszych było szybsze co jest zjawiskiem pożądanym Analiza miar zmienności pozwala stwierdzić, iż nierównomierność w poziomie rozwoju państw UE pomiędzy rokiem 2000 i 2007 nieco się zmniejszyła.

Prezentacja graficzna Uzupełnieniem wartości statystyk opisowych może być prezentacja poziomu PKB w formie szeregu uporządkowanego, przedstawionego za pomocą wykresów słupkowych lub liniowych.

Prezentacja graficzna Jeżeli interesuje nas tylko ogólna informacja o rozkładzie PKB per capita w grupie państw UE możemy zgrupować dane w formie histogramu.

Asymetria rozkładu danych W analizie statystycznej istnieją pewne procedury, w których wymagane jest aby dane miały określony typ rozkładu (lub przynajmniej były doń zbliżone). Na przykład wyznaczanie omówionego wcześniej typowego przedziału zmienności traci sens dla danych wykazujących bardzo dużą asymetrię. Dlatego też wskazana jest umiejętność oceny poziomu asymetrii za pomocą odpowiedniego współczynnika. Informacja o rodzaju asymetrii jest też interesująca sama w sobie pozwala lepiej zrozumieć zjawisko opisywane za pomocą cechy liczbowej. Dla przykładu, podczas badania poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego może nas szczególnie interesować, czy rozkład wskaźnika uzyskanych środków na 1 mieszk. jest symetryczny.

Graficzna analiza asymetrii (1) SILNA ASYMETRIA PRAWOSTRONNA Średnia = 299 zł Mediana = 181 zł Skośność = 2,46 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład wykorzystania środków z UE w gminach woj. podkarpackiego charakteryzuje się bardzo silną asymetrię prawostronną (jest wydłużony w prawą stronę). W praktyce oznacza to, że występują pojedyncze wartości wysokie i bardzo wysokie, nieliczne wartości na poziomie średnim i zdecydowana większość wartości na poziomie niskim i bardzo niskim (w większości gmin pozyskano niewiele środków z UE)

Graficzna analiza asymetrii (2) ROZKŁAD (w przybliżeniu) SYMETRYCZNY Średnia = 11,0 Mediana = 11,1 Skośność = 0,08 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład wskaźnika bezrobocia wśród mężczyzn w gminach woj. podkarpackiego jest bardzo zbliżony do symetrycznego. Średni wskaźnik bezrobocia i wartość środkowa są niemal identyczne. Podobna liczba gmin charakteryzuje się wysokim i niskim bezrobociem.

Graficzna analiza asymetrii (3) ROZKŁAD ASYMETRYCZNY LEWOSTRONNIE Średnia = 74,5 Mediana = 76,7 Skośność = -1,02 Miara asymetrii nazwana jest w programie STATISTICA skośnością i można ją wyznaczyć za pomocą analizy STATYSTYKI OPISOWE. Rozkład oczekiwanego czasu trwania życia mężczyzn z państwach UE w 2007 roku charakteryzował się asymetrią lewostronną w większości państw wskaźnik ten jest na wysokim bądź bardzo wysokim poziomie a w nielicznych jest na poziomie średnim bądź niskim.

Interpretacja wskaźnika skośności A 0 Współczynnik skośności równy w przybliżeniu 0 pozwala stwierdzić, iż mamy do czynienia z symetrycznym rozkładem danych. Wtedy średnia i wartość środkowa są do siebie zbliżone i można je stosować zamiennie. x Me A > 0 Współczynnik skośności większy od 0 oznacza asymetrię prawostronną. O silnej asymetrii prawostronnej będziemy mówić, gdy A > 1. Wartość średnia jest wyższa niż mediana. x Me A < 0 Współczynnik skośności mniejszy od 0 oznacza asymetrię lewostronną. O silnej asymetrii lewostronnej będziemy mówić, gdy A < -1. Wartość średnia jest niższa niż mediana. x Me