Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)



Podobne dokumenty
Wykład 3: Prezentacja danych statystycznych

Wykład 4: Statystyki opisowe (część 1)

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Wykład 5: Statystyki opisowe (część 2)

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

You created this PDF from an application that is not licensed to print to novapdf printer (

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Pozyskiwanie wiedzy z danych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Opisowa analiza zjawisk masowych

W1. Wprowadzenie. Statystyka opisowa

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Analiza struktury i przeciętnego poziomu cechy

Miary statystyczne w badaniach pedagogicznych

Parametry statystyczne

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka Matematyczna Anna Janicka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Xi B ni B

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

1 Podstawy rachunku prawdopodobieństwa

Próba własności i parametry

Statystyki opisowe i szeregi rozdzielcze

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wprowadzenie do analizy dyskryminacyjnej

Sposoby prezentacji problemów w statystyce

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Statystyczne metody analizy danych

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Podstawowe definicje statystyczne

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Przedmiot statystyki. Graficzne przedstawienie danych.

Grupowanie materiału statystycznego

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Opisowa analiza struktury zjawisk statystycznych

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Graficzna prezentacja danych statystycznych

4.2. Statystyczne opracowanie zebranego materiału

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Laboratorium 3 - statystyka opisowa

Statystyka opisowa- cd.

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka opisowa. Robert Pietrzykowski.

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Podstawowe pojęcia statystyczne

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Analiza zróżnicowania, asymetrii i koncentracji

Wykład 2: Arkusz danych w programie STATISTICA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wprowadzenie do zagadnień statystycznych

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Wykład 1: O statystyce i analizie danych. Arkusz danych w programie STATISTICA

Biostatystyka, # 1 /Weterynaria I/

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Transkrypt:

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Co na dzisiejszym wykładzie: definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH prezentacja wyników w postaci wykresów typu RAMKA-WĄSY; grupowanie danych w postaci TABEL LICZNOŚCI ilustracja wyników za pomocą HISTOGRAMÓW; konstruowanie warunków selekcji przypadków; formatowanie wyników analiz (tabel i wykresów). Dane wykorzystane na wykładzie pochodzą z baz WHO i dotyczą czasu trwania życia (kobiet i mężczyzn) w 227 państwach świata. Baza danych zawiera informacje z roku 2006 i 1996, możliwa jest więc też analiza zmian w poziomie tego bardzo ważnego wskaźnika. Dodatkową zmienną jest kolumna określająca położenie geograficzne każdego państwa (kontynent).

Oczekiwany czas trwania życia przypomnienie definicji OCZEKIWANY DALSZY CZAS TRWANIA ŻYCIA (przeciętne dalsze trwanie życia) średnia liczba lat, jaka przy poziomie umieralności z danego roku, przeżyje osoba w określonym wieku. Jeżeli wiek ten nie jest sprecyzowany, mamy do czynienia z oczekiwanym czasem trwania całego życia (od momentu urodzenia). Z powyższej definicji wynika, że miara ta ma charakter hipotetyczny i w pewien sposób syntetyzuje informacje o stanie zdrowotności danego społeczeństwa. W literaturze angielskojęzycznej (i nie tylko) stosuje się często skrót LE (ang. Life Expectancy oczekiwany czas trwania życia).

Cel analizy i metody Cel analizy: prezentacja rozkładu czasu trwania życia kobiet i mężczyzn na świecie w roku 2006, zbadanie zmian obu wielkości w latach 1996-2006, porównanie czasu trwania życia mieszkańców na poszczególnych kontynentach. Metody: opis danych za pomocą STATYSTYK OPISOWYCH i TABEL LICZNOŚCI, prezentacja wyników obu analiz w postaci wykresów typu RAMKA-WĄSY i HISTOGRAMÓW, wykorzystanie poznanych wcześniej metod prezentacji danych (WYKRESY SŁUPKOWE i ROZRZUTU), wykorzystanie SELEKCJI PRZYPADKÓW w celu zawężania zakresu prezentacji danych oraz FORMUŁ ARKUSZA DANYCH w celu wyznaczania nowych cech.

Statystyki opisowe Sposób prezentacji danych tylko dla cech liczbowych Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - są w związku z tym nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, percentyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.

Lista statystyk opisowych MIARY POŁOŻENIA średnia arytmetyczna; minimum i maksimum; mediana (wartość środkowa - połowa obserwacji nie przekracza, połowa jest większa od wartości mediany); kwartyl dolny i kwartyl górny (1/4 obserwacji nie przekracza dolnego kwartyla, 1/4 nie jest mniejsza od kwartyla górnego); percentyle (rzędu p: p-ta część obserwacji nie przekracza percentyla rzędu p); modalna (wartość najczęstsza); MIARY ZMIENNOŚCI odchylenie standardowe (najpopularniejsza miara rozproszenia danych); rozstęp (zakres wartości - różnica pomiędzy maksimum i minimum); rozstęp kwartylowy (połowa różnicy pomiędzy górnym i dolnym kwartylem); MIARY ASYMETRII skośność (współczynnik asymetrii: równa 0 to rozkład symetryczny, wartości dodatnie świadczą o przewadze obserwacji niskich i średnich, przy stosunkowo nielicznych, lecz wyraźnie większych pomiarach - tzw. asymetrią prawostronną charakteryzuje się na przykład rozkład płac).

Średnia arytmetyczna Średnia arytmetyczna jest najbardziej popularną miarą przeciętnego poziomu cechy liczbowej. Poniżej opisano sposób wyznaczania średniej dla szczegółowego szeregu statystycznego. Wartość cechy (x i ) 15 x 1 10 x 2 11 x 3 9 x 4 7 4 x n-3 15 x n-2 13 x n-1 14 x n x x1 xn 1 n n n i 1 x i x 15 10 11 9 7 4 15 13 14 9?

Mediana wartość środkowa Alternatywną metodą opisu danych liczbowych jest wartość środkowa (mediana), która odpowiada poziomu jednostki znajdującej się w środku badanej zbiorowości, jeśli chodzi o poziom rozważanej cechy. Aby wyznaczyć medianę szereg szczegółowy należy uporządkować (rosnąco) i wskazać wartość środkowego obiektu. Wartość cechy (x i ) 4 x 1 7 x 2 9 x 3 10 x 4 11 13 x n-3 14 x n-2 15 x n-1 15 x n Uproszczona definicja i interpretacja mediany może polegać na stwierdzeniu, iż 50% pomiarów jest od niej mniejszych oraz 50% pomiarów jest większych od mediany. Me

Co jest lepsze mediana czy średnia? Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą też się bardzo wyraźnie różnić. W praktyce zalecamy wyznaczanie obu tych wartości jednocześnie i wyciąganie wniosków na podstawie ich jednoczesnego oglądu. 1000 zł 1200 zł 1400 zł 1700 zł 30000 zł Zarobki w pewnej firmie Średnia = 7060 zł Mediana =1400 zł Po podwyżce płac 1000 zł 1200 zł 1400 zł 1700 zł 60000 zł Średnia = 13060 zł Mediana =1400 zł Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość jeżeli tylko można dowiedz się także ile wynosi mediana.

Centyle Mediana jest wartością, którą znajdujemy w wyniku poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej wartości sytuuje się 50% pomiarów. W wielu sytuacjach analityka interesuje też kwestia poniżej (powyżej) jakiej wartości znajduje się inna część pomiarów (1%, 5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych centylami. Centyl rzędu p (c p ) (0 < p < 1) jest to taka liczba, że poniżej niej znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część pomiarów. Wartość p jest też często podawana w procentach.

Klasyfikacja centyli Niektóre centyle, z uwagi na popularność zastosować mają swoje własne nazwy: c 50 to mediana; c 25 to kwartyl dolny (Q 25 ) a c 75 to kwartyl górny (Q 75 ); c 10, c 20,, c 90 to tak zwane decyle (oznaczane też d 1,, d 9 ).

Obliczanie statystyk opisowych w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ). Statystyki opisowe w grupach (na przykład osobno dla państwa każdego kontynentu) wyznaczamy za pomocą analizy PRZEKROJE

Przykładowe wyniki i ich interpretacja (1) N ważnych przeanalizowano dane z 227 państw świata Średnia przeciętny dalszy czas trwania życia mężczyzn państwach świata Mediana w połowie państw świata przeciętny czas trwania życia mężczyzn nie przekracza 69 lat, w połowie jest wyższy od tej wartości Minimum i maksimum najkrótszy przeciętny czas trwania życia mężczyzn wynosi nieco ponad 32 lata, zaś najdłuższy ponad 82, tak więc w niektórych państwach mężczyźni żyją (przeciętnie) niemal 3 razy dłużej niż w innych Dolny i górny kwartyl w co czwartym państwie przeciętny czas trwania życia mężczyzn nie przekracza 60 lat, z drugiej strony w co czwartym jest wyższy niż 74,4 lata Odchylenie standardowe odchylenie od średniej dla państw całego świata wynosi 10,5 roku Współczynnik zmienności poziom zmienności wynosi około 16% Skośność współczynnik skośności jest ujemny, co oznacza że rozkład przeciętnego czasu trwania życia mężczyzn charakteryzuje się asymetrią lewostronną inaczej mówiąc, w większości państw jest on wysoki zaś w nielicznych niski a nawet bardzo niski (por. kształt histogramu)

Przykładowe wyniki i ich interpretacja (2) Aby wyniki były użyteczne, aby produkt naszej analizy był konkurencyjny, należy arkusz wyników odpowiednio sformatować (przede wszystkim wyniki należy wyświetlać z właściwą dokładnością)

Grupowanie danych Inną formą opisu danych liczbowych jest przedstawienie częstości występowania poszczególnych wartości (stworzenie tzw. szeregu statystycznego). W przypadku cech ciągłych (mogących przyjmować bardzo wiele wartości) zwykle dane grupuje się w postaci szeregu przedziałowego. W tabeli podaje się informacje o liczbie i/lub procencie obserwacji znajdujących się w danym przedziale dodatkowo można zamieścić informację o liczbie i procencie skumulowanym. W programie STATISTICA grupowanie danych możliwe jest za pomocą analizy TABELE LICZNOŚCI (wchodzącej w skład STATYSTYK PODSTAWOWYCH I TABEL).

Grupowanie danych - tabele liczności Narzędzia analiz statystycznych w programie STATISTICA są dostępne za pomocą dwóch poleceń STATYSTYKA i WYKRESY. Aby dokonać grupowania danych należy posłużyć się analizą TABELE LICZNOŚCI.

Rodzaje grupowania W oknie TABELE LICZNOŚCI istnieje możliwość ustawienia różnych sposobów grupowania w zakładce WIĘCEJ. Poniżej opisano najważniejsze sposoby grupowania (kategoryzacji) wartości zmiennych. Wyszczególnienie wszystkich wartości: dla cech nominalnych i mierzalnych (o nielicznych wartościach) Szereg przedziałowy o zadanej z góry (lub przybliżonej) liczbie przedziałów Szereg przedziałowy określony w pełni przez użytkownika Grupowanie wybranych wartości w podanej kolejności Rozpiętość przedziału Początek pierwszego przedziału

Przykłady grupowania Przykład dotyczy pliku Opinie o integracji z UE (2004). Celem analizy jest przedstawienie odpowiedzi na pytania dotyczące skutku integracji dla Polski (zmienna 7) i sposoby głosowania respondentów w referendum akcesyjnym (zmienna 6). Ponieważ obie zmienne mają ten sam charakter (nominalny) grupowanie możemy przeprowadzić jednocześnie, wybierając za pomocą przycisku ZMIENNE obie cechy i ustalając odpowiednio sposób grupowania. Po naciśnięciu przycisku PODSUMOWANIE otrzymujemy dwie tabele oddzielne wyniki grupowania dla obu cech. Wszystkie wyniki kolejnych analiz będę dodawane do otworzonego właśnie skoroszytu wyników.

Opis wyników grupowania Tabele z wynikami grupowania zawierają następujące informacje: warianty badanej cechy; liczbę przypadków dla każdego wariantu; skumulowaną liczbę przypadków (opis na rysunku) procentowy udział danego wariantu cechy; skumulowane procenty. UWAGA!!! Wartości skumulowane mają sens tylko wtedy, gdy grupowane warianty są w logiczny sposób uporządkowane (a więc dla cech porządkowych lub liczbowych). W roboczej tabeli wyników należy pozostawić tylko te wartości, które się da zinterpretować. Należy także dokonać formatowania wartości.

Występowanie braków danych Przy domyślnych ustawieniach opcji grupowania, w tabelach wyszczególniona jest także informacja o brakach danych. W rozpatrywanym przykładzie są one zapewne równoważne stwierdzeniu faktu, iż ktoś nie wziął udziału w referendum akcesyjnym. Brak udziału w referendum W pewnych sytuacjach chcemy poznać strukturę danych po wykluczeniu z rozważań braków odpowiedzi. W omawianym przykładzie ma to sens, gdyż w ten sposób dowiadujemy się informacji o wynikach referendum w badanej zbiorowości. W oknie TABELE LICZNOŚCI w zakładce OPCJE wyłączamy Otrzymujemy informacje o strukturze procentowej tylko w grupie osób, które wzięły udział w głosowaniu.

Grupowanie danych liczbowych Kontynuując analizę danych ankietowych z pliku Opinie o integracji z UE (2004) zbadamy strukturę wieku respondentów. Tego typu zestawienia umieszcza się w części Charakterystyka badanej zbiorowości kwestia ta jest o tyle ważna, że poglądy na pewne zjawiska społeczne i polityczne są zwykle odmienne dla różnych grup wiekowych. Należy więc stwierdzić, czy badana grupa jest reprezentatywną próbką z populacji dorosłych mieszkańców woj. podkarpackiego, czy też może odzwierciedla przede wszystkim poglądy osób młodszych.

Prezentacja rozkładu wieku respondentów Po wybraniu analizy TABELE LICZNOŚCI i sporządzeniu (bez zmiany ustawień) szeregu rozdzielczego, okazuje się, że wyniki nie są zbyt czytelne Widać to zarówno podczas próby analizy informacji zawartych w tabeli liczności jak i na przykładzie graficznej prezentacji w postaci HISTOGRAMU.

Prezentacja rozkładu wieku respondentów Przy tak dużej złożoności danych, należy je przedstawić w postaci szeregu przedziałowego, na przykład w następującej postaci Wiek (x i ) 18-24 25-34 35-44 n i 87 102 47 % i 29,0% 34,0% 19,0% W tym celu wykorzystana zostanie opcja KROK umożliwiająca sporządzenie szeregu o jednakowej rozpiętości przedziałów. Zostaną one następnie ręcznie skorygowane tak, by odpowiadały wzorcowi tabeli. 45-54 27 9,0% 55-64 14 4,7% 65-75 13 4,3%