Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Podobne dokumenty
Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Analiza struktury i przeciętnego poziomu cechy

Statystyka. Opisowa analiza zjawisk masowych

Miary statystyczne w badaniach pedagogicznych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Opisowa analiza struktury zjawisk statystycznych

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Parametry statystyczne

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

1 Podstawy rachunku prawdopodobieństwa

Statystyczne metody analizy danych

Próba własności i parametry

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka Matematyczna Anna Janicka

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Pozyskiwanie wiedzy z danych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Ćwiczenia 1-2 Analiza rozkładu empirycznego

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

W1. Wprowadzenie. Statystyka opisowa

Wykład 5: Statystyki opisowe (część 2)

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Wykład 4: Statystyki opisowe (część 1)

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Matematyka stosowana i metody numeryczne

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

4.2. Statystyczne opracowanie zebranego materiału

Statystyka opisowa- cd.

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Biostatystyka, # 1 /Weterynaria I/

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyka matematyczna dla leśników

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Laboratorium 3 - statystyka opisowa

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Zadania ze statystyki, cz.6

Zmienne losowe. Statystyka w 3

Statystyka opisowa. Robert Pietrzykowski.

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

XXXI MARATON WARSZAWSKI Warszawa,

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Literatura. Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010.

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Podstawy statystyki - ćwiczenia r.

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Xi B ni B

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Statystyczne metody analizy danych

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Wprowadzenie do zagadnień statystycznych

Estymacja punktowa i przedziałowa

Analiza zróżnicowania, asymetrii i koncentracji

Wprowadzenie

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Transkrypt:

Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia

Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna (arytmetyczna ważona) - najczęściej stosowana miara Mediana (wartość środkowa) (median) Dominanta (moda, wartość modalna) (mode) 2. Kwantyle (quantiles) Miary rozproszenia (zróżnicowania, dyspersji) Miary asymetrii Miary koncentracji Różne nazwy odnoszące się do tego samego pojęcia: miary rozkładu = charakterystyki liczbowe rozkładu = statystyki rozkładu

Średnia arytmetyczna (arithmetic mean) Oceny 9 studentów z egzaminu: 3,3,4,5,5,4,4,3,3 Średnia arytmetyczna: 3,78 = (3+3+3+3+4+4+4+5+5) / 9 Średnia arytmetyczna ważona (weighted arithmetic mean): 3,78 = (3*4 + 4*3 + 5*2) / (4 + 3 + 2) wartości cechy: 3,4,5 wagi tych wartości: 4,3,2 Własności średniej: średnia leży pomiędzy najmniejszą i największą wartością czyli średnia powyższych ocen nie może być np. 5,4 suma odchyleń od średniej jest równa zero

Jak obliczyć średnia arytmetyczną dla danych w szeregu rozdzielczym Cecha skokowa: Średnią obliczamy ze wzoru na średnią ważoną, biorąc jako wagi częstości absolutne. Cecha ciągła, dane pogrupowane w przedziały: Przyjmuje się, że środki przedziałów reprezentują przedział. Średnią obliczamy ze wzoru na średnią ważoną, biorąc jako wagi częstość bezwzględną poszczególnych przedziałów. Tak obliczona średnia będzie wartością przybliżoną i będzie się różniła od średniej wyliczonej dla danych indywidualnych. Obliczmy średnią arytmetyczną dla szeregu rozdzielczego rozkładu czasu pobytu na portalu Przykład: w02.xlsx zakładka: ŚredniaAryt

Średnia arytmetyczna - podsumowanie Wady średniej: Średnia nie przekazuje dobrej informacji, gdy dane są bardzo rozproszone. Na średnią mocno wpływają wartości skrajne: np. skrajne zarobki: prezesa i zwykłych pracowników W przypadku rozproszonych danych potrzebne są inne miary Średnia może przyjmować wartość, która w ogóle nie jest możliwa w danej zbiorowości. Np. średnia ocena z egzaminu: 3,78. Nie ma takiej oceny jak 3,78 Średnią nie można liczyć dla cechy jakościowej (niemierzalnej) Informacja ze średniej: wokół jakiej wartości położone są dane. Część danych jest poniżej, część powyżej, niekoniecznie po połowie. Ale nie ma informacji jak daleko od średniej są położone Mamy informację o średniej wzrostu w dwóch grupach osób. Średni wzrost w pierwszej: 165 cm, w drugiej: 180cm. W pierwszej grupie są osoby niższego wzrostu niż w drugiej. Ich wzrost ok. 165 cm, choć nie można wykluczyć, że są w tej grupie osoby dużo niższe lub dużo wyższe niż 165 cm

Mediana (wartość środkowa) Mediana jest to wartość cechy zajmująca pozycję środkową w uporządkowanym rosnąco ciągu wartości cechy. Aby wyznaczyć medianę trzeba najpierw uporządkować rosnąco zbiór wartości cechy. Przykład obliczenia mediany dla danych indywidualnych: 1,2,3,3,11,17,130,200,210. m e = 11, pozycja środkowa to 5 = (9+1)/2 gdy parzysta liczba wartości, np. 8: 1,2,3,3,11,17,130,200 m e = (3+11)/2 = 7 czyli bierzemy dwie środkowe pozycje czyli czwartą i piątą i obliczamy z nich średnią Wyznaczenie mediany dla danych w szeregu rozdzielczym. Przykład: w02.xlsx zakładka: Mediana: przypadek, gdy cecha skokowa, dane niepogrupowane np. liczba obejrzanych podstron w czasie wizyty na portalu przypadek, gdy cecha ciągła, dane pogrupowane np. czas pobytu na stronie. Robimy przybliżenie, zakładając równomierny rozkład w poszczególnych przedziałach.

Mediana - informacja o rozkładzie Informacja, którą przekazuje mediana: Jaka liczba dzieli zbiór wartości cech (wyników) na połowę. Połowa wyników jest poniżej tej liczby, połowa powyżej. Mamy następujące informacje o wieku w dwóch grupach osób uczących się języka angielskiego: Średnia wieku w obu grupach jest taka sama: 21 lat. Mediana w I grupie: 18, w II 20 lat Średnia nie pokazuje nam różnicy między tymi grupami, ale mediana tak: z mediany odczytujemy, że połowa osób w pierwszej grupie jest poniżej 18 lat, a połowa osób w drugiej grupie jest poniżej 20 lat. Czyli spodziewamy się, że w obu grupach są ludzie młodzi (o tym mówi średnia), ale w pierwszej grupie więcej niepełnoletnich (połowa, mówi o tym mediana).

Mediana i średnia, rozkład symetryczny i asymetryczny Rozkład symetryczny: Częstości wartości cech jednakowo odległych od średniej są takie same. Inaczej mówiąc rozkładają się symetrycznie wokół średniej. Gdy stworzymy histogram dla takiego rozkładu to słupki są ułożone symetrycznie. Oś symetrii dzieli dane na połowę Rozkład asymetryczny prawostronnie (right skewed): Gdy stworzymy histogram to połowa słupków po prawej stronie jest niższa (spłaszczona) w stosunku do strony lewej Rozkład asymetryczny lewostronnie (left skewed): Gdy stworzymy histogram to połowa słupków po lewej stronie jest niższa (spłaszczona) w stosunku do strony prawej Mediana = Średnia, gdy rozkład jest symetryczny. Oś symetrii na histogramie wskazuje średnią i medianę. Mediana > Średnia, gdy dane są asymetryczne prawostronnie, Mediana < Średnia, gdy dane są asymetryczne lewostronnie

Kwartyle (Quartiles) Analogicznie jak mediana. Mediana dzieli zbiór wartości na pół. Kwartyle dzielą zbiór na ćwiartki. Kwartyl pierwszy Q 1 - dzieli zbiór wartości w stosunku ¼ - ¾. Czyli 25% wartości jest poniżej pierwszego kwartyla, 75 % powyżej Kwartyl drugi Q 2 = mediana Kwartyle trzeci Q 3 - dzieli zbiór wartości w stosunku ¾ - ¼. Czyli 75% wartości jest poniżej trzeciego kwartyla, 25 % powyżej Aby wyznaczyć kwartyle trzeba najpierw uporządkować rosnąco zbiór wartości cechy. Przy wyznaczaniu kwartyli dla danych szeregu rozdzielczego postępujemy analogicznie jak przy medianie. Przykład: w02.xlsx zakładka: Kwartyle Są też kwintyle (dzielą na 5 części), percentyle (dzielą na sto części) i ogólnie kwantyle. Czyli kwartyl pierwszy to inaczej kwantyl rzędu 0,25 (1/4=25%), mediana to kwantyl rzędu 0,5 (1/2=50%), kwintyl pierwszy to kwantyl rzędu 0,2 (1/5=20%) itd.

Dominanta (inaczej moda albo wartość modalna) Dominanta to najczęściej występująca wartość cechy w zbiorze (najczęstszy wynik) Przykład: w02.xlsx zakładka: Dominanta Wyznaczenie dominanty ma sens tylko wtedy gdy jest wystarczająco dużo danych (żeby wartości się powtarzały) tak aby było wyraźne maksimum liczebności. W przeciwnym razie może być sytuacja: mamy oceny: 2,3,4,4,5. Trudno uznać "4" za dominantę mimo, że "4" jest najwięcej. W praktyce dominantę wyznacza się głównie dla danych pogrupowanych w szeregu rozdzielczym. Wskazane jest, aby przedziały miały jednakową rozpiętość, a przynajmniej ten w którym znajduje się dominanta i przedziały sąsiadujące. Rozkład może mieć więcej niż jedną dominantę (gdy jest kilka lokalnych maksimów). Rozkład jednomodalny - to znaczy posiada jedną dominantę. Rozkład może nie posiadać dominanty. Gdy wartości cechy są równomiernie rozłożone (wszystkiego mniej więcej po tyle samo) Dominantę można wyznaczyć dla cechy jakościowej (Średnią i kwantyle tylko dla cech mierzalnych)

Dominanta - informacja o rozkładzie Mamy następujące informacje o wieku w dwóch grupach osób uczących się języka angielskiego: Średnia wieku w obu grupach taka sama: 21 lat (spodziewamy się, że w obu grupach są ludzie młodzi ok. 21 lat) Mediana w obu grupach taka sama: 18 lat (połowa osób w każdej grupie nie jest pełnoletnia) Dominanta w I grupie: 16 lat, w drugiej 19 lat Średnia i mediana nie pokazują nam różnicy między tymi grupami, różnicę pokazuje nam dominanta: z dominanty odczytujemy, że w pierwszej grupie jest najwięcej osób w wieku 16 lat, a w drugiej w wieku 19 lat Przykład danych z takimi miarami: w02.xls zakładka dominanta

Podsumowanie Dzięki miarom nie musimy przeglądać wszystkich danych indywidualnych, aby uzyskać informacje o rozkładzie. I nie zawsze będziemy mieli dostęp do danych indywidualnych czy. Średnia, mediana (i inne kwantyle), dominanta (3 liczby zamiast np. tysięcy wyników) przekazują informację jak mniej więcej może wyglądać rozkład empiryczny cechy i pozwalają szybko porównać rozkłady. Trzy miary rozkładu - miary położenia: średnia: wokół jakiej liczby położone są wartości cechy kwantyle: mediana: podział na pół, kwartyle: podział na cztery części, decyle: podział na dziesięć części percentyle: podział na sto części dominanta: jakiej wartości najwięcej