Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia
Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna (arytmetyczna ważona) - najczęściej stosowana miara Mediana (wartość środkowa) (median) Dominanta (moda, wartość modalna) (mode) 2. Kwantyle (quantiles) Miary rozproszenia (zróżnicowania, dyspersji) Miary asymetrii Miary koncentracji Różne nazwy odnoszące się do tego samego pojęcia: miary rozkładu = charakterystyki liczbowe rozkładu = statystyki rozkładu
Średnia arytmetyczna (arithmetic mean) Oceny 9 studentów z egzaminu: 3,3,4,5,5,4,4,3,3 Średnia arytmetyczna: 3,78 = (3+3+3+3+4+4+4+5+5) / 9 Średnia arytmetyczna ważona (weighted arithmetic mean): 3,78 = (3*4 + 4*3 + 5*2) / (4 + 3 + 2) wartości cechy: 3,4,5 wagi tych wartości: 4,3,2 Własności średniej: średnia leży pomiędzy najmniejszą i największą wartością czyli średnia powyższych ocen nie może być np. 5,4 suma odchyleń od średniej jest równa zero
Jak obliczyć średnia arytmetyczną dla danych w szeregu rozdzielczym Cecha skokowa: Średnią obliczamy ze wzoru na średnią ważoną, biorąc jako wagi częstości absolutne. Cecha ciągła, dane pogrupowane w przedziały: Przyjmuje się, że środki przedziałów reprezentują przedział. Średnią obliczamy ze wzoru na średnią ważoną, biorąc jako wagi częstość bezwzględną poszczególnych przedziałów. Tak obliczona średnia będzie wartością przybliżoną i będzie się różniła od średniej wyliczonej dla danych indywidualnych. Obliczmy średnią arytmetyczną dla szeregu rozdzielczego rozkładu czasu pobytu na portalu Przykład: w02.xlsx zakładka: ŚredniaAryt
Średnia arytmetyczna - podsumowanie Wady średniej: Średnia nie przekazuje dobrej informacji, gdy dane są bardzo rozproszone. Na średnią mocno wpływają wartości skrajne: np. skrajne zarobki: prezesa i zwykłych pracowników W przypadku rozproszonych danych potrzebne są inne miary Średnia może przyjmować wartość, która w ogóle nie jest możliwa w danej zbiorowości. Np. średnia ocena z egzaminu: 3,78. Nie ma takiej oceny jak 3,78 Średnią nie można liczyć dla cechy jakościowej (niemierzalnej) Informacja ze średniej: wokół jakiej wartości położone są dane. Część danych jest poniżej, część powyżej, niekoniecznie po połowie. Ale nie ma informacji jak daleko od średniej są położone Mamy informację o średniej wzrostu w dwóch grupach osób. Średni wzrost w pierwszej: 165 cm, w drugiej: 180cm. W pierwszej grupie są osoby niższego wzrostu niż w drugiej. Ich wzrost ok. 165 cm, choć nie można wykluczyć, że są w tej grupie osoby dużo niższe lub dużo wyższe niż 165 cm
Mediana (wartość środkowa) Mediana jest to wartość cechy zajmująca pozycję środkową w uporządkowanym rosnąco ciągu wartości cechy. Aby wyznaczyć medianę trzeba najpierw uporządkować rosnąco zbiór wartości cechy. Przykład obliczenia mediany dla danych indywidualnych: 1,2,3,3,11,17,130,200,210. m e = 11, pozycja środkowa to 5 = (9+1)/2 gdy parzysta liczba wartości, np. 8: 1,2,3,3,11,17,130,200 m e = (3+11)/2 = 7 czyli bierzemy dwie środkowe pozycje czyli czwartą i piątą i obliczamy z nich średnią Wyznaczenie mediany dla danych w szeregu rozdzielczym. Przykład: w02.xlsx zakładka: Mediana: przypadek, gdy cecha skokowa, dane niepogrupowane np. liczba obejrzanych podstron w czasie wizyty na portalu przypadek, gdy cecha ciągła, dane pogrupowane np. czas pobytu na stronie. Robimy przybliżenie, zakładając równomierny rozkład w poszczególnych przedziałach.
Mediana - informacja o rozkładzie Informacja, którą przekazuje mediana: Jaka liczba dzieli zbiór wartości cech (wyników) na połowę. Połowa wyników jest poniżej tej liczby, połowa powyżej. Mamy następujące informacje o wieku w dwóch grupach osób uczących się języka angielskiego: Średnia wieku w obu grupach jest taka sama: 21 lat. Mediana w I grupie: 18, w II 20 lat Średnia nie pokazuje nam różnicy między tymi grupami, ale mediana tak: z mediany odczytujemy, że połowa osób w pierwszej grupie jest poniżej 18 lat, a połowa osób w drugiej grupie jest poniżej 20 lat. Czyli spodziewamy się, że w obu grupach są ludzie młodzi (o tym mówi średnia), ale w pierwszej grupie więcej niepełnoletnich (połowa, mówi o tym mediana).
Mediana i średnia, rozkład symetryczny i asymetryczny Rozkład symetryczny: Częstości wartości cech jednakowo odległych od średniej są takie same. Inaczej mówiąc rozkładają się symetrycznie wokół średniej. Gdy stworzymy histogram dla takiego rozkładu to słupki są ułożone symetrycznie. Oś symetrii dzieli dane na połowę Rozkład asymetryczny prawostronnie (right skewed): Gdy stworzymy histogram to połowa słupków po prawej stronie jest niższa (spłaszczona) w stosunku do strony lewej Rozkład asymetryczny lewostronnie (left skewed): Gdy stworzymy histogram to połowa słupków po lewej stronie jest niższa (spłaszczona) w stosunku do strony prawej Mediana = Średnia, gdy rozkład jest symetryczny. Oś symetrii na histogramie wskazuje średnią i medianę. Mediana > Średnia, gdy dane są asymetryczne prawostronnie, Mediana < Średnia, gdy dane są asymetryczne lewostronnie
Kwartyle (Quartiles) Analogicznie jak mediana. Mediana dzieli zbiór wartości na pół. Kwartyle dzielą zbiór na ćwiartki. Kwartyl pierwszy Q 1 - dzieli zbiór wartości w stosunku ¼ - ¾. Czyli 25% wartości jest poniżej pierwszego kwartyla, 75 % powyżej Kwartyl drugi Q 2 = mediana Kwartyle trzeci Q 3 - dzieli zbiór wartości w stosunku ¾ - ¼. Czyli 75% wartości jest poniżej trzeciego kwartyla, 25 % powyżej Aby wyznaczyć kwartyle trzeba najpierw uporządkować rosnąco zbiór wartości cechy. Przy wyznaczaniu kwartyli dla danych szeregu rozdzielczego postępujemy analogicznie jak przy medianie. Przykład: w02.xlsx zakładka: Kwartyle Są też kwintyle (dzielą na 5 części), percentyle (dzielą na sto części) i ogólnie kwantyle. Czyli kwartyl pierwszy to inaczej kwantyl rzędu 0,25 (1/4=25%), mediana to kwantyl rzędu 0,5 (1/2=50%), kwintyl pierwszy to kwantyl rzędu 0,2 (1/5=20%) itd.
Dominanta (inaczej moda albo wartość modalna) Dominanta to najczęściej występująca wartość cechy w zbiorze (najczęstszy wynik) Przykład: w02.xlsx zakładka: Dominanta Wyznaczenie dominanty ma sens tylko wtedy gdy jest wystarczająco dużo danych (żeby wartości się powtarzały) tak aby było wyraźne maksimum liczebności. W przeciwnym razie może być sytuacja: mamy oceny: 2,3,4,4,5. Trudno uznać "4" za dominantę mimo, że "4" jest najwięcej. W praktyce dominantę wyznacza się głównie dla danych pogrupowanych w szeregu rozdzielczym. Wskazane jest, aby przedziały miały jednakową rozpiętość, a przynajmniej ten w którym znajduje się dominanta i przedziały sąsiadujące. Rozkład może mieć więcej niż jedną dominantę (gdy jest kilka lokalnych maksimów). Rozkład jednomodalny - to znaczy posiada jedną dominantę. Rozkład może nie posiadać dominanty. Gdy wartości cechy są równomiernie rozłożone (wszystkiego mniej więcej po tyle samo) Dominantę można wyznaczyć dla cechy jakościowej (Średnią i kwantyle tylko dla cech mierzalnych)
Dominanta - informacja o rozkładzie Mamy następujące informacje o wieku w dwóch grupach osób uczących się języka angielskiego: Średnia wieku w obu grupach taka sama: 21 lat (spodziewamy się, że w obu grupach są ludzie młodzi ok. 21 lat) Mediana w obu grupach taka sama: 18 lat (połowa osób w każdej grupie nie jest pełnoletnia) Dominanta w I grupie: 16 lat, w drugiej 19 lat Średnia i mediana nie pokazują nam różnicy między tymi grupami, różnicę pokazuje nam dominanta: z dominanty odczytujemy, że w pierwszej grupie jest najwięcej osób w wieku 16 lat, a w drugiej w wieku 19 lat Przykład danych z takimi miarami: w02.xls zakładka dominanta
Podsumowanie Dzięki miarom nie musimy przeglądać wszystkich danych indywidualnych, aby uzyskać informacje o rozkładzie. I nie zawsze będziemy mieli dostęp do danych indywidualnych czy. Średnia, mediana (i inne kwantyle), dominanta (3 liczby zamiast np. tysięcy wyników) przekazują informację jak mniej więcej może wyglądać rozkład empiryczny cechy i pozwalają szybko porównać rozkłady. Trzy miary rozkładu - miary położenia: średnia: wokół jakiej liczby położone są wartości cechy kwantyle: mediana: podział na pół, kwartyle: podział na cztery części, decyle: podział na dziesięć części percentyle: podział na sto części dominanta: jakiej wartości najwięcej