STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna przyjęła i jak często. Wszystkie zmienne możemy podzielić na zmienne poziomu nominalnego, porządkowego oraz ilościowego. Metody przedstawienia rozkładu częstości zmiennej: w postaci tabeli i w postaci wykresów (słupkowe, kołowe, histogram, wielobok). Histogram: rekomendacje co do wyboru liczby klas k w zależności od liczby obserwacji n : n = 30 60 = k = 6 8; n = 60 100 = k = 7 10; n = 100 00 = k = 9 1; n = 00 500 = k = 11 17; n = 500 1500 = k = 16 5. W histogramie w pierwszą kolej zwracamy uwagę na liczbę maksimów (lokalnych). Interpretacja: jeden maksimum - dane są jednorodne; dwa maksima - dane są mieszanką jednorodnych grup danych itd. Gdy n rośnie, histogram zwykle ma tendencję do stabilizacji. 1
Aby opisać rozkład badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na 4 grupy. 1. Określenie przeciętnej wartości zmiennej lub wartości, wokół której grupują się pomiary; próbujemy odpowiedzieć na pytanie: Jaka wartość zmiennej jest najbardziej typowa? Dokonujemy tego przez obliczenie miar położenia (tendencji centralnej).. Określenie zmienności czy też rozproszenia wartości zmiennej (najczęściej wokół pewnej wartości typowej); próbujemy odpowiedzieć na pytanie: Jak bardzo typowa jest ta wartość typowa? Dokonujemy tego przez obliczenie miar rozproszenia. 3. Określenie stopnia asymetrii rozkładu zmiennej. Dokonujemy tego przez obliczenie miar asymetrii. 4. Określenie stopnia skupienia i spłaszczenia (w stosunku do kształtu krzywej rozkładu normalnego standardowego) rozkładu zmiennej. Dokonujemy tego przez obliczenie miar koncentracji.
Miary położenia. Dla zmiennych poziomu nominalnego używamy dominanty (mody). Jest to najczęściej spotykana wartość (kategoria) zmiennej. Dla zmiennych poziomu porządkowego, oprócz dominanty, używamy też mediany. Mediana to taka liczba, że połowa wartości zmiennej jest większa od niej, a połowa jest mniejsza od niej. Wyznacza się wzorem: x ( n+1 ), n jest nieparzyste Me = x ( n ) +x ( n +1), n jest parzyste. Indeksy w nawiasach oznaczają, że wartości x 1,..., x n zostały uporządkowane w sposób niemalejący, czyli x (1) x ()... x (n). Dla zmiennych poziomu ilościowego, oprócz dominanty i mediany, używamy też srednią arytmetyczną (średnią). Wyznacza się wzorem: x = 1 n x i. n Średnia jest lepsza od mediany dla rozkładów bliskich do symetrycznych, gorsza od mediany dla rozkładów dalekich od symetrycznych lub w obecności wartości odstających (oddalonych). 3 i=1
Dla zmiennych poziomu ilościowego czasami uzywamy jeszcze nastepujących miar położenia: średnia ważona x w = n x i w i, gdzie w i 0, i=1 średnia geometryczna x g = n x 1 x... x n ; średnia harmoniczna x h = n n i=1 1 x i. n w i = 1; Szczególnym przypadkiem średniej ważonej (oprócz średniej arytmetycznej) jest średnia ucięta: x u = 1 n k n k i=k+1 x (i), gdzie k jest wyznaczoną liczbą naturalną nie przewyższającą zwykle 5% wartości n. Kwantyle. To są liczby, które dzielą zbiór wartości badanej cechy na równe części pod względem liczby obserwowanych wartości. Najczęściej używane kwantyle to: kwartyle (3 kwartyle, podział na 4 części; drugi kwartyl to mediana), decyle (9 decyli, podział na 10 części), percentyle (99 percentyli, podział na 100 części). Pożytecznym wykresem, tworzonym na podstawie kwartyli, jest wykres skrzynkowy. i=1 4
Miary rozproszenia. Używane są dla zmiennych poziomu ilościowego. Rozstęp. Jest to różnica pomiędzy największą a najmniejszą wartością zmiennej. Odchylenie przeciętne: 1 n n i=1 x i x. Wariancja: s = 1 n n 1 i=1 (x i x). 1 Odchylenie standardowe: s = n n 1 i=1 (x i x). Współczynnik zmienności: v = s x pod warunkiem, że x 0. Ten ostatni współczynnik jest pożyteczny wtedy, gdy zmienność cechy rośnie wraz ze wzrostem jej wartości lub przy przeskalowaniu wartości zmiennej. Miara asymetrii. Używana jest dla zmiennych poziomu ilościowego. Współczynnik skośności: Sk = n n i=1 (x i x) 3 (n 1)(n )s 3. Sk = 0 odpowiada rozkładowi idealnie symetrycznemu, Sk < 0 oznacza asymetrię lewostronną, Sk > 0 asymetrię prawostronną. 5
Miara koncentracji. Używana jest dla zmiennych poziomu ilościowego. Kurtoza: K = n(n + 1) n i=1 (x i x) 4 3(n 1)( n i=1 (x i x) ) (n 1)(n )(n 3)s 4. K = 0 odpowiada rozkładowi normalnemu standardowemu, K < 0 oznacza rozkład bardziej spłaszczony od normalnego standardowego, K > 0 rozkład bardziej wysmukły, niż normalny standardowy. 6