STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Dla opisania rozkładu badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na cztery grupy.. Określenie przeciętnej wartości zmiennej lub wartości, wokół której grupują się pomiary. Tutaj próbujemy odpowiedzieć na pytanie: Jaka wartość zmiennej jest najbardziej typowa? Dokonujemy tego przez obliczenie miar położenia (tendencji centralnej).. Określenie zmienności (rozproszenia) wartości zmiennej (najczęściej wokół pewnej wartości typowej). Tutaj próbujemy odpowiedzieć na pytanie: Jak bardzo typowa jest ta wartość typowa? Dokonujemy tego przez obliczenie miar rozproszenia. 3. Określenie stopnia asymetrii rozkładu zmiennej. Dokonujemy tego przez obliczenie miar asymetrii. 4. Określenie stopnia skupienia i spłaszczenia (w stosunku do kształtu krzywej rozkładu normalnego standardowego) rozkładu zmiennej. Dokonujemy tego przez obliczenie miar koncentracji.
Miary położenia. Dla zmiennych poziomu nominalnego używamy dominanty (mody). Jest to najczęściej spotykana wartość (kategoria) zmiennej. Dla zmiennych poziomu porządkowego, oprócz dominanty, używamy też mediany. Mediana to taka liczba, że połowa wartości zmiennej jest większa od niej, a połowa jest mniejsza od niej. Wyznacza się wzorem: x ( n+ ), n jest nieparzyste Me = x ( n ) +x ( n +), n jest parzyste. Indeksy w nawiasach oznaczają, że wartości x,..., x n zostały uporządkowane w sposób niemalejący, czyli x () x ()... x (n). Dla zmiennych poziomu ilościowego, oprócz dominanty i mediany, używamy też srednią arytmetyczną (średnią). Wyznacza się wzorem: x = n x i. n Średnia jest lepsza od mediany dla rozkładów bliskich do symetrycznych, gorsza od mediany dla rozkładów dalekich od symetrycznych lub w obecności wartości odstających (oddalonych). i=
Dla zmiennych poziomu ilościowego czasami uzywamy jeszcze nastepujących miar położenia: średnia ważona x w = n x i w i, w i 0, i= n w i = ; i= średnia geometryczna x g = n x x... x n ; średnia harmoniczna x h = n i= x i. Szczególnym przypadkiem średniej ważonej (oprócz średniej arytmetycznej) jest średnia ucięta: x u = n k n k i=k+ x (i), gdzie k jest wyznaczoną liczbą naturalną nie przewyższającą zwykle 5% wartości n. Kwantyle. Sa to liczby, które dzielą zbiór wartości badanej cechy na równe (mniej więcej) części pod względem liczby obserwowanych wartości. Najczęściej używane kwantyle to: kwartyle (3 kwartyle, podział na 4 części; drugi kwartyl to mediana), decyle (9 decyli, podział na 0 części), percentyle (99 percentyli, podział na 00 części). Pożytecznym wykresem, tworzonym na podstawie kwartyli, jest wykres skrzynkowy. 3
Miary rozproszenia. Używane są dla zmiennych poziomu ilościowego. Rozstęp. Jest to różnica pomiędzy największą a najmniejszą wartością zmiennej. Odchylenie przeciętne: n i= x i x. Wariancja: s = n i= (x i x). Odchylenie standardowe: s = n n i= (x i x). Współczynnik zmienności: v = s x pod warunkiem, że x 0. Ten ostatni współczynnik jest pożyteczny wtedy, gdy zmienność cechy rośnie wraz ze wzrostem jej wartości lub przy przeskalowaniu wartości zmiennej. Miara asymetrii. Używana jest dla zmiennych poziomu ilościowego. Współczynnik skośności: Sk = n i= (x i x) 3 (n )(n )s 3. Sk = 0 odpowiada rozkładowi idealnie symetrycznemu, Sk < 0 oznacza asymetrię lewostronną, Sk > 0 asymetrię prawostronną. 4
Miara koncentracji. Używana jest dla zmiennych poziomu ilościowego. Kurtoza: K = n(n + ) i= (x i x) 4 3(n )( i= (x i x) ). (n )(n )(n 3)s 4 K = 0 odpowiada rozkładowi normalnemu standardowemu, K < 0 oznacza rozkład bardziej spłaszczony od normalnego standardowego, K > 0 rozkład bardziej wysmukły, niż normalny standardowy. 5