STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami ciężkimi w pewnym obszarze; - badanie socjologiczne na temat spędzania wolnego czasu przed telewizorem bądź komputerem, itd. Działamy poprzez przeprowadzenie doświadczeń. Uzyskane wyniki mają charakter losowy: nie da się ich przewidzieć przed doświadczeniem. Zakładamy, że jesteśmy w stanie powtórzyć te doświadczenia w tych samych warunkach pewną liczbę razy (a może nawet dowolną liczbę razy). Podstawowe cechy badań. 1. Mamy do czynienia ze zbiorem (populacja generalna) pojedynczych nośników informacji (jednostka statystyczna). Populacja może być skończona (najczęściej) lub nieskończona. 2. Jednostki statystyczne są charakteryzowane przez pewne cechy. Interesujące nas cechy jednostek, które nie są takie same dla wszystkich jednostek, nazywamy zmiennymi. 1
3. Badanie może być pełne i częściowe. W przypadku drugim, badając tylko małą część populacji (próbka losowa) chcemy sądzić o całej populacji. Próbka musi być reprezentatywna. Nawet poprawne wnioskowanie statystyczne może być błędne. Statystyka matematyczna zawiera modele i metody, które na podstawie wyników z próby pozwalają wnioskować o całej populacji. Etapy badania statystycznego: - przygotowanie badania; - gromadzenie danych i ich opracowanie; - wnioskowanie statystyczne; - prezentacja wyników. Rozkład częstości zmiennej: jakie wartości zmienna przyjęła i jak często. Metody przedstawiania rozkładu częstości zmiennej: w postaci tabeli i w postaci wykresów (słupkowe, kołowe). Gdy zmienna przyjmuje dużo różnych wartości i liczebność próbki nie jest mała, rysujemy histogram. W tym celu obserwowane wartości grupujemy w klasach, czyli przedziałach o jednakowej długości. Liczba klas r za- 2
leży od liczebności próbki (patrz np. tabelę): Liczebność próbki n Liczba klas r 30-60 5-8 60-100 7-10 100-200 9-12 200-500 11-17 500-1000 16-25 Długość każdej klasy d określamy dzieląc zakres zmiany zmiennej d = x max x min przez liczbę klas i zaokrąglając z nadmiarem: d d/r. Granice poszczególnych klas obliczamy, dodając kolejno d do początku pierwszej klasy. Gdy podział na klasy został przeprowadzony, rozpoczynamy obliczanie liczebności poszczególnych klas. Liczebnością j-tej klasy n j nazywamy liczbę wartości, którzy trafiły do j-tej klasy; oczywiście n 1 + +n r =n. Częstością względną j-tej klasy w j nazywamy w j = n j /n; oczywiście w 1 + + w r = 1. W wyniku takiego grupowania wartości z próbki otrzymujemy tzw.szereg rozdzielczy, który można scharakteryzować poprzez środki kolejnych klas x 0 j i liczebności 3
klas n j, j = 1,..., r. Stosowane są również liczebności i częstości skumulowane, które otrzymujemy poprzez kolejne sumowanie n j i w j zaczynając od pierwszej klasy. Przykład. Rozważmy wyniki badania wzrostu (w centymetrach) 100 uczniów pewnej szkoły wyższej. Wyniki badania są zawarte w tabeli: 185 187 165 183 167 180 165 175 170 164 188 171 162 178 190 184 168 172 184 180 163 171 180 159 173 185 176 165 181 189 177 171 174 175 165 166 173 158 182 182 179 182 163 164 166 181 161 160 176 184 182 173 185 160 186 157 184 194 163 169 187 172 185 187 164 183 169 183 191 171 175 166 174 179 161 173 181 186 181 178 177 181 173 172 158 177 170 179 188 189 184 173 168 168 178 173 162 178 170 191 Jakie wartości zmienna przyjęła i jak często? Rozkład liczebności występowania poszczególnych wartości zmiennej pokazują następujące tabele: Wzrost 157 158 159 160 161 162 163 164 165 166 Liczeb. 1 2 1 2 2 2 3 3 4 3 Liczeb. skum. 1 3 4 6 8 10 13 16 20 23 4
167 168 169 170 171 172 173 174 175 176 177 178 179 1 3 2 3 4 3 7 2 3 2 3 4 3 24 27 29 32 36 39 46 48 51 53 56 60 63 180 181 182 183 184 185 186 187 188 189 190 191 194 3 5 4 3 5 4 2 3 2 2 1 2 1 66 71 75 78 83 87 89 92 94 96 97 99 100 Tworzymy szereg rozdzielczy. klas r wynosi 10. Przyjmijmy, że liczba Klasy Klasy dokł. Środek Liczeb. Liczeb. skum. 157-160 156,5-160,5 158,5 6 6 161-164 160,5-164,5 162,5 10 16 165-168 164,5-168,5 166,5 11 27 169-172 168,5-172,5 170,5 12 39 173-176 172,5-176,5 174,5 14 53 177-180 176,5-180,5 178,5 13 66 181-184 180,5-184,5 182,5 17 83 185-188 184,5-188,5 186,5 11 94 189-192 188,5-192,5 190,5 5 99 193-196 192,5-196,5 194,5 1 100 5
Na podstawie szeregu rozdzielczego budujemy histogram. Jest to wykres słupkowy pokazujący rozkład badanej cechy. Podstawy słupków są klasy, a wysokości - liczebności bądź częstości. Łącząc łamaną punkty o współrzędnych (x 0 j, n j) (bądź (x 0 j, w j)), otrzymujemy tzw. wielobok (liczebności bądź częstości). 6
MIARY TENDENCJI CENTRALNEJ I ROZPROSZENIA Są to liczbowe charakterystyki rozkładu zmiennej. Miary tendencji centralnej. Odpowiadają na pytanie, jaka wartość zmiennej jest najbardziej typowa. Średnia arytmetyczna: na podstawie danych z próbki x = 1 n n i=1 x i; na podstawie szeregu rozdzielczego x = 1 n r j=1 x0 j n j. W naszym przykładzie wyliczając średnią z próby mamy x = 175,07, natomiast z szeregu rozdzielczego x 175,18. Mediana jest wartością środkową, która dzieli próbkę na dwie równe części: na podstawie danych z próbki Me = x ( n+1 2 ), n jest nieparzyste x ( n 2 ) +x ( n 2 +1) 2, n jest parzyste; indeksy w nawiasach oznaczają, że wartości x 1,..., x n zostały uporządkowane w sposób niemalejący, czyli x (1) x (2)... x (n) ; 7
na podstawie szeregu rozdzielczego Me = a + d n m 1 n m 2 j=1 n j, gdzie a jest dolną granicą klasy, gdzie znajduje się mediana, d jest długością klasy, n m jest liczebnością klasy, gdzie znajduje się mediana. W naszym przykładzie wyliczając mediane z próby mamy Me = 175, natomiast z szeregu rozdzielczego Me = 172,5 + 4 14 (50 39) 175,64. Oprócz mediany czasami wyliczamy też kwartyle: Q 1, Q 2, Q 3. Kwartyle dzielą próbkę na 4 równoliczne (mniej więcej) części, przy czym Q 2 = Me, natomiast Q 1 to mediana lewej połowy uporządkowanego zbioru wartości zmiennej, a Q 3 to mediana prawej połowy uporządkowanego zbioru wartości zmiennej. Moda (wartość modalna) to najczęściej powtarzająca się wartość w próbce. Na podstawie szeregu rozdzielczego wylicza się w sposób następujący: n m n m 1 Mo = a + d (n m n m 1 ) + (n m n m+1 ), gdzie a jest dolną granicą najliczniejszej klasy, n m jest liczebnością najliczniejszej klasy. 8
W naszym przykładzie na podstawie danych z próbki mamy Mo = 173, natomiast na podstawie szeregu rozdzielczego mamy Mo=180,5 + 17 13 4 (17 13)+(17 11) 182,1. Miary rozproszenia. Rozstęp: Ro = x (n) x (1) ; w naszym przykładzie Ro = 194 157 = 37. Odchylenie standardowe z próby: s = (lub ŝ = s 9,16. 1 n n 1 i=1 (x i x) 2 1 n n i=1 (x i x) 2 ). W naszym przykładzie Na podstawie szeregu rozdzielczego wyliczamy odchylenie standardowe według wzoru: s = 1 r n j (x 0 j n 1 x)2. j=1 W naszym przykładzie s 9,20. Współczynnik zmienności: v = s x ; w naszym przykładzie v = 9,16 175,07 0,05. Bardziej zaawansowane miary: asymetrii (skośność), koncentracji (kurtoza). 9