PODSTAWOWE PROBLEMY STATYSTYKI MATEMATYCZNEJ Niech mamy próbkę X 1,..., X n oraz przestrzeń prób X n, i niech {X i } to niezależne zmienne losowe o tym samym rozkładzie P θ P. Na podstawie obserwacji chcemy dowiedzieć się czegoś na temat nieznanego parametru θ Θ. Klasyczna statystyka matematyczna dzieli się na dwa podstawowe działy: teorię estymacji (punktową i przedziałową) i teorię testowania hipotez. Jeśli pytanie, na które chcemy odpowiedzieć, brzmi: ile mniej więcej wynosi θ, mówimy o problemie estymacji. Wówczas nasze zadanie polega na wyborze odwzorowania θ : X n Θ takiego, by wielkość θ(x 1,..., X n ) można było traktować jak dobre przybliżenie nieznanej wartości θ (estymacja punktowa). Owe odwzorowanie jest receptą, która mówi, jak szacujemy nieznany parametr w zależności od wartości obserwacji. Przykład 1. Teoretyczne rozważania wykazują, że liczba wezwań X pogotowia ratunkowego w ciągu godziny jest zmienną losową o rozkładzie Poissona, tzn. P (X = k) = λk k! e λ, k = 0, 1,.... 1
Na podstawie dokonanych obserwacji: 5, 7, 11, 4, 8, 10, 7, mamy odpowiedzieć na pytanie, ile mniej więcej wynosi parametr λ > 0. Przykład 2. Wiadomo, że procentowa zawartość tłuszczu w mleku, które dostarcza pewien producent, kooperujący się z siecią supermarketów, ma rozkład normalny o nieznanej wartości oczekiwanej µ oraz wariancji σ 2. Na podstawie wyników badania 10 kartonów z mlekiem: 3,26; 3,12; 3,24; 3,16; 3,08; 3,14; 3,23; 3,11; 3,09; 3,24 mamy odpowiedzieć na pytanie, ile mniej więcej wynosi µ. Problem estymacji formułuje się czasami w inny sposób. Niech Θ R. Zadaniem jest wybór takich dwóch odwzorowań θ, θ + : X n Θ, aby dla zadanej z góry bliskiej do jedności liczby 1 α, zachodziło P θ (θ (X 1,..., X n ) θ θ + (X 1,..., X n )) 1 α dla każdego θ Θ (estymacja przedziałowa). Przykład 3. Jedna z agencji, badających opinię publiczną, w 2000 r. zapytała 1000 dorosłych obywateli Polski na temat poparcia (lub nie) wejścia Polski do 2
UE. Okazało się, że 57% zbadanych osób poparło wejście do UE. Na podstawie badania skonstruować przedział (losowy), do którego z prawdopodobieństwem co najmniej 0,90 należy nieznana frakcja θ obywateli popierających wejście Polski do UE. Przykład 2 cd. Na podstawie wyników badania 10 kartonów z mlekiem, skonstruować przedział losowy, który z prawdopodobieństwem co najmniej 0,95 pokrywa nieznaną wartość µ. Inny problem statystyki matematycznej jest związany z następującym zagadnieniem. Niech w przestrzeni parametrów Θ wyróżniony został pewien podzbiór Θ 0 (np. Θ 0 = {θ 0 }) i mamy odpowiedzieć na pytanie, czy θ Θ 0. W takiej sytuacji zdanie θ Θ 0 nazywamy hipotezą statystyczną. Wówczas naszym zadaniem jest potwierdzenie lub odrzucenie tej hipotezy na podstawie otrzymanych obserwacji (testowanie hipotez). Przykład 4. Prezes lokalnej rozgłośni radiowej twierdzi, że jego audycji słucha 8% mieszkańców miasta. Na poparcie swojej tezy przytacza wyniki sondażu, w którym na 750 ankietowanych 54 potwierdziło, że słucha badanego radia. Czy na podstawie wyników sondażu należy podać w wątpliwość twierdzenie prezesa? 3
Przykład 2 cd. Jest podejrzenie, że mleko, które dostarcza na rynek pewien producent, ma niższą procentową zawartość tłuszczu niż nominalna wartość 3,2%. Czy na podstawie wyników badania 10 kartonów z mlekiem możemy twierdzić, że podejrzenie to jest słuszne? STATYSTYKI I ICH ROZKŁADY Definicja. Mierzalną funkcję T : X n R k nazywamy statystyką. Uwaga. Statystyka jest funkcją, wartość której możemy obliczyć na podstawie obserwacji; nie zależy ona od nieznanego parametru θ. W Przykładzie 1 (patrz temat Modele statystyczne) T (X 1,..., X n ) = n i=1 X i jest statystyką: T : X n {0, 1,..., n}. Statystyka ta ma rozkład dwumianowy: ( ) n P θ (T (X 1,..., X n )=t)= θ t (1 θ) n t, t=0, 1,..., n. t Jak widzimy, rozkład tej statystyki zależy od nieznanego parametru θ. Natomiast np. zmienna losowa T (X 1,..., X n ) nθ nθ(1 θ) nie jest statystyką, ale jej rozkład dla dużego n w przybliżeniu jest rozkładem normalnym N (0, 1) (twierdze- 4
nie de Moivre a-laplace a) i nie zależy od nieznanego parametru θ. W Przykładzie 3 (patrz temat Modele statystyczne) T 1 (X 1,..., X n ) = 1 n X i, n T 2 (X 1,..., X n ) = 1 n 1 i=1 n (X i T 1 ) 2 są statystykami: T 1 : X n R, T 2 : X n R + (pierwszą oznaczamy X, drugą S 2 ). Statystyka T 1 ma rozkład N (µ, σ 2 /n), statystyka T 2 ma taki rozkład jak σ 2 ξ/(n 1), gdzie ξ jest zmienną losową o rozkładzie χ 2 (n 1). Twierdzenie, ustalające rozkłady oraz niezależność od siebie tych dwóch statystyk, jest znane jako twierdzenie Fishera. Jak widzimy, w obu przypadkach rozkłady statystyk zależą od nieznanych parametrów. Natomiast np. zmienne losowe X µ (n 1)S 2 n oraz σ σ 2 nie są statystykami (zależą od nieznanych parametrów). Ich rozkłady to odpowiednio N (0, 1) oraz χ 2 (n 1) (nie zależą od nieznanych parametrów).wreszcie, zmienna 5 i=1
losowa (nie statystyka) n X µ ma rozkład Studenta S t n 1. Dla dwóch niezależnych próbek X 1,..., X n i Y 1,..., Y m, o rozkładach odpowiednio N (µ X, σx 2 ) i N (µ Y, σy 2 ) (parametry µ X, σx 2, µ Y, σy 2 są nieznane) zmienna losowa SX 2 σ2 Y SY 2 ma rozkład Fishera F (n 1, m 1), σ2 X natomiast zmienna losowa X Ȳ (µ X µ Y ) ma rozkład ((n 1)S 2 X +(m 1)SY 2 )(n+m) (gdy σ 2 X = σ2 Y ). (n+m 2)nm t n+m 2 6