MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości obserwacji) oznaczamy X, X R. Wraz z X określamy rodzinę podzbiorów A (σ-ciało) oraz pewną rodzinę rozkładów P na A. Zakładamy, że rozkład zmiennej losowej X, czyli P X, nie jest nam znany; wiemy tylko, że P X P. Analogia: Rachunek prawdopodobieństwa - (Ω, F, P ); Statystyka matematyczna - (X, A, P X ), P X P. Próba to ciąg niezależnych zmiennych losowych X 1, X 2,..., X n o jednakowym rozkładzie P X. Przestrzenią prób nazywamy zbiór X n. Na tej przestrzeni określamy rodzinę podzbiorów A (n) - jest to najmniejsze σ-ciało zawierające wszystkie zbiory postaci A 1... A n, A i A, i = 1,..., n. Na A (n) rozważamy rozkład P (n) X, który na zbiorach postaci A 1... A n określa się jako P (n) X (A 1... A n ) = P X (A 1 )... P X (A n ). (X n, A (n), P (n) X ), gdzie P X P, - to przestrzeń statystyczna (używa się też nazwy model statystyczny). 1
Opisać model statystyczny, odpowiadający pewnemu doświadczeniu (lub ciągu doświadczeń), oznacza określić X n i P. Przykład 1. Przedmiotem badania jest populacja, w której część jednostek posiada pewną własność, a pozostali jej nie posiadają. Chcemy dowiedzieć się, ile wynosi frakcja θ [0, 1] jednostek w populacji posiadających tę własność. 1. Losujemy n jednostek i sprawdzamy posiadanie owej własności: 1 - posiada własność, 0 - nie posiada własności. Próbka X 1,..., X n to ciąg niezależnych zmiennych losowych o tym samym rozkładzie zero-jedynkowym z prawdopodobieństwem sukcesu (wartość 1) θ. Przestrzeń prób to zbiór X n = {0, 1} n. Rodzina P to rodzina wszystkich rozkładów zero-jedynkowych indeksowana parametrem θ : P (X = 1) = θ, P (X = 0) = 1 θ, lub inaczej P (X = x i ) = θ x i (1 θ) 1 x i, gdzie x i {0, 1}. 2. Losujemy n jednostek i zapisujemy wynik x - liczbę jednostek posiadających tę własność wśród wylosowanych. Próbka X (składa się z jednego elementu) to zmienna 2
losowa o rozkładzie dwumianowym B(n, θ) : ( ) n P (X = x) = θ x (1 θ) n x, x {0, 1,..., n}. x Przestrzeń prób to zbiór X = {0, 1,..., n}. Rodzina P to rodzina wszystkich rozkładów dwumianowych B(n, θ) indeksowana parametrem θ [0, 1]. Przykład 2. Niech w warunkach poprzedniego przykładu wiadomo, że populacja się składa z N jednostek; celem jest dowiedzieć się, ile wynosi liczba M N jednostek posiadających pewną własność (np. wadliwych). Losujemy n jednostek i ponownie zapisujemy wynik x - liczbę jednostek posiadających tę własność. Próbka X (jednoelementowa) to zmienna losowa o rozkładzie hipergeometrycznym: ( )( ) ( ) M N M N P (X = x) = /. (1) x n x n Przestrzeń prób to zbiór X = {0, 1,..., min{n, M}}. Rodzina P to rodzina wszystkich rozkładów postaci (1) indeksowana parametrem M {0, 1,..., N}. Przykład 3. Powtarzamy niezależnie n razy pomiar pewnej nieznanej wielkości µ. Poszczególne wyniki możemy traktować jako niezależne zmienne losowe (przy- 3
rząd pomiarowy jest niedoskonały) X 1,..., X n o tym samym rozkładzie. Chcemy się dowiedzieć, ile wynosi µ. W takiej sytuacji często zakłada się, że rozkład każdej zmiennej losowej jest normalny N (µ, σ 2 ), którego gęstość to f(u) = 1 2πσ exp [ ] (u µ)2, u R. 2σ 2 Przestrzeń prób: X n = R n. Rodzina P to rodzina wszystkich rozkładów normalnych N (µ, σ 2 ) indeksowana parametrem µ R (jeśli σ > 0 jest znane) lub wektorem parametrów θ = (µ, σ) R R +. Wśród modeli statystycznych rozróżniamy parametryczne i nieparametryczne. Parametryczne to modele, w których P = {P θ Θ} oraz Θ R k (zbiór Θ nazywamy przestrzenią parametrów). Będziemy zawsze zakładali, że jeżeli θ 1 θ 2, to P θ1 P θ2 (rozkłady są identyfikowalne). W pozostałych przypadkach model nazywamy nieparametrycznym. W Przykładzie 1: Θ = [0, 1], w Przykładzie 2: Θ = {0, 1,..., N}, w Przykładzie 3: Θ = R lub R R +. 4
Ważnym przykładem modeli parametrycznych są modele z parametrami położenia i skali. Niech P 0 będzie rozkładem pewnej zmiennej losowej X (nazwijmy go rozkładem standardowym) i rozważmy rodzinę rozkładów P zmiennych losowych postaci σx + µ, gdzie µ R, σ > 0. Taka rodzina rozkładów nazywa się rodziną rozkładów z parametrami położenia (µ) i skali (σ). Jeśli przez F 0 ( ) oznaczymy dystrybuantę rozkładu standardowego, to dystrybuanta rozkładu zmiennej losowej σx + µ to F 0 (( µ)/σ). Np. rodzina rozkładów normalnych z Przykładu 3 jest rodziną rozkładów z parametrami położenia i skali. Przykłady rodzin rozkładów (i odpowiednio modeli) nieparametrycznych: rodzina rozkładów absolutnie ciągłych o ciągłej i ograniczonej gęstości, rodzina symetrycznych rozkładów absolutnie ciągłych (gdy gęstość jest funkcją ciągłą i symetryczną względem pewnej prostej x = x 0 ) itd. Rodziny tych rozkładów są zbyt bogate i nie mogą być sparametryzowane za pomocą wektoru parametrów. 5