Tematy: WSTĘP 1. Wprowadzenie do przedmiotu. Próbkowe odpowiedniki wielkości populacyjnych. Modele statystyczne i przykładowe zadania wnioskowania statystycznego. Statystyki i ich rozkłady. 2. Estymacja w modelach parametrycznych. Metody estymacji punktowej, metoda momentów, metoda największej wiarogodności. Porównywanie estymatorów, obciążenie estymatora. Asymptotyczne własności estymatorów. Estymacja przedziałowa. 3. Testowanie hipotez. Ogólne zasady postępowania. Testy parametryczne. Przykładowe testy nieparametryczne. Błędy 1-go i 2-go rodzajów, moc testu. 4. Analiza zależności zmiennych. Testowanie niezależności zmiennych. Korelacja, współczynniki korelacji. Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz. 1
Zasady zaliczenia: zaliczenie ćwiczeń i laboratorium, egzamin z treści wykładu (pisemny). Literatura podstawowa: 1. W. Niemiro, Rachunek prawdopodobieństwa i statystyka matematyczna, SNS 1999. 2. J. Koronacki, J. Mielniczuk, Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT 2004. Literatura uzupełniająca: 1. W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Część 2. Statystyka matematyczna, PWN 1995. 2. D. T. Larose, Metody i modele eksploracji danych, PWN 2008. 3. R. Zieliński, Siedem wykładów wprowadzających do statystyki matematycznej, PWN 1990. Prezentacje są dostępne na www-users.mat.umk.pl/ alzaig/materialy.html 2
Przykłady problemów: partia polityczna zamierza sprawdzić, czy przekroczy pięcioprocentowy próg wyborczy w zbliżających się wyborach; biolog chciałby wiedzieć, jaka jest najniższa temperatura, przy której jest w stanie przetrwać dany gatunek roślin; firma farmaceutyczna potrzebuje badań skuteczności nowego leku; lekarz chce wiedzieć, czy otyłość wpływa na zachorowalność na pewną chorobę; socjolog chcę sprawdzić, czy rzeczywiście Polacy coraz częściej spędzają czas przed telewizorem. Działamy poprzez przeprowadzenie doświadczeń. Wyniki tych doświadczeń mają charakter losowy; nie da się ich przewidzieć wcześniej. Zakładamy, że jesteśmy w stanie powtórzyć te doświadczenia w tych samych warunkach pewną liczbę razy (a nawet dowolną liczbę razy). Uwagi. 1. Mamy do czynienia ze zbiorem (populacja generalna) pojedynczych nośników informacji (jednostka statystyczna). Populacje mogą być skończone i nieskończone. 2. Jednostki statystyczne są charakteryzowane przez 3
pewne cechy. Interesujące nas cechy jednostek, które nie są takie same, nazywamy zmiennymi. 3. Badanie może być pełne i częściowe. W przypadku drugim, badając tylko małą część populacji (próbka losowa) chcemy sądzić o całej populacji. Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej. Statystyka matematyczna to dział matematyki, który rozwija metody uzasadniające poprawność wnioskowania statystycznego. Uwaga. Nawet poprawne wnioskowanie statystyczne może być błędne! Etapy badania statystycznego: - przygotowanie badania; - gromadzenie danych i ich opracowanie; - wnioskowanie statystyczne; - prezentacja wyników. 4
Compendum wiedzy z Rachunku Prawdopodobieństwa 1. Trójkę (Ω, F, P ), gdzie Ω, F jest σ-ciałem podzbiorów Ω, a P jest prawdopodobieństwem określonym na F, nazywamy przestrzenią probabilistyczną. 2. Rodzinę F 2 Ω nazywamy σ-ciałem lub σ-algebrą podzbiorów Ω, jeśli Ω F; A Ω A F = A c F; A 1, A 2,... Ω, A 1, A 2,... F = i=1 A i F. 3. Funkcję P : F [0, 1] nazywamy prawdopodobieństwem (miarą probabilistyczną), jeśli P (Ω) = 1; A 1, A 2,... F : A i A j = i j = P ( i=1 A i) = i=1 P (A i) (przeliczalna addytywność). 4. Funkcję X : Ω R nazywamy zmienną losową, jeśli X 1 (B) F B B(R), gdzie B(R) to σ-ciało podzbiorów borelowskich w R, czyli najmniejsze σ-ciało, zawierające wszystkie podzbiory otwarte w R, X 1 (B) = {ω : X(ω) B} = {X B}. Przykład. Jeśli F = 2 Ω, to każda funkcja X: Ω R jest zmienną losową. Jeśli F={, Ω}, to X: Ω R jest zmienną losową tylko wtedy, gdy jest funkcją stałą. 5
5. Jeśli X jest zmienną losową, a g : R R taką funkcją, że g 1 ((, a]) B(R) a R, to g(x) jest zmienną losową. 6. Rozkładem zmiennej losowej X nazywamy prawdopodobieństwo P X : B(R) [0, 1] zdefiniowane wzorem P X (B)=P (X 1 (B))=P ({ω : X(ω) B}), B B(R) Uwaga. Rozkład P X wyznacza się na podstawie prawdopodobieństwa P oraz zmiennej losowej X. 7. Dystrybuantą zmiennej losowej X nazywamy funkcję F X : R [0, 1] określoną wzorem F X (x) = P X ((, x]) = P (X x), x R. Wśród rozkładów wyróżniamy 2 podstawowe typy: dyskretne i ciągłe (absolutnie ciągłe). 8. Mówimy, że zmienna losowa X ma rozkład dyskretny (lub że P X jest rozkładem dyskretnym), jeśli istnieje zbiór S R, co najwyżej przeliczalny, taki, że P X (S)=1. Niech S = {x 1,..., x n,...}. Wówczas rozkład zmiennej losowej X jest określony poprzez zadanie ciągu par liczb {(x k, p k ), k =1,..., n,...}, gdzie p k =P (X =x k ) dla k = 1,..., n,... 6
Przykłady rozkładów dyskretnych. 1. Rozkład dwupunktowy: S = {x 1, x 2 }, czyli P (X = x 1 ) = p, P (X = x 2 ) = 1 p, p (0, 1). Jeśli x 1 = 1, x 2 = 0, to taki rozkład nazywamy zerojedynkowym. 2. Rozkład równomierny: S = {x 1, x 2,..., x n }, P (X = x k ) = 1/n dla k = 1,..., n. 3. Rozkład dwumianowy (Bernoulliego) B(n, p) : S = {0, 1,..., n}, P (X = k) = ( n k) p k (1 p) n k, p (0, 1). 4. Rozkład Poissona P(λ) : S = {0, 1,..., n,...}, P (X = k) = λk k! e λ, λ > 0. 9. Mówimy, że zmienna losowa X ma rozkład ciągły (lub że P X jest rozkładem ciągłym), jeśli istnieje funkcja nieujemna całkowalna f X : R R taka, że P X (B) = f X (x)dx, B B(R). B Funkcja f X nazywa się gęstością rozkładu P X lub zmiennej losowej X. W szczególności, F X (x) = x f X (t)dt. 10. Zachodzi: F X (x) = f X(x) dla wszystkich punktów x R, w których funkcja f X jest ciągła. 7
Przykłady rozkładów ciągłych. 1. Rozkład jednostajny na odcinku [a, b] (oznaczenie U(a, b)): f(x) = 1 b a 1 [a,b](x), x R. 2. Rozkład wykładniczy, λ > 0 (oznaczenie E(λ)): f(x) = λe λx 1 (0,+ ) (x), x R. 3. Rozkład normalny (Gaussa), a R, σ > 0 (oznaczenie N (a, σ 2 )): f(x) = 1 2πσ exp( (x a)2 2σ 2 ), x R. Pożyteczne własności rozkładu normalnego: (a) funkcja liniowa niezależnych zmiennych losowych o rozkładzie normalnym ma rozkład normalny; (b) standaryzacja - jeśli X ma rozkład N (a, σ 2 ), to X a σ ma rozkład N (0, 1). 11. Wartością oczekiwaną zmiennej losowej X nazywamy liczbę EX = x k p k (o ile istnieje), k gdy X ma rozkład dyskretny wyznaczony przez {(x k, p k ), k = 1, 2,...}, oraz liczbę EX = xf X (x)dx (o ile istnieje), gdy X ma rozkład ciągły o gęstości f X. 8
12. Wartością oczekiwaną zmiennej losowej g(x) nazywamy liczbę Eg(X) = g(x k )p k (o ile istnieje), k gdy X ma rozkład dyskretny wyznaczony przez {(x k, p k ), k = 1, 2,...}, oraz liczbę Eg(X) = g(x)f X (x)dx (o ile istnieje), gdy X ma rozkład ciągły o gęstości f X. 13. Jeśli zmienna losowa X posiada wartość oczekiwaną, to zmienna losowa ax+b (gdzie a, b R) też posiada wartość oczekiwaną oraz E(aX + b) = aex + b. 14. Jeśli zmienne losowe X 1, X 2,..., X n posiadają wartości oczekiwane, to zmienna losowa X 1 +X 2 + + X n też posiada wartość oczekiwaną oraz E(X 1 + X 2 + + X n ) = EX 1 + EX 2 + + EX n. 15. Wariancją zmiennej losowej X nazywamy liczbę VarX = E(X EX) 2 = EX 2 (EX) 2 (o ile istnieje): (dyskretny) VarX = x 2 kp k ( k k (ciągły) VarX = x 2 f X (x)dx ( x k p k ) 2, xf X (x)dx) 2. 9
16. Jeśli zmienna losowa X posiada wariancję, to zmienna losowa ax + b (gdzie a, b R) też posiada wariancję oraz Var(aX + b) = a 2 VarX. 17. Zmienne losowe X 1, X 2,..., X n nazywamy niezależnymi, jeśli dla dowolnych zbiorów B 1, B 2,..., B n B(R) zachodzi P (X 1 B 1, X 2 B 2,..., X n B n ) = = P (X 1 B 1 )P (X 2 B 2 )... P (X n B n ). 18. Dla niezależnych zmiennych losowych: E(X 1 X 2... X n ) = EX 1 EX 2... EX n ; Var(X 1 +X 2 +...+X n )=VarX 1 +VarX 2 +...+VarX n. 19. Mówimy, że ciąg zmiennych losowych X 1, X 2,..., X n,... jest zbieżny według prawdopodobieństwa do zmiennej losowej X, jeśli ε > 0 lim P ({ω Ω : X n (ω) X(ω) ε}) = 0. n 20. Mówimy, że ciąg zmiennych losowych X 1, X 2,..., X n,... jest zbieżny z prawdopodobieństwem 1 do zmiennej losowej X, jeśli ( ) P {ω Ω : lim X n (ω) = X(ω)} = 1. n 21. Mówimy, że ciąg zmiennych losowych X 1, X 2,..., X n,... o dystrybuantach odpowiednio F X1, F X2,..., 10
F Xn,... jest zbieżny według rozkładu do zmiennej losowej X o dystrybuancie F, jeśli F Xn (x) F (x), n, dla każdego punktu ciągłości x dystrybuanty F. 22. Mówimy, że ciąg zmiennych losowych X 1,..., X n,... spełnia słabe prawo wielkich liczb (SPWL), jeśli zmienne te posiadają wartości oczekiwane oraz X 1 +... + X n EX 1... EX n 0, n n według prawdopodobieństwa. 23. Mówimy, że ciąg zmiennych losowych X 1,..., X n,... spełnia mocne prawo wielkich liczb (MPWL), jeśli zmienne te posiadają wartości oczekiwane oraz X 1 +... + X n EX 1... EX n 0, n n z prawdopodobieństwem 1. Uwaga. Jeśli ciąg zmiennych losowych spełnia MPWL, to spełnia też SPWL. Uwaga. Jeśli wartości oczekiwane wszystkich zmiennych losowych X 1,..., X n,... są równe i wynoszą µ, to ten ciąg spełnia SPWL(MPWL), gdy X 1 +... + X n µ, n n według prawdopodobieństwa (z prawdopodobieństwem 1). 11
24. Jeśli X 1,..., X n,... jest ciągiem parami niezależnych zmiennych losowych o jednakowym rozkładzie z wartością oczekiwaną µ, to spełnia on MPWL (a zatem i SPWL). 25. Jeśli X 1,..., X n,... jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie z wartością oczekiwaną EX 1 = µ oraz wariancją VarX 1 = σ 2, to spełnia on centralne twierdzenie graniczne (CTG), czyli dla niego zachodzi: X 1 + + X n nµ nσ X, n według rozkładu, gdzie X jest zmienną losową o rozkładzie normalnym standardowym N (0, 1). 26. Szczególnym przypadkiem CTG jest twierdzenie de Moivre a-laplace a: jeśli X 1,..., X n,... jest ciągiem niezależnych zmiennych losowych o tym samym rozkładzie zero-jedynkowym z parametrem p = P (X 1 = 1), to X 1 + + X n np X, n np(1 p) według rozkładu, gdzie X jest zmienną losową o rozkładzie normalnym standardowym N (0, 1). 12