WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Podobne dokumenty
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Testowanie hipotez statystycznych.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Estymacja parametrów rozkładu cechy

Wykład 10 Testy jednorodności rozkładów

Wykład 11 Testowanie jednorodności

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

STATYSTYKA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

1.1 Wstęp Literatura... 1

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna. Wykład VI. Zesty zgodności

Porównanie wielu rozkładów normalnych

Spis treści 3 SPIS TREŚCI

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 7 Testowanie zgodności z rozkładem normalnym

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

1 Estymacja przedziałowa

Statystyka matematyczna dla leśników

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Porównanie dwóch rozkładów normalnych

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Testowanie hipotez statystycznych.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Test t-studenta dla jednej średniej

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Rozkłady statystyk z próby

Testowanie hipotez statystycznych cd.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Wykład 3 Hipotezy statystyczne

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Weryfikacja hipotez statystycznych

Hipotezy statystyczne

Statystyka w przykładach

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyczna analiza danych

Estymacja punktowa i przedziałowa

Dokładne i graniczne rozkłady statystyk z próby

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Hipotezy statystyczne

Agata Boratyńska Statystyka aktuarialna... 1

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 8 Dane kategoryczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Prawdopodobieństwo i statystyka r.

Kolokwium ze statystyki matematycznej

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Prawdopodobieństwo i statystyka

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Testowanie hipotez statystycznych

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Transkrypt:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 1 / 41

TESTOWANIE HIPOTEZ - PORÓWNANIE DWÓCH POPULACJI Pytanie: czy populacje pod pewnymi względami są takie same, czy rozkłady zmiennych losowych mają pewne cechy takie same? Hipotezy paramertryczne: badamy równość pewnych parametrów rozkładów: wartości oczekiwanej, wariancji, prawdopodobieństwa pewnego zbioru Hipotezy nieparametryczne: sprawdzamy czy rozkłady są jednakowe Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 2 / 41

PORÓWNANIE DWÓCH POPULACJI - PRZYKŁADY czy plon przeciętny przy dwóch sposobach nawożenia jest jednakowy czy przeciętna cena pewnego towaru w sklepach Warszawy jest wyższa niż w sklepach Krakowa czy czas wykonania pewnego detalu przy dwóch sposobach produkcji jest jednakowy czy poparcie dla Pana A wzrosło w ciągu miesiąca czy margaryna Rama i Flora są kupowane tak samo często czy dwie metody pomiarowe są jednakowo dokładne Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 3 / 41

Model I - porównanie wartości oczekiwanych Założenia X 1,1, X 1,2,..., X 1,n1 - próba losowa z rozkładu normalnego N(µ 1, σ 2 1 ); X 2,1, X 2,2,..., X 2,n2 - próba losowa z rozkładu normalnego N(µ 2, σ 2 2 ); µ 1, µ 2 nieznane, σ 1, σ 2 znane, wszystkie zmienne niezależne. Hipoteza zerowa: H 0 : µ 1 = µ 2 Poziom istotności α X 1 = 1 n1 n 1 i=1 X 1,i N(µ 1, σ2 1 n 1 ) i X 2 = 1 n2 n 2 i=1 X 2,i N(µ 2, σ2 2 Statystyka testowa: U n1,n 2 = X 1 X 2 σ 1 2 + σ2 2 n 1 n 2 Przy hipotezie H 0 prawdziwej U n1,n 2 N(0, 1) Alternatywa Zbiór krytyczny H 1 : µ 1 µ 2 K 1 = { U n1,n 2 > u 1 α } 2 H 2 : µ 1 > µ 2 K 2 = { U n1,n 2 > u 1 α } H 3 : µ 1 < µ 2 K 3 = { U n1,n 2 < u 1 α } Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 4 / 41 n 2 )

Model II- porównanie wartości oczekiwanych Założenia X 1,1, X 1,2,..., X 1,n1 - próba losowa z rozkładu normalnego N(µ 1, σ 2 1 ); X 2,1, X 2,2,..., X 2,n2 - próba losowa z rozkładu normalnego N(µ 2, σ 2 2 ); µ 1, µ 2, σ 1, σ 2 nieznane, ale σ 1 = σ 2, wszystkie zmienne niezależne. Hipoteza zerowa: H 0 : µ 1 = µ 2 X 1 = 1 n1 n 1 i=1 X 1,i N(µ 1, σ2 1 n 1 ), X 2 = 1 n2 n 2 i=1 X 2,i N(µ 2, σ2 2 ( ( )) X 1 X 2 N µ 1 µ 2, σ1 2 1 + 1 n1 n2 S1 2 = 1 n1 n 1 1 i=1 (X 1,i X 1 ) 2 - estymator wariancji w oparciu o próbę X 1,1, X 1,2,..., X 1,n1 S2 2 = 1 n2 n 2 1 i=1 (X 2,i X 2 ) 2 - estymator wariancji w oparciu o próbę X 2,1, X 2,2,..., X 2,n1 S 2 = (n 1 1)S1 2+(n 2 1)S2 2 n 1 +n 2 2 - estymator wariancji w oparciu o dwie próby Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 5 / 41 n 2 )

Model II- prównanie wartości oczekiwanych cd. Statystyka testowa: T n1,n 2 = X 1 X 2 S 1 n 1 + 1 n 2 Przy hipotezie H 0 prawdziwej T ma rozkład t-studenta z n 1 + n 2 2 stopniami swobody Alternatywa Zbiór krytyczny H 1 : µ 1 µ 2 K 1 = { T n1,n 2 > t(α, n 1 + n 2 2) } H 2 : µ 1 > µ 2 K 2 = { T n1,n 2 > t(2α, n 1 + n 2 2) } H 3 : µ 1 < µ 2 K 3 = { T n1,n 2 < t(2α, n 1 + n 2 2) } Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 6 / 41

Model III - porównanie wartości oczekiwanych, test asymptotyczny Założenia: X 1,1, X 1,2,..., X 1,n1 - i.i.d. z rozkładu o EX = µ 1 i VarX = σ 2 1 ; X 2,1, X 2,2,..., X 2,n2 - i.i.d. z rozkładu o EX = µ 2 VarX = σ 2 2 ; µ 1, µ 2, σ 1, σ 2 nieznane, wszystkie zmienne niezależne, n 1, n 2 duże. Hipoteza zerowa: H 0 : µ 1 = µ 2 poziom istotności α Statystyka testowa: U = X 1 X 2 Ŝ2 1 + Ŝ2 2 n 1 n2 Przy hipotezie H 0 prawdziwej U N(0, 1) przy n 1, n 2 + Alternatywa Zbiór krytyczny H 1 : µ 1 µ 2 K 1 = { U > u 1 α } 2 H 2 : µ 1 > µ 2 K 2 = { U > u 1 α } H 3 : µ 1 < µ 2 K 3 = { U < u 1 α } Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 7 / 41

Model III - porównanie wartości oczekiwanych, PRZYKŁAD Egzamin ze statystyki zdawało 247 studentów. Czy studenci chodzący na wykłady uzyskali średnio lepsze wyniki. 162 osoby ( 3 razy były na wykładzie) średnia z ocen X 1 = 3, 20 S1 2 = 0, 92 85 osób (< 3 razy były na wykładzie) średnia z ocen X 2 = 2, 56 S2 2 = 0, 48 H 0 : µ 1 = µ 2 Poziom istotności 0,05 3,2 2,56 U emp = = 5, 998 > 1, 64, p value < 0, 000001 0,92/162+0,48/85 Hipotezę o równości średnich odrzucamy na korzyść hipotezy o większej średniej dla studentów chodzących na wykład. Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 8 / 41

Model II - Hipoteza o równości wariancji Założenia X 1,1, X 1,2,..., X 1,n1 - próba losowa z rozkładu normalnego N(µ 1, σ 2 1 ); X 2,1, X 2,2,..., X 2,n2 - próba losowa z rozkładu normalnego N(µ 2, σ 2 2 ); µ 1, µ 2, σ 1, σ 2 nieznane, wszystkie obserwowane zmienne niezależne. Hipoteza zerowa: H 0 : σ 1 = σ 2 S1 2 = 1 n1 n 1 1 i=1 (X 1,i X 1 ) 2, S2 2 = 1 n2 n 2 1 i=1 (X 2,i X 2 ) 2 - estymatory wariancji σ1 2 i σ2 2 Statystyka testowa: F = S2 1 S 2 2 Przy H 0 prawdziwej F F n1 1,n 2 1 Alternatywa Zbiór krytyczny H 1 : σ1 2 σ2 2 K 1 = { F < F ( 1 α 2 ; n 1 1, n 2 1 ) F > F ( α 2 ; n 1 1, n 2 1 )} H 2 : σ1 2 > σ2 2 K 2 = {F > F (α; n 1 1, n 2 1)} H 3 : σ1 2 < σ2 2 K 3 = {F < F (1 α; n 1 1, n 2 1)} Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 9 / 41

Model IV - hipoteza o równości wskaźników struktury Założenia Wykonujemy n 1 niezależnych doświadczeń typu sukces - porażka, w których prawdopodobieństwo sukcesu jest równe p 1, i n 2 niezależnych doświadczeń typu sukces - porażka, w których prawdopodobieństwo sukcesu jest równe p 2 p 1, p 2 (0, 1) nieznane, n 1, n 2 duże X i oznacza liczbę sukcesów w n i próbach, i = 1, 2 Wtedy X 1 bin(n 1, p 1 ), X 2 bin(n 2, p 2 ) Hipoteza zerowa H 0 : p 1 = p 2 ˆp 1 = X 1 n 1 i ˆp 2 = X 2 n 2 - estymatory parametrów p 1 i p 2 p = X 1+X 2 n 1 +n 2 - estymator prawdopodobieństwa sukcesu przy założeniu, że H 0 prawdziwa Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 10 / 41

Model IV - hipoteza o równości wskaźników struktury cd. Statystyka testowa U n 1,n 2 = ˆp 1 ˆp 2 ( ) p (1 p ) 1 + 1 n1 n2 Przy prawdziwości H 0 U n 1,n 2 N(0, 1) przy n 1, n 2 + Alternatywa Zbiór krytyczny H 1 : p 1 p 2 K 1 = { Un 1,n 2 > u 1 α } 2 H 2 : p 1 > p 2 K 2 = { Un 1,n 2 > u 1 α } H 3 : p 1 < p 2 K 3 = { Un 1,n 2 < u 1 α } Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 11 / 41

Model IV - hipoteza o równości wskaźników struktury, PRZYKŁAD Egzamin ze statystyki zdawało 247 studentów. Czy studenci chodzący na wykłady mieli większe szanse na uzyskanie oceny pozytywnej 162 osoby ( 3 razy były na wykładzie) częstość zdania egzaminu ˆp 1 = 0, 698 85 osób (< 3 razy były na wykładzie) częstość zdania egzaminu ˆp 2 = 0, 447 H 0 : p 1 = p 2 vs H 0 : p 1 > p 2 Poziom istotności 0,05 U n 1,n 2,emp = 3, 84 > 1, 64 p value = 0, 00006 Hipotezę o równości odrzucamy na korzyść hipotezy o większym prawdopodobieeństwie zdania dla studentów chodzących na wykład. Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 12 / 41

Test analizy wariancji Rozważamy k prób losowych X 1,1, X 1,2,..., X 1,n1 X 2,1, X 2,2,..., X 2,n2......... X k,1, X k,2,..., X k,nk PRZYKŁAD: X i,j cena pewnego produktu w i-tym mieście, i rozważamy k miast. ZAŁOŻENIA: X i,j, i = 1, 2,..., k, j = 1, 2,..., n i są niezależne X i,j N(m i, σ 2 ), m 1, m 2,..., m k, σ są nieznane Hipoteza zerowa: H 0 : m 1 = m 2 = = m k alternatywa H 1 : H 0 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 13 / 41

Test analizy wariancji, cd. Oznaczenia: n = n 1 + n 2 + + n k X i = 1 ni n i j=1 X i,j X = 1 p ni n i=1 j=1 X i,j = 1 p n i=1 n i X i Test oparty na ilorazie wiarogodności odrzuca H 0 gdy ki=1 n i ( X i X ) 2 /(k 1) F = ki=1 ni j=1 (X > F (α, k 1, n k) i,j X i ) 2 /(n k) gdzie F (α, k 1, n k) wartość krytyczna w rozkładzie F k 1,n k rzędu α. 1 ki=1 k 1 n i ( X i X ) 2 - estymator wariancji międzygrupowej ki=1 ni j=1 (X i,j X i ) 2 - estymator wariancji wewnątrz grup 1 n k k n i (X i,j X ) 2 = i=1 j=1 k n i ( X i X ) 2 + i=1 k n i (X i,j X i ) 2 i=1 j=1 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 14 / 41

Tabela testu analizy wariancji Źródło Sumy Stopnie wartość zmienności kwadratów swobody statystyki F między próbkami wewnątrz próbek Razem ki=1 n i ( X i X ) 2 k 1 ki=1 ni j=1 (X i,j X i ) 2 n k F emp ki=1 ni j=1 (X i,j X ) 2 n 1 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 15 / 41

Test analizy wariancji, PRZYKŁAD Porównano zyski ze sprzedaży pewnego towaru w czterech miastach. Wylosowano po 10 sklepów i otrzymano wyniki: miasto A B C D średni zysk 88 94 91 89 ki=1 ni j=1 X 2 i,j = 328135 Testem analizy wariancji zweryfikuj hipotezę o równości przeciętnego zysku w tych miastach H 0 : m 1 = m 2 = m 3 = m 4 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 16 / 41

PRZYKŁAD cd. 4 10 i=1 j=1 X = 90, 5 (X i,j X i ) 2 = 4 10( X i X ) 2 = 210 i=1 4 10 i=1 j=1 X 2 i,j 4 i=1 10 X 2 i = 315 Źródło Sumy Stopnie wartość zmienności kwadratów swobody statystyki F między próbkami 210 3 wewnątrz próbek 315 36 Razem 525 39 8 Wniosek: odrzucamy hipotezę H 0 F (0, 05, 3, 36) = 2, 87 8 > 2, 87 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 17 / 41

Asymptotyczne własności testu opartego na ilorazie wiarogodności Model: X 1, X 2,..., X n,... i.i.d. P θ, θ Θ, Θ zbiór d wymiarowy Θ 0 = {θ : h(θ) = 0}, Θ 0 zbiór d p wymiarowy Hipoteza: H 0 : h(θ) = 0 vs H 1 : h(θ) 0 Statystyka testowa: Λ(X 1, X 2,..., X n ) = sup θ Θ L(θ) sup θ Θ0 L(θ) Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 18 / 41

Asymptotyczne własności testu opartego na ilorazie wiarogodności Twierdzenie. Jeżeli H 0 jest prawdziwa to rozkład statystyki 2 ln Λ dąży (przy n + ) do rozkładu chi-kwadrat z p stopniami swobody Obszar krytyczny testu asymptotycznego przy poziomie istotności α { } K = (x 1, x 2,..., x n ) : 2 ln Λ(x 1, x 2,..., x n ) > χ 2 (α, p) Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 19 / 41

Przykład Model Poissona: X 1, X 2,..., X n i.i.d. z rozkładu Poissona Poiss(θ), θ > 0 Weryfikujemy H 0 : θ = θ 0 vs. H 1 : θ θ 0 Funkcja wiarogodności L(θ) = e nθ ENW (θ) = X d = 1, dim(θ 0 ) = 0 = p = 1 θn X X 1!...X n! ( Λ = e n(θ 0 X ) X θ 0 ) n X Hipotezę H 0 odrzucamy gdy ) 2 ln Λ = 2nθ 0 X ) + 2n X (ln X ln θ 0 > χ 2 (α, 1) Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 20 / 41

TESTOWANIE HIPOTEZ O ZGODNOŚCI Badamy, czy zmienna pochodzi z konkretnego rozkładu lub rodziny rozkładów (testy zgodności) Niech X 1, X 2,..., X n i.i.d. z rozkładu o nieznanej dystrybuancie F H 0 : F = F 0, F 0 ustalona Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 21 / 41

Test Kołmogorowa Założenie: F 0 - ciągła, ściśle rosnąca dystrybuanta Statystyka testowa: D n = sup F n (t) F 0 (t), t R gdzie F n (t) = F n (X 1, X 2,..., X n, t) jest dystrybuantą empiryczną. D n = max{d + n, D n } gdzie D + n i=1...n = max i n z i Dn = max i=1...n z i i 1 n z i = F 0 (x i:n ) TEST: Jeżeli D n > c(α, n), to hipotezę H 0 odrzucamy. Wybór c(α, n), wartości stablicowane Rozkład statystyki D n przy prawdziwości hipotezy H 0 nie zależy od postaci F 0. Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 22 / 41

Wartości c(α, n) przy dużym n α 0.20 0.10 0.05 0.01 c(α, n) 1.07/ n 1.22/ n 1.36/ n 1.63/ n Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 23 / 41

PRZYKŁAD Na podstawie próbki losowej 10-elementowej weryfikujemy hipotezę, że obserwowana zmienna ma rozkład o dystrybuancie F x = x 2 gdy x (0,1) xi i/n F(xi) i/n-f(xi) F(xi)-(i-1)/n 0,038 0,1 0,001 0,099 0,001 0,146 0,2 0,021 0,179 0,079 0,165 0,3 0,027 0,273 0,173 0,289 0,4 0,084 0,316 0,216 0,325 0,5 0,106 0,394 0,294 0,655 0,6 0,430 0,170 0,070 0,719 0,7 0,517 0,183 0,083 0,736 0,8 0,541 0,259 0,159 0,924 0,9 0,853 0,047 0,053 0,985 1 0,970 0,030 0,070 D n =Max=0,394 Wartość krytyczna przy poziomie istotności 0,1 = 0,369 HIPOTEZĘ ODRZUCAMY Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 24 / 41

Test Kołmogorowa - Lillieforsa Niech X 1, X 2,..., X n i.i.d. z rozkładu o nieznanej dystrybuancie F H 0 : F jest dystrybuantą rozkładu normalnego Statystyka testowa D n = max{d n +, Dn } gdzie D n + = max i i=1...n n z i Dn = max i=1...n z i i 1 n X = 1 n n i=1 X i S 2 = 1 n 1 Obszar krytyczny testu: K = {D n > D n (α)} z i = Φ n (X i X ) 2 i=1 D n (α) stablicowane, dla dużych n zachodzi D n (α) = α 0.1 0.05 0.01 D(α) 0.819 0.895 1.035 D(α) n 0.01+ 0.85 n ( Xi:n X ) Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 25 / 41 S

Test Kołmogorowa - Smirnowa Model: X 1, X 2,..., X n i.i.d. z rozkładu o dystrybuancie F, Y 1, Y 2,..., Y m i.i.d. z rozkładu o dystrybuancie G. Hipoteza: H 0 : F = G vs. H 1 : F G Statystyka testowa: D n,m = sup F n (t) G m (t), t R gdzie F n, G m dystrybuanty empiryczne Test: H 0 odrzucamy gdy D n,m > c(α, n, m), wartości krytyczne c(α, n, m) stablicowane, nie zależą od postaci dystrybuant F i G Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 26 / 41

Test zgodności chi-kwadrat Test zgodności chi-kwadrat służy do weryfikacji hipotezy o postaci rozkładu obserwowanej zmiennej losowej X, jest testem asymptotycznym, pozwala weryfikować hipotezy o rozkładzie dyskretnym oraz o rozkładzie ciągłym. Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 27 / 41

Test zgodności chi-kwadrat, rozkład dyskretny Model: Powtarzamy n- krotnie doświadczenie losowe, które ma k możliwych wyników w 1, w 2,..., w k. gdzie p i = 1. X w 1 w 2... w k P(X = w i ) p 1 p 2... p k Hipoteza zerowa: H 0 : p 1 = p1 0, p 2 = p2 0,..., p k = pk 0 gdzie p1 0, p0 2,..., p0 k są znane. X 1, X 2,..., X n - obserwacje cechy X. N i = n j=1 1(X j = w i ), i = 1, 2,..., k - zliczamy ile razy w próbce X 1, X 2,..., X n pojawiła się wartość w i. Wyniki doświadczeń prezentuje tabela: X w 1 w 2... w k liczba doświadczeń N 1 N 2... N k Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 28 / 41

Test zgodności chi-kwadrat, rozkład dyskretny, cd. Wektor (N 1, N 2,..., N k ) Mult(n, p 1, p 2,..., p k ). Oczekiwana liczba pojawienia się wyniku w i w próbie n-elementowej przy prawdziwej hipotezie H 0 EN i = np 0 i Postać statystyki testu chi-kwadrat: χ 2 = (wielkość obserwowana - wielkość oczekiwana) 2 wielkość oczekiwana Test: odrzucamy H 0 gdy χ 2 = k i=1 (N i np 0 i )2 np 0 i > χ 2 (α, k 1) Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 29 / 41

PRZYKŁAD Chcemy sprawdzić czy kostka do gry jest symetryczna. Rzucamy kostką 300 razy. Wyniki podaje tabela H 0 : pi 0 = 1 6, i = 1, 2, 3, 4, 5, 6 np 0 i = 300 1 6 wynik w i 1 2 3 4 5 6 liczba rzutów N i 45 55 60 40 48 52 - wartość oczekiwana Wartość statystyki testowej: χ 2 emp = 6 i=1 (N i np 0 i )2 np 0 i χ 2 0,95,5 = 11, 07 χ 2 emp < χ 2 (0, 05, 5) = 5, 16 Wniosek: Agata Boratyńska nie ma podstawstatystyka do odrzucenia matematyczna, wykład hipotezy 11 i 12 H,zatem można sądzić, 30 / 41

Test zgodności chi-kwadrat, rozkład ciągły Model: X 1, X 2,..., X n próba losowa z rozkładu ciągłego o nieznanej dystrybuancie Hipoteza zerowa: H 0 : X 1, X 2,..., X n i.i.d. F gdzie F jest znaną dystrybuantą rozkładu ciągłego. Statystyka testowa Wybieramy liczby = a 0 < a 1 < a 2 < < a k = i definiujemy N i = n 1(a i 1 < X j a i ), i = 1, 2,..., k j=1 Prawdopodobieństwo P(a i 1 < X j a i ) = F (a i ) F (a i 1 ) = p 0 i jest znane. Następnie stosujemy test chi-kwadrat dla przypadku rozkładu dyskretnego. Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 31 / 41

Test zgodności chi-kwadrat, UWAGI Test zgodności chi-kwadrat jest testem asymptotycznym, liczność próby losowej n musi być duża, dla każdej klasy np 0 i > 5. Podział na klasy (a i 1, a i ) dokonuje się tak, aby p 0 i 1 k. Testu możemy używać do weryfikacji hipotezy, że rozkład obserwowanej zmiennej należy do pewnej rodziny rozkładów indeksowanych skończenie wymiarowym parametrem. Parametry estymujemy korzystając z danych. Jeśli używamy danych do estymacji nieznanych parametrów rozkładu występującego w hipotezie zerowej, to dla każdego estymowanego parametru odejmujemy jeden stopień swobody, zatem test odrzuca hipotezę zerową, gdy χ 2 = k i=1 (N i np 0 i )2 np 0 i > χ 2 (α, k d 1) gdzie d jest liczbą estymowanych parametrów. Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 32 / 41

PRZYKŁAD Tabela przedstawia liczby roszczeń zgłoszonych w ciągu roku dla 500 niezależnych polis z pewnej grupy ryzyka w TU: liczba roszczeń 0 1 2 > 2 liczba polis 420 60 20 0 X - obserwowana zmienna losowa - liczba roszczeń dla jednej polisy H 0 : X Poiss(λ), λ > 0 jest nieznane. ˆλ = ENW (λ) = X = 0.2 p 0 1 = P(X = 0) e 0.2 = 0, 82 500 p 0 1 = 410 p 0 2 = P(X = 1) 0.2e 0.2 = 0, 16 500 p 0 2 = 80 p 0 3 = P(X > 1) 1 0.2e 0.2 e 0.2 = 0, 02 500 p 0 3 = 10 Wartość statystyki testowej χ 2 = 3 (N i npi 0)2 i=1 = 21, 73 npi 0 Wartość krytyczna χ 2 (0, 05, 3 1 1) = 3, 84. Hipotezę H 0 odrzucamy Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 33 / 41

PRZYKŁAD, dane 20 307 612 1272 2078 3631 26 324 669 1280 2240 4068 77 346 686 1351 2411 4520 86 359 691 1380 2412 5013 116 367 710 1501 2519 5065 120 370 757 1546 2588 5481 132 383 827 1565 2728 6046 165 384 829 1635 2799 7003 201 451 886 1671 2850 7275 240 475 893 1706 2987 7477 246 496 969 1825 3000 8738 252 505 1053 1830 3006 9197 265 529 1079 1850 3383 16370 272 546 1080 1871 3443 17605 282 560 1145 1916 3513 27320 300 595 1194 2029 3614 56788 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 34 / 41

Przykład cd, wartości estymatorów ROZKŁAD WYKŁADNICZY EMM 0,0003342 ENW 0,0003342 ROZKŁAD PARETO EMM theta 2,48984 lambda 4458,24 ENW theta 1,90145 lambda 2691,39 ROZKŁAD WEIBULLA EMK tau 0,803439 c 0,002332 ENW tau 0,713162 c 0,004071 ROZKŁAD GAMMA EMM alpha 0,196736 beta 0,000066 ENW alpha 0,625739 beta 0,000209 ROZKŁAD LOGARYTMICZNO-NORMALNY ENW 7,022464 1,400221 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 35 / 41

Przykład cd, wykresy gęstości 0,001 0,0008 0,0006 0,0004 histogram wykladniczy Pareto Weibulla Gamma Lognormal 0,0002 0 0 2000 4000 6000 8000 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 36 / 41

Przykład cd, hipoteza o zgodności z rozkładem wykładniczym DOPASOWANIE - ROZKŁAD WYKŁADNICZY ai N F a ) i ( i pi ( Ni npi ) np 352 19 0,111 0,111 6,51042 752 18 0,222 0,111 5,04167 1213 11 0,333 0,111 0,01042 1759 10 0,444 0,111 0,04167 2427 10 0,555 0,111 0,04167 3288 8 0,666 0,111 0,66667 4501 6 0,777 0,111 2,04167 6575 5 0,888 0,111 3,01042 >6575 9 1 0,111 0,26042 n 96 17,625 i 2 Histogram i pdf r. wykładniczego 0,0006 0,0005 0,0004 histogram 0,0003 wykladniczy 0,0002 0,0001 0 0 2000 4000 6000 8000 2 Wartość krytyczna 14, 067 0,05,9 1 1 Wniosek: hipotezę odrzucamy Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 37 / 41

Przykład cd, hipoteza o zgodności z rozkładem lognormalnym ai N F a ) i ( i pi ( Ni npi ) np 265 12 0,1111 0,1111 0,167 454 13 0,2222 0,1111 0,510 674 9 0,3333 0,1111 0,260 951 8 0,4444 0,1111 0,667 1323 8 0,5556 0,1111 0,667 1867 11 0,6667 0,1111 0,010 2772 10 0,7778 0,1111 0,042 4755 12 0,8889 0,1111 0,167 >4755 13 1,0000 0,1111 0,510 DOPASOWANIE - ROZKŁAD LOGNORMALNY i 2 0,0008 0,0007 0,0006 0,0005 0,0004 0,0003 0,0002 0,0001 0 histogram i pdf r. logarytmiczno-normalnego histogram Lognormal 0,000 2000,000 4000,000 6000,000 8000,000 96 3,00 2 Wartość krytyczna 12, 5916 Wniosek: brak podstaw do odrzucenia hipotezy 0,05,9 2 1 Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 38 / 41

TEST CHI-KWADRAT NIEZALEŻNOŚCI (X, Y ) - dwuwymiarowa zmienna losowa o rozkładzie dyskretnym, tzn. (X, Y ) {1, 2,..., r} {1, 2,..., s}; (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) próba losowa N i = N i,j = n 1(X l = i Y l = j) l=1 s N i,j and N j = j=1 r N i,j. Dane przedstawiamy w tabeli zwanej tablicą kontyngencji. x/y 1 2... s N i, 1 N 1,1 N 1,2... N 1,s N 1, 2 N 2,1 N 2,2... N 2,s N 2,.................. r N r,1 N r,2... N r,s N r, N,j N,1 N,2... N,s n Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 39 / 41 i=1

Test niezależności cd. Hipoteza zerowa: H 0 : X i Y są niezależne Niech p i,j = P(X = i Y = j) p i = P(X = i) = s j=1 p i,j i p j = P(Y = j) = r i=1 p i,j. H 0 : p i,j = p i p j, i = 1, 2,..., r, j = 1, 2,..., s. Jest to hipoteza o zgodności z pewnym rozkładem Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 40 / 41

Test niezależności chi-kwadrat Nieznanymi parametrami są: p i i p j, i = 1, 2,..., r, j = 1, 2,..., s Ich estymatory największej wiarogodności to: ˆp i = N i n ˆp j = N j n Estymujemy zatem r 1 + s 1 parametrów Estymatory parametrów p i,j są postaci ˆp i,j = ˆp i ˆp j = N i n N j n Statystyka testu chi-kwadrat ma postać χ 2 = ( r s N i,j N ) 2 i N j n. N i N j i=1 j=1 n Jeżeli n + to rozkład statystyki χ 2 dąży do rozkładu χ 2 (r 1)(s 1) Hipotezę H 0 odrzucamy gdy χ 2 > χ 2 (α, (r 1)(s 1)) Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 41 / 41