Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r

Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Testowanie hipotez

Przykład Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów maksymalnie 2% ma wady fabryczne. Właściciel salonu z telefonami chce sprawdzić czy jego dostawca jest wiarygodny. Jak to zrobić? 1 Zakładamy, że wadliwość danej partii wynosi 2%. 2 Sprawdzenie: z partii telefonów pobierana jest losowa próba o określonej liczbie elementów - w naszym przypadku 80. Następnie, oznaczając przez n - liczbę wadliwych elementów obliczamy prawdopodobieństwa:

Przykład - c.d. n 0 1 2 3 4 5 6 7 8 P(X = n) 0.198 0.324 0.261 0.138 0.054 0.016 0.004 0.0009 0.00017 P(X n) 1.000 0.801 0.477 0.215 0.076 0.022 0.005 0.0011 0.00020 3 Wyciąganie wniosków: Przypuszczenie słuszne, niefortunnie dobrana próba danych. Próba danych poprawna, przypuszczenie nie było prawdziwe 4 Konkluzja: po zaobserwowaniu więcej niż 6 telefonów z wadami fabrycznymi należy uznać stwierdzeni producenta za fałszywe.

Hipoteza i test statystyczny Definicja Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu zmiennej losowej.

Hipoteza i test statystyczny Definicja Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu zmiennej losowej. Test statystyczny to reguła precyzująca dla jakich wartości próby można uznać sprawdzaną hipotezę za fałszywą a dla jakich za prawdziwą

Hipoteza i test statystyczny Definicja Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu zmiennej losowej. Test statystyczny to reguła precyzująca dla jakich wartości próby można uznać sprawdzaną hipotezę za fałszywą a dla jakich za prawdziwą Testy: 1. parametryczne 2. nieparametryczne

Etapy testowania hipotez

Etapy testowania hipotez 1. sformułowanie hipotez: 1.1 H 0 - hipoteza zerowa 1.2 H 1 - hipoteza alternatywna 2. ustalenie poziomu istotności α 3. obliczenie wartości statystyki testowej 4. ustalenie rozkładu statystyki testowej przy prawdziwości H 0 5. wyznaczenie obszaru krytycznego testu (obszaru odrzucenia hipotezy), w oparciu o odpowiednie kwantyle rozkładu statystyki testowej 6. wnioskowanie: jeżeli wartość statystyki testowej należy do obszaru krytycznego odrzucamy H 0 na rzecz alternatywy H 1 (H 1 uznajemy za prawdziwa, jeżeli wartość statystyki testowej nie mieści sie w zbiorze krytycznym nie mamy podstaw do odrzucenia hipotezy zerowej H 0.

Błędy w testowaniu hipotez

Błędy Definicja Błędem I rodzaju (type I error) nazywamy błędne odrzucenie hipotezy H 0, gdy jest ona prawdziwa. Definicja Błędem II rodzaju (type II error) podjęcie decyzji o nieodrzuceniu hipotezy H 0, gdy jest ona fałszywa. Który błąd groźniejszy w skutkach?

Błędy Definicja p-wartość prawdopodobieństwo popełnienia błędu pierwszego rodzaju. Kontrolujemy błąd I rodzaju ograniczając jego prawdopodobieństwo z góry przez małą liczbę - poziom istotności (α). Za hipotezę H 0 będziemy przyjmowali to z przypuszczeń, którego błędne odrzucenie spowoduje poważniejsze skutki niż jego błędne przyjęcie.

Błędy Wnioskowanie w oparciu o p - wartość: Jeżeli p < α odrzucamy H 0 Jeżeli p > α nie ma podstaw do odrzucenia H 0

Błędy Definicja moc testu jest to prawdopodobieństwo odrzucenia fałszywej H 0 i przyjęcie prawdziwej H 1, czyli prawdopodobieństwo niepopełnienia błędu drugiego rodzaju

Testowanie wielokrotne

TESTOWANIE WIELOKROTNE 1 2 3 H 0 : k1 k2 / H 1 : k1>k2 =0.05 t p H 0 /H 1 5% H 0 : k1 k2 / H 1 : k1>k2 =0.05 t p H 0 /H 1 5% H 0 : k1 k2 / H 1 : k1>k2 =0.05 t p H 0 /H 1 5% 10 H 0 : k1 k2 / H 1 : k1>k2 =0.05 t p H 0 /H 1 5% CAŁKOWITY BŁĄD Igo RODZAJU MAX 0.05*10 = 50% Copyright 2010, Joanna Szyda

TESTOWANIE WIELOKROTNE Jak temu zaradzić? KOREKTA BONFERRONIEGO testy niezależne od siebie 1 2 b = / N b = 0.05 / 10 b = 0.005 b = / N b = 0.05 / 10 b = 0.005 10 b = / N b = 0.05 / 10 b * = 0.005 CAŁKOWITY BŁĄD Igo RODZAJU 0.005*10 = 5% Copyright 2010, Joanna Szyda

Estymacja parametrów

Przedziały ufności dla średniej PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ Przedział ufności dla estymatora średniej: przedział w jakim z określonym prawdopodobieństwem znajduje się prawdziwa wartość parametru x x min x max granice przedziału ufności Copyright 2010, Joanna Szyda

Przedziały ufności dla średniej 1. Znane odchylenie standardowe σ: [ µ X u 1 α/2 σ ; X + u ] 1 α/2 σ, n n gdzie: u 1 α/2 kwantyl ze standardowego rozkładu normalnego N(0, 1) rzędu 1 α 2 X = 1 n ni=1 X i - średnia z próby n - rozmiar próby

Przedziały ufności dla średniej 2. Nieznane odchylenie standardowe: [ µ X t 1 α/2(n 1) S ; X + t ] 1 α/2(n 1) S, n n gdzie: t 1 α/2 (n 1) kwantyl rozkładu studenta rzędu 1 α 2 z n 1 stopniami swobody. X = 1 ni=1 n X i - średnia z próby S = S 2 - odchylenie standardowe z próby, gdzie S 2 = 1 ni=1 n 1 (X i X ) 2 oznacza wariancję z próby. n - rozmiar próby

Przedziały ufności PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ Prawdopodobieństwo wystąpienia prawdziwej średniej w przedziale ufności, a długość przedziału 1. Przedział ufności 95% P 0. 95 x 2. Przedział ufności 99% P 0. 99 x Copyright 2010, Joanna Szyda

Przedziały ufności dla średniej Długość przedziału ufności zależy od: 1. rozmiaru próby 2. poziomu ufności

Przedziały ufności dla średniej Długość przedziału ufności zeleży od: 1. rozmiaru próby - większa próba = krótszy przedział 2. poziomu ufności - większy poziom = dłuższy przedział

Przykład - przedział ufności dla średniej ze znanym parametrem wariancji Z populacji, o rozkładzie normalnym o nieznanej średniej i znanej wariancji równej 0.5, przedstawiającej średnią ocen pewnych uczniów z klasy pierwszej wylosowano próbę 6 osób, dla których ta średnia wynosiła 3.71, 4.28, 2.95, 3.38, 4.05, 4.98. Wyznaczyc 99% przedział ufności dla średniej średniej ocen uczniów. Dane: n = 6 σ 2 = 0.5, a stąd σ = 0.7 X = 1 6 (3.71 + 4.28 + 2.95 + 3.38 + 4.05 + 4.98) = 3.9 1 α = 0.99 - poziom ufności, a zatem α = 0.01 u 0.995 = 2.57

Przykład - przedział ufności dla średniej ze znanym parametrem wariancji - cd Obliczmy końce przedziałów ufności: X u 1 α/2 σ 0.7 2.57 = 3.9 = 3.9 0.73 = 3.15 n 6 stąd X + u 1 α/2 σ 0.7 2.57 = 3.9 + = 3.9 + 0.73 = 4.63, n 6 µ [3.15, 4.63]. A zatem mamy 99% pewności, że parametr średniej ocen wśród uczniów rozważanej klasy pierwszej mieści się w przedziale [3.15, 4.63].

Przykład - przedział ufności dla średniej z nieznanym parametrem wariancji Na podstawie wielokrotnych obserwacji ustalono, że rozkład czasu dojazdu do pracy osób zatrudnionych w sklepach pewnej sieci jest rozkładem normalnym. W celu oszacowania nieznanej średniej w tym rozkładzie wylosowano niezależnie 17 elementową próbę pracowników. Średni czas dojazdu w tej próbie wynosił 40 minut a odchylenie standardowe stanowiło połowę czasu średniego. Wyznacz 95% przedział ufności dla średniego czasu dojazdu do pracy dla ogółu pracowników.

Przykład - przedział ufności dla średniej z nieznanym parametrem wariancji Dane: X = 40 S = 0.5 40 = 20 n = 17 1 α = 0.95 - poziom ufności, a stąd α = 0.05 t 0.975 (16) = 2.12.

Przykład - przedział ufności dla średniej z nieznanym parametrem wariancji - cd Obliczmy końce przedziałów ufności X t 1 α/2(n 1) S 20 2.12 = 40 = 40 10.59 = 29.4 n 1 16 X + t 1 α/2(n 1) S 20 2.12 = 40 + = 40 + 10.59 = 50.59, n 1 16 stąd µ [29.4, 50.59] A zatem z prawdopodobieństwem 0.95 możemy stwierdzić, że średni czasu dojazdu do pracy dla ogółu pracowników mieści się w przedziale [29.4, 50.59].

Przedział ufności dla wariancji [ σ 2 ns 2 ns 2 ] χ 2 1 α/2 (n 1); χ 2, α/2 (n 1) gdzie: χ 2 1 α/2 (n 1) i χ2 α/2 (n 1) kwantyle rozkładów χ2 rzędów 1 α/2 i α/2, odpowiednio, z n 1 stopniami swobody.

Przykład - przedział ufności dla wariancji W pewnej firmie zatrudniającej 200 osób, zbadano zarobki losowo wybranych 80 pracowników i tak średnia w tej próbie wyniosła 1300 zł, a odchylenie standardowe 140 zł. Skonstruować przedział ufności dla odchylenia standardowego zarobków w tej firmie na poziomie ufności 0.95. Dane: n = 100 X = 1300 S = 140 α = 0.05 χ 2 0.975 (79) = 105.4728 (79) = 56.3089 χ 2 0.025

Przykład Przykład - przedział ufności dla wariancji - cd Obliczmy końce przedziałów ufności: χ 2 1 α/2 χ 2 α/2 n 80 = 140 = 0.87 140 = 121.92 (n 1)S 105.4728 n 80 = 140 = 1.19 140 = 166.87, (n 1)S 56.3 stąd σ [121.92, 166.87].

Błąd standardowy BŁĄD STANDARDOWY ŚREDNIEJ ARYTMETYCZNEJ Błąd standardowy estymatora średniej (standard error): odchylenie standardowe rozkładu estymatora średniej x x Jaki jest rozkład? Jak obliczyć x? s Copyright 2010, Joanna Szyda

Błąd standardowy BŁĄD STANDARDOWY ŚREDNIEJ ARYTMETYCZNEJ Jak obliczyć odchylenie standardowe rozkładu średniej (bez konieczności pobierania wielu prób danych)? S Sx N Odchylenie standardowe w próbie danych: 2 xi x 1 x S i x Liczebność próby danych N N 1 BŁĄD STANDARDOWY ŚREDNIEJ Copyright 2010, Joanna Szyda

Błąd standardowy Błąd standardowy estymatora prawdopodobieństwa N p p S p ˆ 1 ˆ ˆ Copyright 2013. Joanna Szyda BŁĄD STANDARDOWY INNYCH ESTYMATORÓW Błąd standardowy współczynnika regresji 2 2 2 ˆ 1 x x N y y S i i i b