Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014
Pojęcia wstępne Populacja (statystyczna) zbiór, którego elementem są wszelkiego rodzaju obiekty i zjawiska materialne. Jednostka statystyczna element populacji. Próba (statystyczna) część populacji statystycznej. Założenie: rozkład wartości własności w próbie jest zbliżony do rozkładu wartości własności w populacji. Estymator wielkość wyznaczona na podstawie próby, za pomocą której szacuje się wartości nieznanych parametrów populacji. Twierdzenia Gliwienki, Kołmogorowa i Smirnowa: dla dostatecznie dużych prób rozkład empiryczny mało różni się od rozkładu rzeczywistego (teoretycznego). Inaczej: im liczniejsza próba, tym dokładniejsze oszacowania (estymatory). 2/19
Przedział ufności Zakładamy, że pewna wielkość populacji opisana zmienną losową x ma rozkład o parametrze θ. Posiadając próbę D = {x 1, x 2,..., x N } chcemy wyznaczyć przedział, w którym może zawierać się wartość nieznanego parametru θ, dla którego prawdopodobieństwo (w sensie częstościowym) wynosi 1 α, gdzie α [0, 1]. Formalnie: p ( l(d) θ u(d) ) = 1 α gdzie l(d) i u(d) to, odpowiednio, dolny i górny kraniec przedziału wyznaczony na podstawie danych D. Przedział [ l(d), u(d) ] nazywamy przedziałem ufności. Wartość 1 α jest nazywany współczynnikiem (poziomem) ufności. 3/19
Przedział ufności Przykład 1 W fabryce wyrobów mlecznych maszyna wstrzykuje jogurt do pojemnika o wadze 250 g. Corocznie maszyna przechodzi przegląd, tj. dopuszczalne jest, aby różnica we wstrzykiwanym jogurcie wynosiła ±2.5 g (odchylenie standardowe), przy założeniu, że ilość wstrzykniętego jogurtu jest zadana z rozkładu normalnego. Do przeglądu wytypowano losowo N = 25 pojemników, czyli próba: D = {x 1,..., x 25 }. Estymator wartości średniej: x = 1 25 25 n=1 x n = 250.2. Interesuje nas znalezienie przedziału ufności, dla którego poziom ufności wynosi 0.95. W tym celu policzymy odchylenie standardowe: σ N = 2.5 25 = 0.5 i dokonamy standaryzacji dla oszacowanej wartości średniej: z = x µ σ/ N = 250.2 µ 0.5 4/19
Przedział ufności Przykład 1 c.d. Wówczas mamy: p( z z z) = 1 α = 0.95 Licząc dystrybuantę rozkładu normalnego dla zmiennej ustandaryzowanej: Czyli otrzymujemy: Φ(z) = p( z z) = 1 α 2 = 0.975 z = Φ 1 (0.975) = 1.96 p( z z z) = p( 1.96 x µ σ/ 1.96) N = p( x 1.96 σ µ x + 1.96 σ ) N N = p(249.22 µ 251.18) = 0.95 Czyli otrzymana wartość mieści się w przedziale ufności x = 250.2 [249.22, 251.18] i maszyna działa poprawnie. 5/19
Przedział ufności Przykład 2 Transfer danych (w GB) w ciągu jednego dnia z serwera modelowany jest za pomocą zmiennej losowej x o rozkładzie normalnym N (x µ, σ 2 ). Wiemy, że średni transfer wynosi 30 GB, dotychczasowe wartości wahały się od 28 do 34, natomiast odchylenie standardowe σ 2 = 2. Interesuje nas znalezienie poziomu ufności średniego dziennego transferu, który zawierałby się we wskazanym przedziale. W tym celu należy policzyć: p(28 x 34) = 1 34 2π2 28 exp ( 1 ( x 30)2) 8 6/19
Przedział ufności Przykład 2 c.d. W celu policzenia całki wprowadzimy zmienną standaryzowaną: z = x 30 2 Wówczas nowe krańce przedziału ufności: Wówczas: 28 30 z l = = 1 2 34 30 z u = = 2 2 p(28 x 34) = 1 2π 2 1 = Φ(2) Φ( 1) = Φ(2) + Φ(1) = 0.4773 + 0.3413 = 0.8186 exp ( 1 2 z2) 7/19
Testowanie hipotez statystycznych Pojęcia Hipoteza statystyczna każdy sąd o populacji statystycznej bez przeprowadzenia badania. Hipoteza parametryczna hipoteza statystyczna dot. parametrów populacji. Hipoteza nieparametryczna hipoteza statystyczna dot. rozkładu populacji. Test statystyczny sposób weryfikacji hipotezy statystycznej. Testy mogą być parametryczne i nieparametryczne, w zależności od testowanej hipotezy statystycznej. Hipoteza zerowa, H 0 hipoteza o populacji, która wyraża pogląd o populacji (przeciwna do tego, co chcemy udowodnić). Hipoteza alternatywna, H 1 hipoteza, która wyraża nasz pogląd o populacji, przeciwna do hipotezy zerowej. Statystyka wielkość (funkcja mierzalna) zdefiniowana na próbie, która w pewien sposób podsumowuje próbę. 8/19
Testowanie hipotez statystycznych Cel Celem testowania statystycznego jest weryfikacja pewnej hipotezy dotyczącej rozpatrywanej populacji. Wynik jest istotny statystycznie, jeżeli jest mało prawdopodobne, że pojawił się on przez przypadek. W celu weryfikacji hipotezy stosuje się odpowiednie statystyki, np. statystyka z, statystyka t-studenta. UWAGA: zawsze hipotezę zerową H 0 formułujemy jako przeciwne stwierdzenie do hipotezy, którą stawiamy odnośnie populacji. 9/19
Testowanie hipotez statystycznych Stosowanie Testy statystyczne stosowane są w sytuacjach, gdy nie możemy uzyskać dostatecznie dużej próby. W przeciwnym razie można opierać się na Prawie Wielkich Liczb lub twierdzeniach Gliwienki, Kołmogorowa lub Smirnowa. Przykłady zastosowania: czy zastosowanie lekarstwa ma istotny wpływ na leczenie choroby; czy dodanie nowej substancji istotnie zwiększa wytrzymałość materiału; czy stosowanie metody X do rozpoznawania twarzy daje istotnie lepsze rezultaty niż metoda Y; czy transfer danych na węźle sieci można uznać za prawidłowy (inaczej: czy węzeł nie jest zainfekowany). 10/19
Błąd pierwszego i drugiego rodzaju Decyzja \ Sytuacja H 0 prawdziwa H 0 fałszywa (H 1 fałszywa) (H 1 prawdziwa) H 0 przyjąć decyzja słuszna decyzja niesłuszna (β) H 0 odrzucić decyzja niesłuszna (α) decyzja słuszna Błąd pierwszego rodzaju α odrzucamy hipotezę zerową H 0, chociaż jest ona prawdziwa. Błąd drugiego rodzaju β przyjmujemy hipotezę zerową H 0, chociaż jest ona fałszywa. Zwróćmy uwagę, że możemy sterować jedynie błędem pierwszego rodzaju α, ponieważ chcemy mieć jak największą ufność, że przyjmując hipotezę alternatywną H 1 w (1 α) 100% przypadków nie pomylimy się. 11/19
Procedura testowania statystycznego Krok 1: Ustal hipotezę H 0 i H 1. Krok 2: Wyznacz odpowiednią statystykę. Krok 3: Wyznacz obszar krytyczny. Krok 4: Sprawdź, czy wartość statystyki zawiera się w obszarze krytycznym. Jeżeli tak, to hipoteza H 0 może być odrzucona. W przeciwnym przypadku nie jesteśmy w stanie przyjąć ani odrzucić hipotezy H 0 (czyli nic nie wiemy). 12/19
Przykłady Firma ubezpieczeniowa Firma ubezpieczeniowa przeprowadza audyt wewnętrzny. Na podstawie dotychczasowych ustaleń średni poziom wypłacanych roszczeń powinien wynosić 1800 zł. Jednak podczas przeprowadzenia audytu i rozmowie z pracownikami stwierdzono, że poziom ten może być przekroczony. Wybrano losowo 40 roszczeń i okazało się, że średnia wartość wynosi x = 1950 zł. Odchylenie standardowe roszczeń wynosi σ = 500 zł. Zakładamy poziom ufności równy α = 0.05. Pytanie: Czy firma powinna być zaniepokojona prowadzoną polityką? 13/19
Przykłady Firma ubezpieczeniowa c.d. Krok 1: H 0 : µ 1800 i H 1 : µ > 1800. Krok 2: Liczymy tzw. z-score: z = x µ σ/ 1950 1800 = n 500/ = 1.897 40 Krok 3: Obszar krytyczny dla α = 0.05: R = {z : z > 1.96}. Krok 4: Widzimy, że otrzymany wynik 1.897 < 1.96, czyli z R. Niestety, nie możemy stwierdzić, czy hipoteza zerowa H 0 powinna być odrzucona, czy przyjęta. Możemy jedynie polecić, aby firma sprawdziwa więcej roszczeń (zebrała większą próbkę). 14/19
Przykłady Komunikacja miejska Władze Wrocławia w celu przekonania mieszkańców do korzystania z komunikacji miejskiej twierdzą, że średni czas dojazdu komunikacją miejską do Rynku wynosi 30 minut. Osobiście nie zgadzam się z tym stwierdzeniem. Zanotowałem czasy moich ostatnich 5 podróżny z różnych punktów w mieście, z których średnia wyniosła x = 20 minut. Odchylenie standardowe dojazdów wynosi 6 minut. Zakładamy poziom ufności równy α = 0.1. Pytanie: Czy mam rację, że czas dojazdu autem jest krótszy niż komunikacją miejską? 15/19
Przykłady Komunikacja miejska c.d. Krok 1: H 0 : µ 30 i H 1 : µ < 30. Krok 2: Liczymy tzw. z-score: z = x µ σ/ 20 30 = n 6/ 5 = 3.727 Krok 3: Obszar krytyczny dla α = 0.1: R = {z : z < 1.28}. Krok 4: Widzimy, że otrzymany wynik 3.727 < 1.28, czyli z R. Możemy odrzucić hipotezę zerową H 0 i stwierdzić, że hipoteza alternatywna H 1 jest prawdziwa. Ostatecznie możemy stwierdzić, że przemieszczanie się autem po mieście zajmuje mniej czasu niż komunikacją miejską. 16/19
Przykłady Węzeł sieci komputerowej Obserwujemy pewien węzeł sieci komputerowej i rejestrujemy średni transfer danych w ciągu dnia. Dla 40 dni zanotowano średnią x = 137 GB i odchylenie standardowe równe σ = 30.2 GB. Zakładamy poziom ufności równy α = 0.1. Pytanie: Czy wiedząc, że podobne węzły przesyłają średnio 150 GB możemy stwierdzić, że ten węzeł należy uznać za inny? 17/19
Przykłady Węzeł sieci komputerowej c.d. Krok 1: H 0 : µ = 150 i H 1 : µ 150. Krok 2: Liczymy tzw. z-score: z = x µ σ/ 137 150 = n 30.2/ 40 = 2.722 Krok 3: Obszar krytyczny dla α = 0.1 (uwaga: zauważmy, że mamy nierówność, więc musimy dać po równo α 2 na obu końcach rozkładu): R = {z : z > 2.58}. Krok 4: Widzimy, że otrzymany wynik 2.722 < 2.58, czyli z R. Możemy odrzucić hipotezę zerową H 0 i stwierdzić, że hipoteza alternatywna H 1 jest prawdziwa. Ostatecznie możemy stwierdzić, że węzeł ten jest podobny do pozostałych węzłów, które przesyłają średnio 150 GB. 18/19
Przykłady UWAGA Uwaga odnosząca się do dotychczas poruszanych przykładów: Zakładaliśmy, że rozkład populacji jest normalny! 19/19