Testowanie hipotez statystycznych. Wprowadzenie

Podobne dokumenty
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna i ekonometria

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych

Statystyka matematyczna i ekonometria

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Hipotezy statystyczne

Testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Hipotezy statystyczne

Statystyka matematyczna dla leśników

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez statystycznych.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Pobieranie prób i rozkład z próby

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

166 Wstęp do statystyki matematycznej

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Prawdopodobieństwo i rozkład normalny cd.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA

Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Metody Statystyczne. Metody Statystyczne.

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Weryfikacja hipotez statystycznych

Estymacja parametrów rozkładu cechy

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Centralne twierdzenie graniczne

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Kolokwium ze statystyki matematycznej

Weryfikacja hipotez statystycznych

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Wydział Matematyki. Testy zgodności. Wykład 03

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka Matematyczna Anna Janicka

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

1 Estymacja przedziałowa

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

ESTYMACJA. Przedział ufności dla średniej

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Testowanie hipotez statystycznych cd.

Wykład 3 Hipotezy statystyczne

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Testowanie hipotez statystycznych

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Estymatory i testy statystyczne - zadania na kolokwium

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Weryfikacja hipotez statystycznych

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Statystyka Matematyczna Anna Janicka

Zadania ze statystyki, cz.6

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Testowanie hipotez cz. I

Metody probabilistyczne

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Weryfikacja hipotez statystycznych

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Transkrypt:

Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014

Pojęcia wstępne Populacja (statystyczna) zbiór, którego elementem są wszelkiego rodzaju obiekty i zjawiska materialne. Jednostka statystyczna element populacji. Próba (statystyczna) część populacji statystycznej. Założenie: rozkład wartości własności w próbie jest zbliżony do rozkładu wartości własności w populacji. Estymator wielkość wyznaczona na podstawie próby, za pomocą której szacuje się wartości nieznanych parametrów populacji. Twierdzenia Gliwienki, Kołmogorowa i Smirnowa: dla dostatecznie dużych prób rozkład empiryczny mało różni się od rozkładu rzeczywistego (teoretycznego). Inaczej: im liczniejsza próba, tym dokładniejsze oszacowania (estymatory). 2/19

Przedział ufności Zakładamy, że pewna wielkość populacji opisana zmienną losową x ma rozkład o parametrze θ. Posiadając próbę D = {x 1, x 2,..., x N } chcemy wyznaczyć przedział, w którym może zawierać się wartość nieznanego parametru θ, dla którego prawdopodobieństwo (w sensie częstościowym) wynosi 1 α, gdzie α [0, 1]. Formalnie: p ( l(d) θ u(d) ) = 1 α gdzie l(d) i u(d) to, odpowiednio, dolny i górny kraniec przedziału wyznaczony na podstawie danych D. Przedział [ l(d), u(d) ] nazywamy przedziałem ufności. Wartość 1 α jest nazywany współczynnikiem (poziomem) ufności. 3/19

Przedział ufności Przykład 1 W fabryce wyrobów mlecznych maszyna wstrzykuje jogurt do pojemnika o wadze 250 g. Corocznie maszyna przechodzi przegląd, tj. dopuszczalne jest, aby różnica we wstrzykiwanym jogurcie wynosiła ±2.5 g (odchylenie standardowe), przy założeniu, że ilość wstrzykniętego jogurtu jest zadana z rozkładu normalnego. Do przeglądu wytypowano losowo N = 25 pojemników, czyli próba: D = {x 1,..., x 25 }. Estymator wartości średniej: x = 1 25 25 n=1 x n = 250.2. Interesuje nas znalezienie przedziału ufności, dla którego poziom ufności wynosi 0.95. W tym celu policzymy odchylenie standardowe: σ N = 2.5 25 = 0.5 i dokonamy standaryzacji dla oszacowanej wartości średniej: z = x µ σ/ N = 250.2 µ 0.5 4/19

Przedział ufności Przykład 1 c.d. Wówczas mamy: p( z z z) = 1 α = 0.95 Licząc dystrybuantę rozkładu normalnego dla zmiennej ustandaryzowanej: Czyli otrzymujemy: Φ(z) = p( z z) = 1 α 2 = 0.975 z = Φ 1 (0.975) = 1.96 p( z z z) = p( 1.96 x µ σ/ 1.96) N = p( x 1.96 σ µ x + 1.96 σ ) N N = p(249.22 µ 251.18) = 0.95 Czyli otrzymana wartość mieści się w przedziale ufności x = 250.2 [249.22, 251.18] i maszyna działa poprawnie. 5/19

Przedział ufności Przykład 2 Transfer danych (w GB) w ciągu jednego dnia z serwera modelowany jest za pomocą zmiennej losowej x o rozkładzie normalnym N (x µ, σ 2 ). Wiemy, że średni transfer wynosi 30 GB, dotychczasowe wartości wahały się od 28 do 34, natomiast odchylenie standardowe σ 2 = 2. Interesuje nas znalezienie poziomu ufności średniego dziennego transferu, który zawierałby się we wskazanym przedziale. W tym celu należy policzyć: p(28 x 34) = 1 34 2π2 28 exp ( 1 ( x 30)2) 8 6/19

Przedział ufności Przykład 2 c.d. W celu policzenia całki wprowadzimy zmienną standaryzowaną: z = x 30 2 Wówczas nowe krańce przedziału ufności: Wówczas: 28 30 z l = = 1 2 34 30 z u = = 2 2 p(28 x 34) = 1 2π 2 1 = Φ(2) Φ( 1) = Φ(2) + Φ(1) = 0.4773 + 0.3413 = 0.8186 exp ( 1 2 z2) 7/19

Testowanie hipotez statystycznych Pojęcia Hipoteza statystyczna każdy sąd o populacji statystycznej bez przeprowadzenia badania. Hipoteza parametryczna hipoteza statystyczna dot. parametrów populacji. Hipoteza nieparametryczna hipoteza statystyczna dot. rozkładu populacji. Test statystyczny sposób weryfikacji hipotezy statystycznej. Testy mogą być parametryczne i nieparametryczne, w zależności od testowanej hipotezy statystycznej. Hipoteza zerowa, H 0 hipoteza o populacji, która wyraża pogląd o populacji (przeciwna do tego, co chcemy udowodnić). Hipoteza alternatywna, H 1 hipoteza, która wyraża nasz pogląd o populacji, przeciwna do hipotezy zerowej. Statystyka wielkość (funkcja mierzalna) zdefiniowana na próbie, która w pewien sposób podsumowuje próbę. 8/19

Testowanie hipotez statystycznych Cel Celem testowania statystycznego jest weryfikacja pewnej hipotezy dotyczącej rozpatrywanej populacji. Wynik jest istotny statystycznie, jeżeli jest mało prawdopodobne, że pojawił się on przez przypadek. W celu weryfikacji hipotezy stosuje się odpowiednie statystyki, np. statystyka z, statystyka t-studenta. UWAGA: zawsze hipotezę zerową H 0 formułujemy jako przeciwne stwierdzenie do hipotezy, którą stawiamy odnośnie populacji. 9/19

Testowanie hipotez statystycznych Stosowanie Testy statystyczne stosowane są w sytuacjach, gdy nie możemy uzyskać dostatecznie dużej próby. W przeciwnym razie można opierać się na Prawie Wielkich Liczb lub twierdzeniach Gliwienki, Kołmogorowa lub Smirnowa. Przykłady zastosowania: czy zastosowanie lekarstwa ma istotny wpływ na leczenie choroby; czy dodanie nowej substancji istotnie zwiększa wytrzymałość materiału; czy stosowanie metody X do rozpoznawania twarzy daje istotnie lepsze rezultaty niż metoda Y; czy transfer danych na węźle sieci można uznać za prawidłowy (inaczej: czy węzeł nie jest zainfekowany). 10/19

Błąd pierwszego i drugiego rodzaju Decyzja \ Sytuacja H 0 prawdziwa H 0 fałszywa (H 1 fałszywa) (H 1 prawdziwa) H 0 przyjąć decyzja słuszna decyzja niesłuszna (β) H 0 odrzucić decyzja niesłuszna (α) decyzja słuszna Błąd pierwszego rodzaju α odrzucamy hipotezę zerową H 0, chociaż jest ona prawdziwa. Błąd drugiego rodzaju β przyjmujemy hipotezę zerową H 0, chociaż jest ona fałszywa. Zwróćmy uwagę, że możemy sterować jedynie błędem pierwszego rodzaju α, ponieważ chcemy mieć jak największą ufność, że przyjmując hipotezę alternatywną H 1 w (1 α) 100% przypadków nie pomylimy się. 11/19

Procedura testowania statystycznego Krok 1: Ustal hipotezę H 0 i H 1. Krok 2: Wyznacz odpowiednią statystykę. Krok 3: Wyznacz obszar krytyczny. Krok 4: Sprawdź, czy wartość statystyki zawiera się w obszarze krytycznym. Jeżeli tak, to hipoteza H 0 może być odrzucona. W przeciwnym przypadku nie jesteśmy w stanie przyjąć ani odrzucić hipotezy H 0 (czyli nic nie wiemy). 12/19

Przykłady Firma ubezpieczeniowa Firma ubezpieczeniowa przeprowadza audyt wewnętrzny. Na podstawie dotychczasowych ustaleń średni poziom wypłacanych roszczeń powinien wynosić 1800 zł. Jednak podczas przeprowadzenia audytu i rozmowie z pracownikami stwierdzono, że poziom ten może być przekroczony. Wybrano losowo 40 roszczeń i okazało się, że średnia wartość wynosi x = 1950 zł. Odchylenie standardowe roszczeń wynosi σ = 500 zł. Zakładamy poziom ufności równy α = 0.05. Pytanie: Czy firma powinna być zaniepokojona prowadzoną polityką? 13/19

Przykłady Firma ubezpieczeniowa c.d. Krok 1: H 0 : µ 1800 i H 1 : µ > 1800. Krok 2: Liczymy tzw. z-score: z = x µ σ/ 1950 1800 = n 500/ = 1.897 40 Krok 3: Obszar krytyczny dla α = 0.05: R = {z : z > 1.96}. Krok 4: Widzimy, że otrzymany wynik 1.897 < 1.96, czyli z R. Niestety, nie możemy stwierdzić, czy hipoteza zerowa H 0 powinna być odrzucona, czy przyjęta. Możemy jedynie polecić, aby firma sprawdziwa więcej roszczeń (zebrała większą próbkę). 14/19

Przykłady Komunikacja miejska Władze Wrocławia w celu przekonania mieszkańców do korzystania z komunikacji miejskiej twierdzą, że średni czas dojazdu komunikacją miejską do Rynku wynosi 30 minut. Osobiście nie zgadzam się z tym stwierdzeniem. Zanotowałem czasy moich ostatnich 5 podróżny z różnych punktów w mieście, z których średnia wyniosła x = 20 minut. Odchylenie standardowe dojazdów wynosi 6 minut. Zakładamy poziom ufności równy α = 0.1. Pytanie: Czy mam rację, że czas dojazdu autem jest krótszy niż komunikacją miejską? 15/19

Przykłady Komunikacja miejska c.d. Krok 1: H 0 : µ 30 i H 1 : µ < 30. Krok 2: Liczymy tzw. z-score: z = x µ σ/ 20 30 = n 6/ 5 = 3.727 Krok 3: Obszar krytyczny dla α = 0.1: R = {z : z < 1.28}. Krok 4: Widzimy, że otrzymany wynik 3.727 < 1.28, czyli z R. Możemy odrzucić hipotezę zerową H 0 i stwierdzić, że hipoteza alternatywna H 1 jest prawdziwa. Ostatecznie możemy stwierdzić, że przemieszczanie się autem po mieście zajmuje mniej czasu niż komunikacją miejską. 16/19

Przykłady Węzeł sieci komputerowej Obserwujemy pewien węzeł sieci komputerowej i rejestrujemy średni transfer danych w ciągu dnia. Dla 40 dni zanotowano średnią x = 137 GB i odchylenie standardowe równe σ = 30.2 GB. Zakładamy poziom ufności równy α = 0.1. Pytanie: Czy wiedząc, że podobne węzły przesyłają średnio 150 GB możemy stwierdzić, że ten węzeł należy uznać za inny? 17/19

Przykłady Węzeł sieci komputerowej c.d. Krok 1: H 0 : µ = 150 i H 1 : µ 150. Krok 2: Liczymy tzw. z-score: z = x µ σ/ 137 150 = n 30.2/ 40 = 2.722 Krok 3: Obszar krytyczny dla α = 0.1 (uwaga: zauważmy, że mamy nierówność, więc musimy dać po równo α 2 na obu końcach rozkładu): R = {z : z > 2.58}. Krok 4: Widzimy, że otrzymany wynik 2.722 < 2.58, czyli z R. Możemy odrzucić hipotezę zerową H 0 i stwierdzić, że hipoteza alternatywna H 1 jest prawdziwa. Ostatecznie możemy stwierdzić, że węzeł ten jest podobny do pozostałych węzłów, które przesyłają średnio 150 GB. 18/19

Przykłady UWAGA Uwaga odnosząca się do dotychczas poruszanych przykładów: Zakładaliśmy, że rozkład populacji jest normalny! 19/19