Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Podobne dokumenty
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Dr Anna ADRIAN Paw B5, pok 407

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Hipotezy statystyczne

Hipotezy statystyczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna dla leśników

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wykład 3 Hipotezy statystyczne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wydział Matematyki. Testy zgodności. Wykład 03

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Testowanie hipotez statystycznych

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

166 Wstęp do statystyki matematycznej

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Testowanie hipotez statystycznych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

1 Estymacja przedziałowa

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Testowanie hipotez statystycznych.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych cd.

Statystyka matematyczna i ekonometria

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Statystyka matematyczna

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Testowanie hipotez statystycznych.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna i ekonometria

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testowanie hipotez statystycznych.

Estymacja punktowa i przedziałowa

WNIOSKOWANIE STATYSTYCZNE

STATYSTYKA

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testowanie hipotez cz. I

Zawartość. Zawartość

Weryfikacja hipotez statystycznych

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Rozkłady statystyk z próby

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Weryfikacja hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka Matematyczna Anna Janicka

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wnioskowanie statystyczne. Statystyka w 5

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 10 Testy jednorodności rozkładów

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Pobieranie prób i rozkład z próby

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Transkrypt:

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Hipotezy i Testy statystyczne Każde badanie naukowe rozpoczyna się od sformułowania problemu oraz najbardziej prawdopodobnego rozwiązania czyli hipotezy badawczej, bądź wielu hipotez. Każda hipoteza statystyczna jest podzbiorem ( jedno lub wieloelementowym ) zbioru hipotez dopuszczalnych. Każda hipoteza jest zdaniem oznajmującym, powinna być tak sformułowana, by można ją ocenić i przyjąć lub odrzucić. Test statystyczny jest regułą postępowania, która każdej możliwej próbie przyporządkowuje decyzję przyjęcia lub odrzucenia konkretnej hipotezy rozstrzygającą jakie wyniki próby pozwalają uznać sprawdzaną hipotezę za prawdziwą a jakie za fałszywą.

Hipotezy statystyczne Hipoteza zerowa i hipotezy alternatywne Hipoteza zerowa jest jedną wyróżnioną hipotezą, która podlega weryfikacji, pozostałe hipotezy ze zbioru hipotez dopuszczalnych stanowią zbiór hipotez alternatywnych. Hipotezie zerowej przypisujemy inną wagę niż hipotezie alternatywnej. Za hipotezę zerową przyjmuje się tę, której prawdziwość poddajemy w wątpliwość. Do weryfikacji hipotezy zerowej stosuje się testy statystyczne bazujące na funkcjach testowych, określających zmienne losowe, których rozkłady są znane. Zabieg posługiwania się zmienną losową o znanym rozkładzie odniesienia jest wspólny dla wszystkich zadań budowy przedziałów ufności i dla problemu testowania hipotez.

Proces weryfikacji hipotez statystycznych jest wieloetapowy 1. Sformułowanie hipotez H 0 i H 1 2. Przyjęcie odpowiedniego poziomu istotności α oraz liczebności próby 3. Określenie obszaru krytycznego i obszaru przyjęcia sprawdzanej hipotezy H 0 4. Wybór testu weryfikującego H 0 i wyliczenie wartości funkcji testowej 5. Podjęcie decyzji weryfikacyjnej

Rodzaje hipotez statystycznych Hipotezy statystyczne mogą dotyczyć: wartości analizowanych zmiennych: np. wartości średniej, wartości ekstremalnych ( mim, max); rozproszenia wartości, jednorodności (wariancji); różnicy pomiędzy wartościami określonej cechy w różnych grupach badawczych (różnych populacjach); siły i kierunku zależności pomiędzy badanymi zmiennymi (korelacja); rodzaju badanych zależności np zależność logarytmiczna, wykładnicza, liniowa (regresja) oceny charakteru rozkładu zmiennej losowej - dopasowanie rozkładu teoretycznego do rozkładu empirycznego

1. Formułowanie hipotez H 0 i H 1 H 0 :µ 1 = µ 2 ; H 1 : µ 1 µ 2 lub H 0 :µ 1 = µ 2 ; H 1 : µ 1 >µ 2 albo H 0 :σ 2 1 =σ 2 2; H 1 : σ 2 1 σ 2 2

Hipotezy dotyczące siły i kierunku zależności pomiędzy badanymi zmiennymi (korelacja);

Hipotezy dotyczące rodzaju zależności pomiędzy badanymi zmiennymi

Hipoteza dotycząca zgodności rozkładu w populacji z rozkładem normalnym

Formułowanie hipotez w parametrycznych testach istotności Testy dla wartości średniej w rodzinie rozkładów normalnych przypadek znanej wariancji Hipoteza sprawdzana (zerowa) dotyczy określonego parametru, np wartości oczekiwanej m: H 0 : m=m 0 przy jednej z hipotez alternatywnych: H 1 : m m 0 lub H 1 :m>m 0 lub H 1 : m<m 0 HipotezaH 0 : o równości średnich z n - elementowej próby i w populacjibędzie zweryfikowana na podstawie wyników próby losowej.

Formułowanie hipotez w parametrycznych testach istotności Pracujemy nad nową technologią produkcji określonego stopu, zapewniającą niższy średni poziom zanieczyszczeń niż w dotychczas stosowanej, w której średni poziom zanieczyszczeń wynosił µ 0 H 0 :µ = µ 0 ; H 1 : µ < µ 0 Hipotezę H 0 przyjmujemy albo odrzucamy na rzecz H 1. Nieodrzucenie (przyjęcie) hipotezy zerowej nie dowodzi jej prawdziwości, wynika jedynie z braku podstaw do jej odrzucenia Hipoteza H 1 jest w pewnym sensie ważniejsza, ponieważ test wykonujemy po to, by znaleźć podstawę do odrzucenia hipotezy zerowej i przyjęcia hipotezy alternatywnej. Hipoteza zerowa jest hipotezą prostą, bowiem jednoznacznie wyznacza rozkład prawdopodobieństwa, z którego jest losowana próba losowa. Hipotezą złożoną jest ta, która opisuje więcej niż jeden rozkład, w naszym przypadku jest to hipoteza alternatywna

Intuicyjna interpretacja hipotezy zerowej i alternatywnej Nasze postępowanie przypomina zachowanie prokuratora, w sytuacji gdy Sąd musi opierać się na domniemaniu niewinności podsądnego (hipoteza zerowa) Prokuratura skupia się na uzasadnieniu fałszywości tego domniemania i odrzucenia go na korzyść orzeczenia winy podsądnego ( hipotezy alternatywnej)

2. Przyjęcie odpowiedniego poziomu istotności α oraz liczebności próby Przy podejmowaniu decyzji weryfikującej hipotezy możemy popełnić dwa rodzaje błędów Decyzja odrzucić nie odrzucić Hipoteza H 0 prawdziwa fałszywa błąd I rodzaju decyzja trafna α 1-β decyzja trafna błąd II rodzaju 1-α β

Przykład H 0 - oskarżony jest niewinny H 1 - oskarżony jest winien Błąd I rodzaju : sąd skazał niewinnego: H 0 prawdziwa, ale ją odrzucono Błąd II rodzaju: sąd uwolnił winnego: H 1 prawdziwa, a przyjęto H 0, Tu błąd I rodzaju jest znacznie bardziej dotkliwy, dlatego należy zminimalizować prawdopodobieństwo jego popełnienia (czyli dostarczyć niezbitych dowodów)

Związek pomiędzy błędami I i II rodzaju: H 0 : µ=m 0 H 1 : µ >m 0 Przy przyjętym poziomie istotności α, obszar krytyczny obejmuje wartości średnie A, gdy P (x A)= α Dla określenia obszaru β przyjmiemy następujący zestaw hipotez H 0 : µ=m 0 H 1 : µ = m 1 >m 0 H 0 : µ=m 0 H 1 : µ=m 1 β α zmniejszanie wartości α pociąga wzrost wartości β

Błąd II rodzaju i moc testu Z przedstawionego rysunku widać, że nie jest możliwe jednoczesne minimalizowanie prawdopodobieństwa popełnienia obu błędów. Z wartością β związana jest moc testu, która jest określana jako prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona fałszywa, czyli wynosi 1- β. Moc testu zależy od poziomu istotności α, a także od postaci hipotezy alternatywnej i liczebności próby W statystyce praktycznie postępuje się podobnie jak w sądzie przyjmując zasadę domniemania prawdziwości hipotezy zerowej, co oznacza, że chcemy aby błąd I rodzaju nie często miał miejsce. Określając poziom istotności określamy granicę błędu I rodzaju, pamiętając że przyjmując niższą wartość α uzyskujemy wyższą wiarygodność hipotezy alternatywnej (jej przyjęcie jest jakby mocniej uzasadnione), ale wtedy trudniej odrzucić hipotezę zerową.

3. Określenie obszaru krytycznego i obszaru przyjęcia sprawdzanej hipotezy H 0 Obszar krytyczny wyznacza jedno z następujących równań P( U u ) 1-α/2 = α dwustronny obszar krytyczny P(U u 1-α ) = α prawostronny obszar krytyczny P(U -u α ) = α lewostronny obszar krytyczny Jeśli prawdziwa jest hipoteza zerowa, to wartość statystyki U nie powinna przekraczać pewnej wartości krytycznej u α α oznacza obszar zbiór nietypowych wartości statystyki testowej pod warunkiem prawdziwości hipotezy zerowej

H 0 : m=m 0 H 1 : m<m 0 P(U u α ) = α lewostronny obszar krytyczny α u α 0

H 0 : m=m 0 H 1 : m>m 0 P(U u α ) = α prawostronny obszar krytyczny 1- α 0 u 1-α α

H 0 : m=m 0 H 1 : m m 0 P ( U u 1-α/2 ) = α dwustronny obszar krytyczny 1- α α/2 α/2 0 u 1- α/2

4. Wybór testu weryfikującego H 0 i wyliczenie statystyki testowej Rozważamy rozkład średnich z n - elementowej próby, jest to n rozkład N(m 0, σ/ ), o ile hipoteza H 0 jest prawdziwa Stąd statystyka U, określona wzorem U = x m σ o n ma rozkład N (0,1), Jeśli prawdziwa jest hipoteza zerowa, to obliczona z próby wartość statystyki U nie powinna przekraczać wartości krytycznej u α (kwantyla u α )

Funkcje testowe dla dużej próby i dla małej, gdy nieznana jest wartość wariancji w populacji Duża próba, wylosowana z populacji o rozkładzie N (m, σ) U = x m s o n Mała próba, wylosowana z populacji o rozkładzie N (m, σ) wtedy U, określone funkcją testową, jest zmienną losową o rozkładzie N(0;1) t x mo = n s 1 wtedy zmienna losowa t, określona wzorem ma rozkład Studenta o n-1 stopniach swobody, który jest niezależny od wartości wariancji w populacji

Inne funkcje testowe, określające zmienne o rozkładzie Studenta Jeśli z populacji mających taki sam rozkład normalny wylosujemy dwie próby o liczebnościach odpowiednio n 1 i n 2, średnich arytmetycznych x 1 i x 2 oraz wariancjach s 12 i s 22, obliczonych z próby, to zmienna t t x x 1 2 1 2 = ( n 2 1 + n 2 2 n1s1 + n 2 s n 2 1 + n 2 n n 2 ) ma rozkład Studenta o n 1 +n 2-2 stopniach swobody Podobnie rozkład Studenta mają funkcje stosowane do testowania hipotezy o niezależności zmiennych (że współczynnik korelacji ρ =0), i funkcje do testowania istotności współczynników regresji: (H 0 : b i =0).

Przykład realizowany z pomocą pakietu STATISTICA Dane z badań przeprowadzonych w 1996 roku dotyczące zarobków Polaków. Ankiety wysłano do 5000 pracowników wylosowanych przez GUS. Ankiety zwróciło 1255 osób. Arkusz zawiera następujące informacje o badanych osobach Płeć Wykształcenie Wiek Staż pracy Płaca brutto Stawiam pod wątpliwość twierdzenie, że płeć nie ma wpływu na wysokość zarobków w Polsce, jeśli by tak było to nie powinno być różnic pomiędzy średnimi wartościami zarobków kobiet i mężczyzn. Hipotezą zerową jest zdanie: Zarobki mężczyzn i kobiet nie różnią się H 0 : m 1 =m 2 przy hipotezie alternatywnej H 1 : m 1 m 2,

Obliczenia w programie Statistica

Podstawa do podjęcia decyzji weryfikacyjnej Jeżeli obliczona wartość funkcji testowej znajdzie się w obszarze krytycznym hipotezę H 0 należy odrzucić co jest równoważne z przyjęciem hipotezy H 1 W programach komputerowych decyzję podejmuje się na podstawie obliczonej wartości prawdopodobieństwa p jeśli p< α H 0 odrzucamy, przyjmujemy H 1 jeśli p α nie ma podstaw do odrzucenia H 0 A α

Weryfikacja hipotezy o wariancji w rozkładzie normalnym H 0 : (σ 2 σ 2 0 ) przy H 1 : (σ 2 > σ 2 0 ) Przyjmujemy poziom istotności α ns σ 2 n 2 i wiemy, że statystyka ma rozkład chi-kwadrat o 0 n-1 stopniach swobody. Skoro, gdy H 0 jest prawdziwa, zachodzi równość, P ( ns σ Zatem hipotezę H 0 odrzucamy, na rzecz H 1, ilekroć stwierdzimy (na podstawie obliczeń), że zaszła nierówność ns σ 2 n 2 0 2 n 2 0 2 > χ ) α = > χ α 2 α

Weryfikacja hipotezy o wariancji w rozkładzie normalnym Błąd pomiaru odległości za pomocą radaru ma rozkład normalny. Przeprowadzono 10 pomiarów tej samej znanej odległości i otrzymano następujące wartości błędów k 1 2 3 4 5 6 7 8 9 10 s k [km] 0,115-0,250 0,180-0,060-0,120 0,010-0,050 0,075-0,150-0,250 suma błędów -0,500 średni błąd -0,050 wariancja błędów 0,0216 Na poziomie istotności α=0,05 zweryfikować hipotezę, że wariancja błędu nie przekracza 0,0125. Odczytane z tablic chi kwadrat dla n-1=9 stopni swobody =16,919 Obliczam wartość funkcji testowej ns σ 2 n 2 0 = 10 * 0,0216 0,0125 = 17,276 > 16,919 H 0 należy odrzucić

Tablice rozkładu χ 2 poziom istotności 0,99 0,95 0,9 0,1 0,05 0,01 l.ss 1 0,000 0,004 0,016 2,706 3,841 6,635 2 0,020 0,103 0,211 4,605 5,991 9,210 3 0,115 0,352 0,584 6,251 7,815 11,345 4 0,297 0,711 1,064 7,779 9,488 13,277 5 0,554 1,145 1,610 9,236 11,070 15,086 6 0,872 1,635 2,204 10,645 12,592 16,812 7 1,239 2,167 2,833 12,017 14,067 18,475 8 1,646 2,733 3,490 13,362 15,507 20,090 9 2,088 3,325 4,168 14,684 16,919 21,666 10 2,558 3,940 4,865 15,987 18,307 23,209 11 3,053 4,575 5,578 17,275 19,675 24,725 12 3,571 5,226 6,304 18,549 21,026 26,217 13 4,107 5,892 7,042 19,812 22,362 27,688 14 4,660 6,571 7,790 21,064 23,685 29,141 15 5,229 7,261 8,547 22,307 24,996 30,578

Weryfikacja hipotez dotyczących postaci nieznanego rozkładu - Testy zgodności. Podstawowe działania: Konstrukcja rozkładu empirycznego (a najlepiej kilku rozkładów o różnej liczbie klas); Ocena podobieństwa rozkładu empirycznego do określonego rozkładu teoretycznego postawienie hipotezy zerowej. Przyjęcie odpowiedniej statystyki, która może służyć za test do weryfikacji hipotezy zerowej; Weryfikacja hipotezy o zgodności rozkładu empirycznego z hipotetycznym rozkładem teoretycznym: wykonanie obliczeń podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy zerowej.

Test χ 2 Pearsona Niech cecha X ma rozkład o dystrybuancie F Oś rzeczywistą dzielimy na r+1 rozłącznych przedziałów (- <a 1 <...a r+1 < ) Oznaczmy przez p j prawdopodobieństwo, że zmienna przyjmie wartość z przedziału I j, tzn. p j =F(a j )- F(a j-1 ), j=1,2,...,r+1 Niech p j >0 dla każdego j. Liczba n*p j jest oczekiwaną liczbą obserwacji n-elementowej próbki; Niech n j oznacza liczbę obserwacji, które rzeczywiście znalazły się w przedziale I j

Test χ 2 Pearsona Suma kwadratów różnic (n j -n*p j, ) tzn. r + 1 j = 1 ( ) 2 n np może być miarą zgodności rozkładu zaobserwowanego w próbce z rozkładem hipotetycznym K. Pearson udowodnił, że statystyka j j χ 2 r + 1 = j = 1 ( n np ) j np j j 2 (*) ma, gdy n, rozkład chi-kwadrat o r stopniach swobody

Test χ 2 Pearsona Statystyka określona wzorem (*), znana jest pod nazwą test χ 2 Pearsona. Statystyka ta nie zależy od postaci dystrybuanty cechy X, a tylko od prawdopodobieństw p j = P(X I j ), przy czym podział na przedziały I j jest zupełnie dowolny. Taki sam układ prawdopodobieństw p1,p2,...,p r+1 może odpowiadać wielu różnym rozkładom zarówno typu ciągłego jak i skokowego, stąd test χ 2 powinien być używany do weryfikowania hipotezy dotyczącej układu prawdopodobieństw a nie postaci rozkładu cechy X w populacji.

Test χ 2 Pearsona W teście χ 2, hipoteza zerowa dotyczy klasy wszystkich rozkładów dla których P(X I j ) = p j, hipoteza alternatywna obejmuje klasę wszystkich tych rozkładów, dla których co najmniej dla jednego j zachodzi P(X I j ) p j. Dla danej próbki statystyka χ 2 obliczona ze wzoru (*), będzie mieć taką samą wartość dla wielu różnych rozkładów

Weryfikacja hipotezy o zgodności rozkładu empirycznego z teoretycznym Przyjęcie hipotezy zerowej oznacza, że każdy rozkład należący do danej klasy może mieć zastosowanie do opisu zjawiska. Kierując się wiedzą o zjawisku, najczęściej wybiera się jeden z rozkładów należących do hipotezy zerowej, stąd często upraszcza się problem stosowania testu χ 2 formułując hipotezę zerową jako przypuszczenie, że cecha X ma w populacji rozkład określonej postaci (czyli opisany konkretną dystrybuantą) Mając sprecyzowaną hipotezę zerową i wybrany test do weryfikacji dalej postępowanie przebiega jak w testach parametrycznych.

Algorytm realizacji testu χ 2 Pearsona Przyjąć poziom istotności α, Odczytać z tablic rozkładu χ 2 wartość krytyczną χ 2 α dla zadanej wartości α i r=k-p-1 stopni swobody, gdzie k jest liczbą parametrów rozkładu teoretycznego k- jest liczbą klas rozkładu empirycznego Obliczyć wartość statystyki testowej χ 2, (wg wzoru *) Porównać wartości χ 2 obliczone z wartością krytyczną χ2 α Ponieważ 2 2 P( χ > χα ) = α hipotezę H 0 odrzucamy ilekroć stwierdzimy, że H 0 przyjmujemy gdy 2 2 χ obliczone > χ α 2 2 χobliczone χ α

Komentarz do testu χ 2 Przedstawiona metoda weryfikacji hipotezy o postaci rozkładu jest oparta na granicznym rozkładzie statystyki (*), a zatem test χ 2, ma zastosowanie do próbek o dużej liczności n; Przyjmuje się, że test ten można stosować gdy np j 10 dla j=2,3,...,r oraz np 1 i np r+1 5; W przypadku podziału na osi 0x na przedziały, gdzie p j =1/(r+1) jest dopuszczalne stosowanie testu χ 2 już dla niewielkich liczności (n=15..20), przy r stopniach swobody oraz poziomie istotności α=0,05

Zastosowania testu χ 2 przykład1 Przeprowadzono obserwacje dotyczące wypadków drogowych na określonym terenie, spowodowanych przez kierowców będących w stanie nietrzeźwym. Wyniki podano w tabeli: Pn Wt Śr Cz Pt So N 19 15 16 14 13 18 17 Na poziomie α = 0,05 zweryfikować hipotezę, że dla każdego dnia tygodnia jest takie samo prawdopodobieństwo wypadku spowodowanego przez kierowcę będącego w stanie nietrzeźwym.

Wykonanie testu Dla α = 0,05 oraz r=n-1= 6 stopni swobody znajduję w tablicach χ 2 α = 12,592 obliczam wartość statystyki χ 2 według wzoru(*), przy czym przyjmuję n=112 p 1 =p 2 =...p 7 =1/7 np j =112/7=16 liczności n j biorę z tabelki i obliczam χ 2 obliczone=(9+1+0+4+9+4+1+)/16 = 1,75 Ponieważ χ 2 obliczone = 1,75 < χ2 α = 12,592, zatem nie ma podstaw do odrzucenia hipotezy zerowej, Utwierdziliśmy się w przekonaniu, że prawdopodobieństwo spowodowania wypadku na badanym terenie przez nietrzeźwego kierowcę jest jednakowe dla każdego dnia tygodnia.

Przykład badania zgodności z rozkładem normalnym W grupie 192 chorych wykonano pomiar pewnego parametru biochemicznego (PB) i uzyskano następujące wyniki wartość PB 5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 15 liczba chorych 4 2 11 18 27 32 35 24 20 13 3 3 postawiono hipotezę H 0, że parametr PB ma rozkład normalny N (µ, σ) z danych empirycznych obliczono estymatory parametrów rozkładu i sformułowano następującą hipotezę H 0 : parametr PB ma rozkład normalny obliczono wartości statystyki χ 2

Przykład badania zgodności z rozkładem normalnym - dokończyć Zakres PB ni pi npi χ2 <6 6 0,03407 6,5086 0,04472 6-7 11 0,0509 9,78 0,15943 7-8 18 8-9 27 9-10 32 10-11 35 11-12 24 12-13 20 13-14 13 >14 6 Razem 192 1,74252

Przykład badania zgodności z rozkładem normalnym wskazówki do obliczeń Mamy: n=192 ; Obliczamy x śr = 10,044; s 2 = 4,91557; s=2,217108 P(6 X<7)=F(7)-F(6) = 0,050954 F(7)= Φ ((7-10,044)/2,217108))= Φ(-1,372959)= 1-0,91466 =0,085334 F(6) = Φ ((6-10,044)/2,217108))= Φ(-1,823997)=1-0,96562 = 0,03438 p 2 = 0,050954 n*p 2 =9,78 χ 2 obliczone=1,74 < χ 2 kryt=14,067 χ 2 kryt odczytano z tablic rozkładu χ 2 dla α =0.05 i r=7 (u nas r=10-2-1, bo liczba klas równa się 10 i dwa parametry rozkładu: średnia i wariancja, były obliczone)

Jak to się liczy w Statistica

Jak to się liczy w Statistica

Z tabeli liczności

Testy normalności w pakiecie Statistica

Testy normalności w pakiecie Statistica

Zastosowania testu χ 2 przykład 2

Zastosowania testu χ 2 przykład 2

Etapy wnioskowania statystycznego obliczenia własne 1. postawienie hipotezy zerowej 2. wybór testu i sprawdzenie spełnienia założeń 3. obliczenie wartości funkcji testowej 4. ustalenie (odczytanie z tablic) wartości krytycznych dla danego poziomu istotności z użyciem pakietu STATISTICA 1. postawienie hipotezy zerowej 2. wybór testu i sprawdzenie spełnienia założeń 3. wprowadzenie danych 5. podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H 0 6. interpretacja otrzymanych wyników 4. podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H 0 5. interpretacja otrzymanych wyników