Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5
Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje hipotez, rodzaje testów Parametryczne testy istotności Testy zgodności
Testowanie hipotez statystycznych Teoria weryfikacji hipotez statystycznych jest ważnym działem wnioskowania statystycznego Podejmujemy tu określone decyzje statystyczne z określonym prawdopodobieństwem, to znaczy (podobnie, jak w estymacji statystycznej) - w warunkach niepewności
Próbkowanie POPULACJA PRÓBA Testowanie Parametr Statystyka
Hipotezy statystyczne Badając różne populacje i zjawiska stawiamy najczęściej tzw. hipotezy, czyli formułujemy przypuszczenia (założenia) dotyczące parametrów populacji lub rozkładów cechy
Hipotezy statystyczne hipotezy parametryczne (Hp), które dotyczą nieznanego poziomu parametrów populacji hipotezy nieparametryczne (Hnp), dotyczące nieznanej postaci funkcji rozkładu zmiennych w populacji
Hipotezy parametryczne Z reguły zapisane są w postaci krótkiego równania, np. µ = 44 µ = µ σ = σ
Hipotezy nieparametryczne Zwykle zapisane w postaci zdania, np. rozkład zmiennej x w populacji jest zgodny z rozkładem normalnym próby zostały pobrane z populacji o takich samych rozkładach...
Hipotezy statystyczne Hipoteza zerowa hipoteza podlegająca testowaniu Hipoteza alternatywna hipoteza rezerwowa na wypadek, gdyby hipoteza zerowa okazała się fałszywa Powyższe hipotezy mogą być zarówno parametryczne, jak i nieparametryczne
Hipotezy statystyczne hipotezy zerowe (H0), podlegające weryfikacji ich treścią jest założenie o braku różnic między parametrami (zerowe różnice) lub braku różnic między ogólnymi postaciami funkcji rozkładów. hipotezy alternatywne (H), konkurencyjne do zerowych przyjmowane w wypadku negatywnej weryfikacji H0
Hipotezy statystyczne H 0 : µ = 44 H 0 : µ = µ H 0 : rozkład zmiennej x w populacji jest zgodny z rozkładem normalnym
Hipotezy statystyczne H : µ 44 H : µ µ H : rozkład zmiennej x w populacji nie jest zgodny z rozkładem normalnym
W przypadku Hnp, H może mieć tylko jedną postać (porównywane funkcje rozkładu są różne). W przypadku Hp, H może być: - dwustronna (porównywane parametry są różne) - prawostronna (badany parametr jest większy od porównawczego) - lewostronna (badany parametr jest mniejszy od porównawczego) H Hp Hnp H 0 H H 0 H dwu- prawo- lewo-
Testy statystyczne Do weryfikacji hipotez służą specjalne narzędzia badawcze zwane testami statystycznymi Są to statystyki o określonym rozkładzie teoretycznym z próby (przypomnijmy sobie wykład o estymacji) o tym później
Próbkowanie POPULACJA PRÓBA Testowanie Parametr Statystyka Test statystyczny
Błędy w testach Hipoteza może być prawdziwa lub fałszywa Wynik testu może kazać hipotezę zaakceptować lub odrzucić W związku z tym
Błędy w testach
Jak uniknąć błędów? Konstrukcja testu: stosować testy, które podejmują tylko decyzję o odrzuceniu hipotezy lub stwierdzają brak podstaw do jej odrzucenia; w teście takim nie przyjmujemy hipotez Mały poziom istotności (Test istotności)
Stosując testy istotności unikamy błędu II rodzaju. Możemy popełnić błąd I rodzaju, ale prawdopodobieństwo popełnienia tego błędu będzie bardzo małe równe założonemu poziomowi istotności (zwykle 0,05 lub 0,0). Hipotezy parametryczne najczęściej dotyczą średnich, dlatego rozważania teoretyczne przeprowadzimy na przykładzie testu z (statystyki o rozkładzie normalnym). Na podstawie wyników próby obliczamy statystykę z i w rozkładzie tej statystyki (normalnym) wyznaczamy taki obszar wartości Q aby prawdopodobieństwo znalezienia się w tym obszarze było bardzo małe równe założonemu poziomowi istotności. P ( z Q) = α W zależności od postaci hipotezy alternatywnej obszar krytyczny testu przy założonym poziomie istotności może być: dwu-stronny, prawo-stronny lub lewo-stronny.
H 0 : µ=500 H : µ 500 z emp = x µ h σ n Z emp charakteryzuje się tym, że ma rozkład normalny N(0,), czyli o średniej = 0 i odchyleniu standardowym = (gdzie jednostką rozkładu jest odchylenie standardowe średniej z próby lub, jak kto woli, błąd standardowy
fz fz -α α/ α/ -α α Q -z α/ 0 z α/ Q z 0 z α Q z Jeżeli obliczona dla danego doświadczenia wartość testu znajdzie się w obszarze krytycznym Q to podejmujemy decyzję o odrzuceniu H 0 i przyjęciu H. Jeżeli nie to stwierdzamy, że brak podstaw do Q odrzucenia H 0.Dlaczego tak? α -z α fz -α 0 z
Zauważmy, że obszar krytyczny testu wyznaczamy dla bardzo małego prawdopodobieństwa (poziomu istotności α). Jeżeli założymy, że H 0 jest prawdziwa, to oznacza, zę prawdopodobieństwo otrzymania z n-elementowej próby wartości z w zakresie obszaru krytycznego Q (czyli poza przedziałem ufności dla z) będzie równe α, czyli bardzo małe. fz -α α/ α/ Q -z α/ 0 z α/ Q z
Zdarzenie takie raczej nie powinno wystąpić w jednym eksperymencie. Jeżeli zatem takie zdarzenie wystąpi, to będzie oznaczało, że miało ono większe prawdopodobieństwo, niż to, które przyjęliśmy zakładając prawdziwość H 0. fz -α α/ α/ Q -z α/ 0 z α/ Q z
Logiczne jest zatem potraktowanie H 0 jako fałszywej, jej odrzucenie i przyjęcie H. Prawdopodobieństwo pomyłki, czyli odrzucenia prawdziwej H 0 (błąd pierwszego rodzaju) jest równe α (praktycznie bliskie zeru, najczęściej α=0,05). fz -α α/ α/ Q -z α/ 0 z α/ Q z
Gdy empiryczna wartość z wystąpi poza obszarem krytycznym Q (czyli znajdzie się w przedziale ufności statystyki testowej z), to prawdopodobieństwo takiego zdarzenia, przy założeniu prawdziwości H 0, będzie równe -α(praktycznie bliskie ). Nie mamy podstaw do odrzucenia H 0. fz -α α/ α/ Q -z α/ 0 z α/ Q z
Parametryczne testy istotności: - dla średniej - stosowane w eksperymentach, w których hipoteza zerowa określa hipotetyczną wartość średniej µ h, z którą porównujemy średnią z n-elementowej próby ( x ). H H 0 : µ = : µ µ µ h h lub µ > µ h lub µ < Jeżeli rozkład zmiennej w populacji jest normalny znamy wariancję (σ ), H 0 testujemy za pomocą testu z, obszar krytyczny wyznaczamy z rozkładu normalnego dla założonego poziomu istotności α, a wartość empiryczną testu obliczamy ze wzoru: Jeżeli z z emp emp = x z µ σ α / h lub n z α µ h to H 0 odrzucamy
W przypadku stosowania dużych prób rozkład zmiennej w populacji nie musi być normalny i nie musimy znać wariancji dla populacji, przyjmujemy, ze s =σ. Jeżeli nie znamy wariancji dla populacji i dysponujemy wynikami małej próby, to tylko w przypadku, kiedy rozkład w populacji jest normalny, możemy do weryfikacji H 0 zastosować test t, a obszar krytyczny wyznaczyć z rozkładu Studenta dla założonego poziomu istotności α i liczby stopni swobody k = n -. Wartość empiryczną testu obliczamy: t emp = x µ h s n Jeżeli t emp t α / lub t przy k = n α to H 0 odrzucamy
- dla różnicy między dwiema średnimi - stosowany w doświadczeniach, w których porównujemy średnie dwóch populacji na podstawie n-elementowych prób pobranych z tych populacji. 0 lub lub : : µ µ µ µ µ µ µ µ < > = H H W przypadku dużych prób - test z : n s n s x x z emp + =
W przypadku małych prób - test t ale tylko jeżeli spełnione są dwa warunki: ) próby pochodzą z populacji o rozkładzie normalnym, ) wariancje w tych populacjach nie różnią się istotnie. ( ) ( ) + + + = n n n s n s n n x x t emp przy: k = n + n - Jeżeli n = n = n to wzór na błąd standardowy różnicy znacznie się upraszcza n s s x x t emp + =
- dla wariancji: 0 0,, : : H F F n k n k przy F to s s F dla n k n k przy F to s s F dla F H H emp emp emp emp α α α σ σ σ σ > = = = = = = > = F α F f (F) Jeżeli to odrzucamy Q
Test zgodności χ W przypadku testów nieparametrycznych weryfikuje się hipotezę dotyczącą rozkładu badanej cechy w populacji nie precyzując parametrów tego rozkładu. Statystyka stosowana tu ma rozkład asymptotyczny χ. Test ten pozwala na weryfikację hipotezy, że populacja ma określoną postać funkcji dystrybuanty. Wymaga dużej próby. H H 0 : : E E ( Gx Fx) = 0 ( rozklady zgodne) ( Gx Fx) 0 ( rozklady rozniace sie istotnie) Na podstawie wyników próby tworzymy szereg rozdzielczy (rozkład empiryczny) i po wyznaczeniu parametrów, odpowiedni rozkład teoretyczny (jeżeli normalny, to zgodnymi parametrami będą -średnia arytmetyczna i odchylenie standardowe). Musi być też spełniony warunek aby częstość porównywanych klas nie była mniejsza od 0. Zwykle łączymy skrajne klasy. Empiryczną wartość testu obliczamy wg. wzoru:
χ emp ( ' n n ) u = i χ α wyznaczamy z tablic rozkładu χ na podstawie założonego poziomu istotności α i liczby stopni swobody k = u - f - gdzie: u - liczba składników sumy, f - liczba zgodnych parametrów obydwu rozkładów. n ' i i Jeżeli: χ emp > χ α to H 0 odrzucamy, przyjmujemy H fχ χ α Q χ
Przykładowe pytania egzaminacyjne z tej części materiału. Rodzaje hipotez statystycznych.. Co to jest hipoteza zerowa a co hipoteza alternatywna? 3. Rodzaje błędów popełnianych podczas testowania hipotez. 4. Co to są testy istotności? 5. Jakiego błędu unikamy stosując testy istotności? 6. Jakie jest prawdopodobieństwo popełnienia błędu pierwszego rodzaju przy stosowaniu testów istotności? 7. Jakie testy mogą być stosowane przy porównywaniu dwóch średnich? 8. Do czego służy test zgodności χ? 9.
Dziękuję za uwagę!