Testowanie hipotez statystycznych Wnioskowanie statystyczne
Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów).
Hipotezy statystyczne Hipotezy mogą dotyczyć: Wartości parametrów Różnicy między cechami opisującymi badaną populację Zależności między badanymi zmiennymi Kształtu zależności badanych zmiennych Porównania rozkładu zmiennych
Hipotezy proste i złożone Proste - hipoteza jednoznacznie określa rozkład danej populacji (np. wzrost badanej populacji jest określony rozkładem normalnym o parametrach m=70 cm i σ=6 ) Złożone - hipoteza określa całą grupę rozkładów (np. wzrost badanej populacji jest określony rozkładem normalnym o parametrach m=70 cm i σ)
Hipotezy parametryczne i nieparametryczne Parametryczne - hipoteza dotyczy wartości parametru rozkładu (wzrost badanej populacji jest określony rozkładem normalnym o parametrach m=70 cm i σ=6) Nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu (twierdzenie "wzrost badanej populacji jest określony rozkładem normalnym" )
Test statystyczny to reguła postępowania do sprawdzenia prawdziwości hipotezy statystycznej na podstawie wyników próby losowej.
Rodzaje testów Parametryczne służą do weryfikacji hipotez parametrycznych, odnoszących się do parametrów rozkładu badanej cechy w populacji generalnej. Nieparametryczne - służą do weryfikacji różnorodnych hipotez, dotyczących m.in. zgodności rozkładu cechy w populacji z określonym rozkładem teoretycznym, zgodności rozkładów w dwóch populacjach, a także losowości doboru próby.
Błędy popełniane przy weryfikacji hipotez Błąd pierwszego rodzaju - odrzucenie testowanej hipotezy prawdziwej. Błąd drugiego rodzaju przyjęcie testowanej hipotezy fałszywej.
Poziom istotności to prawdopodobieństwo popełnienia błędu pierwszego rodzaju w postępowaniu testującym hipotezę. obrane z góry, najczęściej małe prawdopodobieństwo popełnienia błędu polegającego na odrzuceniu testowanej hipotezy prawdziwej.
Weryfikacją hipotez nazywamy sprawdzanie sądów o populacji, sformułowanych bez zbadania jej całości.
Schemat weryfikacji hipotez. Zdefiniowanie hipotezy zerowej H o i alternatywnej H. Wybór testu do weryfikacji 3. Wykonanie obliczeń wartości statystyki na podstawie danych z próby 4. Określenie poziomu istotności. 5. Wyznaczenie obszarów krytycznych dla ustalonego 6. Podjęcie decyzji o przyjęciu hipotezy zerowej lub jej odrzuceniu.
Zasady konstruowania testów Sformułowanie hipotezy zerowej np. H 0 : m=m 0. hipoteza alternatywna np. H : mm 0» H : m > m 0» H : m < m 0
Wybór statystyki testowej Zakładając, że hipoteza H 0 jest prawdziwa tworzy się pewną statystykę testową Z, będącą funkcją wyników z próby losowej.
Określenie poziomu istotności α α - maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju, który polega na odrzuceniu hipotezy zerowej wtedy, gdy jest ona prawdziwa.
Obszar krytyczny Obszar krytyczny zawiera takie wartości zmiennej Z, jakie musiałaby ona przyjąć, aby było to "mało prawdopodobne", tzn. aby prawdopodobieństwo zaistnienia tych wartości było małe, równe poziomowi istotności.
Podjęcie decyzji Jeśli wartość statystyki Z znalazła się w obszarze krytycznym, to wystąpiło zdarzenie bardzo mało prawdopodobne, a to oznacza, że nie jest spełnione założenie o prawdziwości hipotezy zerowej.
Testy istotności to taki rodzaj testów statystycznych, w których na podstawie wyników próby losowej podejmuje się jedynie decyzję odrzucenia hipotezy sprawdzanej lub stwierdza się, że brak jest podstaw do jej odrzucenia.
Czynniki wpływające na moc Liczebność próby testów Błędy pomiarowe. Każda poprawa dokładności pomiarów poprawia moc testu.
Testy Studenta Testy t Studenta to: test dla jednej próby, dla dwóch niezależnych prób dla dwóch prób zależnych.
Testy t. Testy dla prób niezależnych (czyli dla zmiennych niepowiązanych) Testy te porównują średnie badanej zmiennej dla dwóch grup o równych lub różnych liczebnościach.. Testy dla prób zależnych (czyli dla zmiennych powiązanych) Testy te stosuje się dla porównania średnich danej zmiennej w tej samej grupie, ale badanej dwukrotnie w czasie.
Przykład. Zmienne niezależne Należy porównać natężenie hałasu na dwóch skrzyżowaniach położonych w różnych częściach miasta.
Zmienne zależne. Należy porównać natężenie hałasu na skrzyżowaniach, położonych blisko siebie. Badamy poziom cholesterolu we krwi pewnej grupy osób przed i po podaniu odpowiedniego lekarstwa. Pytanie: Czy ten lek jest skuteczny?
Test t-studenta dla prób zależnych. Test stosujemy, jeśli: Otrzymujemy dwie serie wyników pomiarów dotyczących tej samej próby (tych samych jednostek w dwóch różnych momentach czasu) i chcemy zweryfikować hipotezę o średniej wielkości różnic między tymi wynikami.
Testy istotności dla jednej próby (Model I) Model I. Populacja generalna ma rozkład normalny N(m, ) o nieznanej wartości średniej m oraz znanym odchyleniu standardowym. H 0 : m=m 0 (gdzie m 0 jest konkretną wartością hipotetyczną średniej) H : mm 0.
Weryfikacja hipotezy na podstawie wyników z próby Do weryfikacji hipotezy służy statystyka u x m 0 n
Obszar krytyczny dla H : mm 0 Z tablicy dystrybuanty standardowego rozkładu normalnego N(0,) wyznacza się taką wartość krytyczną u, by dla założonego z góry małego prawdopodobieństwa zachodziła równość P( U u ) = (u ) = - / Zbiór wartości zmiennej U określony nierównością u u tworzy obszar krytyczny tego testu
H : mm 0 obszar dwustronny W =(-, -u ) ( u, )
Prawostronny obszar krytyczny H : m > m 0, Dla tej hipotezy zachodzi: u u u wyznaczamy tak, by spełniona była równość P(U u ) =.
H : m > m 0, W = (u, + )
Obszar krytyczny lewostronny H : m < m 0, W = (-, - u )
Obszar krytyczny Gdy z próby otrzymamy taką wartość u że znajdzie się w obszarze krytycznym, to hipotezę H 0 odrzucamy, uznajemy zatem, że różnica między wartością m 0 a jest statystycznie istotna. W przeciwnym wypadku nie ma podstaw do odrzucenia hipotezy H 0.
Test t dla jednej próby. Model II. Populacja generalna ma rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest nieznane. W oparciu o wyniki małej, n-elementowej próby losowej należy zweryfikować hipotezę H 0 : m = m 0, wobec hipotezy alternatywnej H : m m 0.
Test t dla jednej próby. Do weryfikacji służy statystyka t x m s 0 n
Obszar krytyczny dwustronny H : m m 0 W =(-, -t ) ( t, ),
Obszar krytyczny lewostronny H : m < m 0 Lewostronny obszar krytyczny W = (-, - t )
Obszar krytyczny prawostronny H : m > m 0 Prawostronny obszar krytyczny W = (t, + )
Testy t dla jednej próby. Wartość t, n- (t,n- ) odczytuje się z tablicy rozkładu t - Studenta, dla ustalonego poziomu istotności i dla n- stopni swobody. Jeśli wartość statystyki t znajdzie się w obszarze krytycznym hipotezę zerową odrzucamy.
Test istotności t dla dwóch prób niezależnych (model I). Badane są dwie populacje generalne o rozkładach normalnych N(m, ) i N(m, ). Wartości średnie tych populacji nie są znane, znane są natomiast wartości odchyleń standardowych i. H 0 : m = m H : m m
Test istotności t dla dwóch prób niezależnych (model I). Weryfikacja hipotezy: Zakładamy, że spełniona jest hipoteza zerowa czyli m = m. Statystyka U ma postać: ) ( ) ( n n X X n n m m X X U
Test istotności t dla dwóch prób niezależnych (model I). Wyznaczamy obszar krytyczny (jak w Modelu I) Jeśli wartość U, znajdzie się w obszarze krytycznym to hipotezę H 0 odrzucamy. W przeciwnym wypadku nie ma podstaw do odrzucenia hipotezy H 0
Test t-studenta dla prób (Model ). Załóżmy, że badane są dwie populacje generalne o rozkładach normalnych N(m, ) i N(m, ), ( i nieznane, jednorodne) H 0 : m = m H : m m.
Weryfikacja testu: Budujemy statystykę: Statystyka ta ma rozkład t-studenta z = n + n stopniami swobody. p n n s ) m (m ) X (X t n n )s (n )s (n s p Test t-studenta dla prób (Model ).
Test t-studenta dla prób (Model ). Budujemy obszar krytyczny (jak w modelu ) Jeśli wartość statystyki znajdzie się w obszarze krytycznym to hipotezę H 0 należy odrzucić na korzyść hipotezy H, W przeciwnym wypadku nie ma podstaw do odrzucenia hipotezy H 0.
Etapy wnioskowania statystycznego z programem Statistica.. Wprowadzanie danych. Sformułowanie hipotezy zerowej 3. Sprawdzenie założeń wybranego testu 4. Uruchomienie testu 5. Interpretacja wyników
Statistica. Wybieramy z menu: Statystyka - Statystyki podstawowe i tabele.
Wartość p prawdopodobieństwo komputerowe P- wartość poziom prawdopodobieństwa p najmniejszy poziom istotności, przy którym wyliczona wartość statystyki, doprowadza do odrzucenie hipotezy zerowej.
Obszar krytyczny prawostronny H : m > m 0 Prawostronny obszar krytyczny W = (t, + ) p
Wartość p- poziom prawdopodobieństwa Wartość p porównujemy z przyjętym poziomem istotności. Jeżeli p < odrzucamy H 0 i stwierdzamy istotną różnicę między średnimi. Jeżeli p > to na danym poziomie istotności alfa nie ma podstaw do odrzucenia hipotezy zerowej.
Podstawowe założenia testów. Mierzalność zmiennej t-studenta. Losowy dobór próby gwarantuje reprezentatywność próby dla populacji 3. Respektowanie rodzaju porównań Testy przeznaczone do testowania różnic między grupami niezależnymi Testy dla grup zależnych 4. Założenie o normalności rozkładu zmiennej 5. Założenie jednorodności wariancji
Test T Studenta dla zmiennych niezależnych Testy T- Studenta dla zmiennych niezależnych Czy zmienne losowe mają w dwóch zbiorowościach rozkłady normalne Tak Czy znane wariancje? Nie Czy duże próby? Tak Nie Tak Nie Test U Czy równe wariancje? Test U dla dużych prób Testy nieparametryczne Tak Test T Nie Test Cochrana-Coxa
Test t Test U Test Cochrana Coxa p n n s ) X (X t n n ) X (X U n s n s ) X (X C
Testy jednorodności wariancji Test F Test Leven a. Test Browna i Forsytha.
Test istotności dla dwóch wariancji. Zakładamy że populacje mają rozkład normalny N(m, ) oraz N(m, ) oraz liczebności prób wynoszą odpowiednia n i n. Żaden z parametrów tych rozkładów nie jest znany.
Hipotezy: H H 0 : :
Rozkład ilorazu wariancji z prób dla dwóch populacji normalnych ma rozkład F Snedecora F s s / /
Numerujemy s s tak, by s s F s s / / s s
Statystyka F ma rozkład F Snedecora o n i n - stopniach swobody.
P(F F / ) = / Dla hipotezy : Prawostronna część obszaru krytycznego Jeśli F < F / nie ma podstaw do odrzucania hipotezy zerowej. Jeśli F F / to hipotezę zerową należy odrzucić. H F odczytana z tablic F Snedecora dla n i n - i ustalonego.
Dla hipotezy H : w liczniku umieszczamy s niezależnie od tego, czy jest to wartość mniejsza czy większa niż s Prawostronny obszar krytyczny wyznacza relacja P(F F ) =.
Dla hipotezy H : należy ponumerować populacje tak, by otrzymać prawostronną hipotezę alternatywną P(F F ) =.