Wykład 8: Testy istotności Hipotezy Statystyki testowe P-wartości Istotność statystyczna Test dla średniej w populacji Dwustronny test a przedział ufności Używanie i nadużywanie testów
Testy istotności (testowanie hipotez) Będziemy uzgadniać z danymi hipotezy dotyczące populacji. Przykłady: Czy średnia zawartość leku wynosi 200 mg na tabletkę przy odchyleniu standardowym 5 mg? Powiedzmy, że obserwujemy średnią 198 mg dla n = 100 obserwacji. Czy mniej niż 15% czujników CCD jest uszkodzonych? Powiedzmy, że obserwujemy 20% uszkodzonych dla n = 100 obserwacji.
Przykład 1: Stwierdzenie producenta: Średnia zawartość substancji czynnej wynosi 200 mg na pigułkę przy SD 5 mg. Oceniamy 100 tabletek; uzyskano średnią 198 mg. Czy dane są zgodne ze stwierdzeniem? Wskazówka: Oblicz prawdopodobieństwo uzyskania 198 mg lub mniej, przy założeniu, że twierdzenie producenta jest prawidłowe.
A co ze średnią próbkową 199 mg lub 200,5 mg? (Czy takie wyniki są prawdopodobne, czy nie?)
Hipotezy Hipoteza = stwierdzenie o parametrach w populacji lub w modelu (nie o danych). Formułujemy dwie konkurencyjne hipotezy: hipoteza zerowa H0 alternatywna hipoteza Ha
Hipotezy Hipoteza zerowa H0 jest stwierdzeniem, które początkowo jest uprzywilejowane lub uważane za prawdziwe. Często domyślna lub nieciekawa sytuacja "bez efektu" lub "bez różnicy". Alternatywna hipoteza Ha to stwierdzenie, że mamy nadzieję lub podejrzewamy, że jest prawdziwe zamiast H0. Często najpierw stawiamy alternatywną hipotezę Ha, a następnie stwierdzamy, że H0 nie zawiera oczekiwanego efektu. Często też odpowiadamy przy pomocy Ha. Test istotności orzeka o ewentualnej "sprzeczności" pomiędzy hipotezą zerową a danymi.
Przykład 1 cd. H0: μ = 200 Słowami: Średnia zawartość to 200 mg na pigułkę. Ha: μ 200 Słowem: średnia zawartość nie wynosi 200 mg. (Tzw. dwustronna alternatywa Ha.)
Uwaga: Wybierz schemat przed analizowaniem danych - na podstawie wiedzy ogólnej lub wcześniejszych doświadczeń. Inne możliwe schematy: H 0 : μ = 200 kontra H a : μ <200 (Podejrzewasz, że średnia zawartość jest zbyt niska. Jednostronne Ha.) H 0 : μ = 200 kontra H a : μ >200 (Podejrzewamy, że zawartość jest zbyt wysoka. Jednostronne Ha.) H 0 : μ 200 vs. H a : μ >200 (Praktycznie to samo, co poprzednio. Jednostronne Ha.)
Przykład 1 cd. Statystyka testowa: Gdy średnia zawartość wynosi 200 mg, SD = 5 mg, to Z 200 X 5 / 100 ma (w przybliżeniu) rozkład N (0,1). Z jest tutaj statystyką testową testu tutaj. Wartość i rozkład Z są podstawą osądu, czy dane i H0 zgadzają się. Terminologia: przy H0 = zakładając, że H0 jest prawdziwe, przy Ha = zakładając, że Ha jest prawdziwe.
Przykład 1 ctnd. (dwustronna alternatywa) Przy H0: μ = 200: Jakie jest p-stwo, że średnia z 100 zawartości będzie tak bliska 200 mg jak 198 mg? P=...199mg? 200.5mg?
Definicja P-wartości: P-wartość to prawdopodobieństwo przy H0, że statystyka testowa przyjmuje wartości tak ekstremalne jak (lub bardziej ekstremalne niż) wartość faktycznie zaobserwowana dla danych. Uwagi: P-wartość, jest obliczana dla danych. Jeśli jest mała, to jest dowodem przeciw H0 ("przeczy" H0). Aby móc obliczyć P należy znać wartość statystyki dla danych i rozkład statystyki testowej przy H0. P-wartość jest prawdopodobieństwem, które pokazuje, czy dane i hipoteza zerowa się zgadzają.
Statistical Significance: Wybieramy odcięcie dla P-wartości, aby podjąć decyzję. Punkt odcięcia nazywany jest poziomem istotności α. Typowe poziomy istotności α: 0,05, 0,01. Odrzucamy H0, jeśli P-wartość<α. Jeśli nie podano inaczej, weź α = 0,05.
Kiedy P-wartość α, to mówimy, że dane są statystycznie istotne (na poziomie α), lub że mamy znaczący (= wystarczająco silny) dowód przeciwko H0. Uwagi: dane o P-wartości wynoszącej 0,02 są statystycznie istotne na poziomie 0,05, ale nie na poziomie 0,01 podawaj P-wartość ze swoimi wnioskamijest ona ostatecznym podsumowaniem procedury testowej
Przykład 1 cd. Sformułowanie konkluzji: (Używaj prostego języka. Dołącz P-wartość.)
z-test dla średniej populacji. Procedura: X 1,., X n : PP z rozkładu N(μ,σ) μ-nieznane (parametr będący przedmiotem zainteresowania), σ-dane hipoteza zerowa H 0 : μ = μ 0 alternatywna hipoteza może być: H a : μ μ 0 H a : μ > μ 0 H a : μ < μ 0 (dwustronna) (jednostronna) (jednostronna)
Statystyka testu dla średniej populacji μ: Uwagi: Z X Tą procedurę nazywamy z-testem. Przy H 0, Z ma standardowy rozkład normalny oczekujemy niewielkich wartości Z. P-wartości liczymy z N(0,1). z-test będzie się dobrze zachowywać także wtedy, gdy rozkład populacji jest w przybliżeniu normalny lub n jest duże / 0 n
Jednostronne czy dwustronne H a Jeśli spodziewamy się "więcej", "mniej", "gorzej", "zwiększenia", "zmniejszenia", "lepszego itp., to możemy zastosować test jednostronny. W przeciwnym razie używamy dwustronnego. Słowa kluczowe: "inny", "zmieniony"... Jednostronność ma wpływa (tylko) na obliczenie P-wartości.
against... 0 P-wartość dla z-testu H : is 2 P( Z z ) P( Z z ) a H : is P( Z z) a 0 H : is P( Z z) a 0
Przykład 2: 72 mężczyzn menedżerów w wieku 35-44 lat miało średnie skurczowe ciśnienie krwi 126,07. Czy średnie ciśnienie krwi w tej grupy zawodowej jest inne niż w przypadku ogólnej populacji mężczyzn w wieku 35-44 lat, które wynosi N(128,15)? (α nie podane?? Weź 0.05.)
Przykład 3: Nowy system rozliczeniowy w banku będzie opłacalny tylko wtedy, gdy średnia miesięczna salda kont przekracza 170 USD. Konta mają SD = 65 USD. Próba 400 kontach dała średnią 178 USD. Czy nowy system będzie opłacalny?
Statystyka, wartość P (tutaj jednostronny test z-z), decyzja... Dla Przykładu 1, jaka decyzja dla 198, 199, 200.5 [mg], dla dwustronnego testu?
Dwustronny test a przedziały ufności Przykład 1 cd.: Znajdź 95% przedziały ufności, gdy średnia próbki wynosi 198 mg (199 mg, 200,5 mg), SD = 5, n = 100.
Zauważ, że hipotetyczne μ = 200mg jest poza pierwszymi dwoma i wewnątrz trzeciego PU.
Ogólna zależność: Dwustronny test istotności dla poziomu α odrzuca H0: μ = μ0 wtedy i tylko wtedy, gdy μ0 znajduje się poza przedziałem ufności dla μ na poziomie 1-α.
Wartość krytyczna dla z-testu: Wartość krytyczna z* to taka liczba, że obszar pod krzywą normalną wartości przekraczających z* jest równy α. Np. dla testu jednostronnego przy H 0 Pr(Z> z * )= α. Używamy tablicy rozkładu normalnego lub Studenta.
Ćwiczenie: Znajdź wartości krytyczne dla Ha: μ> μ0, gdy α = 0,05, 0,02, 0,01. Jakie są P-wartości dla z = 1,5, z = 2, z = 2,5?
Exercise: Find critical values for H a : μ μ 0 when α=0.05, 0.02, 0.01. What are the P-values of z=1.5, z=2, z=2.5?
Używanie i nadużywanie testów Wybór poziomu istotności Istotność statystyczna a znaczenie praktyczne Brak istotności może mieć wartość informacyjną Niebezpieczeństwa poszukiwania wyników istotnych statystycznie Założenia dotyczące danych
Wybór poziomu istotności α = 0,05 to akceptowany standard, ale... jeżeli H a ma kosztowne implikacje, to mniejsze α mogą być odpowiednie - zgodnie z normami przyjętymi w Twojej dyscyplinie nie zawsze musimy podjąć decyzję: wystarczające może być podanie P-wartości
Istotność a znaczenie praktyczne Istotny statystycznie efekt może być niewielki: Przykład (ciśnienie krwi cd.): μ0 = 128, σ = 15, n = 1000 obserwacji; średnia z próby = 127: Istotne?? Ważne??
Wynik statystycznie istotny nie zawsze jest ważny praktycznie, więc... Zilustruj wyniki i przedziały ufności, aby sprawdzić, czy efekt jest wart uwagi. Ważne efekty mogą mieć małą P-wartość, jeśli wielkość próbki jest zbyt mała. Wartości odstające mogą kreować lub niszczyć istotność statystyczną.
Brak istotności może być pouczający dla innych badaczy...... jako ostrzeżenie, aby nie inwestować w takie badania, lub... jako punkt wyjścia dla szerszego badania, które ma szansę wykrycia rozmiaru efektu, którego szukamy (być może wielkość próbki jest za mała?)
Niebezpieczeństwa poszukiwania istotności Przykład: weź 100 pracowników na stanowiskach kierowniczych. Zmierz: ciśnienie krwi, wzrost, wagę, gęstość kości, tempo metabolizmu, kolor oczu, kolor krawata itp? Jeśli, powiedzmy, zostanie przeprowadzonych 40 niezależnych testów istotności przy α = 5%, to spodziewana liczba testów, które są znaczące (sugerują nietypową charakterystykę tych osób) przez przypadek, wynosi 40x0,05 = 2.
Remedies: Poszukaj wzorców przy użyciu jednego zbioru danych. Przetestuj przy pomocy innego. Użyj korekty Bonferroniego: dla kilku testów k, użyj α/k jako poziomu istotności w każdym teście. W poprzednim przykładzie użyj 0.05/40 =
Założenia / przestrogi: Kiepskie dane = niewiarygodne wnioski Dobre dane: próba prosta z populacji (są też procedury dla innych schematów/sytuacji) Populacja niekoniecznie musi być normalna, ale wartości odstające mogą unieważnić wnioski Dowiemy się, jak oszacować σ na następnym wykładzie