Postawa fobiczna Postawa spiskowa There are three kinds of lies: lies, damned lies, and statistics Mark Twain
Testowanie hipotez 1. H 0 "brak jest różnicy w efekcie działania leku X oraz Y" H 1 : "Lek X jest lepszy niż obecnie stosowany lek Y" 2. H 0 : "nie ma różnicy między temperaturą w Europie w fazie dodatniej i ujemnej NAO H 1 : "jest różnica". 3. H 0 : "nie ma różnicy pomiędzy IQ studentów i studentek Nie ma różnicy nie oznacza, że różnica jest równa 0 Statystyka testowa: wielkość obliczona z próby, na podstawie której decydujemy o odrzuceniu bądź przyjęciu H 0. Konstruowana jest na podstawie brzmienia H 0.
Którą hipotezę uznać za bardziej prawdopodobną? - H 0 czy H 1? Proces losowy generuje następujący rozkład statystyki t (różnice poziomu cholesterolu między 10-osobowymi grupami) Obszary zdarzeń nieprawdopodobnych 0 Obszar zdarzeń prawdopodobnych Załóżmy, że statystyka t obliczona dla konkretnych 2 prób po 10 pacjentów znalazła się w obszarze zdarzeń nieprawdopodobnych Zdarzyło się coś, co nie powinno się zdarzyć przy założeniu, że działa jedynie przypadek Może, w związku z tym, zaobserwowana różnica jest nieprzypadkowa
Apropos rozmieszczenia obszarów zdarzeń nieprawdopodobnych Test dwustronny Test jednostronny Wybór testu zależy od brzmienia hipotezy alternatywnej H 1 Przykład testu jednostronnego: czy zanieczyszczenie rzeki w dół strumienia względem miejsca zrzutu jest większe niż norma? H 1 : koncentracja > norma
Idea testowania hipotezy zerowej H 0 Testujemy hipotezę o wpływie El Nino na warunki termiczne w Europie. H 0 : "brak jest istotnej różnicy między temperaturą na obszarze Europy w latach El Nino i w fazie neutralnej".
Dysponujemy 10 pomiarami temperatury w epizodach El Nino (próba eksperymentalna) i 10 pomiarami temperatury w fazie neutralnej (próba kontrolna). Średnia z próby eksperymentalnej = +10 o C, a z próby kontrolnej +8 o C. Czy różnica 2 o C jest wynikiem El Nino czy dziełem przypadku? Jak często może występować różnica większa bądź równa 2 o C kiedy grupa kontrolna i eksperymentalna dobrane są losowo - tzn. wpływ na różnicę ma jedynie przypadek? Najważniejsze pytanie: Zakładając, że hipoteza H 0 jest prawdziwa, jakie jest prawdopodobieństwo zaobserwowania wartości statystyki testowej, która jest co najmniej tak ekstremalna jak ta aktualnie obserwowana??? Jeżeli taka bądź większa różnica wypada często, np. 1 na 4 to "przypadek" pozostaje wystarczającym (realnym) wyjaśnieniem zaistniałej różnicy. Jeżeli w 1 na 1000 grup eksperymentalnych i kontrolnych (dobranych losowo) różnica jest równa bądź większa niż 2 o C to "przypadek" nie jest wystarczającym wyjaśnieniem.
Przykład nr 1 rozkładu różnic między grupami losowymi Rozkład wskazuje na to, że różnica średniej temperatury między próbkami losowymi może dosyć często przewyższać 2 o C dokładnie w 20%. Jak zinterpretować rezultaty eksperymentu w świetle tego rozkładu? Co powie sceptyk: "Ponieważ różnica 2 o C może bardzo często pojawić się wskutek przypadku, to niby dlaczego powinienem dać się przekonać, że to co obserwujemy to wpływ El Nino? Może tak a może nie nie jestem do tego w żadnym stopniu przekonany".
Przykład nr 2 rozkładu różnic między grupami losowymi Rozkład wskazuje na to, że różnica równa 2 o C bądź większa występuje bardzo rzadko (np. 1 raz na 1000 losowań). Co na to sceptyk?: "Oczywiście zjawiska niezmiernie rzadkie czasem jednak występują ta różnica między grupą eksperymentalną i kontrolną może stanowić właśnie to rzadkie wystąpienie. Jednak fakt, że jestem sceptyczny nie oznacza, że w ogóle nie akceptuję nowych odkryć. Przykład jest raczej przekonywujący więc jestem zmuszony przyznać, że El Nino rzeczywiście wpływa na temperaturę".
Hipotezie zerowej poświęca się specjalną uwagę ponieważ ona odnosi się do stwierdzenia, które jest testowane (testowana jest H 0 ). Hipoteza alternatywna (H 1 ) to stwierdzenie, które może zostać przyjęte jeżeli H 0 zostanie odrzucona. Jeżeli konkluzja brzmi "nie odrzucać H 0 " to wcale nie oznacza koniecznie, że hipoteza zerowa jest prawdziwa, oznacza jedynie, że nie ma wystarczających dowodów na to aby ją odrzucić. Efekt testowania: odrzucić H 0 / nie odrzucać H 0 Testowanie = porównanie statystyki testowej z rozkładem losowym
Etapy testowania hipotez: 1. Określenie hipotezy H 0 i H 1 2. Ustalenie poziomu istotności (α = 0.05; 0.01) Można znaleźć graniczną wartość odpowiadającą pewnemu małemu prawdopodobieństwu α taką, że prawdopodobieństwo przekroczenia granicy przez mierzoną wielkość, przy założeniu braku efektu, wynosi właśnie alfa. Liczba alfa (α) jest poziomem istotności testu. Najpierw ustala się poziom istotności, a później sprawdza czy należy przyjąć czy odrzucić hipotezę o istnieniu pewnego efektu. Poziom istotności nie może być wybierany na podstawie wyniku podlegającego testowaniu. Przykład "ostrego" poziomu istotności α = 0.005 i "łagodnego" α = 0.05.
cd. Etapy testowania hipotez 3. Obliczenie statystyki testowej określonej przez hipotezę zerową 4. Odczytanie z tablic statystycznych wartości krytycznej określonej poziomem istotności α. Wartość krytyczna: jest to próg względem którego statystyka testowa jest porównywana w celu określenia czy przyjąć czy też nie hipotezę H 0. Wartość krytyczna zależy od przyjętego poziomu istotności i od tego czy test jest dwu czy jednostronny. 5. Wartość statystyki testowej porównywana jest z wartością krytyczną. Jeśli wartość statystyki jest większa bądź równa wartości krytycznej to H 0 jest odrzucane, jeżeli mniejsza to H 0 nie zostaje odrzucona. Jeżeli odrzucamy H 0 to wynik jest "statystycznie istotny", jeżeli nie odrzucamy to wynik jest "statystycznie nieistotny". Obszar krytyczny: obszar, w którym krytycznie ustosunkowujemy się do hipotezy zerowej.
Jeżeli zakładamy ten sam poziom istotności to: dwustronny test jest bardziej konserwatywny niż test jednostronny, ponieważ wartość krytyczna jest umieszczona dalej w ogonie krzywej, a więc jest trudniej odrzucić H 0 stosując test dwustronny test, kiedy nie jest się pewnym, który test wybrać, należy stosować test dwustronny.
4 możliwe wyniki testu Zgodnie z klasyczną definicją prawdy (zgodność myśli z rzeczywistością - myślimy tak jak podpowiada nam test, a więc chodzi o zgodność wyniku testu z faktycznym stanem rzeczy), możliwe są 4 wyniki testu. (zgodność testu z rzeczywistością) Dwa stany rzeczywistości: występowanie lub niewystępowanie efektu. Dwa wyniki testu: odrzucenie lub nie hipotezy o braku efektu. Rzeczywistość: Wynik testu: Efekt jest Brak efektu Odrzucić H 0 Prawda Fałsz I Nie odrzucić H 0 Fałsz II Prawda
Błąd I rodzaju polega na odrzuceniu hipotezy H 0 kiedy jest ona prawdziwa. Błąd ten wystąpi wtedy kiedy założymy, że lekarstwo X jest lepsze od lekarstwa Y podczas gdy w rzeczywistości ich działanie się nie różni. Błąd I rodzaju jest zazwyczaj traktowany jako bardzo poważny. Błąd I rodzaju jest fałszem, jest stwierdzeniem nieprawdy. Błąd I rodzaju = grzech przecenienia, stwierdza się występowanie istotnego powiązania wówczas gdy w rzeczywistości ono nie istnieje. Dlatego istnieje tendencja do zmniejszania poz. istotności (α) tak aby ustrzec się przed stawianiem błędnych (zbyt daleko idących) wniosków.
Jednak nie można bezkarnie zmniejszać α gdyż rośnie prawdopodobieństwo popełnienia błędu II rodzaju!!! Jeżeli NIE odrzucamy H 0 w sytuacji kiedy jest ona fałszywa to popełniamy błąd II rodzaju Przykład: kiedy twierdzimy, że oba lekarstwa działają podobnie w sytuacji gdy w rzeczywistości jedno z nich jest lepsze. Błąd II rodzaju oznacza, że nie dowiemy się o czymś co istnieje!!! Błąd II rodzaju = grzech niedocenienia, nie udało się stwierdzić istotnego powiązania występującego w rzeczywistości.
Jakie jest ryzyko, że popełnię błąd, twierdząc, że nie ma efektu? Takie, jaka jest szansa, że t < t kr mogą wystąpić NIE przez przypadek! beta alfa Jakie jest ryzyko, że popełnię błąd, twierdząc, że jest efekt? Takie, jaka jest szansa, że t > t kr mogą wystąpić losowo! Losowy rozkład ciśnienia tętniczego Hipotetyczny rozkład po zastosowaniu leku X Obszar Power ==> odrzucenie H0 oraz efekt jest ==> szansa wykrycia realnego związku Moc testu = prawdopodobieństwo, że słusznie odrzucimy hipotezę H 0.
Konsekwencje praktyczne błędów I i II rodzaju - przykład Jeżeli test weryfikujący czy dany teren jest skażony, błędnie wskaże, że teren jest skażony (błąd I rodzaju) to spowoduje zmarnowanie energii i pieniędzy na usunięcie skażenia, które nie musiało zostać usunięte. Z drugiej strony nie wykrycie skażenia, gdy rzeczywiście do niego doszło (błąd II rodzaju) może prowadzić do degradacji środowiska oraz problemów zdrowotnych ludności zamieszkującej ten region.
P - Value Stały poziom istotności, alfa=0.05, H 0 jest testowana względem tego poziomu - (* - w tabeli) albo, alfa=0.01 i (** w tabeli) A czy wynik istotny na poziomie 0.05 pozostanie również istotny dla alfa=0.01, a 0.001??? P - value - obserwowany poziom istotności - najmniejszy poziom istotności przy którym hipoteza H 0 może zostać odrzucona - prawdopodobieństwo otrzymania rezultatów co najmniej tak ekstremalnych jak aktualnie otrzymane (przy założeniu, że H 0 jest prawdziwa) alfa > P - value odrzucamy H 0 alfa < P - value nie odrzucamy H 0 Stosowanie P - value jest alternatywnym sposobem opisania rezultatów testu o stałym poziomie istotności. Czasem stosujemy dwa poziomy istotności 0.05 i 0.01 i wyróżniamy trzy kategorie: bardzo istotne, istotne, nie istotne.
Urealnianie poziomu istotności Kiedy analizujemy serie o długości > kilkaset elementów, i otrzymujemy statystyki testowe, którym odpowiada bardzo mała P value (<0.000001) - wykracza poza wszelkie granice konwencjonalnych wartości poziomów istotności, warto przeanalizować autokorelację w szeregu. Np. pomiary zawartości 13C w osadach jeziora Gościąż cechują się wysoką autokorelacją aż do przesunięcia 5 (aż do piątego sąsiada). Jeżeli by założyć, że cztery sąsiednie pomiary dają podobna wartość, to ilość pomiarów zredukuje się do 1/4 pierwotnej ilości i P value wzrośnie znacząco. Optymalny poziom istotności Każda analiza wyników pomiarów powinna się kończyć wnioskami na słabym poziomie istotności, np. Alfa=0.1. Jeżeli alfa jest znacznie mniejsze to dane pomiarowe nie zostały należycie wyeksploatowane. Poprzestano na wnioskach pewnych, gdyż alfa = 0.001 daje praktycznie pewność. Być może da się postawić jeszcze parę tez prawdopodobnych.
Wartości P statystyki t liczonej dla r = 0.2 P 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 13 33 53 73 93 113133 153173 193213 233253 273293313 333353 373 393413 433453 473493513 533553 573593613 633653 673693713 733753773 793813 833853 873893 913933953 973993 3 23 43 63 83 103123143 163183 203 223243 263283303 323343363 383 403423 443463483 503523 543 563583603 623643 663683703 723 743763783 803823 843863 883 903923943 963983 Długość szeregów Gdy szeregi mają długość ok. 100 elementów współczynnik korelacji 0.2 staje się istotny statystycznie!
Efektywna długość serii (uwzględniająca autokorelację w szeregu) Gdzie: N - efektywna długość serii (do wykorzystania np. przy obliczaniu liczby stopni swobody) N - rzeczywista liczba elementów w serii Tau - przesunięcie (przy liczeniu autokorelacji) ro_tau - współczynnik autokorelacji liczony dla przesunięcia tau. Cytowanie: Mitchell M. J., 1963, Some practical consideration in the analysis of geophysical time series. United States Department of Commerce, Weather Bureau, Washington, Paper presented at the 44th Annual Meeting of the American Geophysical Union, Washington D.C., April 17-20, 1963.
Podsumowanie Test statystyczny przeważnie używany jest dla poparcia tezy o zaobserwowaniu jakiegoś efektu, skutku oddziaływania, zależności. Efekt zwykle jest słaby i występuje na tle szumu. Rozumowanie testowe przebiega w ten sposób, iż zakłada się na wstępie, że nie ma żadnego efektu i oblicza prawdopodobieństwo wystąpienia statystyki testowej wystąpienia spowodowanego jedynie procesem losowym. Jeżeli aktualna wartość liczbowa mierzonej statystyki przekracza wartość krytyczną to oznacza, że zdarzyło się coś mało prawdopodobnego, coś czego prawdopodobieństwo wynosi co najwyżej α.
Oczywiście odrzuca się możliwość mało prawdopodobnych zdarzeń :) Czyni się to przez odrzucenie hipotezy, wg której prawdopodobieństwo było małe wynosiło co najwyżej alfa. Przypuszcza się że było ono większe!!! W logicznej konsekwencji odrzuca się hipotezę o braku efektu!!! Tak właśnie brzmi pozytywny wynik testu: "należy odrzucić hipotezę o braku efektu". Wynik negatywny brzmi: "nie ma podstaw do odrzucenia hipotezy o braku efektu". Wartościowanie wyniku pozytywny/negatywny odpowiada naturalnej chęci wykrywania nowych efektów.