Postawa fobiczna Postawa spiskowa There are three kinds of lies: lies, damned lies, and statistics Mark Twain
! nigdy nie miał DY G I problemów ze Nstatystyką Chuck Norris
Prawdziwej nauce nie wystarczy stwierdzenie wystąpienia faktu bądź opis zjawiska. O wiele ważniejszym zadaniem jest dostarczenie racjonalnego wyjaśnienia zjawisk i ich powiązań w czasie i przestrzeni. Sposoby wyjaśniania: Indukcyjny: Fakty nieuporządkowane pomiar i klasyfikacja fakty uporządkowane uogólnienie indukcyjne weryfikacja hipotezy budowa teorii. Dedukcyjny: Obraz rzeczywistego świata model a priori hipoteza dane weryfikacja budowa teorii. Statystyka zajmuje się m.in. weryfikacją hipotez, weryfikacja odbywa się na drodze konfrontacji z danymi empirycznymi. Dane (obserwacje, pomiary) są realizacją określonej zmiennej.
Przykłady rozumowania indukcyjnego W roku: 1951, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70 itd., wystąpili chłodni ogrodnicy - może to jest osobliwość cyklu rocznego???
Przykłady rozumowania dedukcyjnego Wszyscy ludzie są śmiertelni Sokrates jest (był) człowiekiem Co oznacza, że: Sokrates jest (był) śmiertelny Aktywne niże potrzebują wsparcia z górnej troposfery w postaci obszarów silnej dywergencji Prawy sektor wyjścia prądu strumieniowego stanowi obszar silnej dywergencji Co oznacza, że: Aktywne niże powinny rozwijać się pod lewym sektorem wyjścia prądu LF. (to stwierdzenie pozostaje hipotezą, którą trzeba zweryfikować) LF
Testowanie hipotez 1. H0 "brak jest różnicy w efekcie działania leku X oraz Y" H1: "Lek X jest lepszy niż obecnie stosowany lek Y" 2. H0: "nie ma różnicy między temperaturą w Europie w fazie dodatniej i ujemnej NAO H1: "jest różnica". 3. H0: "nie ma różnicy pomiędzy IQ studentów i studentek Nie ma różnicy nie oznacza, że różnica jest równa 0 Statystyka testowa: wielkość obliczona z próby, na podstawie której decydujemy o odrzuceniu bądź przyjęciu H0. Konstruowana jest na podstawie brzmienia H0.
Którą hipotezę uznać za bardziej prawdopodobną? - H0 czy H1? Proces losowy generuje następujący rozkład statystyki t (różnice poziomu cholesterolu między 10-osobowymi grupami) Obszary zdarzeń nieprawdopodobnych 0 Obszar zdarzeń prawdopodobnych Załóżmy, że statystyka t obliczona dla konkretnych 2 prób po 10 pacjentów znalazła się w obszarze zdarzeń nieprawdopodobnych Zdarzyło się coś, co nie powinno się zdarzyć przy założeniu, że działa jedynie przypadek Może, w związku z tym, zaobserwowana różnica jest nieprzypadkowa
Apropos rozmieszczenia obszarów zdarzeń nieprawdopodobnych Test dwustronny Test jednostronny Wybór testu zależy od brzmienia hipotezy alternatywnej H1 Przykład testu jednostronnego: czy zanieczyszczenie rzeki w dół strumienia względem miejsca zrzutu jest większe niż norma? H1: koncentracja > norma
Idea testowania hipotezy zerowej H0 Testujemy hipotezę o wpływie El Nino na warunki termiczne w Europie. H0: "brak jest istotnej różnicy między temperaturą na obszarze Europy w latach El Nino i w fazie neutralnej".
Dysponujemy 10 pomiarami temperatury w epizodach El Nino (próba eksperymentalna) i 10 pomiarami temperatury w fazie neutralnej (próba kontrolna). Średnia z próby eksperymentalnej = +10oC, a z próby kontrolnej +8oC. Czy różnica 2oC jest wynikiem El Nino czy dziełem przypadku? Jak często może występować różnica większa bądź równa 2oC kiedy grupa kontrolna i eksperymentalna dobrane są losowo - tzn. wpływ na różnicę ma jedynie przypadek? Najważniejsze pytanie: Zakładając, że hipoteza H0 jest prawdziwa, jakie jest prawdopodobieństwo zaobserwowania wartości statystyki testowej, która jest co najmniej tak ekstremalna jak ta aktualnie obserwowana??? Jeżeli taka bądź większa różnica wypada często, np. 1 na 4 to "przypadek" pozostaje wystarczającym (realnym) wyjaśnieniem zaistniałej różnicy. Jeżeli w 1 na 1000 grup eksperymentalnych i kontrolnych (dobranych losowo) różnica jest równa bądź większa niż 2oC to "przypadek" nie jest wystarczającym wyjaśnieniem.
Przykład nr 1 rozkładu różnic między grupami losowymi Rozkład wskazuje na to, że różnica średniej temperatury między próbkami losowymi może dosyć często przewyższać 2oC dokładnie w 20%. Jak zinterpretować rezultaty eksperymentu w świetle tego rozkładu? Co powie sceptyk: "Ponieważ różnica 2oC może bardzo często pojawić się wskutek przypadku, to niby dlaczego powinienem dać się przekonać, że to co obserwujemy to wpływ El Nino? Może tak a może nie nie jestem do tego w żadnym stopniu przekonany".
Przykład nr 2 rozkładu różnic między grupami losowymi Rozkład wskazuje na to, że różnica równa 2oC bądź większa występuje bardzo rzadko (np. 1 raz na 1000 losowań). Co na to sceptyk?: "Oczywiście zjawiska niezmiernie rzadkie czasem jednak występują ta różnica między grupą eksperymentalną i kontrolną może stanowić właśnie to rzadkie wystąpienie. Jednak fakt, że jestem sceptyczny nie oznacza, że w ogóle nie akceptuję nowych odkryć. Przykład jest raczej przekonywujący więc jestem zmuszony przyznać, że El Nino rzeczywiście wpływa na temperaturę".
Hipotezie zerowej poświęca się specjalną uwagę ponieważ ona odnosi się do stwierdzenia, które jest testowane (testowana jest H 0). Hipoteza alternatywna (H1) to stwierdzenie, które może zostać przyjęte jeżeli H 0 zostanie odrzucona. Jeżeli konkluzja brzmi "nie odrzucać H0" to wcale nie oznacza koniecznie, że hipoteza zerowa jest prawdziwa, oznacza jedynie, że nie ma wystarczających dowodów na to aby ją odrzucić. Efekt testowania: odrzucić H0 / nie odrzucać H0 Testowanie = porównanie statystyki testowej z rozkładem losowym
Etapy testowania hipotez: 1. Określenie hipotezy H0 i H1 2. Ustalenie poziomu istotności (α = 0.05; 0.01) Można znaleźć graniczną wartość odpowiadającą pewnemu małemu prawdopodobieństwu α taką, że prawdopodobieństwo przekroczenia granicy przez mierzoną wielkość, przy założeniu braku efektu, wynosi właśnie alfa. Liczba alfa (α) jest poziomem istotności testu. Najpierw ustala się poziom istotności, a później sprawdza czy należy przyjąć czy odrzucić hipotezę o istnieniu pewnego efektu. Poziom istotności nie może być wybierany na podstawie wyniku podlegającego testowaniu. Przykład "ostrego" poziomu istotności α = 0.005 i "łagodnego" α = 0.05.
cd. Etapy testowania hipotez 3. Obliczenie statystyki testowej określonej przez hipotezę zerową 4. Odczytanie z tablic statystycznych wartości krytycznej określonej poziomem istotności α. Wartość krytyczna: jest to próg względem którego statystyka testowa jest porównywana w celu określenia czy przyjąć czy też nie hipotezę H 0. Wartość krytyczna zależy od przyjętego poziomu istotności i od tego czy test jest dwu czy jednostronny. 5. Wartość statystyki testowej porównywana jest z wartością krytyczną. Jeśli wartość statystyki jest większa bądź równa wartości krytycznej to H 0 jest odrzucane, jeżeli mniejsza to H0 nie zostaje odrzucona. Jeżeli odrzucamy H0 to wynik jest "statystycznie istotny", jeżeli nie odrzucamy to wynik jest "statystycznie nieistotny". Obszar krytyczny: obszar, w którym krytycznie ustosunkowujemy się do hipotezy zerowej.
Jeżeli zakładamy ten sam poziom istotności to: dwustronny test jest bardziej konserwatywny niż test jednostronny, ponieważ wartość krytyczna jest umieszczona dalej w ogonie krzywej, a więc jest trudniej odrzucić H0 stosując test dwustronny test, kiedy nie jest się pewnym, który test wybrać, należy stosować test dwustronny.
4 możliwe wyniki testu Zgodnie z klasyczną definicją prawdy (zgodność myśli z rzeczywistością myślimy tak jak podpowiada nam test, a więc chodzi o zgodność wyniku testu z faktycznym stanem rzeczy), możliwe są 4 wyniki testu. (zgodność testu z rzeczywistością) Dwa stany rzeczywistości: występowanie lub niewystępowanie efektu. Dwa wyniki testu: odrzucenie lub nie hipotezy o braku efektu. Wynik testu: Odrzucić H0 Nie odrzucić H0 Rzeczywistość: Efekt jest Brak efektu Prawda Fałsz I Fałsz II Prawda
Błąd I rodzaju polega na odrzuceniu hipotezy H0 kiedy jest ona prawdziwa. Błąd ten wystąpi wtedy kiedy założymy, że lekarstwo X jest lepsze od lekarstwa Y podczas gdy w rzeczywistości ich działanie się nie różni. Błąd I rodzaju jest zazwyczaj traktowany jako bardzo poważny. Błąd I rodzaju jest fałszem, jest stwierdzeniem nieprawdy. Błąd I rodzaju = grzech przecenienia, stwierdza się występowanie istotnego powiązania wówczas gdy w rzeczywistości ono nie istnieje. Dlatego istnieje tendencja do zmniejszania poz. istotności (α) tak aby ustrzec się przed stawianiem błędnych (zbyt daleko idących) wniosków.
Jednak nie można bezkarnie zmniejszać α gdyż rośnie prawdopodobieństwo popełnienia błędu II rodzaju!!! Jeżeli NIE odrzucamy H0 w sytuacji kiedy jest ona fałszywa to popełniamy błąd II rodzaju Przykład: kiedy twierdzimy, że oba lekarstwa działają podobnie w sytuacji gdy w rzeczywistości jedno z nich jest lepsze. Błąd II rodzaju oznacza, że nie dowiemy się o czymś co istnieje!!! Błąd II rodzaju = grzech niedocenienia, nie udało się stwierdzić istotnego powiązania występującego w rzeczywistości.
Jakie jest ryzyko, że popełnię błąd, twierdząc, że nie ma efektu? Takie, jaka jest szansa, że t < tkr mogą wystąpić NIE przez przypadek! alfa beta Jakie jest ryzyko, że popełnię błąd, twierdząc, że jest efekt? Takie, jaka jest szansa, że t > tkr mogą wystąpić losowo! Losowy rozkład ciśnienia tętniczego Hipotetyczny rozkład po zastosowaniu leku X Obszar Power ==> odrzucenie H0 oraz efekt jest ==> szansa wykrycia realnego związku Moc testu = prawdopodobieństwo, że słusznie odrzucimy hipotezę H0.
Konsekwencje praktyczne błędów I i II rodzaju - przykład Jeżeli test weryfikujący czy dany teren jest skażony, błędnie wskaże, że teren jest skażony (błąd I rodzaju) to spowoduje zmarnowanie energii i pieniędzy na usunięcie skażenia, które nie musiało zostać usunięte. Z drugiej strony nie wykrycie skażenia, gdy rzeczywiście do niego doszło (błąd II rodzaju) może prowadzić do degradacji środowiska oraz problemów zdrowotnych ludności zamieszkującej ten region.
P - Value Stały poziom istotności, alfa=0.05, H0 jest testowana względem tego poziomu - (* - w tabeli) albo, alfa=0.01 i (** w tabeli) A czy wynik istotny na poziomie 0.05 pozostanie również istotny dla alfa=0.01, a 0.001??? P - value - obserwowany poziom istotności - najmniejszy poziom istotności przy którym hipoteza H0 może zostać odrzucona - prawdopodobieństwo otrzymania rezultatów co najmniej tak ekstremalnych jak aktualnie otrzymane (przy założeniu, że H0 jest prawdziwa) alfa > P - value odrzucamy H0 alfa < P - value nie odrzucamy H0 Stosowanie P - value jest alternatywnym sposobem opisania rezultatów testu o stałym poziomie istotności. Czasem stosujemy dwa poziomy istotności 0.05 i 0.01 i wyróżniamy trzy kategorie: bardzo istotne, istotne, nie istotne.
Mnożenie eksperymentów W pewnym zestawie danych poszukuje się efektu! Jeżeli ilość wyników pozytywnych w stosunku do wszystkich wyników testu niewiele przekracza alfa, to można stwierdzić, że prawie wszystkie wyniki pozytywne były błędami I rodzaju. Częstość wyników pozytywnych musi być znacznie większa od alfa (np. 10 razy!). Serie czasowe dzielimy na podserie i porównujemy różnice między nimi wielokrotnie wybieramy grupy osób do porównania (testujemy lek kilkukrotnie) wielokrotne podziały przestrzeni i grupowanie obiektów w obrębie wydzielonych sektorów, a następnie porównywanie ich parametrów (przykłady: miejska wyspa ciepła, IQ w klasach, blaknięcie koralowców)
Poprawka Bonferroniego z modyfikacją Holma
Urealnianie poziomu istotności Kiedy analizujemy serie o długości > kilkaset elementów, i otrzymujemy statystyki testowe, którym odpowiada bardzo mała P value (<0.000001) - wykracza poza wszelkie granice konwencjonalnych wartości poziomów istotności, warto przeanalizować autokorelację w szeregu. Np. pomiary zawartości 13C w osadach jeziora Gościąż cechują się wysoką autokorelacją aż do przesunięcia 5 (aż do piątego sąsiada). Jeżeli by założyć, że cztery sąsiednie pomiary dają podobna wartość, to ilość pomiarów zredukuje się do 1/4 pierwotnej ilości i P value wzrośnie znacząco. Optymalny poziom istotności Każda analiza wyników pomiarów powinna się kończyć wnioskami na słabym poziomie istotności, np. Alfa=0.1. Jeżeli alfa jest znacznie mniejsze to dane pomiarowe nie zostały należycie wyeksploatowane. Poprzestano na wnioskach pewnych, gdyż alfa = 0.001 daje praktycznie pewność. Być może da się postawić jeszcze parę tez prawdopodobnych.
Wartości P statystyki t liczonej dla r = 0.2 P 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 13 33 53 73 93 113 133 153 173 193 213 233 253 273 293 313 333 353 373 393 413 433 453 473 493 513 533 553 573 593 613 633 653 673 693 713 733 753 773 793 813 833 853 873 893 913 933 953 973 993 3 23 43 63 83 103 123 143 163 183 203 223 243 263 283 303 323 343 363 383 403 423 443 463 483 503 523 543 563 583 603 623 643 663 683 703 723 743 763 783 803 823 843 863 883 903 923 943 963 983 Długość szeregów Gdy szeregi mają długość ok. 100 elementów współczynnik korelacji 0.2 staje się istotny statystycznie!
Efektywna długość serii (uwzględniająca autokorelację w szeregu) Gdzie: N - efektywna długość serii (do wykorzystania np. przy obliczaniu liczby stopni swobody) N - rzeczywista liczba elementów w serii Tau - przesunięcie (przy liczeniu autokorelacji) ro_tau - współczynnik autokorelacji liczony dla przesunięcia tau. Cytowanie: Mitchell M. J., 1963, Some practical consideration in the analysis of geophysical time series. United States Department of Commerce, Weather Bureau, Washington, Paper presented at the 44th Annual Meeting of the American Geophysical Union, Washington D.C., April 17-20, 1963.
Podsumowanie Test statystyczny przeważnie używany jest dla poparcia tezy o zaobserwowaniu jakiegoś efektu, skutku oddziaływania, zależności. Efekt zwykle jest słaby i występuje na tle szumu. Rozumowanie testowe przebiega w ten sposób, iż zakłada się na wstępie, że nie ma żadnego efektu i oblicza prawdopodobieństwo wystąpienia statystyki testowej wystąpienia spowodowanego jedynie procesem losowym. Jeżeli aktualna wartość liczbowa mierzonej statystyki przekracza wartość krytyczną to oznacza, że zdarzyło się coś mało prawdopodobnego, coś czego prawdopodobieństwo wynosi co najwyżej α.
Oczywiście odrzuca się możliwość mało prawdopodobnych zdarzeń :) Czyni się to przez odrzucenie hipotezy, wg której prawdopodobieństwo było małe wynosiło co najwyżej alfa. Przypuszcza się że było ono większe!!! W logicznej konsekwencji odrzuca się hipotezę o braku efektu!!! Tak właśnie brzmi pozytywny wynik testu: "należy odrzucić hipotezę o braku efektu". Wynik negatywny brzmi: "nie ma podstaw do odrzucenia hipotezy o braku efektu". Wartościowanie wyniku pozytywny/negatywny odpowiada naturalnej chęci wykrywania nowych efektów.