Czego się nie dowiemy z NHST? Null Hypothesis Significance Testing Statistical significance testing retards the growth of scientific knowledge; it never makes a positive contribution Schmidt and Hunter (1997) Efekt size, stupid!1 1 - Bill Clinton w 1992 r. wygrał kampanię prezydencką dzięki skupianiu się podczas wystąpień na jednym problemie. Osiągnął to, ponieważ jego doradcy za każym razem gdy przemawiał, pokazywali mu tablicę z napisem: It s the economy, stupid Nie dowiemy się jakie jest prawdopodobieństwo uzyskania danego wyniku Odrzucenie H0 z α = 0.05 nie znaczy, że H1 na 95% jest prawdziwa Poziom p-value nie określa ważności wyniku Niska p-value nie oznacza, że wynik będzie powtarzalny P-value nie ma związku z obserwowaną różnicą lub związkiem Niemożność odrzucenia H0 nie oznacza, że jest ona prawdziwa
Zalety wielkości efektu When we feel a p near zero Makes us out to be a hero. Replace that wish to null-reject Report the size of the effect. Przedstawia wyniki w sposób praktyczny Można na nim dokonywać operacji matematycznych (uśredniać, sumować, itp.) R. Rosenthal Pozwala szacować analizować błąd II rodzaju (analiza mocy) Cytat za: King, Minium (2009), str. 340 Dwa typy ES Niestandaryzowane wielkości efektu np. wzrost w cm: dzieci rosną średnio 6cm na rok między 2 r.ż. a dojrzałością istnieje istotny statystycznie związek między wiekiem dziecka a wzrostem Standaryzowane wielkości efektu wyniki testów i kwestionariuszy mierzące zmienne ukryte Należy rozróżnić statystycznie istotne od istotnie interesujące statistically significant vs substantially interesting ES może być statstycznie istotny, ale praktycznie nie istotny (przykład z badaniem na FB) Naukowcy współcześnie powinni: pokazywać wyniki w postaci ES nadawć im interpretacje
Hierarchia wiekości efektów +++ obliczone bezpośrednio ze średnich i odchyleń standardowych lub matematycznie równoważne formuły +++ oparte o dokładne prawdopodobieństwo dla testu t +++ wyznaczone w oparciu o dane ciągłe (r equivalent) ++ obliczone z średniej różnicy (skorygowane średnie, wagi Korlacyjne ES regresyjne, uśrednione różnice) ++ obliczone w oparciu o złożone odchylenie standardowe (pooled standard deviation) (ANOVA dla 3+ grup, ANCOVA) + wielkości efektów dla zmiennych dychotomicznych szacują wielkość związku między zmienymi R 2, η 2, ω 2 stosunek wariancji pochodzącej od czynnika (-ów) w relacji do wariancji całkowitej
η p2, ω p2, ε p 2 2 = SS effect SS total Wariancja częściowa (partial) przypisana tylko do jednego czynnika 2 p = SS effect SS effect + SS error Cohen (1998) zaproponował poziomy dla ES f: f >.10 - mały f >.25 - średni f >.50 - duży Różnicowe ES szacują wielkość różnicy między grupami
d = x 1 x 2 SD SD = s SD 2 1 (n 1 1) + SD 2 2 (n 2 1) n 1 + n 2 2 SD = d = x 1 x 2 SD s SD 2 1 (n 1 1) + SD 2 2 (n 2 1) n 1 + n 2 2 Rodzaje d d z - dla porównań wewnątrz grupowych d s - dla próby d av - z korektą ważoną g Hedges a - populacyjna d s Glassa g = d s 1 3 4(n 1 + n 2 ) 9
Określeń duży, średni, mały należy używać tylko w ostateczności mały > 0,2 Wielkości efektów można obliczać z wartości statystyk, np. z t średni > 0,5 duży > 0,8 d s = t r n1 + n 2 n 1 n 2 rpsychologist.com/d3/cohend/ Konwertować między rodzinami p 2(1 r) Dla danych zależnych d z Cohena różni się od d s o: Gdy r > 0.5 współczynnik jest >1 r = d s q d 2 s + N 2 2 N n 1 n 2 d jest większe moc jest wyższa
Rodzaje wielkości efektu r equivalent rodzaj danych ilościowe niezbędne wskaźniki średnie w grupie eksperymentalnej i kontrolnej oraz odchylenia standardowe istotność różnic wielkość próby stopnie swobody błąd standardowy przedział ufności wielkość efektu użyta w metaanalizie standaryzowane średnie różnice (SMD) lub ważone średnie różnice (WMD) (np.: d Cohena, g Hedges a, delta Glass a) r equivalent lub d equivalent Łatwy do obliczenia wyprowadzony z wartości p oraz wielkości próby (N) Przydatny w: prowadzeniu metaanaliz, gdy dysponujemy jedynie wartością p oraz wielkością prób sytuacji, gdy dla danego testu brak opracowanego wskaźnika siły efektu (m.in. dokładny test Fishera, test Wilcoxona, Manna- Whitneya U) jakościowe rozkład liczebności błąd standardowy przedział ufności iloraz szans, iloraz ryzyka lub różnica ryzyka (OR, RR, RD) Sytuacji, gdy obliczony wskaźnik siły efektu może być omylny (mała liczebność próby + badana zmienna nie rozkłada się normalnie) Obliczanie r equivalent Interpretacja r equivalent Odczytanie z tablic (obliczenie) wartości t (wartość p jednostronna, stopnie swobody df = N 2) Wskaźnik wielkości efektu requivalent przyjmuje wartości od -1 do 1 Obliczenie requivalent wg wzoru: r eq = s t 2 t 2 +(N 2) Odpowiada wskaźnikowi korelacji punktowodwuseryjnej
Artykuł nr 2 p t ES http://graphpad.com/quickcalcs/statratio1/ p = 0,71 t = 0,3732 ES = 0,0821 http://www.campbellcollaboration.org/ escalc/html/effectsizecalculator-home.php
Przedział ufności Generalizacja wyniku z próby na populacje obciążona jest pewnym stopniem niepewności Błędem jest podawanie wartości punktowych bez oddania stopnia niepewności co do wyniku Przedział ufności [95% CI] określa przedział w którym dla danego prawdopodobieństwa znajdzie się wynik prawdziwy inaczej: 95% przedziałów w powtarzanych badaniach będzie zawierać wynik prawdziwy dla pojedynczego badania CI zawiera lub nie parametr z populacji
Wzór Właściwość można wyznaczyć wokół każdego wyniku punktowego zależność: próba - szerokość CI M ± Z 2 SE SE = SD p N dla 95% z α/2 = 1.96 CI oraz p-value są w relacji Jeśli 95%CI nie zawiera 0, to p < 0,05 Przykład raportu wyniku Przydatne strony www Grupa 1 osiągnęła wyższe wyniki (M = 8.7, SD = 0.82) niż Gropa 2 (M = 7.7, SD = 0.95), F(1, 18) = 6.34, p =. 022, ω p ² = 0.22, 90% CI [0.02, 0.48]. W badanej grupie stwierdzono związek między cechą A a cechą B (r(n = 36) =.42, p <.001, 95% CI [.23,.51]). dodatek do excela: http://www.statanalysis.co.uk/meta-analysis.html kalkulator on-line http://www.campbellcollaboration.org/escalc/ html/effectsizecalculator-estypes.php