Wielkość efektu i analiza mocy testu lub odwrotnie Effect size Paweł Kleka 14 stycznia 2017 (uaktualnione 30-05-2019) Krytyka NHST Czego nie powie nam NHST? H 0 Testowanie hipotezy zerowej krytykowane jest od lat 30: 1. Prawdziwa H 0 prawie nie występuje 2. Praktyczne pytanie nie dotyczy istnienia efektu, ale jego znaczenia: - jaki jest kierunek efektu? - jaka jest wielkość efektu? - jak ważny jest efekt? - co wpływa na efekt? Istotność statystyczna (p-value) nic nie mówi o wielkości efektu! Nie dowiemy się jakie jest prawdopodobieństwo uzyskania danego wyniku Odrzucenie H 0 z α = 0.05 nie znaczy, że H 1 na 95% jest prawdziwa Poziom p-value nie określa ważności wyniku Niska p-value nie oznacza, że wynik będzie powtarzalny P-value nie ma związku z obserwowaną różnicą lub związkiem Niemożność odrzucenia H 0 nie oznacza, że jest ona prawdziwa 3/29 4/29
Estymacja punktowa vs przedziałowa Ważkość efektu Podawanie np. średniej różnicy jest swego rodzaju bezczelnością, ponieważ sugeruje pewność sądu, której nie mamy badając próby. Dlatego powinno podawać się efekt w postaci przedziałowej: Δ ± z α s gdzie 2 z α wynika z zakładanej szerokości przedziału, a: 2 s SD = 2 1 +. n 1 SD 2 2 n 2 Ale ważkość efektu nie wynika także z przedziału :-( Dopiero odniesienie różnicy do średnich pozwala oszacować czy to mało-średniodużo. Normalizacja tej wielkości polega na odniesieniu różnicy do ogólnej wariancji wyników. Nazywa się wielkością efektu d [Cohena]. 5/29 6/29 d Cohena nie jest odpornym estymatorem: jest silnie skośny jak wykazał Kraemer (1983) oraz przeważnie przeszacowany jak wykazał Hedges (1981), szczególnie dla małych prób. Dzieje się tak, ponieważ d Cohena zakłada w swojej konstrukcji równość wariancji w grupach. Z tego powodu zaleca się we współcześnie raportowanie wskaźników odpornych - Glass a (Grissom i Kim, 2005, porównaj też adjusted d Hedges a, 1981) lub porządkowa delta Cliff a (Hess i Kromrey, 2004, Grissom i Kim, 2005). Aaron, B., Kromrey, J. D., & Ferron, J. M. (1998, November). Equating r-based and d- based effect size indices: Problems with a commonly recommended formula. Paper presented at the annual meeting of the Florida Educational Research Association, Orlando, FL. Grissom, R. J., & Kim, J, J. (2005). Effect sizes for research: A broad practical approach. Mahwah, NJ: Erlbaum. Hedges, L. V. (1981). Distribution theory for Glass estimator of effect size and related estimators. Journal of Educational Statistics, 6, 107-128. Hess, M.R., Kromrey, J.D. (2004). Robust Confidence Intervals for Effect Sizes: A Comparative Study of Cohen s d and Cliff s Delta Under Non-normality and Heterogeneous Variances. Paper presented at the annual meeting of the American Educational Research Association, San Diego. Kraemer, H. C. (1983). Theory of estimation and testing of effect sizes: Use in meta-analysis. Journal of Educational Statistics, 8, 93-101. g Różne wielkości efektu d - Cohena, Hedgesa, Glassa; eta 2 - dla ANOVA; f = η 2 dla regresji; r dla reszty Poniższa interpretacja jest subiektywna i orientacyjna Efekt mały średni duży dla średnich - d.20.50.80 dla korelacji - r.10.30.50 dla regresji - f 2.02.15.35 dla anovy - η 2.10.25.40 1 η 2 Wielkość efektu praktycznie 7/29 8/29
Wielkości efektów dzielą się na trzy typy: 1. oparte o współczynnik korelacji (pochodne r) 2. oparte o wielkość różnicy (pochodne d) 3. oparte na rozkładzie liczebności kategorii (pochodne ilorazu szans lub ryzyka). Przeliczanie ES między typami Przykład zapisu wyników: Grupa 1 osiągnęła wyższe wyniki ( M = 8.7, SD = 0.82) niż Grupa 2 ( M = 7.7, SD = 0.95, F(1, 18) = 6.34, p =. 022, ω 2 p = 0.22, CI.95 [0.02, 0.48]). W badanej grupie stwierdzono związek między cechą A a cechą B (r(n = 36) =.42, p <.001, 95% CI [.23,.51]). Ale nawet wielkość efektu nic nie mówi o mechanizmie jego powstania. Do tego potrzebny jest eksperyment. A zaplanowanie eksperymentu wymaga zastanowienia się ile obserwacji jest potrzebnych by utrzymać błędy w zakładanych granicach. Analiza mocy 9/29 Wprowadzenie do analizy mocy na przykładzie Fabryka żarówek deklaruje, że ich żywotność wynosi 8500 godzin plus/minus 500. Jednak serwis konsumencki uważa, że fabryka zawyża liczbę godzin o 400. Ile żarówek trzeba przetestować, aby to udowodnić z rozsądnym prawdopodobieństwem? Hpitezy jakie mamy w tym przykładzie to: H 0 H 1 = 8500 = 8100 Rozsądne prawdopodobieństwo oznacza poziom istotności pomyłki przy odrzuceniu nie większy niż 5% (Type I error). H 0 H1 H0 Moc testu przeciwko, to prawdopodobieństwo odrzucenia fałszywej (Type II error). 11/29 12/29
Tabela prawdy ;-) Pytanie: Decyzja H 0 is TRUE H 0 is FALSE Pozostaw H 0 1 - α β Odrzuć H 0 α 1- β = power Od czego zalezy liczba żarówek do przetestowania? zmienności żywotności, czyli wariancji gdyby wszystkie żarówki miały identyczną żywotność, to wystarczyłoby przetestować 1 z drugiej strony, gdy żywotność waha się od np. 5000 do 10000 to wystaczy kilka (czyt. mało), by udowodnić, że nie jest to 8500 13/29 14/29 α = 0.05 1 β = 0.90 α = 0.05 1 β = 0.90 library(pwr) pwr.t.test( d = (8500-8100) / 500, power = 0.9, sig.level = 0.05, type = "one.sample", alternative = "two.sided" ) One-sample t test power calculation n = 18.44624 d = 0.8 sig.level = 0.05 power = 0.9 alternative = two.sided 15/29 16/29
A jeśli mamy tylko 10 żarówek? pwr.t.test( d = (8500-8100) / 500, n = 10, sig.level = 0.05, type = "one.sample", alternative = "two.sided" ) One-sample t test power calculation n = 10 d = 0.8 sig.level = 0.05 power = 0.6162328 alternative = two.sided TOST czyli testy równoważności SHOW: G*Power 17/29 Testy równoważności są odmianą testów hipotez stosowanych do wyciągania wniosków statystycznych z zaobserwowanych danych. W testach równoważności hipoteza zerowa jest definiowana jako efekt wystarczająco duży, aby można go było uznać za interesujący. W tym celu definiuje się granicę równoważności. Średnie różnice (czarne kwadraty) i 90% przedziały ufności (linie poziome) z granicami równoważności L = -0.5 i U= 0.5 dla czterech kombinacji wyników badań, które są statystycznie równoważne lub nie i statystycznie różne od zera lub nie. Wzór A jest statystycznie równoważny, wzorzec B różni się statystycznie od 0, wzorzec C jest praktycznie nieistotny, a wzorzec D jest niejednoznaczny (ani statystycznie nie różni się od 0, ani nie jest równoważny). Hipoteza alternatywna to każdy efekt, który jest mniej ekstremalny niż granica równoważności. Testy TOST zostały wymyślone dla wykazania, że nowy lek, który jest tańszy niż dostępne alternatywy, działa tak samo dobrze. Testy równoważności polegają na obliczeniu przedziału ufności wokół obserwowanej wielkości efektu i odrzuceniu efektów bardziej ekstremalnych niż granica równoważności W badaniach nienależności, w których celem jest sprawdzenie hipotezy, że nowe leczenie nie jest gorsze niż istniejące leczenie, z góry określona jest tylko dolna granica równoważności. 19/29 20/29
Testy równoważności mogą być wykonywane dodatkowo do testów istotności hipotezy zerowej. Może to zapobiec częstym błędnym interpretacjom wartości p większych niż poziom alfa jako wsparcie dla braku prawdziwego efektu. Ponadto, testy równoważności mogą zidentyfikować efekty, które są statystycznie istotne, ale praktycznie nieistotne, w każdym przypadku, gdy efekty różnią się statystycznie od zera, ale także statystycznie mniejsze niż jakakolwiek wielkość efektu uważana za wartą zachodu. Lakens, Daniël (2017). Equivalence Tests. Social Psychological and Personality Science. 8(4), 355 362. DOI:10.1177/1948550617697177 Przykład TOST 21/29 # analysis_ratings library(ggplot2) library(toster) library(dplyr) # Power analysis for required sample size for TOST procedure. powertosttwo(alpha = 0.05, statistical_power = 0.8, low_eqbound_d = -0.5, high_eqbound_d = 0.5) Eksploracja danych The required sample size to achieve 80 % power with equivalence bounds of -0.5 and 0.5 is 69 [1] 68.51078 23/29 24/29
Podstawowe statystyki opisowe # A tibble: 2 x 4 company nr avg sd <fct> <int> <dbl> <dbl> 1 dc 60 6.35 1.50 2 marvel 71 6.71 1.23 25/29 26/29 Analiza TOST dla 2 grup niezależnych Analiza TOST dla 2 grup niezależnych TOSTtwo(m1 = 6.712676, m2 = 6.350000, sd1 = 1.227766, sd2 = 1.504062, n1 = 71, n2 = 60, low_eqbound_d = -0.5, high_eqbound_d = 0.5, alpha = 0.05, plot=f) TOST results: t-value lower bound: 4.32 p-value lower bound: 0.00002 t-value upper bound: -1.33 p-value upper bound: 0.092 degrees of freedom : 113.75 Equivalence bounds (Cohen's d): low eqbound: -0.5 high eqbound: 0.5 Equivalence bounds (raw scores): low eqbound: -0.6864 high eqbound: 0.6864 TOST confidence interval: lower bound 90% CI: -0.04 upper bound 90% CI: 0.765 NHST confidence interval: lower bound 95% CI: -0.118 upper bound 95% CI: 0.844 27/29 28/29
Brakująca analiza mocy dla mediacji library(shiny) # Easiest way is to use rungithub from the shiny package rungithub("mc_power_med", "pa0") 29/29