Effect size. Wielkość efektu i analiza mocy testu. Czego nie powie nam NHST? Krytyka NHST. lub odwrotnie

Podobne dokumenty
Czego się nie dowiemy z NHST? Efekt size, stupid!1. Null Hypothesis Significance Testing

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Testowanie hipotez statystycznych

Wykład 8 Dane kategoryczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Weryfikacja hipotez statystycznych

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Poziom istotności i granica rozsądku - problem porównań wielokrotnych w badaniach naukowych

Własności statystyczne regresji liniowej. Wykład 4

Statystyka matematyczna dla leśników

STATYSTYKA MATEMATYCZNA

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Jednoczynnikowa analiza wariancji

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

166 Wstęp do statystyki matematycznej

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Rozdział 8. Regresja. Definiowanie modelu

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 8: Testy istotności

Statystyka Matematyczna Anna Janicka

Wykład 3 Hipotezy statystyczne

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

Prawdopodobieństwo i rozkład normalny cd.

Analiza wariancji - ANOVA

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

S t a t y s t y k a, część 3. Michał Żmihorski

Testowanie hipotez statystycznych

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Wykład 9 Wnioskowanie o średnich

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Analiza wariancji - ANOVA

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Monte Carlo, bootstrap, jacknife

PROBLEMY ROLNICTWA ŚWIATOWEGO

PDF created with FinePrint pdffactory Pro trial version

Postawa fobiczna Postawa spiskowa

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Testowanie hipotez statystycznych.

WNIOSKOWANIE STATYSTYCZNE

STATYSTYKA

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Oszacowanie i rozkład t

METODY STATYSTYCZNE W BIOLOGII

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Żródło:

Wnioskowanie statystyczne. Statystyka w 5

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WYKŁAD 8 ANALIZA REGRESJI

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

5. WNIOSKOWANIE PSYCHOMETRYCZNE

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Spis treści 3 SPIS TREŚCI

Ćwiczenia IV

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Transkrypt:

Wielkość efektu i analiza mocy testu lub odwrotnie Effect size Paweł Kleka 14 stycznia 2017 (uaktualnione 30-05-2019) Krytyka NHST Czego nie powie nam NHST? H 0 Testowanie hipotezy zerowej krytykowane jest od lat 30: 1. Prawdziwa H 0 prawie nie występuje 2. Praktyczne pytanie nie dotyczy istnienia efektu, ale jego znaczenia: - jaki jest kierunek efektu? - jaka jest wielkość efektu? - jak ważny jest efekt? - co wpływa na efekt? Istotność statystyczna (p-value) nic nie mówi o wielkości efektu! Nie dowiemy się jakie jest prawdopodobieństwo uzyskania danego wyniku Odrzucenie H 0 z α = 0.05 nie znaczy, że H 1 na 95% jest prawdziwa Poziom p-value nie określa ważności wyniku Niska p-value nie oznacza, że wynik będzie powtarzalny P-value nie ma związku z obserwowaną różnicą lub związkiem Niemożność odrzucenia H 0 nie oznacza, że jest ona prawdziwa 3/29 4/29

Estymacja punktowa vs przedziałowa Ważkość efektu Podawanie np. średniej różnicy jest swego rodzaju bezczelnością, ponieważ sugeruje pewność sądu, której nie mamy badając próby. Dlatego powinno podawać się efekt w postaci przedziałowej: Δ ± z α s gdzie 2 z α wynika z zakładanej szerokości przedziału, a: 2 s SD = 2 1 +. n 1 SD 2 2 n 2 Ale ważkość efektu nie wynika także z przedziału :-( Dopiero odniesienie różnicy do średnich pozwala oszacować czy to mało-średniodużo. Normalizacja tej wielkości polega na odniesieniu różnicy do ogólnej wariancji wyników. Nazywa się wielkością efektu d [Cohena]. 5/29 6/29 d Cohena nie jest odpornym estymatorem: jest silnie skośny jak wykazał Kraemer (1983) oraz przeważnie przeszacowany jak wykazał Hedges (1981), szczególnie dla małych prób. Dzieje się tak, ponieważ d Cohena zakłada w swojej konstrukcji równość wariancji w grupach. Z tego powodu zaleca się we współcześnie raportowanie wskaźników odpornych - Glass a (Grissom i Kim, 2005, porównaj też adjusted d Hedges a, 1981) lub porządkowa delta Cliff a (Hess i Kromrey, 2004, Grissom i Kim, 2005). Aaron, B., Kromrey, J. D., & Ferron, J. M. (1998, November). Equating r-based and d- based effect size indices: Problems with a commonly recommended formula. Paper presented at the annual meeting of the Florida Educational Research Association, Orlando, FL. Grissom, R. J., & Kim, J, J. (2005). Effect sizes for research: A broad practical approach. Mahwah, NJ: Erlbaum. Hedges, L. V. (1981). Distribution theory for Glass estimator of effect size and related estimators. Journal of Educational Statistics, 6, 107-128. Hess, M.R., Kromrey, J.D. (2004). Robust Confidence Intervals for Effect Sizes: A Comparative Study of Cohen s d and Cliff s Delta Under Non-normality and Heterogeneous Variances. Paper presented at the annual meeting of the American Educational Research Association, San Diego. Kraemer, H. C. (1983). Theory of estimation and testing of effect sizes: Use in meta-analysis. Journal of Educational Statistics, 8, 93-101. g Różne wielkości efektu d - Cohena, Hedgesa, Glassa; eta 2 - dla ANOVA; f = η 2 dla regresji; r dla reszty Poniższa interpretacja jest subiektywna i orientacyjna Efekt mały średni duży dla średnich - d.20.50.80 dla korelacji - r.10.30.50 dla regresji - f 2.02.15.35 dla anovy - η 2.10.25.40 1 η 2 Wielkość efektu praktycznie 7/29 8/29

Wielkości efektów dzielą się na trzy typy: 1. oparte o współczynnik korelacji (pochodne r) 2. oparte o wielkość różnicy (pochodne d) 3. oparte na rozkładzie liczebności kategorii (pochodne ilorazu szans lub ryzyka). Przeliczanie ES między typami Przykład zapisu wyników: Grupa 1 osiągnęła wyższe wyniki ( M = 8.7, SD = 0.82) niż Grupa 2 ( M = 7.7, SD = 0.95, F(1, 18) = 6.34, p =. 022, ω 2 p = 0.22, CI.95 [0.02, 0.48]). W badanej grupie stwierdzono związek między cechą A a cechą B (r(n = 36) =.42, p <.001, 95% CI [.23,.51]). Ale nawet wielkość efektu nic nie mówi o mechanizmie jego powstania. Do tego potrzebny jest eksperyment. A zaplanowanie eksperymentu wymaga zastanowienia się ile obserwacji jest potrzebnych by utrzymać błędy w zakładanych granicach. Analiza mocy 9/29 Wprowadzenie do analizy mocy na przykładzie Fabryka żarówek deklaruje, że ich żywotność wynosi 8500 godzin plus/minus 500. Jednak serwis konsumencki uważa, że fabryka zawyża liczbę godzin o 400. Ile żarówek trzeba przetestować, aby to udowodnić z rozsądnym prawdopodobieństwem? Hpitezy jakie mamy w tym przykładzie to: H 0 H 1 = 8500 = 8100 Rozsądne prawdopodobieństwo oznacza poziom istotności pomyłki przy odrzuceniu nie większy niż 5% (Type I error). H 0 H1 H0 Moc testu przeciwko, to prawdopodobieństwo odrzucenia fałszywej (Type II error). 11/29 12/29

Tabela prawdy ;-) Pytanie: Decyzja H 0 is TRUE H 0 is FALSE Pozostaw H 0 1 - α β Odrzuć H 0 α 1- β = power Od czego zalezy liczba żarówek do przetestowania? zmienności żywotności, czyli wariancji gdyby wszystkie żarówki miały identyczną żywotność, to wystarczyłoby przetestować 1 z drugiej strony, gdy żywotność waha się od np. 5000 do 10000 to wystaczy kilka (czyt. mało), by udowodnić, że nie jest to 8500 13/29 14/29 α = 0.05 1 β = 0.90 α = 0.05 1 β = 0.90 library(pwr) pwr.t.test( d = (8500-8100) / 500, power = 0.9, sig.level = 0.05, type = "one.sample", alternative = "two.sided" ) One-sample t test power calculation n = 18.44624 d = 0.8 sig.level = 0.05 power = 0.9 alternative = two.sided 15/29 16/29

A jeśli mamy tylko 10 żarówek? pwr.t.test( d = (8500-8100) / 500, n = 10, sig.level = 0.05, type = "one.sample", alternative = "two.sided" ) One-sample t test power calculation n = 10 d = 0.8 sig.level = 0.05 power = 0.6162328 alternative = two.sided TOST czyli testy równoważności SHOW: G*Power 17/29 Testy równoważności są odmianą testów hipotez stosowanych do wyciągania wniosków statystycznych z zaobserwowanych danych. W testach równoważności hipoteza zerowa jest definiowana jako efekt wystarczająco duży, aby można go było uznać za interesujący. W tym celu definiuje się granicę równoważności. Średnie różnice (czarne kwadraty) i 90% przedziały ufności (linie poziome) z granicami równoważności L = -0.5 i U= 0.5 dla czterech kombinacji wyników badań, które są statystycznie równoważne lub nie i statystycznie różne od zera lub nie. Wzór A jest statystycznie równoważny, wzorzec B różni się statystycznie od 0, wzorzec C jest praktycznie nieistotny, a wzorzec D jest niejednoznaczny (ani statystycznie nie różni się od 0, ani nie jest równoważny). Hipoteza alternatywna to każdy efekt, który jest mniej ekstremalny niż granica równoważności. Testy TOST zostały wymyślone dla wykazania, że nowy lek, który jest tańszy niż dostępne alternatywy, działa tak samo dobrze. Testy równoważności polegają na obliczeniu przedziału ufności wokół obserwowanej wielkości efektu i odrzuceniu efektów bardziej ekstremalnych niż granica równoważności W badaniach nienależności, w których celem jest sprawdzenie hipotezy, że nowe leczenie nie jest gorsze niż istniejące leczenie, z góry określona jest tylko dolna granica równoważności. 19/29 20/29

Testy równoważności mogą być wykonywane dodatkowo do testów istotności hipotezy zerowej. Może to zapobiec częstym błędnym interpretacjom wartości p większych niż poziom alfa jako wsparcie dla braku prawdziwego efektu. Ponadto, testy równoważności mogą zidentyfikować efekty, które są statystycznie istotne, ale praktycznie nieistotne, w każdym przypadku, gdy efekty różnią się statystycznie od zera, ale także statystycznie mniejsze niż jakakolwiek wielkość efektu uważana za wartą zachodu. Lakens, Daniël (2017). Equivalence Tests. Social Psychological and Personality Science. 8(4), 355 362. DOI:10.1177/1948550617697177 Przykład TOST 21/29 # analysis_ratings library(ggplot2) library(toster) library(dplyr) # Power analysis for required sample size for TOST procedure. powertosttwo(alpha = 0.05, statistical_power = 0.8, low_eqbound_d = -0.5, high_eqbound_d = 0.5) Eksploracja danych The required sample size to achieve 80 % power with equivalence bounds of -0.5 and 0.5 is 69 [1] 68.51078 23/29 24/29

Podstawowe statystyki opisowe # A tibble: 2 x 4 company nr avg sd <fct> <int> <dbl> <dbl> 1 dc 60 6.35 1.50 2 marvel 71 6.71 1.23 25/29 26/29 Analiza TOST dla 2 grup niezależnych Analiza TOST dla 2 grup niezależnych TOSTtwo(m1 = 6.712676, m2 = 6.350000, sd1 = 1.227766, sd2 = 1.504062, n1 = 71, n2 = 60, low_eqbound_d = -0.5, high_eqbound_d = 0.5, alpha = 0.05, plot=f) TOST results: t-value lower bound: 4.32 p-value lower bound: 0.00002 t-value upper bound: -1.33 p-value upper bound: 0.092 degrees of freedom : 113.75 Equivalence bounds (Cohen's d): low eqbound: -0.5 high eqbound: 0.5 Equivalence bounds (raw scores): low eqbound: -0.6864 high eqbound: 0.6864 TOST confidence interval: lower bound 90% CI: -0.04 upper bound 90% CI: 0.765 NHST confidence interval: lower bound 95% CI: -0.118 upper bound 95% CI: 0.844 27/29 28/29

Brakująca analiza mocy dla mediacji library(shiny) # Easiest way is to use rungithub from the shiny package rungithub("mc_power_med", "pa0") 29/29