Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 8 kwietnia 2010
Plan prezentacji 1 Zbiory danych do analiz 2 3 4 5 6 Implementacja w R
Badanie depresji Depression trial data Porównanie eksperymentalnego leku z placebo. Wyniki na HAMD17 po 9-tygodniowej fazie leczenia Skala Hamiltona HAMD17-kwestionariusz złożony z 17 pytań. Umożliwia ocenę takich objawów depresji, jak: obniżenie nastroju, niepokój, zaburzenia rytmu dobowego zaburzenia snu, spowolnienie psychomotoryczne, obniżenie libido zaniżenie samooceny, poczucie winy, hipochondria spadek masy ciała, lęk psychiczny i somatyczny oraz współistniejące dolegliwości somatyczne
Badanie depresji Ocena skali 17-punktowej (HAMD17) 0-7 bez zaburzeń depresyjnych 8-12 łagodna depresja 13-17 depresja o nasileniu umiarkowanym 18-29 ciężka depresja 30-52 bardzo ciężka depresja
Badanie śmiertelności z powodu sepsy Severe sepsis trial Sprawdzanie efektu eksperymentalnego leku na próbie 1690 pacjentów Obserwacja 28 dniowa Pacjenci zostali podzieleni na 4 grupy ryzyka ze względu na wynik APACHE II APACHE II APACHE II-Acute Physiology and Chronic Health Evaluation II skala 0-71 wyższy wynik związany z większym ryzykiem śmierci
Opis modelu y ijk = µ + α i + β j + (αβ) ij + ɛ ijk Parametry modelu µ - ogólna średnia α - efekty leczenia (2 poziomy) β - efekty warstw (m poziomów) αβ - zmienność leczenie vs warstwa
Analiza typu I Podstawowy opis Analiza oparta na testowaniu czynników sekwencyjnie: R(α µ), R(β µ, α), R(αβ µ, α, β) Statystyka F typu I (Searle 1971) H I : 1 n 1j µ 1j = 1 m n 2j µ 2j n 1 n 2 Średnia różnica leczenia 1 n 1j y n 1j 1 1 n 2 m n 2j y 2j
Analiza typu II Podstawowy opis Analiza oparta na testowaniu czynników hierarchicznie lub częściowo sekwencyjnie: R(α µ, β), R(β µ, α), R(αβ µ, α, β) Statystyka F typu II (Searle 1971) H II : n 1j n 2j n 1j + n 2j µ 1j = n 1j n 2j n 1j + n 2j µ 2j Średnia różnica leczenia n 1j n 2j ( ) 1 n 1j + n 2j n 1j n 2j n 1j + n 2j (y 1j y 2j )
Analiza typu III Podstawowy opis Analiza oparta na testowaniu czynników brzegowo: R (α µ, β, αβ), R (β µ, α, αβ), R (αβ µ, α, β) 2i=1 α i = 0; m β j = 0; 2 i=1 (αβ) ij = 0; m (αβ) ij = 0 Statystyka F typu III (Speed, Hocking, Hackney 1978) H III : 1 m µ 1j = 1 m µ 2j Średnia różnica leczenia 1 m (y 1j y 2j )
Porównanie Zbiory danych Typ I Typ II każda obserwacja wchodzi z taką samą wagą ignoruje efekty warstw znaczenie kolejności czynników wagi są odwrotnie proporcjonalne do wariancji estymatora efektów leczenia w danej warstwie kolejność czynników nie ma znaczenia najmocniejszy, gdy nie ma interakcji Typ III nie zależy od wielkości próby
Opis modelu y ijk = µ + α i + b j + g ij + ɛ ijk Parametry modelu µ - ogólna średnia α - efekty leczenia (2 poziomy) b - losowe efekty warstw (m poziomów) - poziomy są wylosowane z większej populacji g - losowe efekty interakcji leczenia i warstw
Testy nieparametryczne van Elteren test u = w j n 1k + n 2j + 1 w j -statystyka Wilcoxona dla sumy rang w j-tej warstwie Asymptotyka testu Przy spełnionej hipotezie zerowej o braku efektu leczenia w m warstwach statystyka testowa ma asymptotycznie rozkład normalny. Mantel-Haenszel Test Test van Elterena należy do ogólniejszej rodziny. Testy z tej rodziny nie są uzależnione bezpośrednio od rozmiaru pojedynczej warstwy.
Warstwa j Treatment Event No event Total Drug n 1j1 n 1j2 n 1j+ Placebo n 2j1 n 2j2 n 2j+ Total n +j1 n +j2 n j Założenia p 1j = n 1j1 n 1j+, p 2j = n 2j1 n 2j+
Różnica ryzyka d j = p 1j p 2j Relatywne ryzyko r j = p 1j p 2j Iloraz szans ô j = p 1j 1 p 1j / p 2j 1 p 2j
Testy asymptotyczne Testy permutacyjne Niech a j będzie estymatorem pewnej miary dopasowania pomiędzy leczeniem, a zmienną binarną, która nas interesuje w j-tej warstwie. Niech sj 2 będzie wariancją próbkową tego estymatora. Załóżmy, że miara asocjacji jest równa 0, jeśli brak efektu leczenia. Total χ 2 statistic χ 2 T = w j aj 2 = w j (a j â) 2 + ( w j ) 1 ( w j a j ) 2 = χ 2 H + χ 2 A
Przykład Zbiory danych Standaryzowana różnica ryzyka a j = d j p j (1 p j ), p j = n +j1 n j Odwrotność wariancji standaryzowanej różnicy ryzyka w j = p j (1 p j ) n 1j+n 2j+ n 1j+ + n 2j+ Estymator średniej różnicy ryzyka (CMH) d = ( p j (1 p j ) n 1j+n 2j+ ) 1 n 1j+ + n 2j+ n 1j+ n 2j+ n 1j+ + n 2j+ d j
Estymatory o minimalnej wariancji log relative risk log odds ratio a j = log r j, w j = [( 1 n 1j1 1 n 1j+ ) + ( 1 n 2j1 1 n 2j+ )] 1 a j = log ô j, w j = ( 1 n 1j1 + 1 n 1j2 + 1 n 2j1 + 1 n 2j2 ) 1
Mantel-Haenszel Estimators Ryzyko względne r MH = ( w j ) 1 Iloraz szans ô MH = ( w j ) 1 m m w j r j, w j = n 2j1n 1j+ n j w j ô j, w j = n 2j1n 1j2 n j Właściwości Nie są to estymatory minimalnej wariancji, ale są dokładniejsze (MSE jest zawsze mniejsze od estymatorów logit adjusted ). Dobrze zachowują się w przypadku rzadkich warstw.
Dokładne testy pemutacyjne Mantel-Fleiss Criterion (dla CMH) Cochran-Armitage test min{ [ n 1i+n +i1 max(0, n +i1 n 2i+ )], n i=1 i [min(n 1i+, n +i1 ) n 1i+n +i1 ]} > 5 n i=1 i Alternatywa w przypadku, gdy kryterium Mantela-Fleissa jest niespełnione. Test trendu używany do oceny siły liniowego związku.
Testy oparte na modelu Regresja logistyczna Ocena istotności współczynników za pomocą statystyki Walda. Interpretacji podlega współczynnik zwany ilorazem szans. Ale o tym już było...
Dowcip Zbiory danych Matematyk (probabilista) kupił paczkę zapałek. Chcąc zapalić papierosa przekonał się, że dopiero ostatnia zapałka zapaliła się. Kupił więc następną paczkę. Zapaliła się pierwsza. Resztę zapałek wyrzucił.
Koniec Zbiory danych Dziękuję za uwagę...