STUDIUM DOKTORANCKIE KATOWICE, 2011/12 PODSTAWY STATYSTYKI SEMINARIUM 4 Jan E. Zejda Katedra Epidemiologii WLK, SUM
TREŚĆ SEMINARIUM 4 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresji proporcjonalnego ryzyka model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych
TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresji proporcjonalnego ryzyka model regresji Poisson a) - specyficzne zastosowania analizy wielu zmiennych
CZYNNIK RYZYKA Indywidualna cecha związana ze stylem życia lub narażeniem środowiskowym, lub cecha wrodzona albo odziedziczona, która - w świetle dowodów epidemiologicznych - jest związana ze stanem zdrowotnym uzasadniającym postępowanie zapobiegawcze palenie tytoniu przebycie wirusowego zapalenia wątroby typu C otyłość atopia polimorfizm genu X dodatni wywiad rodzinny w kierunku raka sutka hipercholesterolemia małą masa urodzeniowa stres
CZYNNIK ZAKŁÓCAJ CAJĄCYCY Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~ badane narażenie). Zatem: Cz. Zakłócający jest związany z narażeniem Cz. Zakłócający jest niezależnym czynnikiem ryzyka? Więź nie musi mieć charakteru biologicznego. Może się zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć i nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.
CZYNNIK ZAKŁÓCAJ CAJĄCYCY Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~ badane narażenie). Zatem: Cz. Zakłócający jest związany z narażeniem Cz. Zakłócający jest niezależnym czynnikiem ryzyka? Więź nie musi mieć charakteru biologicznego. Może się zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć i nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.
METODY ELIMINACJI LUB KONTROLI WPŁYWU CZYNNIKÓW W ZAKŁÓCAJ CAJĄCYCHCYCH Randomizacja (tylko badania eksperymentalne) Restrykcja (np. ocena pulmotoksyczności pyłu tylko u niepalaczy, kryteria włączenia ) Parowanie obserwacji (np. zapadalność na raka sutka u mężatek i panien w tym samym wieku) Stratyfikacja (procedura Mantel-Haenszel) Statystyczna analiza wielu zmiennych (analiza regresji) Etap planowania badania Etap analizy danych
TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresji proporcjonalnego ryzyka) model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych
WPŁYW CZYNNIKA ZAKŁÓCAJ CAJĄCEGO CEGO PZO a narażenie na pył w warstwach* palacze i niepalacze PZO+ PZO- %PZO+ N+ 300 410 42% N- 140 230 38% PZO+ PZO- %PZO+ N+ 300 410 42% N- 140 230 38% PZO+ PZO- %PZO+ N+ 150 80 65% N- 260 220 54% Wszyscy Badani Warstwa Niepalacze Warstwa Palacze * - warstwa = stratum
PROCEDURA MANTEL HAENSZEL Σ IS MH (OR MH ) = Σ A i D i. N i. B 1 C i N 1 A, B, C i D to dane z i tabel czteropolowych WAŻONY ILORAZ SZANS M-H Iloraz Szans wg Mantel-Haenszel to pojedyncza statystyka, odzwierciedlająca zależność pomiędzy chorobą i narażeniem, po uwzględnieniu jednego lub więcej czynników zakłócających. Choroba = narażenie + czynnik zakłócający Jest to średnia ważona ilorazów szans dla każdej z warstw
SUROWY A WAŻONY ILORAZ SZANS SUROWY ILORAZ SZANS (PZO a NARAŻENIE NA PYŁ) IS S = 1,03 (95%PU: 0,85 1,25) WAŻONY ILORAZ SZANS M-H (PZO a NARAŻENIE NA PYŁ, Z UWZGLĘDNIENIEM NAŁOGU PALENIA) IS M-H = 1,34 (95%PU: 1,09 2,33) Narażenie na pył organiczny zwiększa ryzyko występowania przewlekłego zapalenia oskrzeli o 34%, po uwzględnieniu wpływu nałogu palenia tytoniu
ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJI interakcja statystyczna interakcja biologiczna Interakcja statystyczna ma miejsce, gdy testowany model zależności Y od narażenia nie jest właściwy dla opisu zależności Y od dwóch lub więcej narażeń tak RYZYKO RAKA PŁUC nie narażenie na azbest NIEPALACZE PALACZE
ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJI (czy fiasko ncpap zależy od masy ciała noworodka?) Summary Statistics for fiasko by masa Controlling for poród Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 Nonzero Correlation 1 4.6160 0.0317 2 Row Mean Scores Differ 1 4.6160 0.0317 3 General Association 1 4.6160 0.0317 Breslow-Day Test for Homogeneity of the Odds Ratios ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 6.1729 DF 1 Pr > ChiSq 0.0130 H 0 : zależności są homogenne (takie same w każdej warstwie) brak interakcji
TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych analiza regresji liniowej analiza regresji logistycznej model regresji proporcjonalnego ryzyka model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych
ANALIZY EKSPLORATYWNE I KONFORMACYJNE
ANALIZA DANYCH A. EKSPLORATYWNA A. KONFIRMATYWNA Hipoteza może być formułowana na podstawie wyników pierwszych analiz; dopuszczalne są otwarte pytania Konkretna hipoteza, sformułowana przed rozpoczęciem badania, testowana zgodnie z protokołem Jakie są czynniki ryzyka zakażeń szpitalnych u noworodków? Częstość zakażeń szpitalnych jest podobna u noworodków płci męskiej i żeńskiej
A.E. ~ GENERATOR PRZYPADKOWYCH ZNAMIENNOŚCI Nawet, gdy analizy są wykonane zgodnie z wymogami metodologii (właściwy test, kontrola czynników zakłócających) przypadkowe uzyskanie statystycznie znamiennego wyniku jest prawdopodobne
PODSTAWY ANALIZY WIELU ZMIENNYCH
CZTERY POZIOMY ANALIZY DANYCH - KONWENCJONALNA STRATEGIA - Analiza Opisowa Prosta Analiza Różnic/Zależności Stratyfikacyjna Analiza Różnic/Zależności Złożona Analiza Wielu Zmiennych Przykład: wskazanie a sukces ncpap (realne dane)
PORÓWNANIE % SUKCESÓW W 2 GRUPACH O RÓŻNYCH WSKAZANIACH (ncpap) Wskazanie RDS + Wskazanie RDS - Wiek > 30 HBD Wiek < 31 HBD Wiek > 30 HBD Wiek < 30 HBD Apgar Apgar Apgar Apgar Apgar Apgar Apgar Apgar SN CC SN CC SN CC SN CC SN CC SN CC SN CC SN CC % % % % % % % % % % % % % % % % i.t.d. brak danych do porównań szum informacyjny
to b nie rożni się w sposób statystycznie znamienny od 0, a więc ANALIZA WIELU ZMIENNYCH Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k KLUCZ INTEPRETACYJNY H 0 : b = 0 vs H A b 0 b = 0 gdy p>0,05 gdy b = 0 wówczas bx = 0*X = 0 (to X znika!) np. FVC = 1,67 + 2,34*Wzrost 0,92*Papierosy b 1 = 2,34 b 2 = 0,92 p = 0,01 p = 0,08
ANALIZA WIELU ZMIENNYCH Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k UWAGA Metoda szacowania b i to metoda najmniejszych kwadratów (znalezienie takich b i, które zapewniają najmniejszą sumę kwadratów odległości wszystkich punktów definiowanych przez X i Y od prostej regresji) Porównywanie bezwzględnych wartości b i nie ma sensu bez uwzględnienia jednostek pomiaru odpowiednich X i. Na przykład, nie można stwierdzić, że wzrost posiada trzy razy większe znaczenie wyjaśniające FVC niż papierosy [2,34:0,92]: FVC = 1,67 + 2,34*Wzrost 0,92*Papierosy + 1,67 Model zakłada liniową zależność (np. zmiana obciążenia paleniem z 1 do 5 pap/dzień jest tożsama ze zmianą z 20 do 25 pap/dzień. Analiza podlega założeniom (dyskutowanym w związku z diagnostyką modelu ) Model analizuje ilościowe lub jakościowe X i!!!
ANALIZA WIELU ZMIENNYCH Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k ZASTOSOWANIA 1. badanie zależności Y od X i, po uwzględnieniu wpływu pozostałych X na Y; 2. przewidywanie wartości Y na podstawie wartości wszystkich X
ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)
ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)
MODEL REGRESJI LINIOWEJ Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k PYTANIA 1. Jakie zmienne niezależne X? 2. Ile zmiennych niezależnych X?
MODEL REGRESJI LINIOWEJ Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k PYTANIA 1. Jakie zmienne niezależne X? Koncepcja, model biologiczny (konfirmacja) Dążenie do ustalenia jakichkolwiek zależności, nawet przy mglistej koncepcji po coś te badania wykonano (eksploracja)
MODEL REGRESJI LINIOWEJ Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k PYTANIA 1. Jakie zmienne niezależne X? 2. Ile zmiennych niezależnych X? Prosta reguła: liczba X < liczba obserwacji / 10
MODEL REGRESJI LINIOWEJ KONSTRUKCJA MODELU MODEL KOMPLETNY DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 MODEL p R 2 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,9 0,0001 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,3 0,03 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,2 0,06 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,3 0,08 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,03 0,20 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 <0,0001 0,56 Im więcej zmiennych niezależnych w modelu tym większe R 2
MODEL REGRESJI LINIOWEJ KOMPLETNY MODEL The REG Procedure - Dependent Variable: DNICPAP1 Number of Observations Read 64 Number of Observations Used 58 Number of Observations with Missing Values 6 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193 Corrected Total 57 1471.30897 Root MSE 3.56117 R-Square 0.5604!!! Dependent Mean 4.11379 Adj R-Sq 0.5087 Coeff Var 86.56658 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 15.08566 9.41311 1.60 0.1152 LPOPO2 1-0.00074381 0.02116-0.04 0.9721 WIEKPL1 1-0.11756 0.31636-0.37 0.7117 APGAR1 1 0.13837 0.27527 0.50 0.6174 CRIB 1-0.19641 0.39131-0.50 0.6179 MASA 1-0.00815 0.00285-2.86 0.0061 DWCPAP1 1 14.56621 2.27320 6.41 <.0001
MODEL REGRESJI LINIOWEJ KOMPLETNY MODEL The REG Procedure - Dependent Variable: DNICPAP1 Number of Observations Read 64 Number of Observations Used 58 Number of Observations with Missing Values 6 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193 Corrected Total 57 1471.30897 Root MSE 3.56117 R-Square 0.5604!!! Dependent Mean 4.11379 Adj R-Sq 0.5087 Coeff Var 86.56658 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 15.08566 9.41311 1.60 0.1152 LPOPO2 1-0.00074381 0.02116-0.04 0.9721 WIEKPL1 1-0.11756 0.31636-0.37 0.7117 APGAR1 1 0.13837 0.27527 0.50 0.6174 CRIB 1-0.19641 0.39131-0.50 0.6179 MASA 1-0.00815 0.00285-2.86 0.0061 DWCPAP1 1 14.56621 2.27320 6.41 <.0001 UWAGA Wynik dla poszczególnych b nie zależy od kolejności zmiennych (typ III sumy kwadratów) Intercept 0.1152 WIEKPL1 0.7117 APGAR1 0.6174 CRIB 0.6179 DWCPAP1 <.0001 MASA 0.0061 LPOPO2 0.9721
MODEL REGRESJI LINIOWEJ KOMPLETNY MODEL CZAS CPAP = 15.08-0007LPOPO2 0,11WIEKPL1+0,13APGAR1 0,19CRIB 0,008MASA+14,56DWCPAP1 ale ze względu na szereg startystycznie nieznamiennych b ostateczny model to CZAS CPAP = MASA + DWCPAP1 Uwaga: konieczna ponowna parametryzacja
MODEL REGRESJI LINIOWEJ OSTATECZNY MODEL (REZULTAT SELEKCJI WSTECZNEJ) Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept 11.31453 2.50493 242.78661 20.40 <.0001 DWCPAP1 14.30623 2.12053 541.63167 45.52 <.0001 MASA -0.00741 0.00209 148.93148 12.52 0.0008 CZASCPAP = 14,306*DWCPAP1 0,007*MASA + 11,314
MODEL REGRESJI LINIOWEJ DIAGNOSTYKA MODELU - WSPÓŁLINIOWOŚĆ Y ~ X 1, X 2, ale co gdy X 1 ~ X 2? ZJAWISKO WSPÓŁLINIOWOŚCI Zniekształcenie wyników analizy wielu zmiennych, polegające na uzyskaniu niewłaściwych lub nawet fałszywych (dodatnich/ujemnych) współczynników regresji, związane z korelacją dwóch lub więcej zmiennych niezależnych IDENTYFIKACJA WSPÓŁLINIOWOŚCI 1) analiza korelacji liniowej pomiędzy wszystkimi X i 2) analiza tolerancji
X MODEL REGRESJI LINIOWEJ DIAGNOSTYKA ZAŁOŻEŃ Model jest trafny (intepretowalny), gdy spełnione są następujące założenia/warunki: 1. Brak odległych obserwacji ( outliers ); 2. Niezależność obserwacji 3. Normalny rozkład wartości resztowych (średnia = 0; stała wariancja) Wartość resztowa to odległość pomiędzy wartością obserwowaną (Y i ) i wartością Y i wynikającą z równania regresji: Y
MODEL REGRESJI LINIOWEJ TERMINOLOGIA CzasCPAP = 16,02DobaWłącz 0,004Masa + 7,23 Zmienna Zależna Zmienne Niezależne Pytanie: Od czego zależy CzasCPAP? Zmienna Zależna Zmienne Objaśniające Pytanie: Jaki jest przewidywany CzasCPAP u noworodka o masie X 1, podłączonego w dobie X 2 Zmienna Zależna Predyktory
ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)
MODEL REGRESJI LOGISTYCZNEJ LOGIT FUNKCJA ŁĄCZĄCA W CELU WYKONANIA ANALIZY LINIOWEJ P LOGIT P X X PRAWDOPODOBIEŃSTWO WYSTĄPIENIA Y W ODPOWIEDZI NA ZMIANĘ X uliniowienie zależności biologicznej
MODEL REGRESJI LOGISTYCZNEJ ZMIENNA ZALEŻNA = ZMIENNA JAKOŚCIOWA ZMIENNE NIEZALEŻNE = ZMIENNE JAKOŚCIOWE/ILOŚCIOWE PARAMETRYZACJA MODELU REGRESJI LOGISTYCZNEJ ANALOGICZNA DO PARAMETRYZACJI MODELU REGRESJI LINIOWEJ POPULARNOŚĆ REGRESJI LOGISTYCZNEJ W BADANIACH MEDYCZNYCH 1. Odwzorowanie zjawisk (zgon/wyzdrowienie; poprawa/brak poprawy, objaw/brak objawu itd..) 2. Bezpośrednie obliczenie ilorazu szans (logistycznego ilorazu szans: logis lub logor) WARTOŚCI ZMIENNYCH ORYGINALNE LUB W WYNIKU TRANSFORMACJI
MODEL REGRESJI LOGISTYCZNEJ KONSTRUKCJA MODELU - stopniowe ( ręczne ) dodawanie zmiennych - sformułowanie kompletnego modelu - metody automatyczne (eliminacja wsteczna, wstępująca, krokowa na przykład w oparciu o kryterium p<0,05) Y = b 0 + b 1 X 1 + b 2 X 2 + + b k-1 X k-1 + b k X k
MODEL REGRESJI LOGISTYCZNEJ WYNIK ANALIZY Logistyczny Iloraz Szans (logis = logor) iloraz szans dla danej zależności Y ~ X, po uwzględnieniu wpływu pozostałych X na Y Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits masac 1.320 0.332 5.249 wiekc 0.901 0.251 3.234 apgarc 1.273 0.357 4.537 cribc 1.196 0.230 6.222 dwcpapc 0.549 0.165 1.829 po2c 0.554 0.179 1.716 UWAGA zmieność zmiennej binarnej to nie to samo co zmienność zmiennej ilościowej
MODEL REGRESJI LOGISTYCZNEJ WYNIK ANALIZY Logistyczny Iloraz Szans (logis = logor) iloraz szans dla danej zależności Y ~ X, po uwzględnieniu wpływu pozostałych X na Y SUROWY vs LOGISTYCZNY Odds Ratio Estimates ILORAZ Point SZANS 95% Wald Effect Estimate Confidence Limits masac 1.320 0.332 5.249 wiekc 0.901 0.251 3.234 apgarc 1.273 0.357 4.537 cribc 1.196 0.230 6.222 dwcpapc 0.549 0.165 1.829 po2c 0.554 0.179 1.716 UWAGA zmieność zmiennej binarnej to nie to samo co zmienność zmiennej ilościowej
MODEL REGRESJI LOGISTYCZNEJ DOBÓR MODELU 1. Definicja zmiennych (znaczenie kliniczne lub statystyczne) 2. Testowanie interakcji 3. Automatyczna selekcja zmiennych statystycznie znamiennych 4. Diagnostyka trafności modelu 5. Diagnostyka założeń modelu INNE MODELE Generalny Model Liniowy (uniwersalny dla zmiennych ilościowych i jakościowych)
ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)
ANALIZA PRZEŻYWALNO YWALNOŚCI (SURVIVAL ANALYSIS)
ANALIZA PRZEŻYWALNO YWALNOŚCI OBSZARY ZASTOSOWAŃ historia naturalna chorób ( tym identyfikacja czynników ryzyka); ocena skuteczności nowych metod terapeutycznych; ocena skuteczności profilaktyki. MEDYCYNA KLINICZNA A EPIDEMIOLOGIA Skutki Terapii X Obserwacja Kliniczna Pacjent A + Pacjent A + Pacjent A - Pacjent A + Pacjent A - Itd... Obserwacja Epidemiologiczna Odsetek + Odsetek - Obserwacja grupy umożliwia kontrolowanie zakłócającego wpływu zjawiska zmienności międzyosobniczej, ale utrudnia uwzględnienie indywidualnie istotnych okoliczności zdarzeń. Zgon jako przykład zdarzenia kończącego okres obserwacji (inne zdarzenia to np. pierwsza remisja, normalizacja biochemiczna itp.)
PORÓWNANIA UMIERALNOŚCI - (DWIE KOHORTY) KOHORTA - A 100 CHORYCH CZAS OBSERWACJI = 3 LATA KOHORTA - B 100 CHORYCH 50 zmarło 45 zmarło GRUPA A 100 CHORYCH Ale GRUPA B 100 CHORYCH Zgon w 1 roku: 15 Zgon w 1 roku: 5 Zgon w 2 roku: 20 Zgon w 1 roku: 15 Zgon w 3 roku: 15 Zgon w 3 roku: 25 Ale w obu grupach wystąpiły także zgony z innych powodów niż choroba stanowiąca przedmiot obserwacji Ale w obu grupach utracono z obserwacji część chorych (np. dobrowolna rezygnacja z udziału w badaniu, zmiana miejsca pobytu) ilu utraconych zmarło z powodu choroby X w grupie A, ilu w grupie B? Ale chorzy objęci kompletną obserwacją trzyletnią żyją także (różnie długo) po zakończeniu obserwacji
PORÓWNANIE PROFILU PRZEŻYWALNO YWALNOŚCI Dwie Grupy Terapia A i Terapia B RADIOTERAPIA- SCHEMAT A Tablica przeżywalności kohorty RADIOTERAPIA- SCHEMAT B Tablica przeżywalności kohorty (1) (2) (3) (4) (5) (6) (7) (8) 1 X X X X X X X 2 X X X X X X X 3 X X X X X X X... N X X X X X X X (1) (2) (3) (4) (5) (6) (7) (8) 1 X X X X X X X 2 X X X X X X X 3 X X X X X X X... N X X X X X X X Wykres przeżywalności kohorty Wykres przeżywalności kohorty 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 1 2 3 4 5 6 7 8 9 10 11 12 0 1 2 3 4 5 6 7 8 9 10 11 12 Oczekiwany czas przeżycia kohorty Oczekiwany czas przeżycia kohorty T = 6,1 miesięcy T = 4,6 miesięcy
MODEL PROPORCJONALNYCH RYZYK (proportional hazards model) CZYM dla testów parametrycznych jest założenie liniowości TYM dla testów różnic w zakresie przeżywalności jest założenie proporcjonalnych ryzyk (UPROSZCZONA) KONWENCJA STATYSTYCZNA Przebieg ryzyka, jego natężenie i zmiany w czasie obserwacji [t] dają się opisać matematycznie funkcją ryzyka (t) Gdy porównuje się ryzyko zgonu w dwóch grupach ( Terapia i Kontrola ) wówczas dla grupy kontrolnej (punkt odniesienia) ryzyko opisuje funkcja [ K (t)], a dla grupy terapeutycznej funkcja uwzględniająca badany efekt terapeutyczny [ ], zatem [ * T (t)]. Celem badania jest porównanie ryzyk, co opisuje model proporcjonalnych ryzyk : K (t) = * T (t) gdy efekt terapeutyczny jest żaden (=1) wówczas = 1, i K (t) = T (t) HIPOTEZĘ O RÓWNOŚCI RYZYK W PORÓWNYWANYCH GRUPACH K i T TESTUJE SIĘ PRZY UŻYCIU: TESTU RANG (LOGRANK) proste sytuacje ANALIZY REGRESJI COX A złożone sytuacje
TEST RANG STRATEGIA (B) Podstawowe Dane rzeczywista, obserwowana liczbie zgonów w obu grupach (OT i OK); oczekiwana liczba zgonów w obu grupach (ET i EK). Podstawowy Wynik Testu Rang - Statystyka χ2 χ2 = [(OT ET)2 / ET] + [(OK EK)2 / EK], a po podstawieniu danych z omawianego scenariusza: χ2 = [(5-5,39)2/5,39] + [(8-7,57)2/7,57] = 0,028 + 0,024 = 0,052 Uzyskany wynik w konfrontacji z rozkładem statystyki χ2 dla jednego stopnia swobody (liczba grup 1) nie upoważnia do stwierdzenia, że różnica pomiędzy przeżywalnością w grupie T i K jest statystycznie znamienna. Tym samym można przyjąć, że testowana metoda terapeutyczna nie jest skuteczna, pod warunkiem, że inne przyczyny nie wpłynęły na wyniki badania. PROBLEMY Wniosek, że różnice w przeżywalności nie zależą od terapii jest zasadny, gdy w każdym innym aspekcie istotnym dla przeżywalności porównywane grupy są podobne: Wiek; Płeć; Stadium choroby; Wcześniejsze leczenie; Choroby współistniejące; Itd! kryteria doboru badanych i randomizacja
ANALIZA REGRESJI COX A - I (Cox D.R.: Regression models and life tables. Journal of the Royal Statistical Society 1972;34:187-220) MODEL COX a = PROCEDURA STATYSTYCZNA UMOŻLIWIAJĄCA ZBADANIE ZALEŻNOŚCI CZASU PRZEŻYCIA OD CZYNNIKÓW PODEJRZEWANYCH O WPŁYW NA CZAS PRZEŻYCIA, Z UWZGLĘDNIENIEM OBSERWACJI NIEPEŁNYCH Dane toksykologiczne wykazują, że czas przeżycia dobrze charakteryzuje funkcja wykładnicza: Y = a x przekształcenie modelu proporcjonalnych ryzyk [ K (t) = * T (t)] w model proporcjonalnych przeżyć [S K (t) = S T (t) ] badany efekt (np. skutek terapii) reprezentuje wówczas funkcja wykładnicza a dla wielu zmiennych: Y = a (b 1 *X 1 + b 2 *X 2 +... + b k-1 *X k-1 + b k *X k ) Porównanie dwóch grup (np. terapia A i B) jest porównaniem dwóch profili przeżycia, co umożliwia obliczenie ilorazu ryzyk (RR=risk ratio) RR = ryzyko A / ryzyko B Jest to możliwe ze względu na założenie, że ryzyko wystąpienia zgonu rozkłada się proporcjonalnie w trakcie obserwacji stąd pochodzi ogólna nazwa procedury: model proporcjonalnego ryzyka (proportional-hazards model w terminologii anglosaskiej).
ANALIZA REGRESJI COX A A (MODEL COX a) III Gdy model Cox a dotyczy prostej analizy (tylko jeden czynnik X terapia) wyniki będą tożsame z wynikiem testu rang. Pełne wykorzystanie analizy Cox a i jej zalety są widoczne wówczas, gdy w analizie przeżywalności stosuje się jednoczasowo wiele zmiennych, np.: b 1 *PŁEĆ + b 2 *WIEK + b 3 *STAN + b 4 *TERAPIA Analizy tego typu są możliwe przy użyciu procedur dostępnych w programach komputerowych, np. PROC PHREG w programie SAS. Inne procedury dostarczają szerokiego spektrum testów stosowanych w analizie przeżywalności (PROC LIFETEST, PROC LIFEREG w programie SAS).
ANALIZA PRZEŻYWALNO YWALNOŚCI PODSUMOWANIE I CHARAKTERYSTYKA PROFILU PRZEŻYWALNOŚCI Metoda Kaplan-Meier a Cel: opis profilu * * * PORÓWANIA PROFILI PRZEŻYWALNOŚCI Test rang (logrank test) Cel: ocena różnic pomiędzy profilami * * * IDENTYFIKACJA CZYNNIKÓW WPŁYWAJĄCYCH NA PRZEŻYWALNOŚĆ Analiza Cox a Cel: analiza czynników determinujących profil lub odpowiedzialnych za różnice pomiędzy porównywanymi profilami
ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)
MODEL REGRESJI POISSON A WSPÓŁCZYNNIK REGRESJI POISSON A : b gdy narażenie = tak (X 1 =1) log(wsp. E+ ) = b 0 + b 1 *1 + + b k X k gdy narażenie = nie (X=0) log (wsp. E-) = b 0 + b 1 *0 1 + + b k X k a po rozwiązaniu układu równań b 1 = log(wsp. E+ ) log(wsp. E- ) b 1 = log(wsp. E+ / wsp. E- ) Współczynnik regresji b jest logarytmem ilorazu współczynników, a zatem antylogarytm b, czyli e b1 to iloraz współczynnika u narażonych i nienarażonych!!! (wartość sprawcza danego narażenia po uwzględnieniu innych zmiennych w modelu)
TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresja proporcjonalnego ryzyka model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych
MODEL REGRESJI WIELU ZMIENNYCH 1. Analiza dyskryminacyjna (SAS-DISCRIM) 2. Analiza wyników powtarzanych pomiarów (SAS-GLM/REPEATED) 3. Analiza skupień (SAS-CLUSTER) 4. Analiza ścieżek (SAS-CALIS) 5. - tematyka wykracza poza zakres kursu -