STUDIUM DOKTORANCKIE KATOWICE, 2011/12 PODSTAWY STATYSTYKI SEMINARIUM 4. Jan E. Zejda Katedra Epidemiologii WLK, SUM

Podobne dokumenty
SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

PAKIETY STATYSTYCZNE

PODSTAWY STATYSTYKI SEMINARIUM 3 ! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

PRAKTYCZNE METODY STATYSTYCZNE W BADANIACH NAUKOWYCH

Rozdział 8. Regresja. Definiowanie modelu

Uogólniony model liniowy

WYKŁAD DRUGI: TYPY BADAŃ EPIDEMIOLOGICZNYCH

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Statystyka i Analiza Danych

WYKŁAD TRZECI: OCENA ZWIĄZK PRZYCZYNOWO-SKUTKOWYCH W EPIDEMIOLOGII

(LMP-Liniowy model prawdopodobieństwa)

Przykład 1. (A. Łomnicki)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Analiza danych ilościowych i jakościowych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Ekonometria dla IiE i MSEMat Z7

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA MATEMATYCZNA

Rozkłady statystyk z próby

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

statystyka badania epidemiologiczne

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Regresja logistyczna (LOGISTIC)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

S t a t y s t y k a, część 3. Michał Żmihorski

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Stanisław Cichocki. Natalia Nehrebecka

Spis treści 3 SPIS TREŚCI

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

STATYSTYKA MATEMATYCZNA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

PDF created with FinePrint pdffactory Pro trial version

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Analiza regresji - weryfikacja założeń

Stanisław Cichocki. Natalia Nehrebecka

METODY STATYSTYCZNE W BIOLOGII

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Stanisław Cichocki. Natalia Nehrebecka

MODELE LINIOWE. Dr Wioleta Drobik

ANALIZA REGRESJI SPSS

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Statystyka i Analiza Danych

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Ekonometria egzamin 07/03/2018

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

1 Analizy zmiennych jakościowych

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna Test χ 2. Wrocław, r

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Wykład 4 Związki i zależności

Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2000, 2008

Analiza wariancji. dr Janusz Górczyński

Badania obserwacyjne 1

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Modele warunkowej heteroscedastyczności

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wykład 8 Dane kategoryczne

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁAD PIERWSZY: PODSTAWY EPIDEMIOLOGII (A)

KORELACJE I REGRESJA LINIOWA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Rak płuca wyzwania. Witold Zatoński Centrum Onkologii Instytut im. Marii Skłodowskiej-Curie w Warszawie

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Analiza autokorelacji

Testowanie hipotez statystycznych

Statystyka matematyczna i ekonometria

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Podstawy epidemiologii

KARTA KURSU. Kod Punktacja ECTS* 1

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

STATYSTYKA MATEMATYCZNA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Diagnostyka w Pakiecie Stata

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Transkrypt:

STUDIUM DOKTORANCKIE KATOWICE, 2011/12 PODSTAWY STATYSTYKI SEMINARIUM 4 Jan E. Zejda Katedra Epidemiologii WLK, SUM

TREŚĆ SEMINARIUM 4 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresji proporcjonalnego ryzyka model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych

TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresji proporcjonalnego ryzyka model regresji Poisson a) - specyficzne zastosowania analizy wielu zmiennych

CZYNNIK RYZYKA Indywidualna cecha związana ze stylem życia lub narażeniem środowiskowym, lub cecha wrodzona albo odziedziczona, która - w świetle dowodów epidemiologicznych - jest związana ze stanem zdrowotnym uzasadniającym postępowanie zapobiegawcze palenie tytoniu przebycie wirusowego zapalenia wątroby typu C otyłość atopia polimorfizm genu X dodatni wywiad rodzinny w kierunku raka sutka hipercholesterolemia małą masa urodzeniowa stres

CZYNNIK ZAKŁÓCAJ CAJĄCYCY Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~ badane narażenie). Zatem: Cz. Zakłócający jest związany z narażeniem Cz. Zakłócający jest niezależnym czynnikiem ryzyka? Więź nie musi mieć charakteru biologicznego. Może się zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć i nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.

CZYNNIK ZAKŁÓCAJ CAJĄCYCY Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~ badane narażenie). Zatem: Cz. Zakłócający jest związany z narażeniem Cz. Zakłócający jest niezależnym czynnikiem ryzyka? Więź nie musi mieć charakteru biologicznego. Może się zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć i nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.

METODY ELIMINACJI LUB KONTROLI WPŁYWU CZYNNIKÓW W ZAKŁÓCAJ CAJĄCYCHCYCH Randomizacja (tylko badania eksperymentalne) Restrykcja (np. ocena pulmotoksyczności pyłu tylko u niepalaczy, kryteria włączenia ) Parowanie obserwacji (np. zapadalność na raka sutka u mężatek i panien w tym samym wieku) Stratyfikacja (procedura Mantel-Haenszel) Statystyczna analiza wielu zmiennych (analiza regresji) Etap planowania badania Etap analizy danych

TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresji proporcjonalnego ryzyka) model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych

WPŁYW CZYNNIKA ZAKŁÓCAJ CAJĄCEGO CEGO PZO a narażenie na pył w warstwach* palacze i niepalacze PZO+ PZO- %PZO+ N+ 300 410 42% N- 140 230 38% PZO+ PZO- %PZO+ N+ 300 410 42% N- 140 230 38% PZO+ PZO- %PZO+ N+ 150 80 65% N- 260 220 54% Wszyscy Badani Warstwa Niepalacze Warstwa Palacze * - warstwa = stratum

PROCEDURA MANTEL HAENSZEL Σ IS MH (OR MH ) = Σ A i D i. N i. B 1 C i N 1 A, B, C i D to dane z i tabel czteropolowych WAŻONY ILORAZ SZANS M-H Iloraz Szans wg Mantel-Haenszel to pojedyncza statystyka, odzwierciedlająca zależność pomiędzy chorobą i narażeniem, po uwzględnieniu jednego lub więcej czynników zakłócających. Choroba = narażenie + czynnik zakłócający Jest to średnia ważona ilorazów szans dla każdej z warstw

SUROWY A WAŻONY ILORAZ SZANS SUROWY ILORAZ SZANS (PZO a NARAŻENIE NA PYŁ) IS S = 1,03 (95%PU: 0,85 1,25) WAŻONY ILORAZ SZANS M-H (PZO a NARAŻENIE NA PYŁ, Z UWZGLĘDNIENIEM NAŁOGU PALENIA) IS M-H = 1,34 (95%PU: 1,09 2,33) Narażenie na pył organiczny zwiększa ryzyko występowania przewlekłego zapalenia oskrzeli o 34%, po uwzględnieniu wpływu nałogu palenia tytoniu

ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJI interakcja statystyczna interakcja biologiczna Interakcja statystyczna ma miejsce, gdy testowany model zależności Y od narażenia nie jest właściwy dla opisu zależności Y od dwóch lub więcej narażeń tak RYZYKO RAKA PŁUC nie narażenie na azbest NIEPALACZE PALACZE

ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJI (czy fiasko ncpap zależy od masy ciała noworodka?) Summary Statistics for fiasko by masa Controlling for poród Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 Nonzero Correlation 1 4.6160 0.0317 2 Row Mean Scores Differ 1 4.6160 0.0317 3 General Association 1 4.6160 0.0317 Breslow-Day Test for Homogeneity of the Odds Ratios ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 6.1729 DF 1 Pr > ChiSq 0.0130 H 0 : zależności są homogenne (takie same w każdej warstwie) brak interakcji

TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych analiza regresji liniowej analiza regresji logistycznej model regresji proporcjonalnego ryzyka model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych

ANALIZY EKSPLORATYWNE I KONFORMACYJNE

ANALIZA DANYCH A. EKSPLORATYWNA A. KONFIRMATYWNA Hipoteza może być formułowana na podstawie wyników pierwszych analiz; dopuszczalne są otwarte pytania Konkretna hipoteza, sformułowana przed rozpoczęciem badania, testowana zgodnie z protokołem Jakie są czynniki ryzyka zakażeń szpitalnych u noworodków? Częstość zakażeń szpitalnych jest podobna u noworodków płci męskiej i żeńskiej

A.E. ~ GENERATOR PRZYPADKOWYCH ZNAMIENNOŚCI Nawet, gdy analizy są wykonane zgodnie z wymogami metodologii (właściwy test, kontrola czynników zakłócających) przypadkowe uzyskanie statystycznie znamiennego wyniku jest prawdopodobne

PODSTAWY ANALIZY WIELU ZMIENNYCH

CZTERY POZIOMY ANALIZY DANYCH - KONWENCJONALNA STRATEGIA - Analiza Opisowa Prosta Analiza Różnic/Zależności Stratyfikacyjna Analiza Różnic/Zależności Złożona Analiza Wielu Zmiennych Przykład: wskazanie a sukces ncpap (realne dane)

PORÓWNANIE % SUKCESÓW W 2 GRUPACH O RÓŻNYCH WSKAZANIACH (ncpap) Wskazanie RDS + Wskazanie RDS - Wiek > 30 HBD Wiek < 31 HBD Wiek > 30 HBD Wiek < 30 HBD Apgar Apgar Apgar Apgar Apgar Apgar Apgar Apgar SN CC SN CC SN CC SN CC SN CC SN CC SN CC SN CC % % % % % % % % % % % % % % % % i.t.d. brak danych do porównań szum informacyjny

to b nie rożni się w sposób statystycznie znamienny od 0, a więc ANALIZA WIELU ZMIENNYCH Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k KLUCZ INTEPRETACYJNY H 0 : b = 0 vs H A b 0 b = 0 gdy p>0,05 gdy b = 0 wówczas bx = 0*X = 0 (to X znika!) np. FVC = 1,67 + 2,34*Wzrost 0,92*Papierosy b 1 = 2,34 b 2 = 0,92 p = 0,01 p = 0,08

ANALIZA WIELU ZMIENNYCH Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k UWAGA Metoda szacowania b i to metoda najmniejszych kwadratów (znalezienie takich b i, które zapewniają najmniejszą sumę kwadratów odległości wszystkich punktów definiowanych przez X i Y od prostej regresji) Porównywanie bezwzględnych wartości b i nie ma sensu bez uwzględnienia jednostek pomiaru odpowiednich X i. Na przykład, nie można stwierdzić, że wzrost posiada trzy razy większe znaczenie wyjaśniające FVC niż papierosy [2,34:0,92]: FVC = 1,67 + 2,34*Wzrost 0,92*Papierosy + 1,67 Model zakłada liniową zależność (np. zmiana obciążenia paleniem z 1 do 5 pap/dzień jest tożsama ze zmianą z 20 do 25 pap/dzień. Analiza podlega założeniom (dyskutowanym w związku z diagnostyką modelu ) Model analizuje ilościowe lub jakościowe X i!!!

ANALIZA WIELU ZMIENNYCH Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k ZASTOSOWANIA 1. badanie zależności Y od X i, po uwzględnieniu wpływu pozostałych X na Y; 2. przewidywanie wartości Y na podstawie wartości wszystkich X

ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)

ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)

MODEL REGRESJI LINIOWEJ Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k PYTANIA 1. Jakie zmienne niezależne X? 2. Ile zmiennych niezależnych X?

MODEL REGRESJI LINIOWEJ Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k PYTANIA 1. Jakie zmienne niezależne X? Koncepcja, model biologiczny (konfirmacja) Dążenie do ustalenia jakichkolwiek zależności, nawet przy mglistej koncepcji po coś te badania wykonano (eksploracja)

MODEL REGRESJI LINIOWEJ Y = b 0 + b 1 X 1 + b 2 X 2 + + b k X k PYTANIA 1. Jakie zmienne niezależne X? 2. Ile zmiennych niezależnych X? Prosta reguła: liczba X < liczba obserwacji / 10

MODEL REGRESJI LINIOWEJ KONSTRUKCJA MODELU MODEL KOMPLETNY DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 MODEL p R 2 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,9 0,0001 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,3 0,03 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,2 0,06 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,3 0,08 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 0,03 0,20 DNICPAP1 = LPOPO2 + WIEKPL1 + APGAR + CRIB + MASA + DWCPAP1 <0,0001 0,56 Im więcej zmiennych niezależnych w modelu tym większe R 2

MODEL REGRESJI LINIOWEJ KOMPLETNY MODEL The REG Procedure - Dependent Variable: DNICPAP1 Number of Observations Read 64 Number of Observations Used 58 Number of Observations with Missing Values 6 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193 Corrected Total 57 1471.30897 Root MSE 3.56117 R-Square 0.5604!!! Dependent Mean 4.11379 Adj R-Sq 0.5087 Coeff Var 86.56658 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 15.08566 9.41311 1.60 0.1152 LPOPO2 1-0.00074381 0.02116-0.04 0.9721 WIEKPL1 1-0.11756 0.31636-0.37 0.7117 APGAR1 1 0.13837 0.27527 0.50 0.6174 CRIB 1-0.19641 0.39131-0.50 0.6179 MASA 1-0.00815 0.00285-2.86 0.0061 DWCPAP1 1 14.56621 2.27320 6.41 <.0001

MODEL REGRESJI LINIOWEJ KOMPLETNY MODEL The REG Procedure - Dependent Variable: DNICPAP1 Number of Observations Read 64 Number of Observations Used 58 Number of Observations with Missing Values 6 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193 Corrected Total 57 1471.30897 Root MSE 3.56117 R-Square 0.5604!!! Dependent Mean 4.11379 Adj R-Sq 0.5087 Coeff Var 86.56658 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 15.08566 9.41311 1.60 0.1152 LPOPO2 1-0.00074381 0.02116-0.04 0.9721 WIEKPL1 1-0.11756 0.31636-0.37 0.7117 APGAR1 1 0.13837 0.27527 0.50 0.6174 CRIB 1-0.19641 0.39131-0.50 0.6179 MASA 1-0.00815 0.00285-2.86 0.0061 DWCPAP1 1 14.56621 2.27320 6.41 <.0001 UWAGA Wynik dla poszczególnych b nie zależy od kolejności zmiennych (typ III sumy kwadratów) Intercept 0.1152 WIEKPL1 0.7117 APGAR1 0.6174 CRIB 0.6179 DWCPAP1 <.0001 MASA 0.0061 LPOPO2 0.9721

MODEL REGRESJI LINIOWEJ KOMPLETNY MODEL CZAS CPAP = 15.08-0007LPOPO2 0,11WIEKPL1+0,13APGAR1 0,19CRIB 0,008MASA+14,56DWCPAP1 ale ze względu na szereg startystycznie nieznamiennych b ostateczny model to CZAS CPAP = MASA + DWCPAP1 Uwaga: konieczna ponowna parametryzacja

MODEL REGRESJI LINIOWEJ OSTATECZNY MODEL (REZULTAT SELEKCJI WSTECZNEJ) Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept 11.31453 2.50493 242.78661 20.40 <.0001 DWCPAP1 14.30623 2.12053 541.63167 45.52 <.0001 MASA -0.00741 0.00209 148.93148 12.52 0.0008 CZASCPAP = 14,306*DWCPAP1 0,007*MASA + 11,314

MODEL REGRESJI LINIOWEJ DIAGNOSTYKA MODELU - WSPÓŁLINIOWOŚĆ Y ~ X 1, X 2, ale co gdy X 1 ~ X 2? ZJAWISKO WSPÓŁLINIOWOŚCI Zniekształcenie wyników analizy wielu zmiennych, polegające na uzyskaniu niewłaściwych lub nawet fałszywych (dodatnich/ujemnych) współczynników regresji, związane z korelacją dwóch lub więcej zmiennych niezależnych IDENTYFIKACJA WSPÓŁLINIOWOŚCI 1) analiza korelacji liniowej pomiędzy wszystkimi X i 2) analiza tolerancji

X MODEL REGRESJI LINIOWEJ DIAGNOSTYKA ZAŁOŻEŃ Model jest trafny (intepretowalny), gdy spełnione są następujące założenia/warunki: 1. Brak odległych obserwacji ( outliers ); 2. Niezależność obserwacji 3. Normalny rozkład wartości resztowych (średnia = 0; stała wariancja) Wartość resztowa to odległość pomiędzy wartością obserwowaną (Y i ) i wartością Y i wynikającą z równania regresji: Y

MODEL REGRESJI LINIOWEJ TERMINOLOGIA CzasCPAP = 16,02DobaWłącz 0,004Masa + 7,23 Zmienna Zależna Zmienne Niezależne Pytanie: Od czego zależy CzasCPAP? Zmienna Zależna Zmienne Objaśniające Pytanie: Jaki jest przewidywany CzasCPAP u noworodka o masie X 1, podłączonego w dobie X 2 Zmienna Zależna Predyktory

ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)

MODEL REGRESJI LOGISTYCZNEJ LOGIT FUNKCJA ŁĄCZĄCA W CELU WYKONANIA ANALIZY LINIOWEJ P LOGIT P X X PRAWDOPODOBIEŃSTWO WYSTĄPIENIA Y W ODPOWIEDZI NA ZMIANĘ X uliniowienie zależności biologicznej

MODEL REGRESJI LOGISTYCZNEJ ZMIENNA ZALEŻNA = ZMIENNA JAKOŚCIOWA ZMIENNE NIEZALEŻNE = ZMIENNE JAKOŚCIOWE/ILOŚCIOWE PARAMETRYZACJA MODELU REGRESJI LOGISTYCZNEJ ANALOGICZNA DO PARAMETRYZACJI MODELU REGRESJI LINIOWEJ POPULARNOŚĆ REGRESJI LOGISTYCZNEJ W BADANIACH MEDYCZNYCH 1. Odwzorowanie zjawisk (zgon/wyzdrowienie; poprawa/brak poprawy, objaw/brak objawu itd..) 2. Bezpośrednie obliczenie ilorazu szans (logistycznego ilorazu szans: logis lub logor) WARTOŚCI ZMIENNYCH ORYGINALNE LUB W WYNIKU TRANSFORMACJI

MODEL REGRESJI LOGISTYCZNEJ KONSTRUKCJA MODELU - stopniowe ( ręczne ) dodawanie zmiennych - sformułowanie kompletnego modelu - metody automatyczne (eliminacja wsteczna, wstępująca, krokowa na przykład w oparciu o kryterium p<0,05) Y = b 0 + b 1 X 1 + b 2 X 2 + + b k-1 X k-1 + b k X k

MODEL REGRESJI LOGISTYCZNEJ WYNIK ANALIZY Logistyczny Iloraz Szans (logis = logor) iloraz szans dla danej zależności Y ~ X, po uwzględnieniu wpływu pozostałych X na Y Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits masac 1.320 0.332 5.249 wiekc 0.901 0.251 3.234 apgarc 1.273 0.357 4.537 cribc 1.196 0.230 6.222 dwcpapc 0.549 0.165 1.829 po2c 0.554 0.179 1.716 UWAGA zmieność zmiennej binarnej to nie to samo co zmienność zmiennej ilościowej

MODEL REGRESJI LOGISTYCZNEJ WYNIK ANALIZY Logistyczny Iloraz Szans (logis = logor) iloraz szans dla danej zależności Y ~ X, po uwzględnieniu wpływu pozostałych X na Y SUROWY vs LOGISTYCZNY Odds Ratio Estimates ILORAZ Point SZANS 95% Wald Effect Estimate Confidence Limits masac 1.320 0.332 5.249 wiekc 0.901 0.251 3.234 apgarc 1.273 0.357 4.537 cribc 1.196 0.230 6.222 dwcpapc 0.549 0.165 1.829 po2c 0.554 0.179 1.716 UWAGA zmieność zmiennej binarnej to nie to samo co zmienność zmiennej ilościowej

MODEL REGRESJI LOGISTYCZNEJ DOBÓR MODELU 1. Definicja zmiennych (znaczenie kliniczne lub statystyczne) 2. Testowanie interakcji 3. Automatyczna selekcja zmiennych statystycznie znamiennych 4. Diagnostyka trafności modelu 5. Diagnostyka założeń modelu INNE MODELE Generalny Model Liniowy (uniwersalny dla zmiennych ilościowych i jakościowych)

ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)

ANALIZA PRZEŻYWALNO YWALNOŚCI (SURVIVAL ANALYSIS)

ANALIZA PRZEŻYWALNO YWALNOŚCI OBSZARY ZASTOSOWAŃ historia naturalna chorób ( tym identyfikacja czynników ryzyka); ocena skuteczności nowych metod terapeutycznych; ocena skuteczności profilaktyki. MEDYCYNA KLINICZNA A EPIDEMIOLOGIA Skutki Terapii X Obserwacja Kliniczna Pacjent A + Pacjent A + Pacjent A - Pacjent A + Pacjent A - Itd... Obserwacja Epidemiologiczna Odsetek + Odsetek - Obserwacja grupy umożliwia kontrolowanie zakłócającego wpływu zjawiska zmienności międzyosobniczej, ale utrudnia uwzględnienie indywidualnie istotnych okoliczności zdarzeń. Zgon jako przykład zdarzenia kończącego okres obserwacji (inne zdarzenia to np. pierwsza remisja, normalizacja biochemiczna itp.)

PORÓWNANIA UMIERALNOŚCI - (DWIE KOHORTY) KOHORTA - A 100 CHORYCH CZAS OBSERWACJI = 3 LATA KOHORTA - B 100 CHORYCH 50 zmarło 45 zmarło GRUPA A 100 CHORYCH Ale GRUPA B 100 CHORYCH Zgon w 1 roku: 15 Zgon w 1 roku: 5 Zgon w 2 roku: 20 Zgon w 1 roku: 15 Zgon w 3 roku: 15 Zgon w 3 roku: 25 Ale w obu grupach wystąpiły także zgony z innych powodów niż choroba stanowiąca przedmiot obserwacji Ale w obu grupach utracono z obserwacji część chorych (np. dobrowolna rezygnacja z udziału w badaniu, zmiana miejsca pobytu) ilu utraconych zmarło z powodu choroby X w grupie A, ilu w grupie B? Ale chorzy objęci kompletną obserwacją trzyletnią żyją także (różnie długo) po zakończeniu obserwacji

PORÓWNANIE PROFILU PRZEŻYWALNO YWALNOŚCI Dwie Grupy Terapia A i Terapia B RADIOTERAPIA- SCHEMAT A Tablica przeżywalności kohorty RADIOTERAPIA- SCHEMAT B Tablica przeżywalności kohorty (1) (2) (3) (4) (5) (6) (7) (8) 1 X X X X X X X 2 X X X X X X X 3 X X X X X X X... N X X X X X X X (1) (2) (3) (4) (5) (6) (7) (8) 1 X X X X X X X 2 X X X X X X X 3 X X X X X X X... N X X X X X X X Wykres przeżywalności kohorty Wykres przeżywalności kohorty 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 1 2 3 4 5 6 7 8 9 10 11 12 0 1 2 3 4 5 6 7 8 9 10 11 12 Oczekiwany czas przeżycia kohorty Oczekiwany czas przeżycia kohorty T = 6,1 miesięcy T = 4,6 miesięcy

MODEL PROPORCJONALNYCH RYZYK (proportional hazards model) CZYM dla testów parametrycznych jest założenie liniowości TYM dla testów różnic w zakresie przeżywalności jest założenie proporcjonalnych ryzyk (UPROSZCZONA) KONWENCJA STATYSTYCZNA Przebieg ryzyka, jego natężenie i zmiany w czasie obserwacji [t] dają się opisać matematycznie funkcją ryzyka (t) Gdy porównuje się ryzyko zgonu w dwóch grupach ( Terapia i Kontrola ) wówczas dla grupy kontrolnej (punkt odniesienia) ryzyko opisuje funkcja [ K (t)], a dla grupy terapeutycznej funkcja uwzględniająca badany efekt terapeutyczny [ ], zatem [ * T (t)]. Celem badania jest porównanie ryzyk, co opisuje model proporcjonalnych ryzyk : K (t) = * T (t) gdy efekt terapeutyczny jest żaden (=1) wówczas = 1, i K (t) = T (t) HIPOTEZĘ O RÓWNOŚCI RYZYK W PORÓWNYWANYCH GRUPACH K i T TESTUJE SIĘ PRZY UŻYCIU: TESTU RANG (LOGRANK) proste sytuacje ANALIZY REGRESJI COX A złożone sytuacje

TEST RANG STRATEGIA (B) Podstawowe Dane rzeczywista, obserwowana liczbie zgonów w obu grupach (OT i OK); oczekiwana liczba zgonów w obu grupach (ET i EK). Podstawowy Wynik Testu Rang - Statystyka χ2 χ2 = [(OT ET)2 / ET] + [(OK EK)2 / EK], a po podstawieniu danych z omawianego scenariusza: χ2 = [(5-5,39)2/5,39] + [(8-7,57)2/7,57] = 0,028 + 0,024 = 0,052 Uzyskany wynik w konfrontacji z rozkładem statystyki χ2 dla jednego stopnia swobody (liczba grup 1) nie upoważnia do stwierdzenia, że różnica pomiędzy przeżywalnością w grupie T i K jest statystycznie znamienna. Tym samym można przyjąć, że testowana metoda terapeutyczna nie jest skuteczna, pod warunkiem, że inne przyczyny nie wpłynęły na wyniki badania. PROBLEMY Wniosek, że różnice w przeżywalności nie zależą od terapii jest zasadny, gdy w każdym innym aspekcie istotnym dla przeżywalności porównywane grupy są podobne: Wiek; Płeć; Stadium choroby; Wcześniejsze leczenie; Choroby współistniejące; Itd! kryteria doboru badanych i randomizacja

ANALIZA REGRESJI COX A - I (Cox D.R.: Regression models and life tables. Journal of the Royal Statistical Society 1972;34:187-220) MODEL COX a = PROCEDURA STATYSTYCZNA UMOŻLIWIAJĄCA ZBADANIE ZALEŻNOŚCI CZASU PRZEŻYCIA OD CZYNNIKÓW PODEJRZEWANYCH O WPŁYW NA CZAS PRZEŻYCIA, Z UWZGLĘDNIENIEM OBSERWACJI NIEPEŁNYCH Dane toksykologiczne wykazują, że czas przeżycia dobrze charakteryzuje funkcja wykładnicza: Y = a x przekształcenie modelu proporcjonalnych ryzyk [ K (t) = * T (t)] w model proporcjonalnych przeżyć [S K (t) = S T (t) ] badany efekt (np. skutek terapii) reprezentuje wówczas funkcja wykładnicza a dla wielu zmiennych: Y = a (b 1 *X 1 + b 2 *X 2 +... + b k-1 *X k-1 + b k *X k ) Porównanie dwóch grup (np. terapia A i B) jest porównaniem dwóch profili przeżycia, co umożliwia obliczenie ilorazu ryzyk (RR=risk ratio) RR = ryzyko A / ryzyko B Jest to możliwe ze względu na założenie, że ryzyko wystąpienia zgonu rozkłada się proporcjonalnie w trakcie obserwacji stąd pochodzi ogólna nazwa procedury: model proporcjonalnego ryzyka (proportional-hazards model w terminologii anglosaskiej).

ANALIZA REGRESJI COX A A (MODEL COX a) III Gdy model Cox a dotyczy prostej analizy (tylko jeden czynnik X terapia) wyniki będą tożsame z wynikiem testu rang. Pełne wykorzystanie analizy Cox a i jej zalety są widoczne wówczas, gdy w analizie przeżywalności stosuje się jednoczasowo wiele zmiennych, np.: b 1 *PŁEĆ + b 2 *WIEK + b 3 *STAN + b 4 *TERAPIA Analizy tego typu są możliwe przy użyciu procedur dostępnych w programach komputerowych, np. PROC PHREG w programie SAS. Inne procedury dostarczają szerokiego spektrum testów stosowanych w analizie przeżywalności (PROC LIFETEST, PROC LIFEREG w programie SAS).

ANALIZA PRZEŻYWALNO YWALNOŚCI PODSUMOWANIE I CHARAKTERYSTYKA PROFILU PRZEŻYWALNOŚCI Metoda Kaplan-Meier a Cel: opis profilu * * * PORÓWANIA PROFILI PRZEŻYWALNOŚCI Test rang (logrank test) Cel: ocena różnic pomiędzy profilami * * * IDENTYFIKACJA CZYNNIKÓW WPŁYWAJĄCYCH NA PRZEŻYWALNOŚĆ Analiza Cox a Cel: analiza czynników determinujących profil lub odpowiedzialnych za różnice pomiędzy porównywanymi profilami

ANALIZA WIELU ZMIENNYCH CZTERY PODSTAWOWE TECHNIKI 1. model regresji liniowej (Y jest zmienną ilościową) 2. model regresji logistycznej (Y jest zmienną jakościową) 3. model regresji proporcjonalnego ryzyka (analiza przeżywalności) 4. model regresji Poisson a (analiza zapadalności)

MODEL REGRESJI POISSON A WSPÓŁCZYNNIK REGRESJI POISSON A : b gdy narażenie = tak (X 1 =1) log(wsp. E+ ) = b 0 + b 1 *1 + + b k X k gdy narażenie = nie (X=0) log (wsp. E-) = b 0 + b 1 *0 1 + + b k X k a po rozwiązaniu układu równań b 1 = log(wsp. E+ ) log(wsp. E- ) b 1 = log(wsp. E+ / wsp. E- ) Współczynnik regresji b jest logarytmem ilorazu współczynników, a zatem antylogarytm b, czyli e b1 to iloraz współczynnika u narażonych i nienarażonych!!! (wartość sprawcza danego narażenia po uwzględnieniu innych zmiennych w modelu)

TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część II - czynniki zakłócające - analiza stratyfikacyjna - analiza wielu zmiennych model regresji liniowej model regresji logistycznej model regresja proporcjonalnego ryzyka model regresji Poisson a - specyficzne zastosowania analizy wielu zmiennych

MODEL REGRESJI WIELU ZMIENNYCH 1. Analiza dyskryminacyjna (SAS-DISCRIM) 2. Analiza wyników powtarzanych pomiarów (SAS-GLM/REPEATED) 3. Analiza skupień (SAS-CLUSTER) 4. Analiza ścieżek (SAS-CALIS) 5. - tematyka wykracza poza zakres kursu -