Regresja Analiza wariancji Regresja logistyczna. Regresja, Anova. Stanisław Jaworski. UM Zakład Profilaktyki...

Transkrypt

1 UM Zakład Profilaktyki...

2 Model regresji prostoliniowej Model regresji wielokrotnej Przykład W pewnej klinice badano związek między aktywnością enzymów aminotransferazy a stężeniem amoniaku we krwi u chorych z ostrą niewydolnością wątroby. Pobrano losową próbę 10 pacjentów i otrzymano następujące wyniki: aktywność stężenie Pytania 1. Czy stężenie amoniaku we krwi można rozpoznać po poziomie aktywności enzymów? 2. Czy w przypadku istnienia takiej zależności, można ją przedstawić w zwartej formie, za pomocą funkcji?

3 Model regresji prostoliniowej Model regresji wielokrotnej danych > aktywność< c(430,470,520,570,630,690,740,770,800,780) > stężenie< c(31,33,36,39,42,47,51,54,55,57) Utworzenie wykresu > plot(aktywność,stężenie,pch=19,col= red ) Punkty na wykresie są wypełnione: pch=19. Punkty są koloru czerwonego: col= red.

4 Model regresji prostoliniowej Model regresji wielokrotnej Ocena wykresu daje pewne podstawy do przyjęcia następującej zależności: y i = β 0 + β 1 x i + e i, i = 1, 2,..., n, gdzie y i stężenie amoniaku we krwi i tego pacjenta x i aktywność enzymu w organiźmie i tego pacjenta e i błąd dopasowania

5 Model regresji prostoliniowej Model regresji wielokrotnej Metoda najmniejszych kwadratów Parametry β 0 oraz β 1 dobieramy tak, aby średniokwadratowy błąd dopasowania, mianowicie i e2 i = i (y i β 0 β 1 x i ) 2, był minimalny. W ten sposób dobrane parametry oznaczamy przez ˆβ 0 oraz ˆβ 1. Wyrażają się one wzorami i ˆβ 1 = (x i x)(y i ȳ) i (x i x i ) 2, ˆβ0 = ȳ ˆβ 1 x Wówczas gdzie (y i ˆβ 0 ˆβ 1 x i ) 2 = (1 r 2 ) i i r = i (x i x)(y i ȳ) i (y i ȳ i ) 2 i (x i x) 2 (y i ȳ) 2,

6 Model regresji prostoliniowej Model regresji wielokrotnej Współczynnik r jest miernikiem zależności liniowej.

7 Model regresji prostoliniowej Model regresji wielokrotnej Pytania 1. Czy stężenie amoniaku we krwi można rozpoznawać po aktywności enzymów? 2. W jaki sposób wyznaczyć ewentualną zależność liniową między stężeniem amoniaku a aktywnością enzymów? W jaki sposób sprawdzić wiarygodność tej zależności? Aby odpowiedzieć na postawione pytania, musimy przyjąć model statystyczny, który pozwoli nam na uogólnienie wniosków z próby 10 pacjentów na całą populację pacjentów.

8 Model Regresja Model regresji prostoliniowej Model regresji wielokrotnej Przyjmujemy następujący model: Y i = β 0 + β 1 x i + ε i, i = 1, 2,..., n, gdzie ε i, i = 1, 2,..., n, są niezależnymi zmiennymi losowymi o tym samym rozkładzie N(0, σ 2 ). Uwagi Y 1, Y 2,..., Y n, są zmiennymi losowymi, a y 1, y 2,..., y n są ich realizacjami. Model dotyczy rozkładu warunkowego Y X = x.

9 Model Regresja Model regresji prostoliniowej Model regresji wielokrotnej Przyjmujemy następujący model: Y i = β 0 + β 1 x i + ε i, i = 1, 2,..., n, gdzie ε i, i = 1, 2,..., n, są niezależnymi zmiennymi losowymi o tym samym rozkładzie N(0, σ 2 ). Uwagi Y 1, Y 2,..., Y n, są zmiennymi losowymi, a y 1, y 2,..., y n są ich realizacjami. Model dotyczy rozkładu warunkowego Y X = x.

10 Model regresji prostoliniowej Model regresji wielokrotnej Cztery hipotetyczne realizacje doświadczenia według modelu. Takich realizacji jest nieskończenie wiele. Wśród nich znajduje się rzeczywiste doświadczenie.

11 Estymacja Regresja Model regresji prostoliniowej Model regresji wielokrotnej ˆβ 0, ˆβ 1 są oszacowaniami punktowymi parametrów β 0 oraz β 1. Oszacowania przedziałowe dla β 0 oraz β 1 są postaci β 1 ( ˆβ 1 t(α; n 2)S β1, ˆβ 1 + t(α; n 2)S β1 ) β 0 ( ˆβ 0 t(α; n 2)S β0, ˆβ 0 + t(α; n 2)S β0 ) gdzie S 2 β 1 = S 2 varx, S 2 β 0 = S 2 varx ( varx n + x 2) S 2 = vary ˆβ 1 cov(x, y) n 2 = vary(1 r 2 ) n 2

12 Estymacja Regresja Model regresji prostoliniowej Model regresji wielokrotnej ˆβ 0, ˆβ 1 są oszacowaniami punktowymi parametrów β 0 oraz β 1. Oszacowania przedziałowe dla β 0 oraz β 1 są postaci β 1 ( ˆβ 1 t(α; n 2)S β1, ˆβ 1 + t(α; n 2)S β1 ) β 0 ( ˆβ 0 t(α; n 2)S β0, ˆβ 0 + t(α; n 2)S β0 ) gdzie S 2 β 1 = S 2 varx, S 2 β 0 = S 2 varx ( varx n + x 2) S 2 = vary ˆβ 1 cov(x, y) n 2 = vary(1 r 2 ) n 2

13 Weryfikacja hipotez Regresja Model regresji prostoliniowej Model regresji wielokrotnej H 0 : β 1 = 0 H 1 : β 1 0 Statystyka testowa F emp = ˆβ 1 2 Sβ 2 = ˆβ 1 cov(x, y) 1 S 2 Hipotezę odrzucamy, jeżeli F emp > F (α; 1, n 2). F (α; 1, n 2) jest wartością krytyczną rozkładu F.

14 Weryfikacja hipotez Regresja Model regresji prostoliniowej Model regresji wielokrotnej H 0 : β 1 = a H 1 : β 1 a Statystyka testowa t emp = ˆβ 1 a S β1 Hipotezę odrzucamy, jeżeli t emp > t(α; n 2). t(α; n 2) jest wartością krytyczną rozkładu t Studenta.

15 Model regresji prostoliniowej Model regresji wielokrotnej Obliczenia w R dla podanego przykładu

16 Model regresji prostoliniowej Model regresji wielokrotnej Obliczenia w R dla podanego przykładu Zgodnie z oznaczeniami oraz obliczeniami w R mamy: r 2 = , F emp = 452.5, t emp = (przy a = 0) Przedział ufności dla β 1 (na poziomie ufności 0.95): ( , ) Przedział ufności dla β 0 (na poziomie ufności 0.95): ( , )

17 Model regresji prostoliniowej Model regresji wielokrotnej Obszar ufności dla prostej regresji. Obszar predykcji

18 Obszar ufności dla prostej regresji Model regresji prostoliniowej Model regresji wielokrotnej Obszar ufności dla prostej regresji umożliwia nam wnioskowanie o wartościach średnich zmiennej Y jednocześnie dla wielu wybranych wartości zmiennej X. gdzie f (x) (ˆf (x) t(α; n 2)S Y ; ˆf (x) + t(α; n 2)S Y ) ˆf (x) = ˆβ 0 + ˆβ 1 x S 2 Y = S 2 ( 1 n + (x x)2 varx )

19 Obszar predykcji Regresja Model regresji prostoliniowej Model regresji wielokrotnej Obszar predykcji umożliwia nam wnioskowanie o wartościach zmiennej Y jednocześnie dla wielu wybranych wartości zmiennej X. Y (x) (ˆf (x) t(α; n 2)S Y (x) ; ˆf (x) + t(α; n 2)S Y (x) ) gdzie Y (x) oznacza wartość zmiennej Y dla wybranej wartości x zmiennej X oraz ( SY 2 (x) = S ) (x x)2 + n varx

20 Model regresji prostoliniowej Model regresji wielokrotnej Obliczenia w R dla podanego przykładu Zgodnie z oznaczeniami oraz obliczeniami w R mamy (na poziomie ufności 0.95): Przedział ufności dla f (635): ( , ) Przedział ufności dla Y (635): ( , )

21 Model Regresja Model regresji prostoliniowej Model regresji wielokrotnej Przyjmujemy następujący model: Y i = β 0 + β 1 x 1i β p x pi + ε i, i = 1, 2,..., n, gdzie ε i, i = 1, 2,..., n, są niezależnymi zmiennymi losowymi o tym samym rozkładzie N(0, σ 2 ). Uwagi Y 1, Y 2,..., Y n, są zmiennymi losowymi, a y 1, y 2,..., y n są ich realizacjami. Model dotyczy rozkładu warunkowego Y X = x.

22 Model Regresja Model regresji prostoliniowej Model regresji wielokrotnej Przyjmujemy następujący model: Y i = β 0 + β 1 x 1i β p x pi + ε i, i = 1, 2,..., n, gdzie ε i, i = 1, 2,..., n, są niezależnymi zmiennymi losowymi o tym samym rozkładzie N(0, σ 2 ). Uwagi Y 1, Y 2,..., Y n, są zmiennymi losowymi, a y 1, y 2,..., y n są ich realizacjami. Model dotyczy rozkładu warunkowego Y X = x.

23 Przykład Regresja Model regresji prostoliniowej Model regresji wielokrotnej Y (Poziom) liczba urodzin w przeliczeniu na 1000 osób X 1 (Status) status socjoekonomiczny (wypadkowa poziomu wykształcenia, oczekiwań życiowych, śmiertelności niemowląt, frakcji kobiet w wieku zatrudnionych poza rolnictwem, produktu krajowego brutto, frakcji populacji żyjącej w miastach) par X 2 (Planowanie) indeks planowania rodziny (odzwierciedla poziom zaangażowania państwa w planowanie struktury rodziny)

24 Model regresji prostoliniowej Model regresji wielokrotnej Kraj Status Planowanie Poziom Boliwia Brazylia Chile Kolumbia Kostaryka Kuba Dominikana Ekwador Salwador Gwatemala Haiti Honduras Jamajka Meksyk Nikaragua Panama Paragwaj Peru Trynidad i Tobago Wenezuela 91 7 Regresja, 11Anova

25 Model regresji prostoliniowej Model regresji wielokrotnej Przypuśćmy, że mamy dane wprowdzone do R pod zmienną dane: Chcemy za pomocą metody najmniejszych kwadratów oszacować współczynniki funkcji regresji. Przyjmujemy model regresji: gdzie i = 1,..., 20. Poziom i = β 0 + β 1 Status i + β 2 Planowanie i + ε i

26 Model regresji prostoliniowej Model regresji wielokrotnej Obliczenia w R dla podanego przykładu

27 Model regresji prostoliniowej Model regresji wielokrotnej Oszacowane współczynniki: ˆβ 0 = , ˆβ1 = , ˆβ2 = Zanim przejdziemy do zinterpretowania tych współczynników, należy sprawdzić, czy różnią się istotnie od zera. W pierwszej kolejności należy zweryfikować hipotezę H 0 : β 1 = β 2 = 0 Oznacza ona, że Status oraz Planowanie nie wyjaśniają różnic w Poziomie urodzeń w poszczególnych krajach. Do weryfikacji tej hipotezy stosujemy test F. Wartość tej statystyki wynosi F emp = Hipotezę odrzucamy (na poziomie istotności α), jeżeli F emp > F (α, p, n p 1). F (0.05, 2, 17) =

28 Model regresji prostoliniowej Model regresji wielokrotnej Ponieważ F emp = > F (0.05, 2, 17) (równoważnie p value = 1.132e 05 = < α = 0.05 ), hipotezę odrzucamy. Wniosek jest taki, że przynajmniej jedna cecha objaśniająca (Status, Planowanie) wyjaśnia poziom urodzeń w poszczególnych krajach. Następnym krokiem jest weryfikacja hipotez cząstkowych. Postać i tej hipotezy cząskowej jest następująca: H 0 : β i = 0 Na poziomie istotności α = 0.05 weryfikujemy tę hipotezę za pomocą testu t-studenta. Statystyka testowa ma postać: t emp = ˆβ i /S βi Jeżeli t emp > t(α, n p 1), to hipotezę odrzucamy.

29 Model regresji prostoliniowej Model regresji wielokrotnej W podanym przykładzie możemy na przykład zweryfikować hipotezę H 0 : β 1 = 0 mówiącą, że poziom urodzeń nie zależy od statusu socjoekonomicznego. Statystyka testowa dla tej hipotezy wynosi t emp = / = 2.507, a wartość krytyczna t(0.05, 17) = Hipotezę zatem odrzucamy na poziomie istotności 0.05.

30 Model regresji prostoliniowej Model regresji wielokrotnej Podobnie odrzucamy hipotezę H 0 : β 2 = 0 Wniosek końcowy jest taki, że za pomocą cech Status oraz Planowanie możemy lepiej wyjaśnić zmienność liczby urodzeń w badanych krajach, niż byśmy mogli to zrobić bez tych cech. Pewnym miernikiem dopasowania modelu do danych jest współczynik korelacji wielokrotnej R, który jest liczbą z przedziału (0, 1). W naszym przykładzie R 2 = Możemy teraz zinterpretować współczynniki funkcji regresji. Oszacowanie tej funkcji ma postać: Poziom = ˆβ 0 + ˆβ 1 Status + ˆβ 2 Planowanie

31 Model regresji prostoliniowej Model regresji wielokrotnej Poziom = Status Planowanie

32 Model regresji prostoliniowej Model regresji wielokrotnej Weryfikacja modelu za pomocą analizy reszt qqnorm(model$res,xlab= Kwantyle teoretyczne,ylab= Kwantyle empiryczne,main= Normalny wykres prawdopodobieństwa ) qqline(model$res)

33 Model regresji prostoliniowej Model regresji wielokrotnej plot(model$fitted.values,model$res,xlab= Wartości funkcji regresji,ylab= Reszty,col= red,pch=19) abline(h=0) qqline(model$res)

34 Model regresji prostoliniowej Model regresji wielokrotnej

35 Jednoczynnikowa analiza wariancji Testy analizy wariancji są podstawowym narzędziem statystyki eksperymentalnej. Służą do sprawdzenia, czy czynniki, których poziomy możemy z góry ustalić przed wykonaniem eksperymentu, wywierają istotny wpływ na kształtowanie średniej wartości badanej cechy mierzalnej. Czynniki te nazywamy esperymentalnymi. Badanym obietom (jednostkom eksperymentalnym) poziomy tych czynników przydzielane są losowo. Są czynniki, których poziomów nie możemy przydzielić losowo do obiektów, ponieważ stanowią ich integralną charakterystykę. Nazywamy je czynnikami klasyfikującymi. Poziomy każdego czynnika mogą być ustalone. Mówimy wtedy stałych czynnikach lub efektach. Poziomy czynnika mogą też być wylosowane z populacjii wszystkich możliwych poziomów. Wtedy są to czynniki losowe

40 Przykład Regresja Jednoczynnikowa analiza wariancji Mamy trzy ośrodki szkolenia. W każdym ośrodku przeprowadzamy dwa rodzaje szkolenia. Rodzaj szkolenia przydzielany jest losowo do każdego uczestnika programu (eksperymentu). Mamy zatem dwa czynniki: rodzaj szkolenia oraz ośrodek szkolenia. Jeżeli ten sam rodzaj szkolenia jest lepszy w każdym ośrodku, wniosek nasuwa się sam, ponieważ rodzaj szkolenia przydzielony został losowo do każdego uczestnika. W przypadku wykrycia różnic między ośrodkami, wniosek nie jest już tak oczywisty. Nie wiemy, czy uczestnicy programu są lepiej szkoleni w danym ośrodku, ponieważ jest on lepiej wyposażony, posiada lepszych wykładowców, uczestnicy są lepiej przygotowani, (czynnik edukacji możnaby wyeliminować poprzez rozlosowanie uczestników do ośrodków) Rodzaj szkolenia jest czynnikiem eksperymentalnym, a ośrodek szkolenia klasyfikującym.

47 Jednoczynnikowa analiza wariancji Jednoczynnikowa analiza wariancji Założenia 1. Na każdym poziomie czynnika rozkład prawdopodobieństwa badanej cechy mierzalnej a) jest normalny b) ma tę samą wariancję 2. Obserwacje są niezależne Cel 1. Zweryfikować, czy średnia wartość badanej cechy zależy od czynnika 2. Jeżeli średnia zależy od czynnika, zbadać w jaki sposób i jakie są tego konsekwencje

48 Jednoczynnikowa analiza wariancji Jednoczynnikowa analiza wariancji Założenia 1. Na każdym poziomie czynnika rozkład prawdopodobieństwa badanej cechy mierzalnej a) jest normalny b) ma tę samą wariancję 2. Obserwacje są niezależne Cel 1. Zweryfikować, czy średnia wartość badanej cechy zależy od czynnika 2. Jeżeli średnia zależy od czynnika, zbadać w jaki sposób i jakie są tego konsekwencje

49 Jednoczynnikowa analiza wariancji Jednoczynnikowa analiza wariancji Model Y ij = µ i + ε ij gdzie i jest indeksem określający poziom czynnika (i = 1,..., k; k liczba poziomów czynnika) j jest indeksem określającym numer powtórzenia obserwacji przy ustalonym poziomie czynnika (j = 1,..., n i; n i-liczba powtórzeń przy i tym poziomie czynnika) Y ij jest zmienną losową; przy i-tym poziomie czynnika oznacza j-tą wartość obserwowanej cechy µ i jest wartością oczekiwaną zmiennej Y ij; oznacza średnią wartość obserwowanej cechy przy i-tym poziomie czynnika ε ij jest zmienną losową o rozkładzie N(0, σ 2 ). O zmiennych losowych ε ij, i = 1,..., k, j = 1,..., n i, zakładamy, że są niezależne

55 Jednoczynnikowa analiza wariancji Zatem Y ij N(µ i, σ 2 ), i = 1,..., k, j = 1,..., n i, są niezależnymi zmiennymi losowymi Porównanie wartości średnich Test F (poziom istotności α) Statystyka testowa H 0 : µ 1 =... = µ k F emp = S 2 a S 2 e Jeżeli F emp > F (α; k 1, N k), to hipotezę H 0 : µ 1 = = µ k odrzucamy. Wniosek praktyczny: przynajmniej jedna ze średnich µ 1,..., µ k jest inna od pozostałych

56 Jednoczynnikowa analiza wariancji Podział całkowitej sumy kwadratów Y ij Ȳ.. }{{} zmienność całkowita = Ȳi. }{{ Ȳ.. + Y } ij }{{ Ȳi. } zmienność zmienność średnich wokół średniej (Y ij Ȳ.. ) 2 = n i (Ȳ i. Ȳ.. ) 2 i j i }{{}}{{} SST SSTR SST całkowita suma kwadratów SSTR suma kwadratów dla czynnika SSE suma kwadratów reszt + i S 2 a = SSTR/(k 1), S 2 e = SSE/(N k), N = i n i (Y ij Ȳ i. ) 2 j } {{ } SSE

57 Jednoczynnikowa analiza wariancji Grupy jednorodne podzbiory średnich, które można uznać za takie same Procedury porównań wielokrotnych postępowanie statystyczne zmierzające do podzielenia zbioru średnich na grupy jednorodne Procedury: Tukeya, Scheffégo, Bonfferroniego, Duncana, Newmana Kuelsa i inne. Ogólna idea procedur porównań wielokrotnych (n 1 = = n k ) NIR najmniejsza istotna różnica Jeżeli Ȳ i Ȳ j < NIR, to uznajemy, że µ i = µ j. Jeżeli Ȳi Ȳj < NIR Ȳ i Ȳ l < NIR Ȳ l Ȳ j < NIR, to uznajemy, że µ i = µ j = µ l. Badając w ten sposób wszystkie pary średnich próbkowych otrzymujemy podział zbioru średnich na grupy jednorodne.

58 Jednoczynnikowa analiza wariancji Procedura Tukeya Założenie: n 1 = = n k = n NIR = t(α; k, N k)s e 1 n t(α; k, N k) wartość krytyczna studentyzowanego rozstępu Przypadek nierównolicznych prób Jedna z modyfikacji procedury Tukeya ( 1 1 NIR ij = t(α; k, N k)s e + 1 ) 2 n i n j

59 Regresja Przykład: badania prospektywne Przykład: badania retrospektywne Rozważmy dwuwartościową zmienną: 1 choroba wystąpiła, 0 choroba nie wystąpiła. Oznaczmy ją przez D (na przykład: choroba wieńcowa). Przedmiotem zainteresowania jest dwuwartościowa zmienna, któr określa grupę ryzyka: 1 jest w grupie ryzyka, 0 nie ma w grupie ryzyka. Oznaczmy ją przez E (na przykład: palenie papierosów). Zauważmy, że aby zbadać związek grupy ryzyka (palaczy) z chorobą (chorobą wieńcową), często musimy brać pod uwagę dodatkowe charakterystyki takie, jak wiek C 1, rasa C 2 czy płeć C 3. Te charakterystyki nie interesują nas w sposób bezpośredni. Są to tak zwane zmienne kontrolne. Zmienną E (ekspozycja) razem ze zmiennymi kontrolnymi C 1, C 2, C 3 nazywamy zmiennymi NIEZALEŻNYMI, a zmienną D nazywamy zmienną ZALEŻNĄ. (E, C 1, C 2, C 3 ) D }{{} niezależne

63 Funkcja logistyczna f (z) = 1 1+e z Przykład: badania prospektywne Przykład: badania retrospektywne Ryzyko wystąpienia choroby chcemy wyrazić za pomocą prawdopodobieństwa. Prawdopodobieństwo jest wartością z przedziału (0,1). W naszym przypadku chcemy uzależnić je od zmiennych niezależnych. Argument z reprezentuje mi zmienne niezależne, a f (z) ryzyko wystąpienia choroby.

64 Model Regresja Przykład: badania prospektywne Przykład: badania retrospektywne Podstawiamy Otrzymujemy z = β 0 + β 1 C 1 + β 2 C 2 + β 3 C 3 + β 4 E P(D = 1 C 1, C 2, C 3, E) = e (β0+β1c1+β2c2+β3c3+β4e)

65 Przykład 1 Regresja Przykład: badania prospektywne Przykład: badania retrospektywne D = wystąpienie choroby wieńcowej (0 lub 1) E = poziom katecholamin (0 - niski, 1 - wysoki) C 1 = wiek (ciągła) C 2 = wynik elektrokardiogramu (0 - w normie, 1 - poza normą) n = 609 liczba badanych kobiet Czas obserwacji = 9 lat (E, C 1, C 2 ) D Czas: T 0 T 1 Wynik estymacji (z = β 0 + β 1 C 1 + β 2 C 2 + β 3 E): ˆβ 0 = 3.911, ˆβ1 = 0.029, ˆβ2 = 0.342, ˆβ3 = 0.652

66 Przykład, cd Regresja Przykład: badania prospektywne Przykład: badania retrospektywne Chcemy wykorzystać wyniki estymacji w celu oszacowania ryzyka wystąpienia choroby wieńcowej u osób: a) o wysokim poziomie katecholamin w wieku 40 lat, których elektrokardiogram nie wykazał odstępstw od normy E = 1, C 1 = 40, C 2 = 0 b) o niskim poziomie katecholamin w wieku 40 lat, których elektrokardiogram nie wykazał odstępstw od normy E = 0, C 1 = 40, C 2 = 0

67 Przykład, cd Regresja Przykład: badania prospektywne Przykład: badania retrospektywne ad a) 1 ˆP(D = 1 C 1 = 40, C 2 = 0, E = 1) = 1 + e ( (40) (0) (1)) = ad b) 1 ˆP(D = 1 C 1 = 40, C 2 = 0, E = 0) = 1 + e ( (40) (0) (0)) = RR = ˆP(D = 1 C 1 = 40, C 2 = 0, E = 1) ˆP(D = 1 C 1 = 40, C 2 = 0, E = 0) = 1.82

68 Przykład 2 Regresja Przykład: badania prospektywne Przykład: badania retrospektywne W badaniach retrospektywnych nad przypuszczalnym znaczeniem grupy krwi w chorobie wrzodowej układu pokarmowego zebrano dane: Choroba wrzodowa Grupa kontrolna Grupa O Grupa A Grupa O Grupa A Londyn Manchester Newcastle Celem badań jest sprawdzenie, czy ryzyko choroby wrzodowej zależy od grupy krwi. Zatem za zmienną zależną powinniśmy przyjąć występowanie choroby wrzodowej, a za niezależną grupę krwi. Oznacza to, że zbierając dane, powinniśmy wylosować osoby z każdą grupą krwi, a następnie po ustalonym czasie zliczyć osoby z chorobą i bez choroby wrzodowej: ( ) Miasto, Grupa krwi Choroba Czas: T 0 T 1

69 Przykład, cd. Regresja Przykład: badania prospektywne Przykład: badania retrospektywne Poręczniej jest zebrać dane odwrotnie: ( ) Choroba Miasto, Grupa krwi najpierw wybieramy osoby spośród chorych oraz zdrowych, a następnie zliczamy osoby z grupą krwi O oraz A. Jeżeli nie kontrolujemy, miejsca zamieszkania osoby, zmienna Miasto ma charakter losowy i mamy powyższy schemat. Przy wyborze osób z konkretnych miast mamy schemat: Miasto, Choroba Grupa krwi (!) Nie możemy oszacować w sposób bezpośredni ryzyka choroby wrzodowej, ponieważ liczba chorych w stosunku do zdrowych jest z góry ustalona i nie odzwierciedla rozkładu liczby chorych osób w populacji osób chorych i zdrowych. Zatem nie możemy bezpośrednio oszacowć prawdopodobieństwa. P(Choroba Grupa krwi, Miasto)

70 Przykład, cd. Regresja Przykład: badania prospektywne Przykład: badania retrospektywne Możemy za to oszacować P(Grupa krwi Choroba, Miasto), Przyjmijmy Nazwa cechy Grupa krwi Choroba Miasto Przyjmowane wartości A, O Tak, Nie Londyn, Manchester, Newcastle Przykłady zapisu: P(A Tak, Londyn), P(O Tak, Londyn), P(A Nie, Newcastle)

71 Przykład: badania prospektywne Przykład: badania retrospektywne Przyjmujemy model P(A Choroba, Miasto) = e z z = β 0 + β 1 L(Choroba = Tak) + β 2 L(Miasto = Manchester) + + β 3 L(Miasto = Newcastle) Przykłady L(PRAWDA) = 1 = 1 L(FAŁSZ) 1 P(A Tak, Londyn) = 1 + e (β0+β1) 1 P(A Nie, Manchester) = 1 + e (β0+β2) P(O Tak, Londyn) = 1 P(A Tak, Londyn) = e (β0+β1)

72 Przykład: badania prospektywne Przykład: badania retrospektywne Obliczenia w R:

73 Przykład: badania prospektywne Przykład: badania retrospektywne Obliczenia w R: ˆβ 0 = , ˆβ1 = , ˆβ2 = , ˆβ3 =

74 Przykład: badania prospektywne Przykład: badania retrospektywne Znaczenie oszacowanych parametrów. Można pokazać, że (dla każdego Miasta) ( / ) P(A Tak, Miasto) P(A Nie, Miasto) ln P(O Tak, Miasto) P(O Nie, Miasto) = β 1 Zatem mamy następujący iloraz szans: / P(A Tak, Miasto) P(A Nie, Miasto) OR = P(O Tak, Miasto) P(O Nie, Miasto) = eβ1

75 Przykład: badania prospektywne Przykład: badania retrospektywne Można pokazać: OR = = = / P(A Tak, Miasto) P(A Nie, Miasto) P(O Tak, Miasto) P(O Nie, Miasto) = / P(Tak A, Miasto) P(Nie A, Miasto) P(Tak O, Miasto) P(Nie O, Miasto) = / P(Tak A, Miasto) P(Tak O, Miasto) P(Nie A, Miasto) P(Nie O, Miasto) Oznacza to, że iloraz szans w badaniu retrospektywnym jest identyczny z ilorazem szans w badaniu prospektywnym. Przyjmując RR = P(Tak A, Miasto) P(Tak O, Miasto) oraz P(Nie A, Miasto) P(Nie O, Miasto) 1 otrzymujemy RR OR

76 Przykład: badania prospektywne Przykład: badania retrospektywne Otrzymane przybliżenia jest realne, jeżeli procentowo jest bardzo mało ludzi chorych na wrzody układu pokarmowego. Obliczenia: e ˆβ 1 = e Wnioski: 1. Ryzyko choroby wrzodowej jest większe u osób z grupą krwi O. 2. Ryzyko choroby wrzodowej u osoby z grupą A jest o ok. 30% mniejsze niż u osoby z grupą O.