Metody statystyczne w biologii - Wykªad 8 Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t
Plan wykªadu Regresja logistyczna 1. Podstawy teoretyczne i przykªady zastosowania 2. Regresja logistyczna w pakiecie R 3. Testy statystyczne w pakiecie R, Modele liniowe... Wykªad 2 2/35
Podstawy teoretyczne Model logistyczny zmienna zale»na przyjmuje dwie mo»liwe warto±ci 0 lub 1 np. czªowiek ma anemi, b d¹ nie mo»liwo± modelowania prawdopodobie«stwa zdarzenia opisywanego przez zmienn zale»n w zale»no±ci od ró»nych zmiennych niezale»nych (zarówno jako±ciowych jak i ilo±ciowych), Modele liniowe... Wykªad 2 3/35
Podstawy teoretyczne Ogólna posta modelu: Y B(1, p) - rozkªad dwumianowy z prawdopodobie«stwem sukcesu p. Tzn. zmienna Y przyjmuje warto± 1 z prawdopodobie«stwem p i warto± 0 z prawdopodobie«stwem 1 p. p = E(Y X ) = exp(x β) 1 + exp(x β), Modele liniowe... Wykªad 2 4/35
Podstawy teoretyczne Szansa (ang. odds) to funkcja prawdopodobie«stwa. Zamiast wyliczania klasycznego prawdopodobie«stwa, czyli stosunku liczby sukcesów do liczby wszystkich prób, wyliczamy stosunek prawdopodobie«stwa sukcesu do prawdopodobie«stwa pora»ki. Niech o oznacza szans oraz p prawdopodobie«stwo sukcesu. Wtedy: o = p = p, o (0, ) log(o) (, ) 1 p o, p (0, 1) 1 + o, Modele liniowe... Wykªad 2 5/35
Podstawy teoretyczne, Modele liniowe... Wykªad 2 6/35
Podstawy teoretyczne, Modele liniowe... Wykªad 2 7/35
Podstawy teoretyczne Funkcja logistyczna przyjmuje warto±ci od 0 do 1. Model mo»e opisywa warto±ci prawdopodobie«stwa, które s zawsze zawarte mi dzy 0 a 1. Ksztaªt funkcji przypomina rozci gni t liter S. Pokazuje on,»e zmiany funkcji s minimalne, je±li warto±ci zmiennych s mniejsze od pewnej warto±ci progowej. Gdy j przekrocz, wówczas warto± funkcji zaczyna gwaªtownie rosn do 1; prawdopodobie«stwo utrzymuje si na wyj tkowo wysokim poziomie - blisko 1. Poj cie warto±ci progowej jest cz sto u»ywane w badaniach medycznych i epidemiologicznych., Modele liniowe... Wykªad 2 8/35
Podstawy teoretyczne Przykªad: Anemi zdiagnozowano u 80 na 100 pacjentów chorych na raka. o = 0.8 1 0.8 = 0.8 0.2 = 4 Oznacza to,»e prawdopodobie«stwo wyst pienia anemii wsród osób chorych na raka jest cztery razy wi ksze ni» prawdopodobie«stwo niepojawienia si anemii., Modele liniowe... Wykªad 2 9/35
Podstawy teoretyczne Regresja logistyczna wyra»a prawdopodobie«stwo jako szans tzn: P(X ) 1 P(X ) = exp(β 0 + X 1 β 1 +... + X n β n ) Natomiast logarytm szans wynosi: log ( ) P(X ) = β 0 + X 1 β 1 +... + X n β n 1 P(X ), Modele liniowe... Wykªad 2 10/35
Podstawy teoretyczne exp(β j ) > 1 - czynnik opisywany przez zmienn niezale»n X j dziaªa stymuluj co na mo»liwo± wyst pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl dnionych w równaniu exp(β j ) < 1 - czynnik opisywany przez zmienn niezale»n X j dziaªa ograniczaj co na mo»liwo± wyst pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl dnionych w równaniu exp(β j ) = 1 - czynnik opisywany przez zmienn niezale»n X j nie ma wpªywu na wyst pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl dnionych w równaniu, Modele liniowe... Wykªad 2 11/35
Podstawy teoretyczne Iloraz szans (ang. odds ratio) stosuje si w przypadku porównywania dwóch klas obserwacji. Jest to iloraz szans,»e dane zdarzenie zajdzie w pierwszej grupie elementów, oraz»e zajdzie ono równie» w drugiej. Opisane jest wzorem: OR = p 1 1 p 1 1 p 2 p 2 = o 1 o 2 OR > 1 - zaj±cie zdarzenia jest bardziej prawdopodobne w grupie nr 1 OR < 1 - zaj±cie zdarzenia jest bardziej prawdopodobne w grupie nr 2 OR = 1 - zaj±cie zdarzenia jest tak samo prawdopodobne w grupie nr 1 i nr 2, Modele liniowe... Wykªad 2 12/35
Podstawy teoretyczne Przykªad: Anemi zdiagnozowano u 80 na 100 pacjentów chorych na raka oraz u 20 na 100 zdrowych osób zdjagnozowano anemi. o 1 = 0.8 1 0.8 = 0.8 0.2 = 4 i o 2 = 0.2 1 0.2 = 0.2 0.8 = 0.25 OR = o 1 o 2 = 4 0.25 = 16 Oznacza to,»e jest szesnastokrotnie wi ksza szansa wyst pienia anemii u ludzi chorych na raka ni» ludzi zdrowych., Modele liniowe... Wykªad 2 13/35
Podstawy teoretyczne Zaªo»enia: Zale»no± mi dzy logarytmem szans a wektorem zmiennych obja±niaj cych musi by liniowa. Zmienna obja±niana musi by binarna, gdzie poziom zakodowany jako 1 reprezentuje po» dany wynik (sukces). Obserwacje musz by niezale»ne korzystamy z tego wyprowadzaj c posta funkcji wiarygodno±ci. Model musi by dobrze dopasowany, to znaczy zawiera tylko te zmienne obja±niaj ce, które maj wpªyw na zmienn obja±nian, oraz nie pomija»adnej takiej zmiennej. W danych nie mo»e wyst powa silna wspóªliniowo± jest ona ¹ródªem problemów numerycznych., Modele liniowe... Wykªad 2 14/35
Podstawy teoretyczne - Funkcja wiarygodno±ci Zmienna zale»na Y jest binarna i dla pojedynczej obserwacji zachodzi: { 1, z prawdopodobie«stwem p(x1 ) Y i X i = 0, z prawdopodobie«stwem 1 p(x 1 ) St d L(X i, β)=p(y i = 1 X i ) Y i P(Y i = 0 X i ) 1 Y i =p(x i ) Y i [1 p(x i )] 1 Y i, Modele liniowe... Wykªad 2 15/35
Podstawy teoretyczne - Funkcja wiarygodno±ci Zgodnie z zaªo»eniem o niezale»no±ci n zmiennych objasniaj cych mamy L(X 1,..., X n, β) = n p(x i ) Y i [1 p(x i )] 1 Y i i=1 Cz sto funkcj wiarygodno±ci zast puje si jej logarytmem, z uwagi na ªatwiejsz obliczeniowo posta : log(l(x 1,..., X n, β)) = n (Y i logp(x i ) + (1 Y i )log1 p(x i )) i=1, Modele liniowe... Wykªad 2 16/35
Podstawy teoretyczne - Testowanie hipotez Statystyka dewiancji D: D = 2log(funkcja wiarygodno±ci testowanego modelu) Hipotezy badawcze: H 0 : zbiór zmiennych w modelu jest nieistotny H 1 : zbiór zmiennych w modelu jest istotny Statystyka testowa: ( ) f. wiaryg. dla modelu z wyrazem wolnym G = 2log χ 2 n f. wiaryg. testowanego modelu, Modele liniowe... Wykªad 2 17/35
Podstawy teoretyczne - Testowanie hipotez Hipotezy badawcze: H 0 : zmienna X i nie jest istotna (β i = 0) H 1 : zmienna X i jest istotna (β i 0) Statystyka testowa: ( ) f. wiaryg. dla modelu bez zmiennej Xi G = 2log χ 2 1 f. wiaryg. testowanego modelu, Modele liniowe... Wykªad 2 18/35
Podstawy teoretyczne - Testowanie hipotez Hipotezy badawcze: H 0 : zmienna X i nie jest istotna (β i = 0) H 1 : zmienna X i jest istotna (β i 0) Statystyka testowa: W = β i SE( β i ) N (0, 1) Przedziaªy ufno±ci: β i ± SE( β i ) z 1 α 2, Modele liniowe... Wykªad 2 19/35
Podstawy teoretyczne Zmienne obja±niaj ce s wspóªliniowe, gdy s mocno skorelowane ze sob. Efekt ten wyra»any jest poprzez wspóªczynnik VIF i (ang. variance ination factor), który pokazuje, o ile wariancje wspóªczynników s zawy»one z powodu zale»no±ci liniowych w badanym modelu regresji. Obliczamy go ze wzoru: VIF i = 1 1 R 2 i, gdzie R 2 jest wspóªczynnikiem wielokrotnej determinacji dla i-tej i zmiennej w modelu regresji liniowej. Przyjmuje si,»e warto± VIF i > 10 wskazuje na obecno± wspóªliniowo±ci w modelu., Modele liniowe... Wykªad 2 20/35
Przykªad analizy - Pakiet R Zbiór danych skªada si z 488 pacjentek pewnego szpitala poªo»niczego w USA. B dziemy chcieli sprawdzi, czy pewne zmienne, wpªywaj na nisk wag noworodka. Zbiór danyc ma nast pujac struktur kolumn: numer identykacyjny pacjentki numer porodu czy pacjentka paliªa podczas ci»y (0 - Nie, 1 - Tak) rasa (1 - biaªa, 2 - czarna, 3 - inna) wiek matki (w latach), Modele liniowe... Wykªad 2 21/35
Przykªad analizy - Pakiet R waga matki podczas ostatniej miesi czki (w funtach, 1 funt = 0.45kg) waga dziecka po porodzie (w gramach) czy waga dziecka byªa za niska (0 - Nie, 1 - Tak (< 2500g)) http://www.umass.edu/statdata/statdata/stat-logistic.html, Modele liniowe... Wykªad 2 22/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 23/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 24/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 25/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 26/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 27/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 28/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 29/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 30/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 31/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 32/35
Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 33/35
Dzi kuj za uwag, Modele liniowe... Wykªad 2 34/35
Bibliograa Joanna Giemza i Katarzyna Zwierzchowska Wprowadzenie do modelu regresji logistycznej wraz z przykªadem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki'- praca magisterska na Uniwersytecie Warszawskim Wydziaª Matematyki, Informatyki i Mechaniki, Modele liniowe... Wykªad 2 35/35