Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Podobne dokumenty
Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Podstawy statystycznego modelowania danych - Wykªad 7

Pakiety statystyczne - Wykªad 8

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wykªad 6: Model logitowy

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Ekonometria - wykªad 8

Podstawy statystycznego modelowania danych Analiza prze»ycia

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria Bayesowska

Modele wielorównaniowe. Problem identykacji

Ekonometria Bayesowska

Ekonometria - wykªad 1

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Informatyka w selekcji - Wykªad 1

Matematyka z elementami statystyki

Ekonometria. wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Modele wielorównaniowe. Estymacja parametrów

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH

Pakiety statystyczne Wykªad 14

Statystyka matematyczna - ZSTA LMO

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Uogólniony model liniowy

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Biostatystyka, # 5 /Weterynaria I/

In»ynierskie zastosowania statystyki wiczenia

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Metody probablistyczne i statystyka stosowana

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

Wykªad 1+2: Klasyczny model regresji liniowej. Podstawy R

Efekty przestrzenne w konwergencji polskich podregionów

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Quick Launch Manual:

1 Bª dy i arytmetyka zmiennopozycyjna

Ekonometria. wiczenia 5 i 6 Modelowanie szeregów czasowych. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria Bayesowska

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Prawdopodobie«stwo warunkowe, twierdzenie Bayesa, niezale»no± zdarze«.

Biostatystyka, # 4 /Weterynaria I/

STATYSTYKA MATEMATYCZNA

Elementarna statystyka

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Elementy statystyki STA - Wykład 5

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Rozwini cia asymptotyczne dla mocy testów przybli»onych

Podstawy modelowania w j zyku UML

Egzamin z ekonometrii - wersja ogólna

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

Testowanie hipotez statystycznych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Ekonometria. wiczenia 7 Modele nieliniowe. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Lab. 02: Algorytm Schrage

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Indeksowane rodziny zbiorów

Analiza danych ilościowych i jakościowych

Podstawy statystycznego modelowania danych Analiza prze»ycia. Tomasz Suchocki

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Proste modele o zªo»onej dynamice

Interpolacja Lagrange'a, bazy wielomianów

MODELE LINIOWE i MIESZANE

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

Regresja liniowa wprowadzenie

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

Ekonometria Bayesowska

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Wykład 8 Dane kategoryczne

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Ekonometria Przestrzenna

ZADANIA. Maciej Zakarczemny

Planowanie do±wiadcze«

Elementarna statystyka Test Istotno±ci (Tests of Signicance)

Metody numeryczne i statystyka dla in»ynierów

Wprowadzenie do analizy korelacji i regresji

Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Metodydowodzenia twierdzeń

Fraktale i ich zastosowanie

Metody dowodzenia twierdze«

Rachunek ró»niczkowy funkcji jednej zmiennej

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

STATYSTYKA MATEMATYCZNA

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

PROBABILISTYKA I STATYSTYKA - Zadania do oddania

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

1 0 Je»eli wybierzemy baz A = ((1, 1), (2, 1)) to M(f) A A =. 0 2 Daje to znacznie lepszy opis endomorzmu f.

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Statystyka matematyczna

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Wektory w przestrzeni

Transkrypt:

Metody statystyczne w biologii - Wykªad 8 Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Plan wykªadu Regresja logistyczna 1. Podstawy teoretyczne i przykªady zastosowania 2. Regresja logistyczna w pakiecie R 3. Testy statystyczne w pakiecie R, Modele liniowe... Wykªad 2 2/35

Podstawy teoretyczne Model logistyczny zmienna zale»na przyjmuje dwie mo»liwe warto±ci 0 lub 1 np. czªowiek ma anemi, b d¹ nie mo»liwo± modelowania prawdopodobie«stwa zdarzenia opisywanego przez zmienn zale»n w zale»no±ci od ró»nych zmiennych niezale»nych (zarówno jako±ciowych jak i ilo±ciowych), Modele liniowe... Wykªad 2 3/35

Podstawy teoretyczne Ogólna posta modelu: Y B(1, p) - rozkªad dwumianowy z prawdopodobie«stwem sukcesu p. Tzn. zmienna Y przyjmuje warto± 1 z prawdopodobie«stwem p i warto± 0 z prawdopodobie«stwem 1 p. p = E(Y X ) = exp(x β) 1 + exp(x β), Modele liniowe... Wykªad 2 4/35

Podstawy teoretyczne Szansa (ang. odds) to funkcja prawdopodobie«stwa. Zamiast wyliczania klasycznego prawdopodobie«stwa, czyli stosunku liczby sukcesów do liczby wszystkich prób, wyliczamy stosunek prawdopodobie«stwa sukcesu do prawdopodobie«stwa pora»ki. Niech o oznacza szans oraz p prawdopodobie«stwo sukcesu. Wtedy: o = p = p, o (0, ) log(o) (, ) 1 p o, p (0, 1) 1 + o, Modele liniowe... Wykªad 2 5/35

Podstawy teoretyczne, Modele liniowe... Wykªad 2 6/35

Podstawy teoretyczne, Modele liniowe... Wykªad 2 7/35

Podstawy teoretyczne Funkcja logistyczna przyjmuje warto±ci od 0 do 1. Model mo»e opisywa warto±ci prawdopodobie«stwa, które s zawsze zawarte mi dzy 0 a 1. Ksztaªt funkcji przypomina rozci gni t liter S. Pokazuje on,»e zmiany funkcji s minimalne, je±li warto±ci zmiennych s mniejsze od pewnej warto±ci progowej. Gdy j przekrocz, wówczas warto± funkcji zaczyna gwaªtownie rosn do 1; prawdopodobie«stwo utrzymuje si na wyj tkowo wysokim poziomie - blisko 1. Poj cie warto±ci progowej jest cz sto u»ywane w badaniach medycznych i epidemiologicznych., Modele liniowe... Wykªad 2 8/35

Podstawy teoretyczne Przykªad: Anemi zdiagnozowano u 80 na 100 pacjentów chorych na raka. o = 0.8 1 0.8 = 0.8 0.2 = 4 Oznacza to,»e prawdopodobie«stwo wyst pienia anemii wsród osób chorych na raka jest cztery razy wi ksze ni» prawdopodobie«stwo niepojawienia si anemii., Modele liniowe... Wykªad 2 9/35

Podstawy teoretyczne Regresja logistyczna wyra»a prawdopodobie«stwo jako szans tzn: P(X ) 1 P(X ) = exp(β 0 + X 1 β 1 +... + X n β n ) Natomiast logarytm szans wynosi: log ( ) P(X ) = β 0 + X 1 β 1 +... + X n β n 1 P(X ), Modele liniowe... Wykªad 2 10/35

Podstawy teoretyczne exp(β j ) > 1 - czynnik opisywany przez zmienn niezale»n X j dziaªa stymuluj co na mo»liwo± wyst pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl dnionych w równaniu exp(β j ) < 1 - czynnik opisywany przez zmienn niezale»n X j dziaªa ograniczaj co na mo»liwo± wyst pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl dnionych w równaniu exp(β j ) = 1 - czynnik opisywany przez zmienn niezale»n X j nie ma wpªywu na wyst pienia badanego zjawiska, przy kontrolowanym wpªywie pozostaªych zmiennych uwzgl dnionych w równaniu, Modele liniowe... Wykªad 2 11/35

Podstawy teoretyczne Iloraz szans (ang. odds ratio) stosuje si w przypadku porównywania dwóch klas obserwacji. Jest to iloraz szans,»e dane zdarzenie zajdzie w pierwszej grupie elementów, oraz»e zajdzie ono równie» w drugiej. Opisane jest wzorem: OR = p 1 1 p 1 1 p 2 p 2 = o 1 o 2 OR > 1 - zaj±cie zdarzenia jest bardziej prawdopodobne w grupie nr 1 OR < 1 - zaj±cie zdarzenia jest bardziej prawdopodobne w grupie nr 2 OR = 1 - zaj±cie zdarzenia jest tak samo prawdopodobne w grupie nr 1 i nr 2, Modele liniowe... Wykªad 2 12/35

Podstawy teoretyczne Przykªad: Anemi zdiagnozowano u 80 na 100 pacjentów chorych na raka oraz u 20 na 100 zdrowych osób zdjagnozowano anemi. o 1 = 0.8 1 0.8 = 0.8 0.2 = 4 i o 2 = 0.2 1 0.2 = 0.2 0.8 = 0.25 OR = o 1 o 2 = 4 0.25 = 16 Oznacza to,»e jest szesnastokrotnie wi ksza szansa wyst pienia anemii u ludzi chorych na raka ni» ludzi zdrowych., Modele liniowe... Wykªad 2 13/35

Podstawy teoretyczne Zaªo»enia: Zale»no± mi dzy logarytmem szans a wektorem zmiennych obja±niaj cych musi by liniowa. Zmienna obja±niana musi by binarna, gdzie poziom zakodowany jako 1 reprezentuje po» dany wynik (sukces). Obserwacje musz by niezale»ne korzystamy z tego wyprowadzaj c posta funkcji wiarygodno±ci. Model musi by dobrze dopasowany, to znaczy zawiera tylko te zmienne obja±niaj ce, które maj wpªyw na zmienn obja±nian, oraz nie pomija»adnej takiej zmiennej. W danych nie mo»e wyst powa silna wspóªliniowo± jest ona ¹ródªem problemów numerycznych., Modele liniowe... Wykªad 2 14/35

Podstawy teoretyczne - Funkcja wiarygodno±ci Zmienna zale»na Y jest binarna i dla pojedynczej obserwacji zachodzi: { 1, z prawdopodobie«stwem p(x1 ) Y i X i = 0, z prawdopodobie«stwem 1 p(x 1 ) St d L(X i, β)=p(y i = 1 X i ) Y i P(Y i = 0 X i ) 1 Y i =p(x i ) Y i [1 p(x i )] 1 Y i, Modele liniowe... Wykªad 2 15/35

Podstawy teoretyczne - Funkcja wiarygodno±ci Zgodnie z zaªo»eniem o niezale»no±ci n zmiennych objasniaj cych mamy L(X 1,..., X n, β) = n p(x i ) Y i [1 p(x i )] 1 Y i i=1 Cz sto funkcj wiarygodno±ci zast puje si jej logarytmem, z uwagi na ªatwiejsz obliczeniowo posta : log(l(x 1,..., X n, β)) = n (Y i logp(x i ) + (1 Y i )log1 p(x i )) i=1, Modele liniowe... Wykªad 2 16/35

Podstawy teoretyczne - Testowanie hipotez Statystyka dewiancji D: D = 2log(funkcja wiarygodno±ci testowanego modelu) Hipotezy badawcze: H 0 : zbiór zmiennych w modelu jest nieistotny H 1 : zbiór zmiennych w modelu jest istotny Statystyka testowa: ( ) f. wiaryg. dla modelu z wyrazem wolnym G = 2log χ 2 n f. wiaryg. testowanego modelu, Modele liniowe... Wykªad 2 17/35

Podstawy teoretyczne - Testowanie hipotez Hipotezy badawcze: H 0 : zmienna X i nie jest istotna (β i = 0) H 1 : zmienna X i jest istotna (β i 0) Statystyka testowa: ( ) f. wiaryg. dla modelu bez zmiennej Xi G = 2log χ 2 1 f. wiaryg. testowanego modelu, Modele liniowe... Wykªad 2 18/35

Podstawy teoretyczne - Testowanie hipotez Hipotezy badawcze: H 0 : zmienna X i nie jest istotna (β i = 0) H 1 : zmienna X i jest istotna (β i 0) Statystyka testowa: W = β i SE( β i ) N (0, 1) Przedziaªy ufno±ci: β i ± SE( β i ) z 1 α 2, Modele liniowe... Wykªad 2 19/35

Podstawy teoretyczne Zmienne obja±niaj ce s wspóªliniowe, gdy s mocno skorelowane ze sob. Efekt ten wyra»any jest poprzez wspóªczynnik VIF i (ang. variance ination factor), który pokazuje, o ile wariancje wspóªczynników s zawy»one z powodu zale»no±ci liniowych w badanym modelu regresji. Obliczamy go ze wzoru: VIF i = 1 1 R 2 i, gdzie R 2 jest wspóªczynnikiem wielokrotnej determinacji dla i-tej i zmiennej w modelu regresji liniowej. Przyjmuje si,»e warto± VIF i > 10 wskazuje na obecno± wspóªliniowo±ci w modelu., Modele liniowe... Wykªad 2 20/35

Przykªad analizy - Pakiet R Zbiór danych skªada si z 488 pacjentek pewnego szpitala poªo»niczego w USA. B dziemy chcieli sprawdzi, czy pewne zmienne, wpªywaj na nisk wag noworodka. Zbiór danyc ma nast pujac struktur kolumn: numer identykacyjny pacjentki numer porodu czy pacjentka paliªa podczas ci»y (0 - Nie, 1 - Tak) rasa (1 - biaªa, 2 - czarna, 3 - inna) wiek matki (w latach), Modele liniowe... Wykªad 2 21/35

Przykªad analizy - Pakiet R waga matki podczas ostatniej miesi czki (w funtach, 1 funt = 0.45kg) waga dziecka po porodzie (w gramach) czy waga dziecka byªa za niska (0 - Nie, 1 - Tak (< 2500g)) http://www.umass.edu/statdata/statdata/stat-logistic.html, Modele liniowe... Wykªad 2 22/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 23/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 24/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 25/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 26/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 27/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 28/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 29/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 30/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 31/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 32/35

Przykªad analizy - Pakiet R, Modele liniowe... Wykªad 2 33/35

Dzi kuj za uwag, Modele liniowe... Wykªad 2 34/35

Bibliograa Joanna Giemza i Katarzyna Zwierzchowska Wprowadzenie do modelu regresji logistycznej wraz z przykªadem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki'- praca magisterska na Uniwersytecie Warszawskim Wydziaª Matematyki, Informatyki i Mechaniki, Modele liniowe... Wykªad 2 35/35