Uogólniony model liniowy

Podobne dokumenty
Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Badania obserwacyjne 1

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zapadalność (epidemiologia)

Regresja liniowa wprowadzenie

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Quick Launch Manual:

Uogolnione modele liniowe

Statystyka i Analiza Danych

Analiza przeżycia Survival Analysis

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

STATYSTYKA MATEMATYCZNA

Analiza przeżycia Survival Analysis

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

WYKORZYSTANIE MODELU LOGITOWEGO DO ANALIZY BEZROBOCIA WŚRÓD OSÓB NIEPEŁNOSPRAWNYCH W POLSCE W 2010 ROKU

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

PAKIETY STATYSTYCZNE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka

Elementy statystyki wielowymiarowej

Własności statystyczne regresji liniowej. Wykład 4

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Stanisław Cichocki. Natalia Nehrebecka

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Z poprzedniego wykładu

Testy nieparametryczne

Metody scoringowe w regresji logistycznej

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VII: Regresja logistyczna

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

Stanisław Cichocki. Natalia Nehrebecka

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Stanisław Cichocki. Natalia Nehrebecka

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

STATYSTYKA MATEMATYCZNA

Analiza danych ilościowych i jakościowych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

METODY STATYSTYCZNE W BIOLOGII

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Analizy wieloczynnikowe i metaanalizy realna wiedza czy szum informacyjny?

Zawansowane modele wyborów dyskretnych

Wnioskowanie bayesowskie

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wnioskowanie statystyczne. Statystyka w 5

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Wybrane rozkłady zmiennych losowych. Statystyka

(LMP-Liniowy model prawdopodobieństwa)

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Stanisław Cichocki. Natalia Nehrebecka

Materiał i metody. Wyniki

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Zmienne zależne i niezależne

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Testowanie hipotez statystycznych

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

gdzie. Dla funkcja ma własności:

MODELE LINIOWE. Dr Wioleta Drobik

STATYSTYKA wykład 1. Wanda Olech. Katedra Genetyki i Ogólnej Hodowli Zwierząt

BEATA JACKOWSKA EFEKTY INTERAKCJI MIĘDZY ZMIENNYMI OBJAŚNIAJĄCYMI W MODELU LOGITOWYM W ANALIZIE ZRÓŻNICOWANIA RYZYKA ZGONU 1.

Układ równań liniowych

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Prawdopodobieństwo i statystyka r.

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Przegląd ważniejszych rozkładów

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

R dla każdego : zaawansowane analizy i grafika statystyczna / Jared P. Lander. Warszawa, Spis treści

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Ćwiczenie 12. Metody eksploracji danych

Weryfikacja hipotez statystycznych

Wprowadzenie do analizy dyskryminacyjnej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Szkice rozwiązań z R:

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Metody systemowe i decyzyjne w informatyce

Wykład 8 Dane kategoryczne

Ważne rozkłady i twierdzenia

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

ESTYMACJA. Przedział ufności dla średniej

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Transkrypt:

Uogólniony model liniowy

Ogólny model liniowy y = Xb + e Każda obserwacja ma rozkład normalny Każda obserwacja ma tą samą wariancję

Dane nienormalne Rozkład binomialny np. liczba chorych krów w stadzie Rozkład zdarzeń rzadkich (Poissona) np. liczba zwierząt w stadzie z rzadkim typem raka Rozkład wielomianowy np. umaszczenie

Uogólniony model liniowy pozwala zastosować model liniowy do nienormalnych danych y może być zmienną binarną (zdrowy/chory), wielowartościową (umaszczenie) x zarówno zmienne ciągłe jak i kategoryzujące

Uogólniony model liniowy L(średnia z y) = b 0 + b 1 x 1 + b 2 x 2 +... L to funkcja wiążąca (link)

Funkcje wiążące Rozkład binomialny: logit - pozwala estymować odds ratio (OR) probit log cloglog Rozkład Poissona log sqrt

Rozkład dwumianowy Określa prawdopodobieństwo y sukcesów w n próbach, jeżeli w pojedynczej próbie prawdopodobieństwo sukcesu wynosi p Wszystkie próby są takie same i niezależne!

Odds p odds = [ 0, ) 1 - p Np. gdy p = prawdopodobieństwo zachorowania odds=5 choroba jest 5 razy bardziej prawdopodobna niż zdrowie odds=1/3 szansa zachorowania jest 3 razy mniej prawdopodobna niż zdrowie odds=1 szanse obu zdarzeń są równe

log odds p log( 1 - p ) (-, ) log odds > 0 szansa zachorowania jest większa niż pozostania przy zdrowiu log odds < 0 szansa pozostania przy zdrowiu jest większa niż zachorowania log odds = 0 szanse obu zdarzeń są równe

Odds ratio (OR) OR = p 1 - p q 1 - q p = prawdopodobieństwo zachorowania wśród osób eksponowanych na badany czynnik ryzyka q = prawdopodobieństwo zachorowania wśród osób NIE eksponowanych na badany czynnik ryzyka

Logit logit( x ) = ln( x / (1-x) ) x wartość z przedziału 0-1 Gdy x jest prawdopodobieństwem, wówczas logit to log odds

Regresja logistyczna Uogólniony model wykorzystujący funkcję logit Pozwala testować wpływ różnych czynników ilościowych i jakościowych na zmienną binarną (np. chory/zdrowy) Pozwala zmierzyć wpływ badanego czynnika (zmiana wielkości OR)

Regresja logistyczna logit( p i ) = b 0 + b 1 x 1 + b 2 x 2... p i prawd. sukcesu dla i-tego przypadku X zestaw wartości zmiennych objaśniających b zestaw współczynników regresji X może być zmienną kategoryzującą lub ciągłą!

Regresja logistyczna - interpretacja Gdy x jest zmienną binarną (0/1) ln( OR ) = ln( e b ) = b OR = exp( b ) Gdy x jest zmienną ciągłą Jeżeli x wzrasta o 1, to log odds wzrasta (dodawanie) o b Jeżeli x wzrasta o 1, to odds mnoży się przez e b Gdy x jest zmienną wielomianową, rzecz staje się trudniejsza. Na kursie rozszerzonym.

Przykład Badamy wpływ wieku i palenia na nadciśnienie. Dane: y - nadciśnienie (TAK=1 / NIE=0) x 1 - wiek (liczba lat zmienna ciągła) x 2 - palenie (pali=1 / nie pali = 0) 0 30 0 0 30 1 0 30 0 1 40 1 1 40 0 1 60 1 1 50 0 0 30 1 1 30 1 0 40 1 1 60 1 1 50 0 1 50 1 0 60 0

Przykład rozwiązanie b 1 = 0,10 czyli każdy rok zwiększa ryzyko nadciśnienia o e 0,10 = 1,10, czyli o 10% b 2 = 0,81 a więc palenie zwiększa ryzyko nadciśnienia o e 0,81 = 2,2, czyli o 220% b 0 = -4.37 (intercept) brak interpretacji

95% przedział ufności b = 0.81 SE = 0.40 OR = 2.2 e 0.81 ± 1.96 * 0.40 = [ e 0.03 ; e 1.59 ] = [ 1.03 ; 4.9 ] Wartość 1 jest poza przedziałem. Asocjacja jest statystycznie istotna.

Przygotowanie dane w formie surowej (w R) Dane mogą być wpisane w formie surowej, przy czym p = P(y=1) czyli (sukces=1) y <- c( 0, 0, 0, 1, 1, 1... ) wiek <- c( 30, 30, 30, 40, 40, 40...) palenie <- c( 0, 1, 0, 1, 0, 1... ) mojedane <- data.frame( y, wiek, palenie) Lub surowe dane mogą być wczytane z pliku razem z nagłówkami mojedane <- read.table( nazwapliku.txt, header=true )

Przygotowanie danych w formie zbiorczej wiek palenie liczba liczba osobników chorych zdrowych 30 0 0 2 30 1 1 2 40 0 1 0 40 1 1 1 itd. yc <- c( 0, 1, 1, 1,... ) yz <- c( 2, 2, 0, 1,... ) y <- cbind( yc, yz ) #Uwaga, y to macierz! wiek <- c( 30, 30, 40, 40,...) palenie <- c( 0, 1, 0, 1,... ) mojedane <- data.frame(y, wiek, palenie)

wynik <- glm( y ~ wiek + palenie, family=binomial(link=logit), data=mojedane ) summary( wynik ) confint( wynik ) Uwaga: Dla danych surowych y jest wektorem zer i jedynek, natomiast dla danych zbiorczych y jest macierzą z 2 kolumnami (chore, zdrowe)

Zadanie 1 Zbadaj wpływ wieku na występowanie zaćmy u psów. wiek 10 13 14 15 17 liczba badanych liczba chorych 50 45 48 44 37 1 3 8 9 9

Zadanie 2 Zbadaj wpływ obecności w genotypie zmutowanego genu CNEP1R1 na otyłość psów, z uwzględnieniem płci i wieku. Dane otylosc-psow.txt pobierz ze strony http://merlin.up.poznan.pl/~mcszyd/dyda/biostatystyka/ Opis danych obese sex age del = 0 lub 1 (pies otyły) = Male lub Female = wiek w miesiącach = 0 lub 1 (delecja w co najmniej jednej kopii genu CNEP1R1)