egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009
Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5
egresja Odds atio Prezentacja ma przybliżać w możliwie szybki i przystępny sposób zaganienia: regresji logistycznej, odds ratio. Jej celem jest, aby po przestudiowaniu zawartych informacji, czytelnik był w stanie zastosować podane narzędzia do rozwiązania rzeczywistych problemów. Prezentacja zawiera: definicje pojęć potrzebnych do przedstawienia zagadnienia regresji; opis szczególnego, często stosowanego modelu regresji - modelu logistycznego; definicje odds ratio; Przykładowe zastosowanie wymienionych narzędzi na rzeczywistych danych przy użyciu pakietu programowania statystycznego. Na koniec proponowane jest zadanie treningowe.
Ogólnie o regresji egresja Odds atio egresja logistyczna Od początku Dane, składają się z dwóch części: wejściowej - X (objaśniającej) oraz wyjściowej - Y (objaśnianej). Zakładamy, że Y są dyskretne - np. wyrażają przynależność do klasy, elementów opisanych w X. Przykład: X to macierz danych o pacjentach, które są brane pod uwagę przy diagnozie, Y to macierz danych klasyfikująca pacjenta(chory, zdrowy). Cel: Zbudować model opisujący zależność X i Y. Traktując X, Y jako macierze zmiennych losowych możemy to zadanie sprowadzić do zagadnienia szukania funkcji φ spełniającej: E(Y X ) = φ(x ) Funkcję φ nazywamy funkcją regresji.
egresja Odds atio egresja logistyczna Ogólnie o regresji: konstrukcja modelu Model regresji E(Y X ) = φ(x ) Z funkcją regresji związany jest model regresji, czasami oba pojęcia są utożsamiane. Model jest to wspomniane wyżej wyrażenie: E(Y X ) = φ(x ). Przy konstrukcji modelu głównym problemem jest znalezienie odpowiedniej funkcji regresji φ. Często zakłada się jej typ, w celu usprawnienia lub usensownienia otrzymywanych wyników. Praktycznie niemożliwe jest znalezienie funkcji regresji dokładnie odwzorowującej dane rzeczywiste, dlatego w oznaczeniach przyjmujemy przybliżenia wielkości oznaczone daszkiem.
egresja Odds atio egresja logistyczna Ogólnie o regresji: konstrukcja modelu Model regresji E(Y X ) = φ(x ) Szukanie funkcji regresji: 1. Założenie postaci funkcji regresji φ 2. Wyestymowanie parametrów funkcji φ na podstawie zestawu danych treningowych (X,Y). W efekcie tych działań dostajemy wyrażenie: Ŷ = ˆφ(X ) gdzie ˆφ i Ŷ to odpowiednio estymatory funkcji φ i wielkości Y. Krótko: Zakładamy pewną zależność między X i Y. Na danych X i Y uczymy ˆφ jak ma się zachowywać. Mając wyestymowany model możemy: Przewidywać dane wyjściowe Y dla nowych obserwacji X. Estymować parametry modelu lub zbioru danych.
Plan egresja Odds atio egresja logistyczna 1 2 egresja egresja logistyczna 3 Odds atio 4 5
egresja logistyczna egresja Odds atio egresja logistyczna Usprawnienie modelu regresji liniowej. Polega na zmodyfikowaniu postaci danych wyjściowych Y. Chcemy zawrzeć w nich nie tyle informacje przynależności do klasy, ale logarytm ilorazu prawdopodobieństwa wystąpienia pewnej klasy i prawdopodobieństwa zdarzenia przeciwnego. Przyjmijmy wymiary macierzy: Y 1 n, X n p, i-tą kolumnę macierzy X nazywamy obserwacją i oznaczamy x i. Dla każdej z n obserwacji z macierz X modelujemy: y i = log p(k x i ) 1 p(k x i ) = β 0 + β T x i gdzie p(k x i ) oznacza prawdopodobieństwa przydzielenia i-tej obserwacji do klasy k, β 0 to stała odpowiadająca za przesunięcie danych, a β to wektor współczynników wymiaru p.
egresja Odds atio egresja logistyczna Model regresji logistycznej dla 2 klas K=2 Zakładamy przypadek K=2. y i = log ozwikłując model otrzymujemy: p(2 x i ) 1 p(2 x i ) = β 0 + β T x i eβ0+βt x p(2 x) = 1 + e β0+βt x p(1 x) = 1 1 + e β0+βt x Oba prawdopodobieństwa przydziału do klas należą do przedziału (0, 1) oraz łatwo sprawdzić, że p(2 x i ) + p(1 x i ) = 1 dla każdego i. eguła decyzyjna: dla danej obserwacji x i wybierz większą z wartości p(2 x i ), p(1 x i ) i zaklasyfikuj x i do odpowiadającej klasy.
Model dla wielu klas egresja Odds atio egresja logistyczna K=g Otrzymujemy układ zależności: log log p(1 x) p(g x) = β 10 + β T 1 x log p(2 x) p(g x) = β 20 + β2 T x p(g 1 x) = β (g 1)0 + β T p(g x) g 1x Wybór klasy umieszczonej w mianowniku jest arbitralny(byleby we wszystkich występowała ta sama klasa).
Model dla wielu klas egresja Odds atio egresja logistyczna K=g ozwikłując otrzymujemy: zauważmy, że: p(k x) = e β k0+β T k x 1 + g l=1 eβ l0+β T l x 1 p(g x) = 1 + g l=1 eβ l0+β T x l g p(l x) = 1 l=1 eguła klasyfykacyjna: analogiczna to modelu 2 klas. Większe prawdopodobieństwo definiuje przydzielaną klasę.
Estymacja parametrów egresja Odds atio egresja logistyczna W obu przypadkach estymujemy parametry modelu metodą największej wiarygodności, czyli maksymalizjemy funkcję wiarygodności. Przypadek dwóch klas jest analogiczny do większej liczby klas.: Π n i=1ˆp(2 x i ) yi ˆp(1 x i ) 1 yi max, β 0, β Jest to model dwumianowy. W przypadku większej ilości klas - wielomianowy. Jest to równanie uwikłane i można znaleźć przybliżone rozwiązanie algorytmami numerycznymi, np algorytmem Newtona-aphsona. Tym problemem całe szczęście może zająć się w postaci funkcji glm.
Estymacja parametrów egresja Odds atio egresja logistyczna Przypuśćmy, że wyestymowaliśmy parametry modelu - ˆβ, nam umożliwia dodatkowo estymację prawdopodobieństw a posteriori klas, czyli dodatkową informacją o danych: ˆ β.0. To zauważmy, że: ˆp(k x) = ˆp(g x) = e ˆβ k0 + ˆβ T k x 1 + g l=1 e ˆβ l0 + ˆβ T l x 1 1 + g l=1 e ˆβ l0 + ˆβ T l x g ˆp(l x) = 1 l=1
Dowcip statystyczny egresja Odds atio egresja logistyczna
Ogólnie o Odds atio egresja Odds atio The odds ratio is the ratio of the odds:d The odds ratio inaczej stosunek szans. Stosuje się go w przypadku porównywania dwóch klas elementów (co nie oznacza, że nie można go stosować do modeli o wielu klasach). Jest to iloraz szans, że pewne zdarzenie zajdzie w pierwszej grupie obserwacji i, że to samo zdarzenie zajdzie w innej grupie. Szansa zdarzenia = p 1 p, gdzie p to prawdopodobieństwa zajścia zdarzenia O = p1 1 p 2 1 p 1 p 2 zdarzenia w i-tej klasie obserwacji. = p1(1 p2) p 2(1 p 1) gdzie p i do prawdopodobieństwo zajścia Własności: O = 1 oznacza, że w obu grupach zdarzenie jest tak samo prawdopodobne. O > 1 oznacza, że w drugiej zajście zdarzenie jest bardziej prawdopodobne (analogicznie gdy O < 1) O i yzyko względne()
Ogólnie o Odds atio egresja Odds atio Przykład: hipotetyczne dane o przeżywalności w zależności od leczenia raka jakiegoś Operacja Brak operacji Przeżył kolejny rok 8(n 11 ) 2(n 12 ) Nie przeżył kolejnego roku 8(n 21 ) 10(n 22 ) Niech p 1 = n11 n 11+n 21 i p 2 = n12 n 12+n 22 to prawdopodobieństwa przeżycia roku w grupach pacjentów odpowiednio: operowanych i nieoperowanych. O = p 1 1 p 1 p 2 1 p 2 = 1 2 1 2 2 12 10 12 = 1 5 < 1 Co oznacza, że prawdopodobieństwa przeżycia kolejnego roku jest większe w pierwszej grupie - pacjentów operowanych.
egresja Odds atio Testy oparte na Odds atio Czy wyliczona przez nas wartość O jest wystarczająco duża, aby stwierdzić, że różnica w grupach jest istotna? Trudno to ocenić, ponieważ O ma makabryczny rozkład, dlatego do testów istotności używa się przekształconego: (log O λ) 2 Var(log O) χ 2 (1) co jest ładnym, stablicowanym rozkładem dającym możliwość na sprawne szukanie przedziałów ufości dla zadanego poziomu istotności. Zauważmy, że samo log O jest symetryczne względem 0. Dla log O testujemy hipotezę H 0 : podział na grupy nie jest istotny(innymi słowy: λ = 0). Za pomocą O można porównywać reguły decyzyjnej.
egresja Odds atio Odds atio i regresja logistyczna Zauważmy, że w wyrażeniu p(2 x i ) 1 p(2 x i ) log p(2 x i ) 1 p(2 x i ) = β 0 + β T x i to O zaklasyfikowania obserwacji do klasy 2. Dokładając logarytm otrzymujemy omówione log O o znanym rozkładzie. O dalszych powiązaniach powiemy przy okazji implementacji w.
Ciekawe funkcje w egresja Odds atio oddsratio() - funkcja (o dziwo) wyznacza O dla danych przedstawionych w macierzy 2 k. glm (General Linear Model) Na podstawie macierzy danych X i Y buduje model regresji logistycznej i estymuje jego parametry. Domyślnie do budowy modelu używa funkcji logit, ale dostępne są inne funkcje wiążące i inne rodziny rozkładów np: probit(f 1, log). glm(y., data = X, family = binomial )
Ciekawe funkcje w egresja Odds atio Dla funkcji glm pakiet ma dodatkowo przeciążone funkcje: summary - Opisuje dopasowany model glm. Przedstawia rozkład residuów, oceny współczynników modelu i informację o zbieżności algorytmu wyznaczającego te oceny. confint - wyznacza przedział ufności dla dopasowanych współczynników modelu. loglik - Wyznacza wartość logarytmu funckji wiarygodności dla wyestymowanego modelu. outlier.test - Indentyfikuje obserwacje odstające predict.glm - Na podstawie wyestymowanego modelu glm wyznacza predykcje wartości Y dla zadanych nowych X. residuals.glm, rstandard.glm, rstudent.glm - Wyznaczają wektor residuów odpowiednio. Ostatnie dwie wyznaczają residua standaryzowane i studentyzowane. Funkcji można porównać z załącznikiem w pakiecie.
Bibliografia egresja Odds atio J. Koronacki i J. Ćwik Statystyczne systemy uczące się. iffenburgh Statistics in Medicine T. Hastie,. Tibshirani, J. Friedman The Elements of Statistical Learning P. Biecek Przewodnik po pakiecie strona internetowa: http://biecek.pl/mimuw/index.php/main/homepage, materiały z poprzednich kursów Statystyki II.