Quick Launch Manual:

Podobne dokumenty

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Uogólniony model liniowy

Własności statystyczne regresji liniowej. Wykład 4

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Statystyczna analiza danych 1

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Uogolnione modele liniowe

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozpoznawanie obrazów

Analiza danych ilościowych i jakościowych

Metody systemowe i decyzyjne w informatyce

Regresja liniowa wprowadzenie

Zmienne zależne i niezależne

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

Prawdopodobieństwo i statystyka r.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Analiza danych. TEMATYKA PRZEDMIOTU

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

PRZEWODNIK PO PRZEDMIOCIE

PDF created with FinePrint pdffactory Pro trial version

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

Elementy modelowania matematycznego

STATYSTYKA MATEMATYCZNA

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Metody scoringowe w regresji logistycznej

KIERUNKOWE EFEKTY KSZTAŁCENIA

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Jądrowe klasyfikatory liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Weryfikacja hipotez statystycznych

MODELE LINIOWE. Dr Wioleta Drobik

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Prawdopodobieństwo i statystyka r.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Elementy statystyki wielowymiarowej

Metoda największej wiarogodności

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

WYKŁAD 2. Problem regresji - modele liniowe

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Stosowana Analiza Regresji

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Metody systemowe i decyzyjne w informatyce

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Spis treści 3 SPIS TREŚCI

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Drzewa decyzyjne i lasy losowe

Podstawowe modele probabilistyczne

WYKŁAD 8 ANALIZA REGRESJI

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Testowanie hipotez statystycznych.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza korespondencji

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Rozpoznawanie obrazów

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Zaawansowane metody numeryczne

Opis efektów kształcenia dla modułu zajęć

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

studia stacjonarne w/ćw zajęcia zorganizowane: 30/15 3,0 praca własna studenta: 55 Godziny kontaktowe z nauczycielem akademickim: udział w wykładach

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Metoda największej wiarygodności

Odniesienie symbol I [1] [2] [3] [4] [5] Efekt kształcenia

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka

Metoda największej wiarygodności

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Metody systemowe i decyzyjne w informatyce

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Metody systemowe i decyzyjne w informatyce

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Wykład 8 Dane kategoryczne

Estymacja parametrów w modelu normalnym

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

Transkrypt:

egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009

Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

egresja Odds atio Prezentacja ma przybliżać w możliwie szybki i przystępny sposób zaganienia: regresji logistycznej, odds ratio. Jej celem jest, aby po przestudiowaniu zawartych informacji, czytelnik był w stanie zastosować podane narzędzia do rozwiązania rzeczywistych problemów. Prezentacja zawiera: definicje pojęć potrzebnych do przedstawienia zagadnienia regresji; opis szczególnego, często stosowanego modelu regresji - modelu logistycznego; definicje odds ratio; Przykładowe zastosowanie wymienionych narzędzi na rzeczywistych danych przy użyciu pakietu programowania statystycznego. Na koniec proponowane jest zadanie treningowe.

Ogólnie o regresji egresja Odds atio egresja logistyczna Od początku Dane, składają się z dwóch części: wejściowej - X (objaśniającej) oraz wyjściowej - Y (objaśnianej). Zakładamy, że Y są dyskretne - np. wyrażają przynależność do klasy, elementów opisanych w X. Przykład: X to macierz danych o pacjentach, które są brane pod uwagę przy diagnozie, Y to macierz danych klasyfikująca pacjenta(chory, zdrowy). Cel: Zbudować model opisujący zależność X i Y. Traktując X, Y jako macierze zmiennych losowych możemy to zadanie sprowadzić do zagadnienia szukania funkcji φ spełniającej: E(Y X ) = φ(x ) Funkcję φ nazywamy funkcją regresji.

egresja Odds atio egresja logistyczna Ogólnie o regresji: konstrukcja modelu Model regresji E(Y X ) = φ(x ) Z funkcją regresji związany jest model regresji, czasami oba pojęcia są utożsamiane. Model jest to wspomniane wyżej wyrażenie: E(Y X ) = φ(x ). Przy konstrukcji modelu głównym problemem jest znalezienie odpowiedniej funkcji regresji φ. Często zakłada się jej typ, w celu usprawnienia lub usensownienia otrzymywanych wyników. Praktycznie niemożliwe jest znalezienie funkcji regresji dokładnie odwzorowującej dane rzeczywiste, dlatego w oznaczeniach przyjmujemy przybliżenia wielkości oznaczone daszkiem.

egresja Odds atio egresja logistyczna Ogólnie o regresji: konstrukcja modelu Model regresji E(Y X ) = φ(x ) Szukanie funkcji regresji: 1. Założenie postaci funkcji regresji φ 2. Wyestymowanie parametrów funkcji φ na podstawie zestawu danych treningowych (X,Y). W efekcie tych działań dostajemy wyrażenie: Ŷ = ˆφ(X ) gdzie ˆφ i Ŷ to odpowiednio estymatory funkcji φ i wielkości Y. Krótko: Zakładamy pewną zależność między X i Y. Na danych X i Y uczymy ˆφ jak ma się zachowywać. Mając wyestymowany model możemy: Przewidywać dane wyjściowe Y dla nowych obserwacji X. Estymować parametry modelu lub zbioru danych.

Plan egresja Odds atio egresja logistyczna 1 2 egresja egresja logistyczna 3 Odds atio 4 5

egresja logistyczna egresja Odds atio egresja logistyczna Usprawnienie modelu regresji liniowej. Polega na zmodyfikowaniu postaci danych wyjściowych Y. Chcemy zawrzeć w nich nie tyle informacje przynależności do klasy, ale logarytm ilorazu prawdopodobieństwa wystąpienia pewnej klasy i prawdopodobieństwa zdarzenia przeciwnego. Przyjmijmy wymiary macierzy: Y 1 n, X n p, i-tą kolumnę macierzy X nazywamy obserwacją i oznaczamy x i. Dla każdej z n obserwacji z macierz X modelujemy: y i = log p(k x i ) 1 p(k x i ) = β 0 + β T x i gdzie p(k x i ) oznacza prawdopodobieństwa przydzielenia i-tej obserwacji do klasy k, β 0 to stała odpowiadająca za przesunięcie danych, a β to wektor współczynników wymiaru p.

egresja Odds atio egresja logistyczna Model regresji logistycznej dla 2 klas K=2 Zakładamy przypadek K=2. y i = log ozwikłując model otrzymujemy: p(2 x i ) 1 p(2 x i ) = β 0 + β T x i eβ0+βt x p(2 x) = 1 + e β0+βt x p(1 x) = 1 1 + e β0+βt x Oba prawdopodobieństwa przydziału do klas należą do przedziału (0, 1) oraz łatwo sprawdzić, że p(2 x i ) + p(1 x i ) = 1 dla każdego i. eguła decyzyjna: dla danej obserwacji x i wybierz większą z wartości p(2 x i ), p(1 x i ) i zaklasyfikuj x i do odpowiadającej klasy.

Model dla wielu klas egresja Odds atio egresja logistyczna K=g Otrzymujemy układ zależności: log log p(1 x) p(g x) = β 10 + β T 1 x log p(2 x) p(g x) = β 20 + β2 T x p(g 1 x) = β (g 1)0 + β T p(g x) g 1x Wybór klasy umieszczonej w mianowniku jest arbitralny(byleby we wszystkich występowała ta sama klasa).

Model dla wielu klas egresja Odds atio egresja logistyczna K=g ozwikłując otrzymujemy: zauważmy, że: p(k x) = e β k0+β T k x 1 + g l=1 eβ l0+β T l x 1 p(g x) = 1 + g l=1 eβ l0+β T x l g p(l x) = 1 l=1 eguła klasyfykacyjna: analogiczna to modelu 2 klas. Większe prawdopodobieństwo definiuje przydzielaną klasę.

Estymacja parametrów egresja Odds atio egresja logistyczna W obu przypadkach estymujemy parametry modelu metodą największej wiarygodności, czyli maksymalizjemy funkcję wiarygodności. Przypadek dwóch klas jest analogiczny do większej liczby klas.: Π n i=1ˆp(2 x i ) yi ˆp(1 x i ) 1 yi max, β 0, β Jest to model dwumianowy. W przypadku większej ilości klas - wielomianowy. Jest to równanie uwikłane i można znaleźć przybliżone rozwiązanie algorytmami numerycznymi, np algorytmem Newtona-aphsona. Tym problemem całe szczęście może zająć się w postaci funkcji glm.

Estymacja parametrów egresja Odds atio egresja logistyczna Przypuśćmy, że wyestymowaliśmy parametry modelu - ˆβ, nam umożliwia dodatkowo estymację prawdopodobieństw a posteriori klas, czyli dodatkową informacją o danych: ˆ β.0. To zauważmy, że: ˆp(k x) = ˆp(g x) = e ˆβ k0 + ˆβ T k x 1 + g l=1 e ˆβ l0 + ˆβ T l x 1 1 + g l=1 e ˆβ l0 + ˆβ T l x g ˆp(l x) = 1 l=1

Dowcip statystyczny egresja Odds atio egresja logistyczna

Ogólnie o Odds atio egresja Odds atio The odds ratio is the ratio of the odds:d The odds ratio inaczej stosunek szans. Stosuje się go w przypadku porównywania dwóch klas elementów (co nie oznacza, że nie można go stosować do modeli o wielu klasach). Jest to iloraz szans, że pewne zdarzenie zajdzie w pierwszej grupie obserwacji i, że to samo zdarzenie zajdzie w innej grupie. Szansa zdarzenia = p 1 p, gdzie p to prawdopodobieństwa zajścia zdarzenia O = p1 1 p 2 1 p 1 p 2 zdarzenia w i-tej klasie obserwacji. = p1(1 p2) p 2(1 p 1) gdzie p i do prawdopodobieństwo zajścia Własności: O = 1 oznacza, że w obu grupach zdarzenie jest tak samo prawdopodobne. O > 1 oznacza, że w drugiej zajście zdarzenie jest bardziej prawdopodobne (analogicznie gdy O < 1) O i yzyko względne()

Ogólnie o Odds atio egresja Odds atio Przykład: hipotetyczne dane o przeżywalności w zależności od leczenia raka jakiegoś Operacja Brak operacji Przeżył kolejny rok 8(n 11 ) 2(n 12 ) Nie przeżył kolejnego roku 8(n 21 ) 10(n 22 ) Niech p 1 = n11 n 11+n 21 i p 2 = n12 n 12+n 22 to prawdopodobieństwa przeżycia roku w grupach pacjentów odpowiednio: operowanych i nieoperowanych. O = p 1 1 p 1 p 2 1 p 2 = 1 2 1 2 2 12 10 12 = 1 5 < 1 Co oznacza, że prawdopodobieństwa przeżycia kolejnego roku jest większe w pierwszej grupie - pacjentów operowanych.

egresja Odds atio Testy oparte na Odds atio Czy wyliczona przez nas wartość O jest wystarczająco duża, aby stwierdzić, że różnica w grupach jest istotna? Trudno to ocenić, ponieważ O ma makabryczny rozkład, dlatego do testów istotności używa się przekształconego: (log O λ) 2 Var(log O) χ 2 (1) co jest ładnym, stablicowanym rozkładem dającym możliwość na sprawne szukanie przedziałów ufości dla zadanego poziomu istotności. Zauważmy, że samo log O jest symetryczne względem 0. Dla log O testujemy hipotezę H 0 : podział na grupy nie jest istotny(innymi słowy: λ = 0). Za pomocą O można porównywać reguły decyzyjnej.

egresja Odds atio Odds atio i regresja logistyczna Zauważmy, że w wyrażeniu p(2 x i ) 1 p(2 x i ) log p(2 x i ) 1 p(2 x i ) = β 0 + β T x i to O zaklasyfikowania obserwacji do klasy 2. Dokładając logarytm otrzymujemy omówione log O o znanym rozkładzie. O dalszych powiązaniach powiemy przy okazji implementacji w.

Ciekawe funkcje w egresja Odds atio oddsratio() - funkcja (o dziwo) wyznacza O dla danych przedstawionych w macierzy 2 k. glm (General Linear Model) Na podstawie macierzy danych X i Y buduje model regresji logistycznej i estymuje jego parametry. Domyślnie do budowy modelu używa funkcji logit, ale dostępne są inne funkcje wiążące i inne rodziny rozkładów np: probit(f 1, log). glm(y., data = X, family = binomial )

Ciekawe funkcje w egresja Odds atio Dla funkcji glm pakiet ma dodatkowo przeciążone funkcje: summary - Opisuje dopasowany model glm. Przedstawia rozkład residuów, oceny współczynników modelu i informację o zbieżności algorytmu wyznaczającego te oceny. confint - wyznacza przedział ufności dla dopasowanych współczynników modelu. loglik - Wyznacza wartość logarytmu funckji wiarygodności dla wyestymowanego modelu. outlier.test - Indentyfikuje obserwacje odstające predict.glm - Na podstawie wyestymowanego modelu glm wyznacza predykcje wartości Y dla zadanych nowych X. residuals.glm, rstandard.glm, rstudent.glm - Wyznaczają wektor residuów odpowiednio. Ostatnie dwie wyznaczają residua standaryzowane i studentyzowane. Funkcji można porównać z załącznikiem w pakiecie.

Bibliografia egresja Odds atio J. Koronacki i J. Ćwik Statystyczne systemy uczące się. iffenburgh Statistics in Medicine T. Hastie,. Tibshirani, J. Friedman The Elements of Statistical Learning P. Biecek Przewodnik po pakiecie strona internetowa: http://biecek.pl/mimuw/index.php/main/homepage, materiały z poprzednich kursów Statystyki II.