WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Podobne dokumenty
MODELE LINIOWE. Dr Wioleta Drobik

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Własności statystyczne regresji liniowej. Wykład 4

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Quick Launch Manual:

Regresja liniowa wprowadzenie

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VII: Regresja logistyczna

ANALIZA WARIANCJI - PRZYPOMNIENIE

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rozdział 8. Regresja. Definiowanie modelu

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wprowadzenie do analizy korelacji i regresji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Uogólniony model liniowy

Stanisław Cichocki. Natalia Nehrebecka

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka i Analiza Danych

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Regresja logistyczna (LOGISTIC)

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wnioskowanie statystyczne. Statystyka w 5

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Stanisław Cihcocki. Natalia Nehrebecka

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej. Modele nieliniowe Funkcja produkcji

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Stanisław Cichocki Natalia Neherbecka

Metody Ilościowe w Socjologii

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Ekonometria. Zajęcia

Wykład 8 Dane kategoryczne

Badania obserwacyjne 1

Przykład 1. (A. Łomnicki)

3. Modele tendencji czasowej w prognozowaniu

Uogolnione modele liniowe

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ćwiczenia IV

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Regresja i Korelacja

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

gdzie. Dla funkcja ma własności:

5. Model sezonowości i autoregresji zmiennej prognozowanej

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Na podstawie danych dotyczacych rocznych wydatków na pizze oszacowano parametry poniższego modelu:

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Testowanie hipotez statystycznych.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Stanisław Cichocki. Natalia Nehrebecka

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

KORELACJE I REGRESJA LINIOWA

PDF created with FinePrint pdffactory Pro trial version

4. Średnia i autoregresja zmiennej prognozowanej

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Testy nieparametryczne

przedmiotu Nazwa Pierwsza studia drugiego stopnia

Stanisław Cichocki. Natalia Nehrebecka

STATYSTYKA MATEMATYCZNA

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Transkrypt:

WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno

REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być: wystąpienie lub brak pewnego zdarzenia (np. śmierć, choroba) przekształcona zmienna innego typu: kategoryczna, ciągła Przykłady zmiennych dychotomicznych: samica (1), samiec (0) osobnik przeżył (1), nie przeżył (0), zaliczył przedmiot zastosowanie statystyki w bioinżynierii (1), nie zaliczył (0)

REGRESJA LOGISTYCZNA 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył 1 nie przeżył 0 0 200 400 600 800 1000 1200 dawka promieniowania [rad]

REGRESJA LOGISTYCZNA 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył 1 regresja liniowa? nie przeżył 0 0 200 400 600 800 1000 1200 dawka promieniowania [rad]

REGRESJA LOGISTYCZNA Dlaczego nie regresja liniowa? W regresji liniowej zmienne powinny być mierzone na skali ilościowej Problem z predykcją: dla dychotomicznej zmiennej objaśnianej regresja liniowa będzie szacowała wartości spoza akceptowalnego zakresu (poniżej 0 lub powyżej 1) Założenia do modelu nie będą są spełnione: brak rozkładu normalnego dla reszt brak jednorodności wariancji

REGRESJA LOGISTYCZNA 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył 1 wartość progowa nie przeżył 0 0 200 400 600 800 1000 1200 dawka promieniowania [rad]

FUNKCJA LOGISTYCZNA wartość progowa Funkcja logistyczna Etapy zmian wartości funkcji logistycznej: Dla początkowych argumentów funkcja przyjmuje wartości bliskie zera Od momentu osiągnięcia wartości progowej następuje nagły wzrost / spadek wartości funkcji Po osiągnięciu pewnej wartości dla kolejnych wartości argumentów przyjmuje wartości bliskie 1

MODEL LOGISTYCZNY Warunkowe prawdopodobieństwa, że prognozowana zmienna przyjmie wartość 1 dla wartości zmiennych niezależnych e stała wykładnicza 2,718 0 stała regresji dla regresji logistycznej i współczynnik regresji logistycznej dla zmiennej niezależnej

ZAŁOŻENIA DLA MODELU REGRESJI LOGISTYCZNEJ Założenia: Zmienna Y podlega rozkładowi dwumianowemu Wartość oczekiwana E[y x]=p(x) jest obliczana na podstawie funkcji logistycznej Wartości wyjściowe są statystycznie niezależne Nie jest wymagana jednorodność wariancji

REGRESJA LOGISTYCZNA A REGRESJA LINIOWA http://www.saedsayad.com/logistic_regression.htm

SZANSA Szansa (S; ang. odd) prawdopodobieństwo wystąpienia zdarzenia (p) w stosunku do prawdopodobieństwa wystąpienia zdarzenia przeciwnego (1-p) Szansa zdarzenia A: Przykład: W trakcie badania 1000 osób, 200 z nich miało podwyższone stężenie glukozy we krwi. Jakie jest prawdopodobieństwo przekroczenia normy? Jaka jest szansa przekroczenia normy? Jaka jest szansa, że stężenie glukozy nie przekroczy normy?

INTERPRETACJA PARAMETRÓW MODELU Model regresji logistycznej - szansa zajścia zdarzenia dla jednej zmiennej objaśniającej X 1 : Obustronne zlogarytmowanie sprowadza model do postaci liniowej względem parametrów. Logarytm szansy: Przedstawienie modelu na skali logarytmu szansy, sprawia że model logistyczny jest modelem liniowym i jest nazywane przekształceniem logitowym

INTERPRETACJA PARAMETRÓW MODELU Logarytm szansy jest liniowo zależny od zmiennej objaśniającej (X 1 ), dzięki czemu możemy łatwo interpretować współczynnik regresji 1 zmiana wartości logarytmu szansy dla zmiany o jednostkę zmiennej X Jeżeli: e β1 > 1, to czynnik opisywany przez zmienną X1 ma stymulujący wpływ na wystąpienia badanego zjawiska. e β1 < 1, to dany czynnik działa ograniczająco e β1 = 1, to czynnik nie ma wpływu na opisywane zdarzenie.

ILORAZ SZANS Stosunek szansy wystąpienia zdarzenia w jednej grupie do szansy wystąpienia tego zdarzenia w grupie drugiej Iloraz szans (OR, z ang. odds ratio ) równy jeden oznacza równoważność szans dla porównywanych grup Przykład: Liczba pacjentów w zależności od statusu Status Mężczyzna Kobieta B przekroczenie normy 162 38 A parametr w normie 539 261 Oblicz iloraz szans dla przekroczenia normy pod względem analizowanego parametru w grupie mężczyzn w stosunku do grupy kobiet.

ILORAZ SZANS Jeżeli OR > 1, to w pierwszej grupie zajście zdarzenia jest bardziej prawdopodobne OR < 1, to w drugiej grupie zajście zdarzenia jest bardziej prawdopodobne OR = 1, to w obu klasach obserwacji zdarzenie jest tak samo prawdopodobne

REGRESJA LOGISTYCZNA Metoda estymacji parametrów Regresja liniowa metoda najmniejszych kwadratów Regresja logistyczna metoda największej wiarygodności (ang. maximum likelihood) Metoda największej wiarygodności (ML) wiarygodność danego modelu jest określana jako łączne prawdopodobieństwo otrzymania obserwowanych wartości wyjściowych wyrażonych za pomocą funkcji wybranego modelu regresji wielokrotne estymowanie parametrów modelu, tak by zmaksymalizować prawdopodobieństwo uzyskania takich wyników, jakie osiągnięto w badanej próbie

WERYFIKACJA MODELU I JEGO PARAMETRÓW Test LR ilorazu wiarygodności (ang. Likelihood ratio) wstępna ocena istotności modelu Pozwala na porównanie dwóch modeli: bieżącego i referencyjnego Test Walda statystyczna istotność parametrów modelu β jest oceną parametru regresji logistycznej Jakość modelu oceniana jest również za pomocą wskaźników: AIC kryterium informacyjne Akaikego BIC Bayesowskie kryterium informacyjne Schwartza

REGRESJA LOGISTYCZNA W R Dane: admit Akceptacja na uczelnie gre Punkty z testu 0 380 1 660 1 800 1 640 0 520 1 760

REGRESJA LOGISTYCZNA W R Używamy funkcji glm() uogólnione modele liniowe (generalized linear models) glm(formula, family=familytype(link= linkfunction ), data=) Współczynniki modelu wraz z testem istotności (test Walda) Miara dopasowania modelu (Akaike Information Criterion)

REGRESJA LOGISTYCZNA W R Tabela coefficients: Wiersze tabeli odpowiadają zmiennym objaśniającym i wyrazowi wolnemu dopasowanego modelu I kolumna: wyestymowane współczynniki modelu II kolumna: odchylenie standardowe tych współczynników III kolumna: wartość statystyki testu Walda. IV kolumna: prawdopodobieństwo testowe (p-value) Hipotezą zerową w teście Walda dla współczynników jest nieistotność danej zmiennej objaśniającej

REGRESJA LOGISTYCZNA W R Interpretacja: Dla wzrostu zmiennej gpa o jednostkę obserwuje się wzrost logarytmu szans dla bycia przyjętym na uczelnie o 0,003582 Przedziały ufności dla parametrów:

REGRESJA LOGISTYCZNA W R Iloraz szans oraz przedziały ufności Parametr: szansa dla bycia przyjętym na uczelnie zwiększa się o 1,0035886 dla wzrostu wartości zmiennej gre o jednostkę Przedział ufności: szansa dla bycia przyjętym na uczelnie zwiększa się o wartość pomiędzy 1,00168 a 1,005568 na 95% dla wzrostu wartości zmiennej gre o jednostkę

ŹRÓDŁA Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Migut K. 2013. Regresja logistyczna w badaniach medycznych i przyrodniczych. Materiały kursowe StatSoft Polska. Institute for Digital Research and Education materials: http://www.ats.ucla.edu/stat/r/dae/logit.html Giemza J., Zwierzchowska K. 2011. Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka pod kierunkiem Przemysława Biecka.