Regresja logistyczna na przykładzie katastrofy Challengera

Podobne dokumenty
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Uogolnione modele liniowe

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metoda największej wiarogodności

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Własności statystyczne regresji liniowej. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Uogólniony model liniowy

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Weryfikacja hipotez statystycznych

Statystyka i Analiza Danych

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Zawansowane modele wyborów dyskretnych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Stosowana Analiza Regresji

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Quick Launch Manual:

Stanisław Cichocki. Natalia Nehrebecka

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Prawa wielkich liczb, centralne twierdzenia graniczne

Metoda najmniejszych kwadratów

STATYSTYKA

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Stanisław Cichocki. Natalia Nehrebecka

EGZAMIN MAGISTERSKI, 18 września 2013 Biomatematyka

Metody probabilistyczne

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Stosowana Analiza Regresji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Monte Carlo, bootstrap, jacknife

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Wprowadzenie do analizy korelacji i regresji

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Natalia Neherbecka. 11 czerwca 2010

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Stanisław Cichocki. Natalia Nehrebecka

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Rozkłady statystyk z próby

Wnioskowanie bayesowskie

Metody Ekonometryczne

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Agata Boratyńska Statystyka aktuarialna... 1

Regresja linearyzowalna

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Spis treści 3 SPIS TREŚCI

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

5 Błąd średniokwadratowy i obciążenie

(LMP-Liniowy model prawdopodobieństwa)

Estymacja parametrów, przedziały ufności etc

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Analiza regresji - weryfikacja założeń

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Matematyka ubezpieczeń majątkowych r.

166 Wstęp do statystyki matematycznej

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Komputerowa analiza danych doświadczalnych

WYKŁAD 8 ANALIZA REGRESJI

OPIS MODUŁ KSZTAŁCENIA (SYLABUS)

Modelowanie niezawodności prostych struktur sprzętowych

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Ekonometria dla IiE i MSEMat Z12

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

1.1 Wstęp Literatura... 1

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Problem równoczesności w MNK

Transkrypt:

Regresja logistyczna na przykładzie katastrofy Challengera Elżbieta Kukla 24 lutego 2011 Spis treści 1 Katastrofa Challenger a 2 2 Model liniowy 3 3 Wstęp do regresji logistycznej 4 4 Rozkład Bernoulliego wyprowadzenie funkcji logit 5 5 Estymacja metodą największej wiarogodności 6 6 Analiza w R 6 6.1 Logit................................................... 6 6.2 Probit.................................................. 7 6.3 Porównanie funkcji logit i probit................................... 7 A Dokumentacja zbioru danych orings {faraway} 8 B Skrypty w R 9 Źródła: http://data.princeton.edu/wws509/notes/a2.pdf http://www.public.iastate.edu/ stat415/stephenson/stat415 chapter3.pdf http://www.stat.ucdavis.edu/ johnson/st145/ch5.pdf http://www.mimuw.edu.pl/ pokar/rabczenko/farawayextendlinmod06.pdf 1

1 Katastrofa Challenger a 28 stycznia 1986 roku miała miejsce katastrofa amerykańskiego promu kosmicznego Challenger. Katastrofa ta miała miejsce 73 sekundy po starcie wahadłowca. W celu zbadania przczyn katastrofy przeprowadzono szczegółowe badania, w czasie których zwrócono uwagę na gumowe pierścienie (o okrągłym przekroju) uszczelniające dodatkowe rakiety. Rakiety te składają się z ładunku paliwa i silnika rakietowego na paliwo stałe. Wahadłowiec składa się z dwóch takich rakiet, każda posiada trzy takie pierścienie. Przez pierwsze dwie minuty lotu działają one równolegle z głównymi silnikami promu, pozwalając na pokonanie grawitacji Ziemi oraz przyspieszanie. Na wysokości około 45 kilometrów oba dodtkowe silniki odłączają się od zewnętrznego zbiornika, opadają na spadochronach i wodują w Oceanie Atlantyckim. Są wyławiane przez statki i transportowane na ląd, gdzie są przystosowywane do ponownego użycia. Stwierdzono, że w niskiej temperaturze guma staje się bardziej łamliwa i jest mniej skutecznym szczeliwem, a przyczyną katastrofy było uszkodzenie pierścienia uszczelniającego w prawym silniku wspomagającym, które nastąpiło najprawdopodobniej między pierwszą a trzecią sekundą lotu. Na skutek tego uszkodzenia i w efekcie oddziaływania gorących gazów wewnątrz silnika na powstałą nieszczelność, na zewnątrz połączenia pojawił się płomień. Płomień ten przepalił dziurę w zbiorniku zewnętrznym wahadłowca, co spowodowało eksplozję tego zbiornika i zniszczenie całego promu. W momencie startu temperatura powietrza wynosiła 31 o F, czyli trochę poniżej 0 o C. Zadawano sobie pytanie, czy można było przewidzieć katastrofę? Zaczęto badać 23 poprzednie misje wahadłowców, dla których istniały dane (łącznie odbyły 24 loty, lecz raz rakiet wspomagających nie odnaleziono), zostały odnotowane pewne oznaki zniszczenia na niektórych pierścieniach. Dla każdej z tych misji, znana jest temperatura powietrza, przy której startował prom oraz liczba pierścieni (spośród sześciu) wykazujących pewne uszkodzenia. 2

2 Model liniowy Rysunek 1: R - proporcja zniszczonych pierścieni w zależności od temperatury. Interesuje nas teraz, jak prawdopodobieństwo uszkodzenia danego pierścienia jest związane z tempreturą powietrza w chwili startu i przewidzenie tego prawdopodobieństwa, gdy temperatura wynosi 31 o F. Najprostsze podejście oparte na linowym modelu, po prostu dopasowuje prostą do tych danych. Przy tym podejściu napotykamy wiele problemów, co widać na wykresie. Przewidywane wartości prawdopodobieństwa mogą być większe od jedynki lub mniejsze od zera. Ktoś może zasugerować obcięcie tych wartości do przedziału [0, 1], ale nie wydaje się, że to jest dobry sposób. Lepiej założyć, że liczba zniszczeń ma rozkład dwumianowy (Bernoulliego). W przypadku modelu liniowego, wymagamy aby błędy miały rozkład normalny (do dokładnego testowania). Jednak, w przypadku rozkładu dwumianowego z jedynie 6 próbami, przybliżenie rozkładu normalnego byłoby naciągane. W dodatku wariancja zmiennej o rozkładzie Bernoulliego nie jest stała (jest funkcją prawdopodobieństwa p i ), co nie spełnia kolejnego istotnego założenia modelu liniowego. Ewidentnie standardowy liniowy model nie jest tutaj odpowiedni. Chociaż, możemy próbować naprawić niektóre z tych problemów (transformacje itp.), lepiej wprowadzić inny model, który dokładnie odpowiada danym o rozkładzie dwumianowym. 3

Rysunek 2: Zniszczone pierścienie w 23 misjach wahadłowca jako funkcja temperatury startu. Prosta otrzymana przy użyciu MNK. 3 Wstęp do regresji logistycznej Przypuśćmy, że zmienna odpowiedzi Y i dla i = 1,..., n i ma rozkład Bernoulliego z parametrami B(n i, p i ), tak że P (Y i = y i ) = n p y i i (1 p i ) n i y i. k Dalej, załóżmy, że zmienne Y i są niezależne. Pojedyncza próba, z których składa się Y i, zależy od tych samych q predyktorów (x i1,..., x iq ). Grupa prób nazywana jest covariate class. Potrzebujemy modelu, który opisuje relacje x 1,..., x q w stosunku do p. Postępując tak jak w modelu liniowym, konstruujemy liniowy predyktor: η i = β 0 + β 1 x i1 +... + β q x iq. Jako że liniowy predyktor może mieścić zarówno jakościowe jak i ilościowe predyktory przy użyciu sztucznych zmiennych (ang. dummy) oraz pozwala na transformacje i kombinacje oryginalnych predyktorów, jest on bardzo elastyczny. Fakt, że możemy wyrazić efekty predyktorów na zmienną odpowiedzi wyłącznie przez liniowy predyktor jest ważny. Ta idea może być rozszerzona do modeli o innych typach zmiennych odpowiedzi i jest jedną z ważnych cech szerszej klasy uogólnionych modeli liniowych omówionej przy okazji uogólnionych 4

modeli liniowych (GLM). Już powyżej zaobserwowaliśmy, że ustalenie η i = p i nie jest odpowiednie, ponieważ chcemy aby 0 p i 1. Zamiast tego powinniśmy użyć funkcji wiążącej g takiej że η i = g(p i ). Do tego potrzebujemy funkcji g monotonicznej i takiej że 0 g 1 (η) 1 dla dowolnego η. Mamy trzy popularne funkcje: 1. Logit: η = log(p/(1 p)) 2. Probit: η = φ 1 (p), gdzie φ 1 jest odwrotnością dystrybuanty rozkładu normalnego 3. log log: η = log( log(1 p)) (ang. complementary log-log). Idea użycia funkcji wiążącej jest jedną z głównych idei uogólnionych modeli liniowych. 4 Rozkład Bernoulliego wyprowadzenie funkcji logit Dystrybuanta rozkładu Bernoulliego: P (Y i = y i ) = f i (y i ) = n i y i p y i i (1 p i ) n i y i gdzie y i liczba zniszczonych pierścieni po i-tej misji wahadłowca n i łączna liczba pierścieni w obu rakietach (u nas zawsze 6) p i obliczona proporcja zniszczonych pierścieni Kolejne przekształcenia: log f i (y i ) = y i log(p i ) + (n i y i ) log(1 p i ) + log p i log f i (y i ) = y i log( ) + n i log(1 p i ) + log 1 p i n i y i n i y i Mamy rodzinę wykładniczą, bo powyższe wyrażenie ma postać: log f i (y i ) = y iθ i b(θ i ) a i (θ) + c(y i, θ). Teraz zauważamy, patrząc na współczynnik przy y i, że kanonicznym parametrem jest logit p i : p i θ i = log( ) = η i. 1 p i Rozwiązując to dla p i, dostajemy p i = eθ i 1+e, więc 1 p θ i i = 1 1+e. θ i Stąd łatwo zauważyć, że b(θ i ) = n i log(1 + e θ i ) oraz c(y i, φ) = log ( n i k Przyjmujemy, że a i (φ) = φ i φ = 1. Teraz łatwo też sprawdzić wartość oczekiwaną i wariancję: ). 5

E(Y i ) = µ i = b (θ i ) = n i = n 1+e θ i i p i e θ i V ar(y i ) = v i = a i (φ)b (θ i ) = n i = n (1+e θ i) 2 i p i (1 p i ). 5 Estymacja metodą największej wiarogodności e θ i Najpierw oszacujmy parametry modelu, użyjemy do tego metody największej wiarogodności. Logarytm funkcji wiarogodności jest dany przez: l(β) = n [y i η i n i log(1 + e η i ) + log i=1 n i y i Powinniśmy zmaksymalizować to wyrażenie w celu otrzymania estymatorów ˆβ i użyć standardowej teorii do obliczenie przybliżonych standardowych błędów. Zmaksymalizowanie tego wyrażenia nie jest w tym przypadku takie proste. Estymatory największej wiarogodności mogą być łatwo i dokładnie znajdowane analitycznie w przypadku uogólnionych modeli liniowych tylko wtedy, gdy mamy rozkład normalny. Zazwyczaj musimy używać optymalizacji numerycznej. Stosujemy metodę Newtona-Raphsona ze scoringiem Fishera. W 1989 roku McCullagh i Nelder pokazali, że ta optymalizacja jest równoważna iterowanej ważonej metodzie najmniejszych kwadratów (ang. IRWLS iteratively reweighted least squares). ]. 6 Analiza w R 6.1 Logit W naszym modelu mamy oczywiście tylko jedną zmienną objaśniającą temperaturę powietrza, dlatego też mamy: p i log = β 0 + β 1 x i. 1 p i Użyjemy R, żeby estymować regresyjne parametry dla danych Challengera. Dla zmiennej odpowiedzi o rozkładzie Bernoulliego, potrzebujemy dwóch informacji o wartościach odopwiedzi y i n. W R jednym ze sposobów osiągnięcia tego, jest utworzenie dwukolumnowej macierzy z pierwszą kolumną reprezentującą liczbę sukcesów y i drugą kolumną z liczbą porażek n y. Określiliśmy, żę zmienna odpowiedzi ma rozkład Bernoulliego. Naturalnym wyborem funkcji wiążącej jest logit (regresja logistyczna) inne wybory funkcji muszą być specjalnie określone. Otrzymane współczynniki regresji wynoszą: ˆβ 0 = 11.6630 i ˆβ 1 = 0.2162, wraz z ich odpowiednimi błędami (o rozkładzie normalnym). 6

Pokażemy jak wygląda dopasowanie logitu do danych. Zauważmy, jak dopasowanie logitem zbiega asymptotycznie do 0 dla wysokich temperatur oraz do 1 dla niskich. Dopasowane wartości jednak nigdy nie osiągną zera ani jedynki, więc model nigdy nie przewidzi zdarzenia z całkowitą pewnością. 6.2 Probit Otrzymane współczynniki regresji wynoszą: ˆβ 0 = 5.5915 i ˆβ 1 = 0.1058, wraz z ich odpowiednimi błędami (o rozkładzie normalnym). 6.3 Porównanie funkcji logit i probit Chociaż współczynniki wydają się być zupełnie inne, dopasowanie jest podobne, szczególnie w widocznym zakresie temperatur. Możemy łatwo przewidzieć wartość prawdopodobieństwa w temperaturze 31 o F dla obu modeli: 0.99304 (logit) oraz 0.9896 (probit). Rysunek 3: Dopasowanie do danych Challengera przy użyciu funkcji logit (linia ciągła) i probit (linia przerywana). Widzimy bardzo wysokie prawdopodobieństwo zniszczenia w każdym modelu, chociaż musimy rozwinąć techniki testowania, nim wyciągniemy ostateczne wnioski. 7

A Dokumentacja zbioru danych orings {faraway} Space Shuttle Challenger O-rings Description The 1986 crash of the space shuttle Challenger was linked to failure of O-ring seals in the rocket engines. Data was collected on the 23 previous shuttle missions. The launch temperature on the day of the crash was 31F. Usage data(orings) Format A data frame with 23 observations on the following 2 variables. temp temperature at launch in degrees F damage number of damage incidents out of 6 possible Source Presidential Commission on the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131. References S. Dalal, E. Fowlkes and B. Hoadley (1989) Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure. Journal of the American Statistical Association. 84: 945-957. temp damage 1 53 5 2 57 1 3 58 1 4 63 1 5 66 0 6 67 0 7 67 0 8 67 0 9 68 0 10 69 0 11 70 1 12 70 0 13 70 1 14 70 0 15 72 0 16 73 0 17 75 0 18 75 1 19 76 0 20 76 0 21 78 0 22 79 0 23 81 0 8

B Skrypty w R #proporcja zniszczonych pierścieni w zależności od temperatury library(faraway) data(orings) orings plot(damage/6 temp,orings,xlim=c(25,85), ylim=c(0,1, xlab= Temperatura, ylab= P-stwo zniszczenia ) #najprostsze podejście model linowy lmod lm(damage/6 temp,orings) abline(lmod) summary(lmod) #logit logitmod glm(cbind(damage,6-damage) temp, family=binomial, orings) summary(logitmod) plot(damage/6 temp, orings, xlim=c(25,85), ylim=c(0,1), xlab= Temperatura,ylab= P-stwo zniszczenia ) x seq(25,85,1) lines(x,ilogit(11.6630-0.2162*x)) #probit probitmod glm(cbind(damage,6-damage) temp, family=binomial(link=probit), orings) summary(probitmod) #logit i probit są podobne lines(x,pnorm(5.5915-0.1058*x),lty=2) #prawdopodobieństwo zniszczenia przy temperaturze 31F ilogit(11.6630-0.2162*31) pnorm(5.5915-0.1058*31) 9