Regresja logistyczna na przykładzie katastrofy Challengera
|
|
- Karol Krzemiński
- 5 lat temu
- Przeglądów:
Transkrypt
1 Regresja logistyczna na przykładzie katastrofy Challengera Elżbieta Kukla 24 lutego 2011 Spis treści 1 Katastrofa Challenger a 2 2 Model liniowy 3 3 Wstęp do regresji logistycznej 4 4 Rozkład Bernoulliego wyprowadzenie funkcji logit 5 5 Estymacja metodą największej wiarogodności 6 6 Analiza w R Logit Probit Porównanie funkcji logit i probit A Dokumentacja zbioru danych orings {faraway} 8 B Skrypty w R 9 Źródła: stat415/stephenson/stat415 chapter3.pdf johnson/st145/ch5.pdf pokar/rabczenko/farawayextendlinmod06.pdf 1
2 1 Katastrofa Challenger a 28 stycznia 1986 roku miała miejsce katastrofa amerykańskiego promu kosmicznego Challenger. Katastrofa ta miała miejsce 73 sekundy po starcie wahadłowca. W celu zbadania przczyn katastrofy przeprowadzono szczegółowe badania, w czasie których zwrócono uwagę na gumowe pierścienie (o okrągłym przekroju) uszczelniające dodatkowe rakiety. Rakiety te składają się z ładunku paliwa i silnika rakietowego na paliwo stałe. Wahadłowiec składa się z dwóch takich rakiet, każda posiada trzy takie pierścienie. Przez pierwsze dwie minuty lotu działają one równolegle z głównymi silnikami promu, pozwalając na pokonanie grawitacji Ziemi oraz przyspieszanie. Na wysokości około 45 kilometrów oba dodtkowe silniki odłączają się od zewnętrznego zbiornika, opadają na spadochronach i wodują w Oceanie Atlantyckim. Są wyławiane przez statki i transportowane na ląd, gdzie są przystosowywane do ponownego użycia. Stwierdzono, że w niskiej temperaturze guma staje się bardziej łamliwa i jest mniej skutecznym szczeliwem, a przyczyną katastrofy było uszkodzenie pierścienia uszczelniającego w prawym silniku wspomagającym, które nastąpiło najprawdopodobniej między pierwszą a trzecią sekundą lotu. Na skutek tego uszkodzenia i w efekcie oddziaływania gorących gazów wewnątrz silnika na powstałą nieszczelność, na zewnątrz połączenia pojawił się płomień. Płomień ten przepalił dziurę w zbiorniku zewnętrznym wahadłowca, co spowodowało eksplozję tego zbiornika i zniszczenie całego promu. W momencie startu temperatura powietrza wynosiła 31 o F, czyli trochę poniżej 0 o C. Zadawano sobie pytanie, czy można było przewidzieć katastrofę? Zaczęto badać 23 poprzednie misje wahadłowców, dla których istniały dane (łącznie odbyły 24 loty, lecz raz rakiet wspomagających nie odnaleziono), zostały odnotowane pewne oznaki zniszczenia na niektórych pierścieniach. Dla każdej z tych misji, znana jest temperatura powietrza, przy której startował prom oraz liczba pierścieni (spośród sześciu) wykazujących pewne uszkodzenia. 2
3 2 Model liniowy Rysunek 1: R - proporcja zniszczonych pierścieni w zależności od temperatury. Interesuje nas teraz, jak prawdopodobieństwo uszkodzenia danego pierścienia jest związane z tempreturą powietrza w chwili startu i przewidzenie tego prawdopodobieństwa, gdy temperatura wynosi 31 o F. Najprostsze podejście oparte na linowym modelu, po prostu dopasowuje prostą do tych danych. Przy tym podejściu napotykamy wiele problemów, co widać na wykresie. Przewidywane wartości prawdopodobieństwa mogą być większe od jedynki lub mniejsze od zera. Ktoś może zasugerować obcięcie tych wartości do przedziału [0, 1], ale nie wydaje się, że to jest dobry sposób. Lepiej założyć, że liczba zniszczeń ma rozkład dwumianowy (Bernoulliego). W przypadku modelu liniowego, wymagamy aby błędy miały rozkład normalny (do dokładnego testowania). Jednak, w przypadku rozkładu dwumianowego z jedynie 6 próbami, przybliżenie rozkładu normalnego byłoby naciągane. W dodatku wariancja zmiennej o rozkładzie Bernoulliego nie jest stała (jest funkcją prawdopodobieństwa p i ), co nie spełnia kolejnego istotnego założenia modelu liniowego. Ewidentnie standardowy liniowy model nie jest tutaj odpowiedni. Chociaż, możemy próbować naprawić niektóre z tych problemów (transformacje itp.), lepiej wprowadzić inny model, który dokładnie odpowiada danym o rozkładzie dwumianowym. 3
4 Rysunek 2: Zniszczone pierścienie w 23 misjach wahadłowca jako funkcja temperatury startu. Prosta otrzymana przy użyciu MNK. 3 Wstęp do regresji logistycznej Przypuśćmy, że zmienna odpowiedzi Y i dla i = 1,..., n i ma rozkład Bernoulliego z parametrami B(n i, p i ), tak że P (Y i = y i ) = n p y i i (1 p i ) n i y i. k Dalej, załóżmy, że zmienne Y i są niezależne. Pojedyncza próba, z których składa się Y i, zależy od tych samych q predyktorów (x i1,..., x iq ). Grupa prób nazywana jest covariate class. Potrzebujemy modelu, który opisuje relacje x 1,..., x q w stosunku do p. Postępując tak jak w modelu liniowym, konstruujemy liniowy predyktor: η i = β 0 + β 1 x i β q x iq. Jako że liniowy predyktor może mieścić zarówno jakościowe jak i ilościowe predyktory przy użyciu sztucznych zmiennych (ang. dummy) oraz pozwala na transformacje i kombinacje oryginalnych predyktorów, jest on bardzo elastyczny. Fakt, że możemy wyrazić efekty predyktorów na zmienną odpowiedzi wyłącznie przez liniowy predyktor jest ważny. Ta idea może być rozszerzona do modeli o innych typach zmiennych odpowiedzi i jest jedną z ważnych cech szerszej klasy uogólnionych modeli liniowych omówionej przy okazji uogólnionych 4
5 modeli liniowych (GLM). Już powyżej zaobserwowaliśmy, że ustalenie η i = p i nie jest odpowiednie, ponieważ chcemy aby 0 p i 1. Zamiast tego powinniśmy użyć funkcji wiążącej g takiej że η i = g(p i ). Do tego potrzebujemy funkcji g monotonicznej i takiej że 0 g 1 (η) 1 dla dowolnego η. Mamy trzy popularne funkcje: 1. Logit: η = log(p/(1 p)) 2. Probit: η = φ 1 (p), gdzie φ 1 jest odwrotnością dystrybuanty rozkładu normalnego 3. log log: η = log( log(1 p)) (ang. complementary log-log). Idea użycia funkcji wiążącej jest jedną z głównych idei uogólnionych modeli liniowych. 4 Rozkład Bernoulliego wyprowadzenie funkcji logit Dystrybuanta rozkładu Bernoulliego: P (Y i = y i ) = f i (y i ) = n i y i p y i i (1 p i ) n i y i gdzie y i liczba zniszczonych pierścieni po i-tej misji wahadłowca n i łączna liczba pierścieni w obu rakietach (u nas zawsze 6) p i obliczona proporcja zniszczonych pierścieni Kolejne przekształcenia: log f i (y i ) = y i log(p i ) + (n i y i ) log(1 p i ) + log p i log f i (y i ) = y i log( ) + n i log(1 p i ) + log 1 p i n i y i n i y i Mamy rodzinę wykładniczą, bo powyższe wyrażenie ma postać: log f i (y i ) = y iθ i b(θ i ) a i (θ) + c(y i, θ). Teraz zauważamy, patrząc na współczynnik przy y i, że kanonicznym parametrem jest logit p i : p i θ i = log( ) = η i. 1 p i Rozwiązując to dla p i, dostajemy p i = eθ i 1+e, więc 1 p θ i i = 1 1+e. θ i Stąd łatwo zauważyć, że b(θ i ) = n i log(1 + e θ i ) oraz c(y i, φ) = log ( n i k Przyjmujemy, że a i (φ) = φ i φ = 1. Teraz łatwo też sprawdzić wartość oczekiwaną i wariancję: ). 5
6 E(Y i ) = µ i = b (θ i ) = n i = n 1+e θ i i p i e θ i V ar(y i ) = v i = a i (φ)b (θ i ) = n i = n (1+e θ i) 2 i p i (1 p i ). 5 Estymacja metodą największej wiarogodności e θ i Najpierw oszacujmy parametry modelu, użyjemy do tego metody największej wiarogodności. Logarytm funkcji wiarogodności jest dany przez: l(β) = n [y i η i n i log(1 + e η i ) + log i=1 n i y i Powinniśmy zmaksymalizować to wyrażenie w celu otrzymania estymatorów ˆβ i użyć standardowej teorii do obliczenie przybliżonych standardowych błędów. Zmaksymalizowanie tego wyrażenia nie jest w tym przypadku takie proste. Estymatory największej wiarogodności mogą być łatwo i dokładnie znajdowane analitycznie w przypadku uogólnionych modeli liniowych tylko wtedy, gdy mamy rozkład normalny. Zazwyczaj musimy używać optymalizacji numerycznej. Stosujemy metodę Newtona-Raphsona ze scoringiem Fishera. W 1989 roku McCullagh i Nelder pokazali, że ta optymalizacja jest równoważna iterowanej ważonej metodzie najmniejszych kwadratów (ang. IRWLS iteratively reweighted least squares). ]. 6 Analiza w R 6.1 Logit W naszym modelu mamy oczywiście tylko jedną zmienną objaśniającą temperaturę powietrza, dlatego też mamy: p i log = β 0 + β 1 x i. 1 p i Użyjemy R, żeby estymować regresyjne parametry dla danych Challengera. Dla zmiennej odpowiedzi o rozkładzie Bernoulliego, potrzebujemy dwóch informacji o wartościach odopwiedzi y i n. W R jednym ze sposobów osiągnięcia tego, jest utworzenie dwukolumnowej macierzy z pierwszą kolumną reprezentującą liczbę sukcesów y i drugą kolumną z liczbą porażek n y. Określiliśmy, żę zmienna odpowiedzi ma rozkład Bernoulliego. Naturalnym wyborem funkcji wiążącej jest logit (regresja logistyczna) inne wybory funkcji muszą być specjalnie określone. Otrzymane współczynniki regresji wynoszą: ˆβ 0 = i ˆβ 1 = , wraz z ich odpowiednimi błędami (o rozkładzie normalnym). 6
7 Pokażemy jak wygląda dopasowanie logitu do danych. Zauważmy, jak dopasowanie logitem zbiega asymptotycznie do 0 dla wysokich temperatur oraz do 1 dla niskich. Dopasowane wartości jednak nigdy nie osiągną zera ani jedynki, więc model nigdy nie przewidzi zdarzenia z całkowitą pewnością. 6.2 Probit Otrzymane współczynniki regresji wynoszą: ˆβ 0 = i ˆβ 1 = , wraz z ich odpowiednimi błędami (o rozkładzie normalnym). 6.3 Porównanie funkcji logit i probit Chociaż współczynniki wydają się być zupełnie inne, dopasowanie jest podobne, szczególnie w widocznym zakresie temperatur. Możemy łatwo przewidzieć wartość prawdopodobieństwa w temperaturze 31 o F dla obu modeli: (logit) oraz (probit). Rysunek 3: Dopasowanie do danych Challengera przy użyciu funkcji logit (linia ciągła) i probit (linia przerywana). Widzimy bardzo wysokie prawdopodobieństwo zniszczenia w każdym modelu, chociaż musimy rozwinąć techniki testowania, nim wyciągniemy ostateczne wnioski. 7
8 A Dokumentacja zbioru danych orings {faraway} Space Shuttle Challenger O-rings Description The 1986 crash of the space shuttle Challenger was linked to failure of O-ring seals in the rocket engines. Data was collected on the 23 previous shuttle missions. The launch temperature on the day of the crash was 31F. Usage data(orings) Format A data frame with 23 observations on the following 2 variables. temp temperature at launch in degrees F damage number of damage incidents out of 6 possible Source Presidential Commission on the Space Shuttle Challenger Accident, Vol. 1, 1986: References S. Dalal, E. Fowlkes and B. Hoadley (1989) Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure. Journal of the American Statistical Association. 84: temp damage
9 B Skrypty w R #proporcja zniszczonych pierścieni w zależności od temperatury library(faraway) data(orings) orings plot(damage/6 temp,orings,xlim=c(25,85), ylim=c(0,1, xlab= Temperatura, ylab= P-stwo zniszczenia ) #najprostsze podejście model linowy lmod lm(damage/6 temp,orings) abline(lmod) summary(lmod) #logit logitmod glm(cbind(damage,6-damage) temp, family=binomial, orings) summary(logitmod) plot(damage/6 temp, orings, xlim=c(25,85), ylim=c(0,1), xlab= Temperatura,ylab= P-stwo zniszczenia ) x seq(25,85,1) lines(x,ilogit( *x)) #probit probitmod glm(cbind(damage,6-damage) temp, family=binomial(link=probit), orings) summary(probitmod) #logit i probit są podobne lines(x,pnorm( *x),lty=2) #prawdopodobieństwo zniszczenia przy temperaturze 31F ilogit( *31) pnorm( *31) 9
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Uogolnione modele liniowe
Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.
Zadanie 1 Niech y t ma rozkład logarytmiczno normalny o funkcji gęstości postaci [ ] 1 f (y t ) = y exp (ln y t β ln x t ) 2 t 2πσ 2 2σ 2 Zakładamy, że x t jest nielosowe a y t są nieskorelowane w czasie.
Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót
powrót Spis treści 1 Wstęp 2 Regresja logistyczna 2.1 Hipoteza 2.2 Estymacja parametrów 2.2.1 Funkcja wiarygodności 3 Uogólnione modele liniowe 3.1 Rodzina wykładnicza 3.1.1 Rozkład Bernouliego 3.1.2 Rozkład
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Uogólniony model liniowy
Uogólniony model liniowy Ogólny model liniowy y = Xb + e Każda obserwacja ma rozkład normalny Każda obserwacja ma tą samą wariancję Dane nienormalne Rozkład binomialny np. liczba chorych krów w stadzie
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Stosowana Analiza Regresji
prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Quick Launch Manual:
egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne
Prawa wielkich liczb, centralne twierdzenia graniczne
, centralne twierdzenia graniczne Katedra matematyki i ekonomii matematycznej 17 maja 2012, centralne twierdzenia graniczne Rodzaje zbieżności ciągów zmiennych losowych, centralne twierdzenia graniczne
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych
Rozdział 1 Zmienne losowe, ich rozkłady i charakterystyki 1.1 Definicja zmiennej losowej Niech Ω będzie przestrzenią zdarzeń elementarnych. Definicja 1 Rodzinę S zdarzeń losowych (zbiór S podzbiorów zbioru
Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16
Value at Risk (VaR) Jerzy Mycielski WNE 2018 Jerzy Mycielski (Institute) Value at Risk (VaR) 2018 1 / 16 Warunkowa heteroskedastyczność O warunkowej autoregresyjnej heteroskedastyczności mówimy, gdy σ
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
EGZAMIN MAGISTERSKI, 18 września 2013 Biomatematyka
Biomatematyka Liczebność populacji pewnego gatunku jest modelowana przez równanie różnicowe w którym N k stałymi. rn 2 n N n+1 =, A+Nn 2 oznacza liczebność populacji w k tej generacji, a r i A są dodatnimi
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki
WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ
MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ Opracowała: Milena Suliga Wszystkie pliki pomocnicze wymienione w treści
Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego
Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek
PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA Piotr Wiącek ROZKŁAD PRAWDOPODOBIEŃSTWA Jest to miara probabilistyczna określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni metrycznej. σ-ciało podzbiorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8
Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Natalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA
AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.
Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa
Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Marek Kubiak Instytut Informatyki Politechnika Poznańska Plan wykładu Podstawowe pojęcia rachunku prawdopodobieństwa Rozkład
Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 12 Mikołaj Czajkowski Wiktor Budziński Dane panelowe Co jeśli mamy do dyspozycji dane panelowe? Kilka obserwacji od tych samych respondentów, w różnych punktach czasu (np. ankieta realizowana
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Rozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Metody Ekonometryczne
Metody Ekonometryczne Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 4 Uogólniona Metoda Najmniejszych Kwadratów (GLS) 1 / 19 Outline 1 2 3 Jakub Mućk Metody Ekonometyczne
SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec
SMOP - wykład Rozkład normalny zasady przenoszenia błędów Ewa Pawelec 1 iepewność dla rozkładu norm. Zamiast dodawania całych zakresów uwzględniamy prawdopodobieństwo trafienia dwóch wartości: P x 1, x
Agata Boratyńska Statystyka aktuarialna... 1
Agata Boratyńska Statystyka aktuarialna... 1 ZADANIA NA ĆWICZENIA Z TEORII WIAROGODNOŚCI Zad. 1. Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi z rozkładu wykładniczego o wartości oczekiwanej
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Stanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17
Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary
5 Błąd średniokwadratowy i obciążenie
5 Błąd średniokwadratowy i obciążenie Przeprowadziliśmy 200 powtórzeń przebiegu próbnika dla tego samego zestawu parametrów modelowych co w Rozdziale 1, to znaczy µ = 0, s = 10, v = 10, n i = 10 (i = 1,...,
(LMP-Liniowy model prawdopodobieństwa)
OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3 Zał.: Wszystkie zmienne interakcyjne
Estymacja parametrów, przedziały ufności etc
Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,
Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 2 Mikołaj Czajkowski Wiktor Budziński Klasyczny Model Regresji Liniowej (KMRL) Postać modelu regresji liniowej: yi = Xiβ + εi Modelujemy liniową zależność y od zmiennych objaśniających
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 4 Mikołaj Czajkowski Wiktor Budziński Regresja kwantylowa W standardowej Metodzie Najmniejszych Kwadratów modelujemy warunkową średnią zmiennej objaśnianej: E( yi Xi) = μ ( Xi) Pokazaliśmy,
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 2 Mikołaj Czajkowski Wiktor Budziński STATA wczytywanie danych 1. Import danych do Staty Copy-paste z Excela do edytora danych Import z różnych formatów (File -> Import -> ) me.sleep.txt,
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,
Wykład 4. Rozkłady i ich dystrybuanty 6 marca 2007 Jak opisać cały rozkład jedną funkcją? Aby znać rozkład zmiennej X, musimy umieć obliczyć P (a < X < b) dla dowolnych a < b. W tym celu wystarczy znać
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Komputerowa analiza danych doświadczalnych
Komputerowa analiza danych doświadczalnych Wykład 9 27.04.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Metoda największej wiarygodności ierównosć informacyjna
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
OPIS MODUŁ KSZTAŁCENIA (SYLABUS)
OPIS MODUŁ KSZTAŁCENIA (SYLABUS) I. Informacje ogólne: 1 Nazwa modułu Metody opracowania obserwacji 2 Kod modułu 04-A-MOO-60-1L 3 Rodzaj modułu obowiązkowy 4 Kierunek studiów astronomia 5 Poziom studiów
Modelowanie niezawodności prostych struktur sprzętowych
Modelowanie niezawodności prostych struktur sprzętowych W ćwiczeniu tym przedstawione zostaną proste struktury sprzętowe oraz sposób obliczania ich niezawodności przy założeniu, że funkcja niezawodności
18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.
1 Czy iloczyn macierzy, które nie są kwadratowe może być macierzą kwadratową? Podaj przykład 2 Czy każde dwie macierze jednostkowe są równe? Podaj przykład 3 Czy mnożenie macierzy przez macierz jednostkową
Ekonometria dla IiE i MSEMat Z12
Ekonometria dla IiE i MSEMat Z12 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 09-01-2017 Test RESET Ramsey a W pierwszym etapie estymujemy współczynniki regresji w modelu:
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych
R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we
1.1 Wstęp Literatura... 1
Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................
STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR
1 STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR 3.1 Najlepszy predyktor i empiryczny najlepszy predyktor 3.1.1 Najlepszy predyktor i empiryczny najlepszy predyktor Ogólny mieszany model
Problem równoczesności w MNK
Problem równoczesności w MNK O problemie równoczesności mówimy, gdy występuje korelacja między wartościa oczekiwana ε i i równoczesnym x i Model liniowy y = Xβ + ε, E (u) = 0 Powiedzmy, że występuje w