Regresja, a współliniowość zmiennych

Podobne dokumenty
Regresja- wstęp Regresja liniowa Regresja nieliniowa. Idea

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wojciech Skwirz

Uogolnione modele liniowe

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Analiza regresji - weryfikacja założeń

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Analiza składowych głównych. Wprowadzenie

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Rozdział 8. Regresja. Definiowanie modelu

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Natalia Neherbecka. 11 czerwca 2010

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

MODELE LINIOWE. Dr Wioleta Drobik

Uogólniony model liniowy

Stosowana Analiza Regresji

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Statystyka i Analiza Danych

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej. Modele nieliniowe Funkcja produkcji

Regresja linearyzowalna

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Regresja i Korelacja

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

PDF created with FinePrint pdffactory Pro trial version

Zawansowane modele wyborów dyskretnych

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁAD: Szeregi czasowe II. Zaawansowane Metody Uczenia Maszynowego

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Stosowana Analiza Regresji

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

3. Modele tendencji czasowej w prognozowaniu

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Metoda najmniejszych kwadratów

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wprowadzenie do analizy korelacji i regresji

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

(LMP-Liniowy model prawdopodobieństwa)

Analiza przeżycia. Wprowadzenie

Weryfikacja hipotez statystycznych

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Estymacja w regresji nieparametrycznej

Stanisław Cichocki. Natalia Nehrebecka

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Stosowana Analiza Regresji

Zmienne zależne i niezależne

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Stanisław Cichocki. Natalia Nehrebecka

Regresja liniowa wprowadzenie

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Metody Ekonometryczne

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Metody Ekonometryczne

Stanisław Cichocki. Natalia Nehrebecka

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Analiza składowych głównych

Regresja nieparametryczna series estimator

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Spis treści 3 SPIS TREŚCI

Ekonometria. Zajęcia

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Uogólniona Metoda Momentów

Quick Launch Manual:

WYKŁAD 8 ANALIZA REGRESJI

Regresyjne metody łączenia klasyfikatorów

Statystyka w przykładach

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Ważne rozkłady i twierdzenia

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Transkrypt:

Regresja, a współliniowość zmiennych W przypadku gdy zmienne są ze sobą mocno skorelowane nie można użyć metody regresji wielorakiej. Ponieważ analiza jedynie korelacji zmiennych nie wskaże na związki więcej niż dwóch zmiennych, zatem sprawdzenia współliniowości dokonuje się najczęściej za pomocą czynników rozdęcia wariancji(ang. variance inflation factor). W celu ich policzenia konstruuje się modele regresji liniowej dla każdej zmiennej objaśniającej(zmiennymi objaśniającymi są dla niej pozostałe zmienne). Definiujemy: 1 VIF i = 1 Ri 2, gdzie R 2 i jestwspółczynnikiemdopasowaniadla i-tegomodelu regresji. Przyjmuje się, że wielkość tego czynnika powyżej 5 wymaga dalszych badań, a powyżej 10 oznacza już współliniowość pomiędzy badanymi zmiennymi(wartość 1 oznacza brak zależności lub występowanie w modelu jedynie jednej zmiennej objaśniającej).

Regresja składowych głównych Próbą uniknięcia problemu zależności zmiennych objaśniających jest regresja składowych głównych. Zamiast oryginalnych zmiennych objaśniających używamy składowych głównych, które są nieskorelowane. W praktyce używamy jedynie kilku pierwszych składowych, które w zadowalający sposób odzwierciedlają zmienność oryginalnych danych. Pojawia się jednak pewien problem. Ponieważ usuwamy część składowych nigdy nie mamy pewności, że nie usunęliśmy ważnej informacji a zostawiliśmy zaburzenie(wybrane składowe niekoniecznie są maksymalnie skorelowane ze zmienną objaśnianą).

Regresja częściowych najmniejszych kwadratów Próbą rozwiązania tego ostatniego problemu jest regresja częściowych najmniejszych kwadratów. W przypadku tej metody nowe zmienne objaśniające poszukiwane są w taki sposób, aby oprócz dobrego wyjaśniania zmienności oryginalnych danych, były maksymalnie skorelowane ze zmiennymi objaśnianymi. Metody tej używamy w przypadku gdy chcemy dokonać analizy zależności zbioru zmiennych objaśnianych od bardzo wielu zmiennych objaśniających. Szczególnie użyteczna bywa gdy liczba zmiennych jest większa od liczby obserwacji. Z tych względów szczególnie często bywa używana w chemometrii.

Regresja grzbietowa Inną próbą uniknięcia problemów ze zmiennymi skorelowanymi(lub ich dużą liczbą) jest regresja grzbietowa. Ponieważ problemy pojawiająsięwzwiązkuzniemożnościąodwróceniamacierzy X X, todojejprzekątnejdodajesiępewnąstałą λ 0.Dlatakiego zagadnienia otrzymuje się następujące rozwiązanie: ˆβ = (X X +λi) 1 X Y. Tego samego typu metodami są LASSO(ang. least absolute shrinkage and selection operator) oraz elastic net. Wszystkie te metody redukują wariancję estymatorów, aczkolwiek kosztem obciążenia.

Regresja grzbietowa arg min y Xβ 2 OLS, β arg min ˆβ y β Xβ 2 +λ 2 β 2 2 RR, = arg min y β Xβ 2 +λ 1 β 1 LASSO, arg min y β Xβ 2 +λ 2 β 2 2 +λ 1 β 1 Elasticnet. p Gdzie β 2 2 = βj 2 i β 1 = j=1 p β j. j=1

Regresja liniowa w R Odpowiednie procedury związane z metodami PCR i PLSR znajdują się w pakiecie pls. Możemy używać funkcji mvr lub (wygodniej) wrapperów na nią pcr oraz plsr. Funkcja vif pochodzi z pakietu DAAG i służy do wyznaczenia czynników rozdęcia wariancji. Omawiane metody mogą również zostać wykorzystane do redukcji wymiarowości danych i graficznego ich przedstawienia. Służą do tego funkcje scoreplot, loadingplot oraz corrplot. Regresja grzbietowa została zaimplementowana w pakiecie MASS(funkcja lm.ridge), a metoda lasso w pakiecie lars(funkcja lars).

wprowadzenie W wielu zagadnieniach model regresji liniowej nie wyraża dobrze zależności między zmiennymi. Musimy wówczas zrezygnować z funkcji liniowej i wykorzystać regresję nieliniową. Modele takie można podzielić na: modele nieliniowe względem zmiennych objaśniających, ale liniowe względem parametrów, modele nieliniowe zarówno względem zmiennych objaśniających jak i parametrów, dla których istnieje transformacja do modelu liniowego, modele ściśle nieliniowe, tzn. modele nieliniowe zarówno względem zmiennych objaśniających jak i parametrów, dla których nie istnieje transformacja do modelu liniowego.

przykład Model liniowy względem parametrów, ale nieliniowy względem zmiennych objaśniających. Y = α 0 +α 1 x 1 +α 2 x 2 1 + α 3 x 2 +ε Modele takie możemy w prosty sposób sprowadzić do modelu liniowego poprzez odpowiednie podstawienie: x 1 = x 1;x 2 = x2 1 ;x 3 = 1 x 2 otrzymując: Y = α 0 +α 1 x 1 +α 2 x 2 +α 3 x 3 +ε

przykład Model wykładniczo-hiperboliczny(nieliniowy zarówno względem zmiennych objaśniających jak i parametrów): Y = e α 0+ α 1 x 1 +ε. Modele takie sprowadzamy do modelu liniowego poprzez transformacje zarówno zmiennych objaśniających jak i zmiennej objaśnianej. Logarytmując obustronnie otrzymujemy: lny = α 0 + α 1 x 1 +ε. Y = lny;x 1 = 1 x 1 Y = α 0 +α 1 x 1 +ε.

przykład Model: Y = α 0 +α 1 e α 2x 1 +ε jest niesprowadzalny do modelu liniowego poprzez żadną transformację zarówno zmiennych objaśniających jak i zmiennej objaśnianej.

uwaga Jeśli tylko to możliwe zaleca się estymację parametrów regresji nieliniowej, a nie linearyzację modelu i estymację parametrów regresji liniowej.

w R Do wykonania regresji nieliniowej służy funkcja nls np. nls(y xˆa+b,start=list(a=2,b=3)), w której musimy podać punkty startowe. Wybór właściwych punktów startowych jest niezmiernie ważny, gdyż możemy utknąć w minimum lokalnym w przypadku startu w niewłaściwych punktach. W przypadku jeśli chcemy nałożyć ograniczenia na współczynniki określamy parametr algorithm na wartość port oraz parametry lower lub/i upper). Istnieje cała gama modeli, do których możemy próbować dopasować nasze dane, zaczynają się one od liter SS np. SSgompertz czy SSlogis. Mają one taką zaletę, że same określają wartości startowe parametrów.

w R Funkcja Równanie SSasymp y = a+(b a)e ec x SSasympOff y = a(1 e eb (x c) ) SSasympOrig y = a(1 e ebx ) SSbiexp SSfol y = ae ebx +ce ed x y = x 1e a+b c e a e b ( SSfpl y = a+ b a 1+e (c x)/d SSgompertz y = ae bcx SSlogis y = a 1+e (b x)/c SSmicmen y = ax b+x SSweibull y = a be ec x d e ea x 2 e eb x 2 )

w R Jeśli posiadamy już model, to powinniśmy zastanowić się czy spełnione są założenia dotyczące tego modelu. Bardzo pomocne są w tym przypadku funkcje nlsresiduals oraz test.nlsresiduals z pakietu nlstools. Pierwsza z nich przygotowuje dane do wykresów diagnostycznych, które możemy wyświetlić funkcją plot. Druga natomiast funkcja testuje czy rezydua mają rozkład normalny i czy są losowe.

Regresja nieparametryczna Czasami nie możemy zaproponować żadnej sensownej funkcji regresji lub też interesuje nas jedynie wygląd. W takiej sytuacji możemy wyznaczyć linię trendu stosując nieparametryczne metody regresji: Lokalne wygładzanie wielomianami niskiego stopnia. Dzielimy zbiór wartości funkcji na rozłączne przedziały i na każdym kawałku dopasowujemy regresję wielomianową(najczęściej trzeciego stopnia). Wygładzanie jądrowe. Regresja najbliższych sąsiadów. Wybierany jest parametr k, który wskazuje jaka część danych ma posłużyć do budowy modeluregresjiliniowej.wceluocenywartości x i używanesą obserwacje x i k/2,...,x i,...,x i+k/2. Ważona regresja lokalnie wielomianowa. Obserwacje otrzymująwagi(bliższewiększe,dalszemniejsze),aocena x i otrzymywana jest za pomocą odpornej regresji ważonej.

Regresja nieparametryczna w R W R metody lokalne można uzyskać za pomocą funkcji: smooth.spline(sześcienne funkcje sklejane, jest to wygładzona wersja funkcji spline); supsmu(regresja najbliższych sąsiadów); lowess(ważona regresja lokalnie wielomianowa); scatter.smooth (punkty oraz trend, modyfikacja funkcji lowess); ksmooth (wygładzanie jądrowe)

wprowadzenie W wielu sytuacjach nie możemy założyć, że zmienna objaśniana jest ciągła. W takiej sytuacji powinniśmy wykorzystać uogólnione modele liniowe, w których na zmienną zależną nakłada się rozkład (dopuszczalne są rozkłady pochodzące z tzw. wykładniczej rodziny rozkładów: np. rozkład normalny, wykładniczy, gamma, Poissona, dwumianowy, geometryczny oraz wielomianowy). Poza tym, aby uwzględnić również nieliniowy charakter zależności wprowadza się tzw. funkcję wiążącą h, która ma następującą własność: h(e(y X)) = Xβ. Zauważmy, że jeśli funkcja wiążąca jest identycznością(h(x) = x), a zmienna objaśniana ma rozkład normalny, to model ten sprowadza się do modelu regresji liniowej. Szczególnym i bardzo ważnym przykładem uogólnionego modelu liniowego jest regresja logistyczna.

wprowadzenie Formalnie w tym przypadku zakładamy, że Y b(p). Oznacza, to, że zmienna objaśniana przyjmuje tylko dwie wartości(najczęściej jest to zmienna binarna). Modelujemy prawdopodobieństwo wystąpienia sukcesu p. Jako funkcja wiążąca używana jest funkcja logitowa: logit(p) = ln p 1 p. Prawdopodobieństwo p jest następnie szacowane jako: p = 1 1+exp( Xβ).

wprowadzenie

wprowadzenie

iloraz szans Interpretacji podlega iloraz szans(ang. odds ratio), który można wyrazić jako ln(or) = ln p 1 p = β 0 +β 1 X 1 +...+β k X k. Jeżeli e β j >1,tozmienna X j działastymulująconamożliwość wystąpienia badanego zjawiska, w przeciwnym razie działa ograniczająco(jeżeli e β j =1,tozmienna X j niemawpływuna badane zjawisko). Jakość dopasowania można jak poprzednio zbadać za pomocą kryterium informacyjnych, jednak w przypadku regresji logistycznej bardziej efektywne są inne kryteria.

iloraz szans Pierwszym z nich są krzywe charakterystyczne. Na model regresji logistycznej można spojrzeć jak na model, który służy do zdiagnozowania dwóch stanów: dobry/zły. Model liczy prawdopodobieństwa stanu dobry. Wybieramy pewien próg 0 < t <1,jeżeliprawdopodobieństwouzyskanezmodelujest powyżej t diagnozujemy stan jako dobry, w przeciwnym razie jest zły. Mamy zatem cztery możliwości: TP(ang. true positive) model przewidział dobry oraz zaobserwowano dobry, TN(ang. true negative) model przewidział zły oraz zaobserwowano zły, FP(ang. false positive) model przewidział dobry oraz zaobserwowano zły, FN(ang. false negative) model przewidział zły oraz zaobserwowano dobry.

iloraz szans Przewidziano Zaobserwowano dobry zły dobry TP FP zły FN TN

iloraz szans Jeśliterazprzez n g oznaczymyliczbęzaobserwowanych dobry,a przez n b zły,totpr =TP/n g,tnr =TN/n b,fpr=1 TNR oraz FNR= 1 TPR. Krzywa ROC jest to wykres współczynnika TPR, na osi pionowej przeciwko współczynnikowi FPR na osi poziomej dla wszystkich wartości progowych t. Krzywa ROC jest to zatem rodzina punktów(fpr, TPR) obrazująca zależność między zdolnością wyróżniania przypadków pozytywnych i negatywnych dla różnych parametrów modelu. Aby teraz zmierzyć jakość modeluliczysiępolepodkrzywąroc.imwielkośćtegopola bliższa 1 tym zdolność modelu do przewidywania stanu dobry lepsza, pole bliskie 0,5 oznacza model bardzo słaby(losowy).

iloraz szans

w R Uogólnione modele liniowe analizujemy za pomocą funkcji glm, w której możemy poprzez parametr family określić rodzinę rozkładów oraz funkcję wiążącą. Aby wykonać regresję logistyczną, należy w funkcji glm określić parametr family jako binomial, natomiast aby wykonać regresję Poissona należy określić go jako poisson. Do analizy krzywych charakterystycznych wykorzystujemy pakie ROCR.