Idea Termin regresja oznacza metodę pozwalającą na zbadanie związku pomiędzy zmiennymi i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie znajomości wartości innych. W praktyce poszukuje się związku między domniemaną jedną(lub więcej) zmienną objaśniającą lub niezależną, a zmienną objaśnianą lub zależną Y. Związek ten może być dalej wykorzystywany do prognozowania wartości Y w zależności od X. Jeżeli badać będziemy zależność zmiennej Y od wartości innej zmiennej, to wartości zmiennej objaśniającej będziemy oznaczać przez x i traktować jako wartości deterministyczne zmiennej X, które wybieramy w celu obserwacji zmiennej losowej Y. Jak widać zmienne X oraz Y traktowane są odmiennie w zagadnieniu regresyjnym. Mianowicie zmienna X uważana jest za w pełni kontrolowaną przez eksperymentatora, a co za tym idzie pozbawiona jest ona elementu losowości(de facto traktowana jest jako liczba).
Idea Chcemy zatem odpowiedzieć sobie na pytanie jak zmienia się wartość oczekiwana zmiennej Y w zależności od wartości x zmiennej X, czyli: E(Y) = g(x), gdzie g(x) jest funkcją regresji opisującą poszukiwany związek. Zwyczajowo zakłada się dodatkowo, że Var(Y) jest dla wszystkich wartości xstałairówna σ 2 (jednorodnośćwariancji).z matematycznego punktu widzenia regresją nazywana jest każda metoda, która umożliwia oszacowanie tego równania.
Diagramy korelacyjne W celu wstępnej oceny zależności najczęściej konstruuje się diagramy korelacyjne. Ich wagę doskonale uwypuklił Anscombe (1973), który skonstruował 4 zbiory danych, mające identyczne podstawowe charakterystyki, ale ich diagramy korelacyjne diametralniesięróżniły.średniadlakażdejzmiennej x i wynosiłą9, zmiennej y i =10;wariancjadla x i =7,5,dla y i =2,75; współczynnik korelacji liniowej wynosił 0,816 dla każdego zbioru orazprostaregresjimiałapostać y =3+0,5x.
Diagramy korelacyjne
Diagramy korelacyjne Różnią się one w sposób bardzo wyraźny. Pierwszy wykres(górny lewy róg) sugeruje, że dane mają rozkład normalny i prosta regresji oraz współczynnik korelacji są poprawne. Drugi wykres(górny prawy róg) pokazuje nieliniowy charakter zależności, a zatem i brak uzasadnienia dla prostej regresji oraz współczynnika korelacji. Wykres trzeci(dolny lewy róg) wskazuje na wagę obserwacji odstającej, która jest powodem zaniżenia współczynnika korelacji. Ostatni wykres(dolny prawy róg) pokazuje inne zjawisko, mianowicie tzw. obserwacją wpływową, która tutaj spowodowała, że współczynnik korelacji jest wysoki, mimo, że taki być nie powinien.
Zależności regresyjnej poszukuje się w pewnej zadanej z góry klasie funkcji, na ogół klasie funkcji wielomianowych, z których w najprostszym przypadku, gdy za g(x) przyjmiemy funkcję liniową, otrzymamy równanie regresji liniowej postaci: E(Y) = α 0 +α 1 x, wktórym α 0 oraz α 1 sąnieznanymiparametrami.wpraktyce wygodniej jest posługiwać się następującym modelem regresji liniowej: Y i = α 0 +α 1 x i +ε i. Występującewrównaniuzmiennelosowe ε i nazywanesą składnikami losowymi. Zakładamy, że mają one wartość oczekiwaną0,stałąwariancjęrówną σ 2 (homoscedastyczność)oraz są nieskorelowane między sobą. Zauważmy, że nie jest wymagane określenie rozkładu składnika losowego(zwykle zakłada się, że jest to rozkład normalny).
W praktyce nie dysponujemy pełną informacją o populacji. Musimy zatem oszacować parametry funkcji regresji na podstawie próby losowej. Odpowiednie oszacowanie ma postać: Element Ŷ i = a 0 +a 1 x i. U i = y i Ŷi nazywany jest składnikiem resztowym, albo prościej resztą (funkcjonuje również nazwa residuum). Jak jednak znaleźć taką dobrze dopasowaną linię prostą? Punktem wyjścia są reszty, a właściwie suma kwadratów reszt, opisująca rozbieżność pomiędzy wartościami empirycznymi zmiennej zależnej, a jej wartościami teoretycznymi, obliczonymi na podstawie wybranej funkcji. Oszacowania parametrów dobieramy tak, aby suma kwadratów reszt osiągnęła minimum. Metoda ta nosi nazwę metody najmniejszych kwadratów(mnk).
Estymatory parametrów otrzymane za pomocą MNK mają postać: a 1 = n (x i x)(y i ȳ), n (x i x) 2 i=1 i=1 a 0 = ȳ a 1 x. Tak otrzymane estymatory są najefektywniejszymi i równocześnie nieobciążonymi estymatorami parametrów regresji liniowej. Współczynnikkierunkowy a 1 nazywamywspółczynnikiemregresji liniowej. Odpowiada on na pytanie, jaki jest przeciętny przyrost wartości zmiennej zależnej na jednostkę przyrostu zmiennej niezależnej.
Dokładność oszacowania można ocenić za pomocą współczynnika determinacji R 2.Mierzyonjakaczęśćogólnejzmiennościzmiennej zależnej jest wyjaśniona przez regresję liniową(współczynnik determinacji nie ma sensu, jeśli w modelu pominięto wyraz wolny). Dołączeniejednaknowejzmiennejdomodeluzawszezwiększa R 2. Celem nie jest uzyskanie jak największej wartości tego współczynnika, lecz znalezienie związku między X i Y z rzetelnymi ocenami parametrów. Dlatego w praktyce używamy raczej tzw. poprawionego R 2.Uwzględniaon,że R 2 jestobliczonyzpróbyi jest trochę za dobry, jeśli uogólniamy nasze wyniki na populację. Poprawiony R 2 jestzawszemniejszyod R 2.Przyjmujesię,żeaby pozytywnie zweryfikować model współczynnik ten musi być większy od 60%. Należy również pamiętać, że taka ocena jakości modelu jest poprawna wtedy i tylko wtedy gdy model jest adekwatny, czyli gdy spełnione są założenia modelu.
Wykresy diagnostyczne wykres dźwigini Wykorzystywany do zbadania, czy występują obserwacje odstające. Dla każdego residuum obliczana jest tzw. siła dźwigni zwana również wpływem(miara wpływu obserwacji na oceny). W modelu adekwatnym siła dźwigni nie powinna być zbyt duża, gdyż oznacza, to że pojedyncza obserwacja ma duży wpływ na oceny parametrów. Przyjmuje się, że obserwacja jest wpływowa jeśli przekracza dwie średnie siły dźwigni. Inną podobną miarą wpływu obserwacji na model jest odległość Cooka. Wykazuje ona różnicę między wyznaczonymi wartościami współczynników, a wartościami obliczonymi przy wyłączeniu danego przypadku z obliczeń. Wszystkie odległości powinny być tego samego rzędu. Jeśli nie są, to można przypuszczać, że dany przypadek(przypadki) miał istotny wpływ na obciążenie współczynników równania regresji. Często preferuje się analizę odległości Cooka zamiast analizy wartości wpływowych. Powinna ona być mniejsza od 1, jeśli chcemy uznać model za adekwatny.
Wykresy diagnostyczne wykres residuów Wykres przedstawiający na jednej osi wartości dopasowane przez model, a na drugiej residua lub standaryzowane residua. Powszechną praktyką jest uznawanie, że obserwacja jest odstająca jeżeli jej residuum standaryzowane jest większe co do wartości bezwzględnej od 2. Dla modelu adekwatnego średnia wartość residuum nie powinna zależeć od wartości dopasowania (powinniśmy w wyniku dostać pas punktów losowo rozmieszczonych wokół prostej y = 0).
Wykresy diagnostyczne wykres kwantylowy Wykresy kwantylowe dla standaryzowanych residuów powinny wskazać na ich normalność.
Wykresy diagnostyczne wykres pierwiastków Wykres, na którym dla każdej wartości zmiennej objaśniającej wyznaczono pierwiastek z wartości bezwzględnej jej residuum standaryzowanego. Nie powinniśmy zaobserwować żadnego trendu. Jeśli takowy występuje, oznacza to, że wariancja błędu nie jest stała. Oprócz wizualnej oceny wariancji składnika losowego można również wykonać jeden z wielu dostępnych testów. Najczęściej używany jest test Breuscha-Pagana. Hipoteza zerowa zakłada, że homoskedastyczność zachodzi.
Modelowanie w R Odpowiednie sformułowanie modelu w R odbywa się przy pomocy specjalnych formuł opisujących zależności zmiennych. Postać formuły jest następująca: zmienna objaśniana zmienna(e) objaśniająca(e), gdzie symbol oznacza jest modelowana jako funkcja. W formułach można używać wielu specjalnych symboli takich jak: + dodanie zmiennej do modelu(nie suma zmiennych), - usunięcie zmiennej z modelu(nie różnica zmiennych), -1 usunięcie wyrazu wolnego z modelu, * dodanie wszystkich zmiennych oraz interakcji między nimi(nie mnożenie zmiennych), ˆn wszystkie zmienne oraz interakcje pomiędzy nimi aż dorzędu n, : interakcja pomiędzy zmiennymi,. zależność od wszystkich zmiennych w podanej ramce danych.
Modelowanie w R Można również używać funkcji arytmetycznych. Jeśli jednak chcemy skorzystać z operatorów arytmetycznych, które mają specjalne znaczenie w formułach powinniśmy skorzystać z funkcji I. Może się również zdarzyć sytuacja, w której chcemy jedynie poprawić istniejący już model, służy do tego funkcja update, w której kluczową rolę odgrywa.. W zależności po której stronie znaku się znajduje, zastępuje prawą lub lewą stronę oryginalnej formuły. model = lm(y x) update(model,.-1)#y x-1 update(model, log(.).)#log(y) x
Przykładowe formuły w R Formuła Opis y 1 Model pusty(średnia) y x y x 1 Regresjabezwyrazuwolnego y x +z Regresjawielokrotna y x z Regresjazinterakcją,inaczej y x +z +x : z y x + I(xˆ2) Regresja kwadratowa y x +I(xˆ2)+I(xˆ3) Regresjasześcienna y (x +z +w)ˆ2 y x +z +w +x : z +x : w +z : w y x z x y z +x : z y x/z y x +x : z log(y) I(1/x) + sqrt(z) Użycie funkcji arytmetycznych
Przykład zachorowania na gruźlicę Poniższa Tabela przedstawia liczbę zachorowań na gruźlicę układu oddechowego w latach 1995-2002. Liczba zachorowań została podana w przeliczeniu na 100 tys. ludności. Zakładając liniową zależność pomiędzy rokiem, a ilością zachorowań, dokonać wszechstronnej analizy regresji. Rok(x i) 1995 1996 1997 1998 1999 2000 2001 2002 Zachorowania(y i) 39,7 38,2 34,7 33,1 30,1 28,4 26,3 24,7
Przykład zachorowania na gruźlicę Do wykonania analizy regresji służy funkcja lm, w której podajemy jako argument formułę opisującą model. Jako wynik otrzymujemy oszacowany model regresyjny. Wywołanie na nim funkcji summary przedstawia kolejno wartości reszt(lub, w przypadku większej ich liczby, wartości skrajne, medianę i kwartyle), estymatory nachylenia prostej i przecięcia z osia y. Dla każdego z estymatorów podany jest błąd standardowy oraz odpowiadające mu wartości statystyki t i p-wartości dla jego istotności, otrzymujemy również współczynnik R 2 oraz R 2 popr.naskonstruowanymmodelumożnarównież wywołać funkcje: coef(współczynniki modelu), confint(przedziały ufności dla parametrów), fitted(wartości dopasowane przez model), residuals(wartości reszt), vcov(macierz kowariancji parametrów).
Przykład zachorowania na gruźlicę Przeciążona funkcja plot rysuje wykresy diagnostyczne(domyślnie cztery opisane wcześniej). W pakiecie car znajduje się ciekawa możliwość wizualizacji miar wpływu na jednym wykresie. Jest to funkcja influenceplot. Na osi odciętych znajdują się wartości siły dźwigni, a na osi rzędnych studentyzowane residua. Dodatkowo pole każdego punktu jest proporcjonalne do odległości Cooka. Wykres umożliwia również na wskazywanie wartości odstających poprzez kliknięcie. Pionowe linie pomocnicze rysowane są w punktach podwójnej i potrójnej średniej siły dźwigni, natomiast poziome na wysokości-2, 0 oraz 2. Całościowa analiza diagnostyczna modelu zawarta jest w pakiecie gvlma i jest to funkcja gvlma.
Regresja wielokrotna Wcześniej założyliśmy, że zmienna objaśniana zależy jedynie od jednej zmiennej objaśniającej. Jest to duże uproszczenie. Zdarza się, że badane zjawisko zależy nie tylko od jednego czynnika, ale od wielu. Uogólnieniem prostej regresji jest regresja wielokrotna lub wieloraka, w której uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz układem kcech X 1,X 2,...,X k.modelregresjiwielokrotnejmożna zapisać w postaci: Y = Xα+ε, gdzie Y jest wektorem obserwacji zmiennej objaśnianej, a X macierzą z pomiarami zmiennych objaśniających(pierwsza kolumna to kolumna jedynek odpiwiadająca za wyraz wolny w modelu).
Regresja wielokrotna W celu estymacji parametrów modelu ponownie używamy MNK otrzymując(oprócz poprzednich założeń, musimy jeszcze przyjąć, że nie istnieje liniowa zależność pomiędzy zmiennymi objaśniającymi): ˆα = (X X) 1 X Y.
Regresja wielokrotna Częstokroć w przypadku wykorzystania regresji wielorakiej bardziej od prognozy interesuje nas, które zmienne wpływają na badane zjawisko w sposób stymulujący, a które je hamują. Pierwsze z tych czynników nazywamy stymulantami, a drugie destymulantami. Oczywiście stymulantami są zmienne, które w oszacowanym modelu regresji mają dodatnie wartości parametrów regresji. Destymulanty to zmienne o ujemnych parametrach. Można jeszcze określić zmienne neutralne(nieistotne), czyli takie, które nie mają wpływu na badane zjawisko.
Regresja wielokrotna przykład Weźmy pod uwagę zbiór longley. Zbiór ten zawiera informacje dotyczące 7 wskaźników makroekonomicznych. Skonstruujemy model regresji wielorakiej zależności wielkości zatrudnienia (Employed) od pozostałych zmiennych. Określimy, które zmienne są istotne w tym modelu, zmienne nieistotne zostaną z modelu usunięte. Wyznaczymy dopasowanie modelu oraz określimy, które zmienne są stymulantami, a które destymulantami.
Regresja krokowa Istnieje również inna metoda budowania modeli z dużą liczbą zmiennych objaśniających niż konstrukcja pełnego modelu i oszacowanie jego parametrów. Jest to procedura regresji krokowej, w której na każdym kroku możemy odrzucić lub dodać zmienną. Powiedzmy, że zaczynamy od modelu zawierającego tylko stałą (można zacząć również od modelu pełnego). W kolejnym kroku dodajemy najlepszą w sensie jakiegoś kryterium(np. test t) zmienną. W kolejnym dodajemy znowu, ale sprawdzamy również cosiędziejejakbyśmyztegomodeluusunęlidodanąw poprzednim kroku zmienną itd.
Regresja krokowa Jakość modelu oceniana jest za pomocą współczynnika informacyjnego Akaike. Jest to najpopularniejsze kryterium optymalności modelu(nieco mniej popularny jest bayesowski współczynnik informacyjny). Ponieważ wartość tego współczynnika zależy nie tylko od sumy kwadratów reszt, ale również od ilości zmiennych w równaniu, zwiększając stopień wielomianu, mimo iż suma kwadratów reszt zawsze maleje, od pewnego momentu współczynnik AIC zacznie rosnąć(i to jest optymalny stopień wielomianu). Kryterium AIC ma tendencję do wybierania modelu ze zbyt dużą liczbie parametrów. Jeśli bardziej zależy nam na precyzji predykcji powinniśmy wykorzystać kryterium AIC, podczas gdy jeśli priorytetem jest jakość dopasowania modelu od danych należy wybrać BIC.
Regresja odporna Podobnie jak średnia czy odchylenie standardowe współczynniki regresji są wrażliwe na obserwacje odstające. I podobnie jak dla nich możemy poszukiwać tzw. regresji odpornej. W pakiecie MASS znajdują się dwie funkcje, które umożliwiają podobne analizy. Jedna z nich to tzw. metoda najmniejszych przyciętych kwadratów, w której zamiast zwykłej sumy używamy sumy przyciętej (wykonujemy regresję liniową, liczymy residua, usuwamy największe residua i ponownie estymujemy parametry minimalizując sumę kwadratów m = n/2 + (k + 2)/2 najmniejszych residuów.). Odpowiednia funkcja to lqs, która ma podobne działanie do omówionej wcześniej funkcji lm. Nieco inne podejście (wykorzystuje M-estymatory) oferuje funkcja rlm, która jest najbardziej polecana w przypadku istnienia obserwacji odstających.
Regresja, a współliniowość zmiennych W przypadku gdy zmienne są ze sobą mocno skorelowane nie można użyć metody regresji wielorakiej. Ponieważ analiza jedynie korelacji zmiennych nie wskaże na związki więcej niż dwóch zmiennych, zatem sprawdzenia współliniowości dokonuje się najczęściej za pomocą czynników rozdęcia wariancji. W celu ich policzenia konstruuje się modele regresji liniowej dla każdej zmiennej objaśniającej(zmiennymi objaśniającymi są dla niej pozostałe zmienne). Definiujemy: 1 VIF i = 1 Ri 2, gdzie Ri 2 jestwspółczynnikiemdopasowaniadla i-tegomodelu regresji. Przyjmuje się, że wielkość tego czynnika powyżej 5 wymaga dalszych badań, a powyżej 10 oznacza już współliniowość pomiędzy badanymi zmiennymi(wartość 1 oznacza brak zależności lub też występowanie w modelu jedynie jednej zmiennej objaśniającej).
Regresja składowych głównych Próbą uniknięcia problemu zależności zmiennych objaśniających jest regresja składowych głównych. Zamiast oryginalnych zmiennych objaśniających używamy składowych głównych, które są nieskorelowane. W praktyce używamy jedynie kilku pierwszych składowych, które w zadowalający sposób odzwierciedlają zmienność oryginalnych danych. Pojawia się jednak pewien problem. Ponieważ usuwamy część składowych nigdy nie mamy pewności, że nie usunęliśmy ważnej informacji a zostawiliśmy zaburzenie(wybrane składowe niekoniecznie są maksymalnie skorelowane ze zmienną objaśnianą).
Regresja częściowych najmniejszych kwadratów Próbą rozwiązania tego ostatniego problemu jest regresja częściowych najmniejszych kwadratów. W przypadku tej metody nowe zmienne objaśniające poszukiwane są w taki sposób, aby oprócz dobrego wyjaśniania zmienności oryginalnych danych, były maksymalnie skorelowane ze zmiennymi objaśnianymi. Metody tej używamy w przypadku gdy chcemy dokonać analizy zależności zbioru zmiennych objaśnianych od bardzo wielu zmiennych objaśniających. Szczególnie użyteczna bywa gdy liczba zmiennych jest większa od liczby obserwacji. Z tych względów szczególnie często bywa używana w chemometrii.
Regresja grzbietowa Inną próbą uniknięcia problemów ze zmiennymi skorelowanymi(lub ich dużą liczbą) jest regresja grzbietowa. Ponieważ problemy pojawiająsięwzwiązkuzniemożnościąodwróceniamacierzy X X, todojejprzekątnejdodajesiępewnąstałą λ 0.Dlatakiego zagadnienia otrzymuje się następujące rozwiązanie: ˆα = (X X +λi) 1 X Y. Tego samego typu metodą jest metoda LASSO. Obie metody redukują wariancję estymatorów, aczkolwiek kosztem obciążenia.
w R Odpowiednie procedury związane z metodami PCR i PLSR znajdują się w pakiecie pls. Możemy używać funkcji mvr lub (wygodniej) wrapperów na nią pcr oraz plsr. Funkcja vif pochodzi z pakietu DAAG i służy do wyznaczenia czynników rozdęcia wariancji. Omawiane metody mogą również zostać wykorzystane do redukcji wymiarowości danych i graficznego ich przedstawienia. Służą do tego funkcje scoreplot, loadingplot oraz corrplot. Regresja grzbietowa została zaimplementowana w pakiecie MASS(funkcja lm.ridge), a metoda lasso w pakiecie lars(funkcja lars).
wprowadzenie W wielu zagadnieniach model regresji liniowej nie wyraża dobrze zależności między zmiennymi. Musimy wówczas zrezygnować z funkcji liniowej i wykorzystać regresję nieliniową. Modele takie można podzielić na: modele nieliniowe względem zmiennych objaśniających, ale liniowe względem parametrów, modele nieliniowe zarówno względem zmiennych objaśniających jak i parametrów, dla których istnieje transformacja do modelu liniowego, modele ściśle nieliniowe, tzn. modele nieliniowe zarówno względem zmiennych objaśniających jak i parametrów, dla których nie istnieje transformacja do modelu liniowego.
przykład Model liniowy względem parametrów, ale nieliniowy względem zmiennych objaśniających. Y = α 0 +α 1 x 1 +α 2 x 2 1 + α 3 x 2 +ε Modele takie możemy w prosty sposób sprowadzić do modelu liniowego poprzez odpowiednie podstawienie: x 1 = x 1;x 2 = x2 1 ;x 3 = 1 x 2 otrzymując: Y = α 0 +α 1 x 1 +α 2 x 2 +α 3 x 3 +ε
przykład Model wykładniczo-hiperboliczny(nieliniowy zarówno względem zmiennych objaśniających jak i parametrów): Y = e α 0+ α 1 x 1 +ε. Modele takie sprowadzamy do modelu liniowego poprzez transformacje zarówno zmiennych objaśniających jak i zmiennej objaśnianej. Logarytmując obustronnie otrzymujemy: lny = α 0 + α 1 x 1 +ε. Y =lny;x 1 = 1 x 1 Y = α 0 +α 1 x 1 +ε.
przykład Model: Y = α 0 +α 1 e α 2x 1 +ε jest niesprowadzalny do modelu liniowego poprzez żadną transformację zarówno zmiennych objaśniających jak i zmiennej objaśnianej.
uwaga Jeśli tylko to możliwe zaleca się estymację parametrów regresji nieliniowej, a nie linearyzację modelu i estymację parametrów regresji liniowej.
w R Do wykonania regresji nieliniowej służy funkcja nls np. nls(y xˆa+b,start=list(a=2,b=3)), w której musimy podać punkty startowe. Wybór właściwych punktów startowych jest niezmiernie ważny, gdyż możemy utknąć w minimum lokalnym w przypadku startu w niewłaściwych punktach. W przypadku jeśli chcemy nałożyć ograniczenia na współczynniki określamy parametr algorithm na wartość port oraz parametry lower lub/i upper). Istnieje cała gama modeli, do których możemy próbować dopasować nasze dane, zaczynają się one od liter SS np. SSgompertz czy SSlogis. Mają one taką zaletę, że same określają wartości startowe parametrów.
w R Funkcja Równanie SSasymp y = a+(b a)e ec x SSasympOff y = a(1 e eb (x c) ) SSasympOrig y = a(1 e ebx ) SSbiexp SSfol y = ae ebx +ce ed x y = x 1e a+b c e a e b ( SSfpl y = a+ b a 1+e (c x)/d SSgompertz y = ae bcx SSlogis y = a 1+e (b x)/c SSmicmen y = ax b+x SSweibull y = a be ec x d e ea x 2 e eb x 2 )
w R Jeśli posiadamy już model, to powinniśmy zastanowić się czy spełnione są założenia dotyczące tego modelu. Bardzo pomocne są w tym przypadku funkcje nlsresiduals oraz test.nlsresiduals z pakietu nlstools. Pierwsza z nich przygotowuje dane do wykresów diagnostycznych, które możemy wyświetlić funkcją plot. Druga natomiast funkcja testuje czy rezydua mają rozkład normalny i czy są losowe.
Regresja nieparametryczna Czasami nie jesteśmy w stanie zaproponować żadnej sensownej funkcji regresji lub też interesuje nas jedynie wygląd. W takiej sytuacji możemy wyznaczyć pewną linię trendu stosując nieparametryczne metody regresji: Lokalne wygładzanie wielomianami niskiego stopnia. Dzielimy zbiór wartości funkcji na rozłączne przedziały i na każdym kawałku dopasowujemy regresję wielomianową(najczęściej trzeciego stopnia). Wygładzanie jądrowe. Regresja najbliższych sąsiadów. Wybierany jest parametr k, który wskazuje jaka część danych ma posłużyć do budowy modeluregresjiliniowej.wceluocenywartości x i używanesą obserwacje x i k/2,...,x i,...,x i+k/2. Ważona regresja lokalnie wielomianowa. Obserwacje otrzymująwagi(bliższewiększe,dalszemniejsze),aocena x i otrzymywana jest za pomocą odpornej regresji ważonej.
Regresja nieparametryczna w R W R metody lokalne można uzyskać za pomocą funkcji: smooth.spline(sześcienne funkcje sklejane, jest to wygładzona wersja funkcji spline); supsmu(regresja najbliższych sąsiadów); lowess(ważona regresja lokalnie wielomianowa); scatter.smooth (punkty oraz trend, modyfikacja funkcji lowess); ksmooth (wygładzanie jądrowe)
Regresja logistyczna wprowadzenie W wielu sytuacjach nie możemy założyć, że zmienna objaśniana jest ciągła. W takiej sytuacji powinniśmy wykorzystać uogólnione modele liniowe, w których na zmienną zależną nakłada się rozkład (dopuszczalne są rozkłady pochodzące z tzw. wykładniczej rodziny rozkładów: np. rozkład normalny, wykładniczy, gamma, Poissona, dwumianowy, geometryczny oraz wielomianowy). Poza tym, aby uwzględnić również nieliniowy charakter zależności wprowadza się tzw. funkcję wiążącą h, która ma następującą własność: h(e(y X)) = Xβ. Zauważmy, że jeśli funkcja wiążąca jest identycznością(h(x) = x), a zmienna objaśniana ma rozkład normalny, to model ten sprowadza się do modelu regresji liniowej. Szczególnym i bardzo ważnym przykładem uogólnionego modelu liniowego jest regresja logistyczna.
Regresja logistyczna wprowadzenie Formalnie w tym przypadku zakładamy, że Y b(p). Oznacza, to, że zmienna objaśniana przyjmuje tylko dwie wartości(najczęściej jest to zmienna binarna). Modelujemy prawdopodobieństwo wystąpienia sukcesu p. Jako funkcja wiążąca używana jest funkcja logitowa: logit(p) = ln p 1 p = Xβ. Prawdopodobieństwo p jest następnie szacowane jako: p = exp(xβ) 1+exp(Xβ).
Regresja logistyczna iloraz szans Wartości oszacowanych współczynników nie podlegają interpretacji. Interpretacji podlega natomiast iloraz szans, który można wyrazić jako OR = e β 0+β 1 X 1 +...+β k X k. Jeżeli e β j >1,tozmienna X j działastymulująconamożliwość wystąpienia badanego zjawiska, w przeciwnym razie działa ograniczająco(jeżeli e β j =1,tozmienna X j niemawpływuna badane zjawisko). Jakość dopasowania można jak poprzednio zbadać za pomocą kryterium informacyjnych, jednak w przypadku regresji logistycznej bardziej efektywne są inne kryteria.
Regresja logistyczna iloraz szans Pierwszym z nich są krzywe charakterystyczne. Na model regresji logistycznej można spojrzeć jak na model, który służy do zdiagnozowania dwóch stanów: dobry/zły. Model liczy prawdopodobieństwa stanu dobry. Wybieramy pewien próg 0 < t <1,jeżeliprawdopodobieństwouzyskanezmodelujest powyżej t diagnozujemy stan jako dobry, w przeciwnym razie jest zły. Mamy zatem cztery możliwości: TP(ang. true positive) model przewidział dobry oraz zaobserwowano dobry, TN(ang. true negative) model przewidział zły oraz zaobserwowano zły, FP(ang. false positive) model przewidział dobry oraz zaobserwowano zły, FN(ang. false negative) model przewidział zły oraz zaobserwowano dobry.
Regresja logistyczna iloraz szans Przewidziano Zaobserwowano dobry zły dobry TP FP zły FN TN
Regresja logistyczna iloraz szans Jeśliterazprzez n g oznaczymyliczbęzaobserwowanych dobry,a przez n b zły,totpr =TP/n g,tnr =TN/n b,fpr=1 TNR oraz FNR= 1 TPR. Krzywa ROC jest to wykres współczynnika TPR, na osi pionowej przeciwko współczynnikowi FPR na osi poziomej dla wszystkich wartości progowych t. Krzywa ROC jest to zatem rodzina punktów(fpr, TPR) obrazująca zależność między zdolnością wyróżniania przypadków pozytywnych i negatywnych dla różnych parametrów modelu. Aby teraz zmierzyć jakość modeluliczysiępolepodkrzywąroc.imwielkośćtegopola bliższa 1 tym zdolność modelu do przewidywania stanu dobry lepsza, pole bliskie 0,5 oznacza model bardzo słaby(losowy).
Regresja logistyczna w R Uogólnione modele liniowe analizujemy za pomocą funkcji glm, w której możemy poprzez parametr family określić rodzinę rozkładów oraz funkcję wiążącą. Aby wykonać regresję logistyczną, należy w funkcji glm określić parametr family jako binomial, natomiast aby wykonać regresję Poissona należy określić go jako poisson. Do analizy krzywych charakterystycznych wykorzystujemy pakiet ROCR.