Data Science. Regresja liniowa Regresja wielokrotna Regresja krokowa Regresja kwantylowa. Tomasz Górecki Analiza danych(w4)

Podobne dokumenty
MODELE LINIOWE. Dr Wioleta Drobik

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Regresja- wstęp Regresja liniowa Regresja nieliniowa. Idea

Rozdział 8. Regresja. Definiowanie modelu

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Stosowana Analiza Regresji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

KORELACJE I REGRESJA LINIOWA

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Ćwiczenia IV

Wprowadzenie do analizy korelacji i regresji

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Zmienne zależne i niezależne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

PDF created with FinePrint pdffactory Pro trial version

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Regresja logistyczna (LOGISTIC)

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Własności statystyczne regresji liniowej. Wykład 4

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Natalia Neherbecka. 11 czerwca 2010

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Analiza współzależności zjawisk

Statystyka i Analiza Danych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Kolokwium ze statystyki matematycznej

4. Średnia i autoregresja zmiennej prognozowanej

Metoda najmniejszych kwadratów

166 Wstęp do statystyki matematycznej

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Regresja i Korelacja

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Estymacja parametrów w modelu normalnym

Statystyczna analiza danych

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyczna analiza danych 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria Ćwiczenia 19/01/05

Weryfikacja hipotez statystycznych

Monte Carlo, bootstrap, jacknife

Testowanie hipotez statystycznych.

Statystyka matematyczna dla leśników

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

5. Model sezonowości i autoregresji zmiennej prognozowanej

Ćwiczenia 10. Analiza regresji. Część I.

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

3. Modele tendencji czasowej w prognozowaniu

Analiza regresji - weryfikacja założeń

Egzamin z ekonometrii wersja IiE, MSEMAT

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Metoda najmniejszych kwadratów

Estymacja punktowa i przedziałowa

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Matematyka ubezpieczeń majątkowych r.

Ćwiczenie 5 PROGNOZOWANIE

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Ekonometria Wykład 4 Prognozowanie, sezonowość. Dr Michał Gradzewicz Katedra Ekonomii I KAE

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Transkrypt:

Data Science

Data Science

Prawo Twymana(ang. Twyman s law) Any figure that looks interesting or different is usually wrong. Any statistics that appears interesting is almost certainly a mistake(double check all findings). The more unusual or interesting the data, the more likely they aretohavebeentheresultofanerrorofonekindoranother. Ehrenberg, A.S.C.(1975). The Teaching of Statistics: Corrections and Comments. Journal of the Royal Statistical Society. Series A 138(4):543 545.

Top 10 metod statystycznych(2016)

Podział algorytmów uczących

Idea Termin regresja oznacza metodę pozwalającą na zbadanie związku pomiędzy zmiennymi i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie innych. W praktyce poszukuje się związku między domniemaną jedną(lub więcej) zmienną objaśniającą(niezależną), a zmienną objaśnianą (zależną) Y. Związek ten może być dalej wykorzystywany do prognozowania wartości Y w zależności od X. Jeżeli badać będziemy zależność zmiennej Y od wartości innej zmiennej, to wartości zmiennej objaśniającej będziemy oznaczać przez x i traktować jako wartości deterministyczne zmiennej X, które wybieramy w celu obserwacji zmiennej losowej Y. Jak widać zmienne X oraz Y traktowane są odmiennie. Mianowicie zmienna X uważana jest za w pełni kontrolowaną przez eksperymentatora, acozatymidziepozbawionajestonaelementulosowości(de facto traktowana jest jako liczba).

Idea Chcemy zatem odpowiedzieć na pytanie jak zmienia się wartość oczekiwana zmiennej Y w zależności od wartości x zmiennej X, czyli: E(Y) = g(x), gdzie g(x) jest funkcją regresji opisującą poszukiwany związek. Zwyczajowo zakłada się dodatkowo, że Var(Y) jest dla wszystkich wartości xstałairówna σ 2 (jednorodnośćwariancji).z matematycznego punktu widzenia regresją nazywana jest każda metoda, która umożliwia oszacowanie tego równania.

Diagramy korelacyjne W celu wstępnej oceny zależności najczęściej konstruuje się diagramy korelacyjne. Ich wagę doskonale uwypuklił Anscombe (1973), który skonstruował 4 zbiory danych, mające identyczne podstawowe charakterystyki, ale ich diagramy korelacyjne diametralniesięróżniły.średniadlakażdejzmiennej x i wynosiła9, zmiennej y i =10;wariancjadla x i =7,5,dla y i =2,75; współczynnik korelacji liniowej wynosił 0,816 dla każdego zbioru orazprostaregresjimiałapostać y =3+0,5x.

Diagramy korelacyjne Anscombe, F.J.(1973). Graphs in statistical analysis. American Statistician 27:17 21.

Diagramy korelacyjne Różnią się one w sposób bardzo wyraźny. Pierwszy wykres(górny lewy róg) sugeruje, że dane mają rozkład normalny i prosta regresji oraz współczynnik korelacji są poprawne. Drugi wykres(górny prawy róg) pokazuje nieliniowy charakter zależności, a zatem i brak uzasadnienia dla prostej regresji oraz współczynnika korelacji. Wykres trzeci(dolny lewy róg) wskazuje na wagę obserwacji odstającej, która jest powodem zaniżenia współczynnika korelacji. Ostatni wykres(dolny prawy róg) pokazuje inne zjawisko, mianowicie tzw. obserwacją wpływową, która tutaj spowodowała, że współczynnik korelacji jest wysoki, mimo, że taki być nie powinien.

Diagramy korelacyjne The Datasaurus Dozen. While different in appearance, each dataset has the same summary statistics(mean, standard deviation, and Pearson s correlation) to two decimal places. Matejka, J., Fitzmaurice, G.(2017). Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing. CHI 2017 Conference proceedings: ACM SIGCHI Conference on Human Factors in Computing Systems.

Zależności regresyjnej poszukuje się w pewnej zadanej z góry klasie funkcji, na ogół klasie funkcji wielomianowych. Np. gdy za g(x) przyjmiemy funkcję liniową, otrzymamy równanie regresji liniowej: E(Y) = β 0 +β 1 x, wktórym β 0 oraz β 1 sąnieznanymiparametrami.wpraktycewygodniej jest posługiwać się następującym modelem regresji liniowej: Y i = β 0 +β 1 x i +ε i. Występującewrównaniuzmiennelosowe ε i nazywanesąskładnikami losowymi. Zakładamy, że mają one wartość oczekiwaną 0, stałą wariancję równą σ 2 (homoskedastyczność)orazsąnieskorelowanemiędzysobą. Zauważmy, że nie jest wymagane określenie rozkładu składnika losowego (zwykle zakłada się, że jest to rozkład normalny).

W praktyce nie dysponujemy pełną informacją o populacji. Musimy zatem oszacować parametry funkcji regresji na podstawie próby. Odpowiednie oszacowanie ma postać: Element ŷ i = b 0 +b 1 x i. e i = y i ŷ i nazywany jest składnikiem resztowym(resztą, residuum). Jak jednak znaleźć taką dobrze dopasowaną linię prostą? Punktem wyjścia jest suma kwadratów reszt, opisująca rozbieżność pomiędzy wartościami empirycznymi zmiennej zależnej, a jej wartościami teoretycznymi, obliczonymi na podstawie wybranej funkcji. Oszacowania parametrów dobieramy tak, aby suma kwadratów reszt osiągnęła minimum. Metoda ta nosi nazwę metody najmniejszych kwadratów(mnk) ang. Least Squares method(ls).

Estymatory parametrów otrzymane za pomocą MNK mają postać: b 1 = n (x i x)(y i ȳ), n (x i x) 2 i=1 i=1 b 0 = ȳ b 1 x. Tak otrzymane estymatory są najefektywniejszymi i równocześnie nieobciążonymi estymatorami parametrów regresji liniowej. Współczynnikkierunkowy b 1 nazywamywspółczynnikiemregresji liniowej. Odpowiada on na pytanie, jaki jest przeciętny przyrost wartości zmiennej zależnej na jednostkę przyrostu zmiennej niezależnej.

Dokładność oszacowania można ocenić za pomocą współczynnika determinacji R 2.Mierzyonjakaczęśćogólnejzmiennościzmiennej zależnej jest wyjaśniona przez regresję liniową(współczynnik determinacji nie ma sensu, jeśli w modelu pominięto wyraz wolny). Dołączeniejednaknowejzmiennejdomodeluzawszezwiększa R 2. Celem nie jest uzyskanie jak największej wartości tego współczynnika, lecz znalezienie związku między X i Y z rzetelnymi ocenami parametrów. Dlatego w praktyce używamy raczej tzw. poprawionego R 2.Uwzględniaon,że R 2 jestobliczonyzpróbyi jest trochę za dobry, jeśli uogólniamy nasze wyniki na populację. Poprawiony R 2 jestzawszemniejszyod R 2.Przyjmujesię,żeaby pozytywnie zweryfikować model współczynnik ten musi być większy od 60%. Należy również pamiętać, że taka ocena jakości modelu jest poprawna wtedy i tylko wtedy gdy model jest adekwatny, czyli gdy spełnione są założenia modelu.

Założenie stałej wariancji przedstawia rysunek poniżej.

MAE = 1 n e i (MeanAbsoluteError), n i=1 MAPE = 1 n e i n y i=1 i 100(MeanAbsolutePercentageError), RMSE = 1 n ei 2 (RootMeanSquaredError), n i=1 RMSLE = 1 n ln 2 ŷi +1 n y i=1 i +1 (RootMeanSquaredLogarithmicError), R 2 = n i=1 (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 =1 R 2 0 = n i=1 (ŷ i ȳ) 2 n i=1 y2 i =1 Radj. 2 =1 (1 R2 )(n 1). n k n i=1 e2 i n i=1 (y i ȳ) 2, n i=1 e2 i n i=1 y2 i (model bez wyrazu wolnego),

Metoda najmniejszych kwadratów została wymyślona przez Gaussa, który uważał ją jednak za trywialną i był przekonany, że już ktoś ją wcześniej używał. Pierwszą pracę na jej temat opublikował Legendre. Obaj używali tej techniki do wyjaśnienia przyszłych orbit komet na podstawie wcześniejszych obserwacji (planeta karłowata Ceres). Obaj nie używali jednak pojęcia regresja. Zostało ono wprowadzone przez Galtona. Analiza regresji jaką znamy dzisiaj jest dziełem Pearsona oraz Fishera. Galton, F.(1886). Regression Towards Mediocrity in Hereditary Stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15:246 263. Gauss, K.F.(1809). Theory of the Motion of the Heavenly Bodies Moving About the Sun in Conic Sections. Legendre, A.M.(1805). New Methods for Determination of the Orbits of Comets. Pearson, K.(1896). Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity and Panmixia, Philosophical Transactions of the Royal Society of London 187:253 318.

Carl Friedrich Gauss(1777-1855) Adrien-Marie Legendre (1752-1833)

Francis Galton(1822-1911) Karl Pearson(1857-1936)

Wykresy diagnostyczne wykres dźwigni Wykorzystywany do zbadania, czy występują obserwacje odstające. Dla każdego residuum obliczana jest siła dźwigni zwana również wpływem(miara wpływu obserwacji na oceny). W modelu adekwatnym siła dźwigni nie powinna być zbyt duża, gdyż oznacza, to że pojedyncza obserwacja ma duży wpływ na oceny parametrów. Przyjmuje się, że obserwacja jest wpływowa jeśli przekracza dwie średnie siły dźwigni. Inną podobną miarą wpływu obserwacji na model jest odległość Cooka. Wykazuje ona różnicę między wyznaczonymi wartościami współczynników, a wartościami obliczonymi przy wyłączeniu danego przypadku z obliczeń. Wszystkie odległości powinny być tego samego rzędu. Jeśli nie są, to można przypuszczać, że dany przypadek miał istotny wpływ na obciążenie współczynników równania regresji. Powinna ona być mniejsza od 1, jeśli chcemy uznać model za adekwatny.

Wykresy diagnostyczne wykres dźwigni gdzie [ D i = e2 i s 2 k h i (1 h i ) 2 s 2 = 1 n k e e ], jest błędem średniokwadratowym, h i = x i (X X) 1 x i jest siłą dźwigni, a k oznacza liczbę estymowanych parametrów. Ralph Dennis Cook(1944-)

Wykresy diagnostyczne wykres residuów Wykres przedstawiający na jednej osi wartości dopasowane przez model, a na drugiej residua lub standaryzowane residua. Powszechną praktyką jest uznawanie, że obserwacja jest odstająca jeżeli jej residuum standaryzowane jest większe co do wartości bezwzględnej od 2. Dla modelu adekwatnego średnia wartość residuum nie powinna zależeć od wartości dopasowania (powinniśmy w wyniku dostać pas punktów losowo rozmieszczonych wokół prostej y = 0).

Wykresy diagnostyczne wykres kwantylowy Wykresy kwantylowe dla standaryzowanych residuów powinny wskazać na ich normalność.

Wykresy diagnostyczne wykres pierwiastków Wykres, na którym dla każdej wartości zmiennej objaśniającej wyznaczono pierwiastek z wartości bezwzględnej jej residuum standaryzowanego. Nie powinniśmy zaobserwować żadnego trendu. Jeśli takowy występuje, oznacza to, że wariancja błędu nie jest stała. Oprócz wizualnej oceny wariancji składnika losowego można również wykonać jeden z wielu dostępnych testów. Najczęściej używany jest test Breuscha-Pagana. Hipoteza zerowa zakłada, że homoskedastyczność zachodzi.

Modelowanie w R Odpowiednie sformułowanie modelu w R odbywa się przy pomocy specjalnych formuł opisujących zależności zmiennych. Postać formuły jest następująca: zmienna objaśniana zmienna(e) objaśniająca(e), gdzie symbol oznacza jest modelowana jako funkcja (zależy od).

Modelowanie w R W formułach można używać wielu specjalnych symboli takich jak: + dodanie zmiennej do modelu(nie suma zmiennych), - usunięcie zmiennej z modelu(nie różnica zmiennych), -1 usunięcie wyrazu wolnego z modelu, * dodanie wszystkich zmiennych oraz interakcji między nimi(nie mnożenie zmiennych), ˆn wszystkie zmienne oraz interakcje pomiędzy nimi aż dorzędu n, : interakcja pomiędzy zmiennymi,. zależność od wszystkich zmiennych w podanej ramce danych.

Modelowanie w R Można również używać funkcji arytmetycznych. Jeśli jednak chcemy skorzystać z operatorów arytmetycznych, które mają specjalne znaczenie w formułach powinniśmy skorzystać z funkcji I. Może się również zdarzyć sytuacja, w której chcemy jedynie poprawić istniejący już model, służy do tego funkcja update, w której kluczową rolę odgrywa.. W zależności po której stronie znaku się znajduje, zastępuje prawą lub lewą stronę oryginalnej formuły. model<-lm(y x) update(model,..-1)#y x 1 update(model,log(.).)#log(y) x

Przykładowe formuły w R Formuła Opis y 1 Model pusty(średnia) y x y x 1 Regresjabezwyrazuwolnego(również y x +0) y x +z Regresjawielokrotna y x z Regresjazinterakcją,inaczej y x +z +x : z y x + I(xˆ2) Regresja kwadratowa y x +I(xˆ2)+I(xˆ3) Regresjasześcienna y (x +z +w)ˆ2 y x +z +w +x : z +x : w +z : w y x z x y z +x : z y x/z y x +x : z log(y) I(1/x) + sqrt(z) Użycie funkcji arytmetycznych

Przykład zachorowania na gruźlicę Poniższa tabela przedstawia liczbę zachorowań na gruźlicę układu oddechowego w latach 1995-2002. Liczba zachorowań została podana w przeliczeniu na 100 tys. ludności. Zakładając liniową zależność pomiędzy rokiem, a ilością zachorowań, dokonać wszechstronnej analizy regresji. Rok(x i ) 1995 1996 1997 1998 1999 2000 2001 2002 Zachorowania(y i ) 39,7 38,2 34,7 33,1 30,1 28,4 26,3 24,7

Przykład zachorowania na gruźlicę

w R Do wykonania analizy regresji służy funkcja lm, w której podajemy jako argument formułę opisującą model. Jako wynik otrzymujemy oszacowany model regresyjny. Wywołanie na nim funkcji summary przedstawia kolejno wartości reszt(lub, w przypadku większej ich liczby, wartości skrajne, medianę i kwartyle), estymatory nachylenia prostej i przecięcia z osią y. Dla każdego z estymatorów podany jest błąd standardowy oraz odpowiadające mu wartości statystyki t i p-wartości dla jego istotności, otrzymujemy również współczynnik R 2 oraz R 2 popr.naskonstruowanymmodelumożnarównież wywołać funkcje: coef(współczynniki modelu), confint(przedziały ufności dla parametrów), fitted(wartości dopasowane przez model), residuals(wartości reszt). Przeciążona funkcja plot rysuje wykresy diagnostyczne(domyślnie cztery opisane wcześniej).

Wcześniej założyliśmy, że zmienna objaśniana zależy jedynie od jednej zmiennej objaśniającej. Jest to duże uproszczenie. Zdarza się, że badane zjawisko zależy nie tylko od jednego czynnika, ale od wielu. Uogólnieniem prostej regresji jest regresja wielokrotna lub wieloraka, w której uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz układem kcech X 1,X 2,...,X k.modelregresjiwielokrotnejmożna zapisać w postaci: Y =Xβ +ε, gdzie Y jest wektorem obserwacji zmiennej objaśnianej, a X macierzą z pomiarami zmiennych objaśniających(pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).

W celu estymacji parametrów modelu ponownie używamy MNK otrzymując(oprócz poprzednich założeń, musimy jeszcze przyjąć, że nie istnieje liniowa zależność pomiędzy zmiennymi objaśniającymi): ˆβ = (X X) 1 X Y.

Częstokroć w przypadku wykorzystania regresji wielorakiej bardziej od prognozy interesuje nas, które zmienne wpływają na badane zjawisko w sposób pobudzający, a które je hamują. Pierwsze z tych czynników nazywamy stymulantami, a drugie destymulantami. Oczywiście stymulantami są zmienne, które w oszacowanym modelu regresji mają dodatnie wartości parametrów regresji. Destymulanty to zmienne o ujemnych parametrach. Można jeszcze określić zmienne neutralne(nieistotne), czyli takie, które nie mają wpływu na badane zjawisko.

Istnieje również inna metoda budowania modeli z dużą liczbą zmiennych objaśniających niż konstrukcja pełnego modelu i oszacowanie jego parametrów. Jest to procedura regresji krokowej, w której na każdym kroku możemy odrzucić lub dodać zmienną. Powiedzmy, że zaczynamy od modelu zawierającego tylko stałą (można zacząć również od modelu pełnego). W kolejnym kroku dodajemy najlepszą w sensie jakiegoś kryterium(np. test t) zmienną. W kolejnym dodajemy znowu, ale sprawdzamy również cosiędziejejakbyśmyztegomodeluusunęlidodanąw poprzednim kroku zmienną itd.

Jakość modelu oceniana jest za pomocą współczynnika informacyjnego Akaike. Wartość tego współczynnika zależy nie tylko od sumy kwadratów reszt, ale również od ilości zmiennych w modelu. Zatem zwiększając liczbę parametrów w modelu, pomimo iż suma kwadratów reszt zawsze maleje, od pewnego momentu współczynnik AIC zacznie rosnąć. Kryterium AIC ma tendencję do wybierania modelu ze zbyt dużą liczbie parametrów. Jeśli bardziej zależy nam na jakości predykcji powinniśmy użyć kryterium AIC, jeśli natomiast priorytetem jest jakość dopasowania modelu należy wybrać BIC(bayesowski współczynnik informacyjny).

AIC = 2ln(L)+2k, 2k(k +1) AICc =AIC+ n k 1, BIC = 2ln(L)+ln(n)k, gdzie L jest funkcją największej wiarogodności, a k oznacza liczbę estymowanych parametrów. Dla małych prób(n/k < 40) zalecany jest współczynnik AICc. Hirotugu Akaike(1927-2009)

W przypadku estymacji parametrów metodą najmniejszych kwadratów i założeniu normalności błędów formuła ma następującą postać(bez stałego czynnika): ( ) 1 n AIC = nln ei 2 +2k. n Bezwzględne wartości współczynnika AIC nie podlegają interpretacji, ponieważ zawierają w sobie stałe zależne od wielkości próby. Z tego powodu wylicza się i=1 i =AIC AIC min. Teraznajlepszymodelma i =0.Zatem i mierzystratę informacji jakiej doznamy jeśli użyjemy modelu i-tego zamiast modelu z najmniejszą wartością współczynnika AIC.

Została zaproponowana pewna skala według jakiej można interpretować i : i 2 modeljestporównywalnyzmodelemzaic min. 2 < i 4 modelmadużąszansęnabycieporównywalnym zmodelemzaic min. 4 < i 7 modelmaniewielkąszansęnabycie porównywalnymzmodelemzaic min. i 10 modeljestgorszyodmodeluzaic min. Burnham K.P., Anderson D.R.(2004). Multimodel Inference: Understanding AIC and BIC in Model Selection. Sociological Methods Research 33(2):261 304.

Regresja odporna Podobnie jak średnia czy odchylenie standardowe współczynniki regresji są wrażliwe na obserwacje odstające. I podobnie jak dla nich możemy poszukiwać tzw. regresji odpornej. W pakiecie MASS znajdują się dwie funkcje, które umożliwiają podobne analizy. Jedna z nich to tzw. metoda najmniejszych przyciętych kwadratów, w której zamiast zwykłej sumy używamy sumy przyciętej (wykonujemy regresję liniową, liczymy residua, usuwamy największe residua i ponownie estymujemy parametry minimalizując sumę kwadratów m = n/2 + (k + 2)/2 najmniejszych residuów.). Odpowiednia funkcja to lqs, która ma podobne działanie do omówionej wcześniej funkcji lm. Nieco inne podejście (wykorzystuje M-estymatory) oferuje funkcja rlm, która jest najbardziej polecana w przypadku istnienia obserwacji odstających.

(ang. quantile regression) została zaproponowana przez Koenkera i Bassetta(1978). Szczególny przypadek regresji kwantylowej dla kwantyla rzędu 0,5(czyli mediany) jest równoważny estymatorowi LAD(ang. Least Absolute Deviation minimalizuje sumę bezwzględnych błędów). Wprowadzenie różnych kwantyli regresji daje pełniejszy opis rozkładów warunkowych zwłaszcza w przypadku rozkładów asymetrycznych lub uciętych. Koenker R., Bassett G.(1978). Regression Quantiles. Econometrica 46(1):33 50.

Jeżeli e i jestbłędempredykcji,tools(ang.ordinaryleast Squares)minimalizuje i e2 i,natomiastladminimalizuje i e i. minimalizuje sumę, która daje asymetryczne wagi: (1 q) e i dlazbytwielkichpredykcjioraz q e i dlazbyt małych, czyli minimalizuje funckję: Q(β q ) = n i:y i x i β q q y i x iβ q + n i:y i <x i β q (1 q) y i x iβ q Funkcja ta jest nieróżniczkowalna i jej minimum znajduje się za pomocą metody programowania liniowego. Tak znalezione estymatory są asymptotycznie normalne. jest bardziej odporna na obserwacje odstające oraz unikamy założeń co do rozkładów błędów.