Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com



Podobne dokumenty
PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Rozdział 8. Regresja. Definiowanie modelu

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

MODELE LINIOWE. Dr Wioleta Drobik

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wprowadzenie do analizy korelacji i regresji

KORELACJE I REGRESJA LINIOWA

Statystyczna analiza danych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Analiza regresji - weryfikacja założeń

Regresja i Korelacja

R-PEARSONA Zależność liniowa

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja logistyczna (LOGISTIC)

ANALIZA WARIANCJI - PRZYPOMNIENIE

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zmienne zależne i niezależne

Stosowana Analiza Regresji

Analiza składowych głównych. Wprowadzenie

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

3. Modele tendencji czasowej w prognozowaniu

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Analiza współzależności zjawisk

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

ANALIZA REGRESJI SPSS

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

STATYSTYKA MATEMATYCZNA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

S t a t y s t y k a, część 3. Michał Żmihorski

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metodologia badań psychologicznych. Wykład 12. Korelacje

Przykład 1. (A. Łomnicki)

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

METODY STATYSTYCZNE W BIOLOGII

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Regresja liniowa wprowadzenie

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Regresja linearyzowalna

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Analiza współzależności dwóch cech I

WYKŁAD 8 ANALIZA REGRESJI

Testy nieparametryczne

Szkice rozwiązań z R:

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Ćwiczenie 5 PROGNOZOWANIE

Testowanie hipotez statystycznych.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 4 Związki i zależności

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Metody Ilościowe w Socjologii

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Regresja nieparametryczna series estimator

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Transkrypt:

Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna zależna (skutkowa): Y i-ty, cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość zmiennej Y przy wzroście wartości zmiennej X i o jednostkę przy ustalonych wartościach pozostałych zmiennych niezależnych. Współczynnik determinacji (R-Square) informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 100%. Im więcej cech zostało umieszczonych w modelu tym wyższe wartości on przyjmuje.

Poprawiony współczynnik determinacji (adjusted R-square) zawiera poprawkę na liczbę zmiennych w modelu. Jeżeli dodanie zmiennej do modelu nie poprawia jakości wnioskowania, poprawiony współczynnik determinacji może być mniejszy. Mamy m cech, więc pełny model wyglądałby: Y= a+b 1 X 1 +b 2 X 2 +...+b m X m Można postawić Hipotezę zerową, że wszystkie współczynniki cząstkowe są równe 0 przy alternatywnej, że przynajmniej jeden nie jest. Jednak nawet po odrzuceniu hipotezy o nieistotności modelu nie wszystkie zmienne przyczynowe (X 1,..., X n ) wpływają (w przybliżeniu liniowo) na zmienną skutkową (Y). Działaniem statystycznym jest wybór tych zmiennych przyczynowych, które liniowo wpływają na Y.

Są różne kryteria wyboru zmiennych przyczynowych występujących w modelu. np: AIC (Akaike s Information Criterion) AIC = n*ln(sse/n)+2p SBC (Schwarz s Bayesian Criterion) SBC = n*ln(sse/n)+(p)*ln(n) gdzie n jest liczbą obserwacji; p liczbą parametrów, tj. liczbą cech + 1; SSE sumą kwadratów odchyleń dla błędu w wybranym modelu. Ani AIC ani SBC nie pokazują bezpośrednio, które zmienne powinny być zawarte w modelu a których tam być nie powinno. Oczywiście można sprawdzić wszystkie kombinacje (każdy podzbiór cech), tzn. policzyć wybrane kryterium (np. AIC) i wybrać podzbiór z najniższą wartością (AIC). Jednak ilość takich kombinacji jest spora (2 n, więc przy dziesięciu cechach jest 1024 kombinacje, przy 20 ponad milion). Dlatego stosuje się metody, które choć nie dają

gwarancji znalezienia najlepszego układu cech, to szybko wskażą wysoko oceniany układ. Często stosowane są metody krokowe mając dany układ cech dodajemy lub usuwamy jedną cechę, tj. dodajemy cechę nie występującą obecnie w modelu którą w danym momencie uważamy za właściwą, lub usuwamy cechę występującą w modelu, jeżeli uznamy ją w danym momencie za niewskazaną. FORWARD SELECTION Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model bez zmiennych przyczynowych. W drugim z jedną zmienną niezależną, tą, którą charakteryzuje najniższy rzeczywisty poziom istotności z nią związany (P value dla hipotezy, że ta zmienna nie wyjaśnia liniowo błędów modelu). W następnym kroku tworzony jest na tej samej zasadzie model z dwiema zmiennymi niezależnymi itd.

Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla której rzeczywisty poziom istotności jest mniejszy niż zakładany (np 50%). BACKWARD SELECTION Jest to metoda, która polega na stopniowym usuwaniu z modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki polegają na usuwaniu po jednej zmiennej, która najmniej wnosi do modelu, tzn. P value jest największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się P value poniżej zakładanego poziomu (np. 10%). STEPWISE to połączenie powyższych metod. Określa się poziom istotności, przy którym zmienna jest dołączana bądź usuwana z modelu. Liczba obserwacji musi być większa od liczby parametrów.

Reszty modelu (różnica między rzeczywistą a oszacowaną modelem wartością zmiennej zależnej) powinny spełniać kryteria: reszty posiadały rozkład normalny w każdym punkcie szacowanej (wyliczonej) wartości zmiennej zależnej wartość oczekiwana reszt dla każdej oszacowanej wartości (wyliczonego Y) wynosiła 0 równa wariancja reszt dla wszystkich oszacowanych wartości zmiennej zależnej Y. Do oceny wizualnej tych kryteriów może służyć wykres z wyliczonymi wartościami Y (predicted value) na osi X i resztami na osi Y. Jeżeli niektóre cechy niezależne (X 1 X n ) są liniowo współzależne, to mogą wyjaśniać tą samą część zmiennej niezależnej Y. Jeśli tak jest, to niektóre zmienne można usunąć z modelu jako nadmiarowe. Do wykrywania ich

służą odpowiednie statystyki (Variance Inflation Factor czy Condition index) Przykład: Czy zmienna Y zależy od X 1, X 2, X 3 w sposób liniowy? X 1 X 2 X 3 Y X 1 X 2 X 3 Y 4 3 3 9 4 5 4 8 5 4 3 11 2 3 4 3 6 6 5 11 4 6 5 6 3 2 4 6 6 4 1 15 Y= a+b 1 X 1 +b 2 X 2 +b 3 X 3 metoda: usuwanie po jednej zmiennej w regresji wielokrotnej. Krok 0: wszystkie zmienne w modelu (R 2 =99,5%) Krok 1: P value dla X 2 to 12%, więc usuwamy tą zmienną z modelu. Pozostają X 1 i X 3 (R 2 =99%) Krok 2: P value dla X 3 to 0,5%, więc nie usuwamy tej zmiennej. Koniec selekcji zmiennych. Y= 3,41 + 2,16*X 1 1,09*X 3

Regresja wielomianowa (krzywoliniowa) Model dla regresji wielokrotnej liniowej: Y= a+b 1 X 1 +b 2 X 2 +...+b n X n Jeżeli mamy cechę X, to możemy określić: X 1 =X; X 2 =X 2 ; X 3 =X 3 itd. Ponieważ wielomiany bazowe nie są liniowo niezależne (np. X jest liniowo współzależne z X 3 ) to dodanie bądź usunięcie jakiejś cechy (X i =X i ) z modelu powodować będzie zmiany w rzeczywistym poziomie istotności dla oceny przydatności pozostałych cech tego modelu. Założenia stosowalności są jak w regresji wielokrotnej, czyli np.: stopień wielomianu musi być znacznie niższy niż liczba obserwacji. Przykład: X 3 4 3 5 6 Y 2 3 2 4 4 5 6 7 6 8 9 5 5 6 6 6 5

Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------- CONSTANT -4,5669 1,72144-2,65295 0,0291 X 2,67406 0,623519 4,28866 0,0027 X ^2-0,175016 0,0529431-3,30573 0,0108 Przyjmując jako model wielomian stopnia 2 utyskujemy powyższą tabelę wariancji dla poszczególnych składników. Y = 4,5669 + 2,67406*X 0,175016*X^2

Wykres przedstawia zależność zmiennej zależnej Y (pionowa oś) od zmiennej niezależnej X (pozioma oś) 6 5 4 3 2 3 4 5 6 7 8 9 Wykres pokazuje jak różnią się wartości obserwowane (oś Y) od wartości przewidywanych modelem (oś X) 6,8 5,8 4,8 3,8 2,8 1,8 1,8 2,8 3,8 4,8 5,8 6,8

Regresja pojedyncza nieliniowa Zależność Y od X nie jest liniowa. Znamy (podejrzewamy) charakter tej zależności (kwadratowa, logarytmiczna,...) wzór funkcji f i g. E(f(Y) X)=a +b*g(x) zamiast E(Y X)=a + bx jak w regresji prostej Po transformacji zmiennej skutkowej Y i zmiennej przyczynowej X funkcjami f i g estymacja parametrów a i b następuje tak jak w regresji prostej, np: 1) g(x)=ln(x) > Y ~ = a*ln(x)+b 2) g(x)=x 2 > Y ~ = a+b*x 2 3) f(y)=y 1/2 > Y ~ 1/2 =a+bx >Y ~ = (a+bx) 2

Przykład: Dane jak z poprzedniego przykładu Przyjmujemy model: Y = 1 /(a + b* 1 / X ), tzn. f(y)= 1 / y i g(x)= 1 / x. Współczynnik determinacji dla tego modelu wynosi 90,1% przy a=1,56 i b= 0,04. Plot of Fitted Model 6 5 4 3 2 3 4 5 6 7 8 9 Na osi X znajduje się zmienna niezależna X, na osi Y zmienna zależna Y. Punkty obserwowane są rozmieszczone losowo w obrębie obszaru przewidywanego przez model, również błędy są rozłożone losowo

Wykres przedstawia odchylenia od krzywej regresji widocznej na poprzednim wykresie. 2,5 1,5 0,5-0,5-1,5-2,5 3 4 5 6 7 8 9 Xn

Wykres przedstawia przewidywaną przez model wartość (OX) i obserwowaną dla niej wartość. 6 5 4 3 2 2 3 4 5 6 Wykres przedstawia predicted przewidywaną przez model wartość (OX) i odchylenia obserwowanych dla niej wartości. 2,5 1,5 0,5-0,5-1,5-2,5 2,1 3,1 4,1 5,1 6,1 7,1 8,1 predicted Yn

Korelacja rangowa Fakt zależności nieliniowej ale monotonicznej można wykryć za pomocą współczynnika korelacji rangowej (współczynnika Spearmana). Rangowanie obiektów: Rangą nazywa się kolejność danego obiektu w próbie. 1 można przypisać obiektowi z największą wartością (porządek malejący) lub z najmniejszą wartością (porządek rosnący). Dla większości zastosowań przyjęcie porządku malejącego czy rosnącego nie ma znaczenia. Powtarzające się wartości zmiennych rangi wiązane. Jeżeli mamy próbę: 5,5; 6,3, 6,3,7,1 to jak należy przypisać rangi? 1; 2; 3; 4 (uwzględniając kolejność obserwacji)? 1; 2; 2; 4 (jak w sporcie)? czy 1; 2,5; 2,5; 4? Współczynnik ten jest odporny (robust) na obserwacje odstające i nienormalność rozkładu cech.