ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Podobne dokumenty
MODELE LINIOWE. Dr Wioleta Drobik

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

ANALIZA WARIANCJI - PRZYPOMNIENIE

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Zmienne zależne i niezależne

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ANALIZA REGRESJI SPSS

Wprowadzenie do analizy korelacji i regresji

Metody Ilościowe w Socjologii

Proces modelowania zjawiska handlu zagranicznego towarami

Regresja logistyczna (LOGISTIC)

3. Modele tendencji czasowej w prognozowaniu

Analiza regresji - weryfikacja założeń

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

KORELACJE I REGRESJA LINIOWA

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Analiza składowych głównych. Wprowadzenie

Statystyka i Analiza Danych

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

PDF created with FinePrint pdffactory Pro trial version

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Analiza regresji część II. Agnieszka Nowak - Brzezińska

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Ekonometria. Zajęcia

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Elementy statystyki wielowymiarowej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wykład 4 Związki i zależności

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Stanisław Cihcocki. Natalia Nehrebecka

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Testy nieparametryczne

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Stanisław Cichocki Natalia Neherbecka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

4. Średnia i autoregresja zmiennej prognozowanej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Analiza regresji wielokrotnej - hierarchiczna

Przykład 2. Stopa bezrobocia

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szymon Bargłowski, sb39345 MODEL. 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Jednoczynnikowa analiza wariancji

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Prognozowanie na podstawie modelu ekonometrycznego

Stanisław Cichocki. Natalia Nehrebecka

przedmiotu Nazwa Pierwsza studia drugiego stopnia

Ekonometria egzamin 07/03/2018

Ćwiczenia IV

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Analiza współzależności zjawisk

Statystyka SYLABUS A. Informacje ogólne

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Wprowadzenie do analizy dyskryminacyjnej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Analiza kanoniczna w pigułce

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Transkrypt:

ANALIZA REGRESJI WIELOKROTNEJ Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

ZADANIE 1A 1. Irysy: Sprawdź zależność długości płatków korony od ich szerokości Utwórz wykres punktowy Wyznacz współczynnik korelacji i sprawdź jego istotność Utwórz równanie regresji i: 1. Zweryfikuj założenia modelu 2. Zinterpretuj współczynnik regresji 3. Oszacuj dopasowanie modelu

REGRESJA WIELOKROTNA Wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y) Najczęściej stosowanym modelem jest regresja wielokrotna liniowa Gdzie p liczba zmiennych X i zbiór kolumn opisujących zmienną i i wektor współczynników odpowiadających zmiennej i ε błąd losowy

POSTAĆ MACIERZOWA MODELU REGRESJI Wektor wartości zmiennej objaśnianej Wektor wartości parametrów modelu Wektor wartości składnika losowego (reszt) Macierz wartości zmiennych objaśniających punkt przecięcia z osią Y (ang. intercept)

REGRESJA WIELOKROTNA GRAFICZNIE https://slideplayer.com/slide/10915271/

INTERPRETACJA WSPÓŁCZYNNIKÓW REGRESJI Interpretacja współczynników jest podobna jak w przypadku regresji prostej: Stała regresji - szacowana średnia wartość zmiennej zależnej Y, gdy wszystkie zmienne niezależne (X i ) są równe 0 Cząstkowe współczynniki regresji - szacowana średnia zmiana wartości zmiennej zależnej Y, gdy wartość zmiennej niezależnej (X i ) zwiększy się o jednostkę, przy ustalonych wartościach pozostałych zmiennych niezależnych.

ZAŁOŻENIA MODELU REGRESJI WIELOKROTNEJ 1. Zależność jest liniowa 2. Zmienna zależna jest mierzona na skali ilościowej 3. Brak znaczących obserwacji odstających 4. Homoscedastyczność wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji 5. Liczba obserwacji musi być większa niż liczba zmiennych wykorzystanych w analizie (optymalnie > 20 obserwacji na zmienną) 6. Brak autokorelacji reszt 7. Reszty mają rozkład zbliżony do rozkładu normalnego 8. Żadna ze zmiennych objaśniających nie jest skorelowana z innymi predyktorami

REGRESJA WIELOKROTNA - WYZWANIA Które zmienne włączyć do modelu? Jak poradzić sobie z ewentualną współliniowością zmiennych objaśniających? Czy zmienne objaśniające są niezależne? Zbyt mała liczba obserwacji w stosunku do liczby zmiennych objaśniających Czy występuje autokorelacja reszt?

WERYFIKACJA ZAŁOŻEŃ MODELU Odległość Cooka miara stopnia zmiany współczynników regresji, gdyby dany przypadek pominąć w obliczeniach miara wpływu poszczególnych obserwacji na prostą regresji wysoka dźwignia (ang. leverage) typowa wartość Y i i nietypowa wartość X i wysoka odmienność (ang. discrepacy) nietypowa wartość Y i dla typowej wartości X i Wartość wpływowa = wysoka odmienność + wysoka dźwignia Duża odległość Cooka ( > 4/n) duży wpływ na obciążenie równania regresji Częstym punktem odcięcia jest 0.5 lub 1

HOMOSCEDSTYCZNOŚĆ Jednorodność rozproszenia reszt wokół prostej Weryfikacja na wykresie: W SPSS: ZRESID na osi Y - standaryzowane reszty z modelu ZPRED na osi X - Standaryzowana predykcja

AUTOKORELACJA KORELACJA SKŁADNIKÓW LOSOWYCH (RESZT) Sprawdzamy: wykres + test Durbina-Watsona Sprawdza czy reszty mają losowy rozkład, bez określonego wzorca Statystyka DW przyjmuje wartości od 0 do 4 W przybliżeniu statystyka z testu nie powinna być mniejsza niż 1 i większa niż 3 Dokładnie? Porównujemy z tablicami rozkładu: Na co może wskazywać autokorelacja? Brak istotnej zmiennej w modelu Nieliniowa zależność Błąd w zbieraniu danych

AUTOKORELACJA Brak autokorelacji DW ~ 2 Silna autokorelacja dodatnia Znak kolejnej reszty zależy od znaku poprzedniej

WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH VIF czynnik inflacji wariancji (ang. Variance Inflation Factor) Informuje o ile wariancje współczynników są zawyżone z powodu zależności liniowych w badanym modelu regresji Współczynnik nie powinien przekroczyć 10 innym często przyjmowanym punktem odcięcia jest 5 Zmienne objaśniające są współliniowe, gdy są mocno skorelowane ze sobą weryfikacja przez macierz kowariancji Może to skutkować zawyżonym oszacowaniem współczynników, dużymi wartościami błędów standardowych oraz zaniżeniem R 2

WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH Tolerancja Ile procent wariancji danej zmiennej objaśniającej nie jest wyjaśnione przez pozostałe predyktory Współczynnik nie powinien wynosić mniej niż 0,1 ponad 90% zmienności wyjaśniają pozostałe zmienne Innym często przyjmowany punktem odcięcia jest 0,2 Współliniowość zmiennych objaśniających co robić? Usunięcie jednej ze skorelowanych zmiennych objaśniających Analiza czynnikowa i połączenie predyktorów w jeden komponent Modelowanie równań strukturalnych

WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH Baza Irysy: -Sepal length długość działek kielicha -Sepal width szerokość działek kielicha -Petal length długość płatków korony -Petal width szerokość płatków korony

KORELACJA CZĄSTKOWA I SEMICZĄSTKOWA Korelacja cząstkowa opisuje unikalny wpływ predyktora na zmienną zależną przy kontroli wpływu drugiego predyktora na pierwszy Korelacja semicząstkowa ile wariancji zmiennej zależnej niewyjaśnionej przez drugi predyktor wyjaśnia predyktor pierwszy Zmienność wyjaśniona przez: a Predyktor 1 Zmienna zależna d b c Predyktor 2 Korelacja cząstkowa: a / (a+b+c+d) Korelacja semicząstkowa a / (a + d)

RESZTY Surowe (RES) reszty z modelu, w jednostkach pomiaru zmiennej Standaryzowane (ZRE) reszty z modelu, poddana standaryzacji (odjęcie od średniej i podzielenie przez odchylenie standardowe) Studentyzowane (SRE) reszty z modelu, standaryzowane zgodnie z rozkładem t-studenta

KRYTERIA OCENY MODELU R 2 współczynnik determinacji można stosować do porównywania modeli tylko wtedy, gdy nie różnią się one liczbą zmiennych objaśniających Skorygowany R 2 uwzględnia dodatkowo liczbę zmiennych w modelu ważne przy regresji wielokrotnej im wyższa wartość tym lepszy model

KRYTERIA OCENY MODELU AIC - Kryterium Akaike (ang. Akaike information criterion) Im mniejsza wartość tym lepiej Nie unormowany tylko do porównań między modelami Wzór: Gdzie: k liczba parametrów modelu (złożoność modelu) L maksimum funkcji największej wiarygodności (precyzja modelu) BIC - Kryterium Schwartza (ang. Bayesian information criterion) jak AIC ale większa kara za złożoność modelu Nie są podawane przy regresji liniowej przez SPSS - nie jest szacowany logarytm wiarygodności

REGRESJA WIELOKROTNA INTERPRETACJA KROK PO KROKU 1. Istotność dopasowania modelu za pomocą analizy wariancji 2. Weryfikacja założeń modelu: Normalność rozkładu reszt, autokorelacja, współliniowość, homoscedastyczność 3. Współczynniki modelu oraz ich poziom istotności Jeżeli w modelu znajdują się nieistotne współczynniki powtarzamy model bez nich 4. Wielkość wariancji wyjaśnionej przez model - skorygowany R 2

REGRESJA WIELOKROTNA W SPSS STATYSTYKI

METODY WPROWADZANIA ZMIENNYCH OBJAŚNIAJĄCYCH Wprowadzania wszystkie zmienne są wprowadzane do modelu jednocześnie Selekcja postępująca - określa metodę dodawania kolejnych istotnych predyktorów do modelu zawierającego tylko wyraz wolny Pierwszy korelacja ze zmienną zależną Kolejne korelacje semicząstkowe Metoda krokowa podobnie jak selekcja postępująca, ale uwzględnia zabezpieczenie na wypadek że predyktor staje się nieistotny po wprowadzeniu kolejnego

METODY WPROWADZANIA ZMIENNYCH OBJAŚNIAJĄCYCH Metoda eliminacji wstecznej - z modelu zawierającego wszystkie zmienne objaśniające usuwane są kolejno zmienny wyjaśniające najmniej zmienności zmiennej zależnej Metoda usuwania składa się z dwóch kroków Wprowadzamy wszystkie predyktory Usuwamy wszystkie nieistotne predyktory Hierarchiczna kolejność dodawania i usuwania predyktórów jest definiowana przez użytkownika

ZADANIE 1B I 2 1B. Irysy: Sprawdź współliniowość zmiennych objaśniających. Jak powinien wyglądać model uwzględniający jak najwięcej informacji? 2. Ryby: Jakie czynniki mają wpływ na liczbę ryb w potoku? Sprawdź założenia modelu Wybierz odpowiednie zmienne i sprawdź dopasowanie modelu

ZMIENNE JAKOŚCIOWE W ANALIZIE REGRESJI Wprowadzenie do regresji zmiennej dychotomicznej powoduje, że wartości przewidywane będą takie jak średnie grupowe Wartość F to podniesiona do kwadratu wartość statystyki t- studenta przy testowaniu średnich grupowych jeżeli mamy tylko jedną zmienną lepiej wykonać test t-studenta zgodnie z zasadą że zawsze wybieramy najprostsze wyjście Dla grupy oznaczonej jako 0 średnia będzie identyczna jak stała w równaniu regresji Dla grupy oznaczonej 1 średnia ma wartość stałej z dodanym współczynnikiem kierunkowym

ZMIENNE JAKOŚCIOWE W ANALIZIE REGRESJI Jeżeli zmienna ma więcej niż dwa poziomy wymagane jest kodowanie na dychotomiczne zmienne instrumentalne Rodzaje kodowania: Kodowanie zero-jedynkowe najczęściej stosowane, porównujemy zmienne do kategorii odniesienia Kodowanie Quasi-eksperymentalne pozwala na porównanie średniej danej grupy ze średnią dla wszystkich innych obserwacji Kodowanie ortogonlane podobne do kontrastów, uwzględnia hipotezy kierunkowe

KODOWANIE ZERO-JEDYNKOWE Przekształcenie zmiennej o liczbie poziomów k > 2 w kilka zmiennych dychotomicznych gdzie k = 2 zamiana zmiennej nominalnej x na szereg zmiennych dychotomicznych x i, przyjmujących wartość np. 1, gdy x = i 0 w przeciwnym wypadku Pytanie badawcze: Na ile wyniki, w każdej analizowanej kategorii, różnią się od wyników kategorii referencyjnej? O ile rośnie wartość zmiennej zależnej jeżeli w zmiennej niezależnej obserwujemy przynależność do grupy B w stosunku do grupy referencyjnej A

KODOWANIE ZERO-JEDYNKOWE Imie Wykształcenie Kod Ania Średnie 2 Jan Wyższe 3 Marcin Podstawowe 1 Ola Podstawowe 1 Kamil Wyższe 3 Kasia Średnie 2 Wykształcenie podstawowe (1) jest poziomem referencyjnym i jest oznaczane jako 0 (nie posiada własnej kolumny) Imie Wykształcenie Średnie Wyższe Ania Średnie 1 0 Jan Wyższe 0 1 Marcin Podstawowe 0 0 Ola Podstawowe 0 0 Kamil Wyższe 0 1 Kasia Średnie 1 0

ZADANIE 3 I 4 3. Jastrzębie: Na podstawie jakich zmiennych jesteśmy w stanie przewidzieć wagę ptaka? 1. Utwórz model przewidujący wagę ptaka tylko na podstawie zmiennej wiek (przekoduj na 0,1) 2. Sprawdź założenia modelu 3. Wybierz zmienne i sprawdź dopasowanie modelu 4. Sen: Co ma wpływ na całkowitą długość snu zwierząt? 1. Sprawdź założenia modelu 2. Wybierz zmienne i sprawdź dopasowanie modelu

ŹRÓDŁA Bedyńska S., Cypryańska M. 2013. Statystyczny drogowskaz. Praktyczny przewodnik wykorzystania modeli regresji oraz równań strukturalnych. Wydawnictwo akademickie SEDNO. Biecek P. 2013. Analiza danych z programem R. Modele liniowe z efektami stałymi, losowymi, mieszanymi. Wydawnictwo naukowe PWN. Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.