ANALIZA REGRESJI WIELOKROTNEJ Zastosowanie statystyki w bioinżynierii Ćwiczenia 8
ZADANIE 1A 1. Irysy: Sprawdź zależność długości płatków korony od ich szerokości Utwórz wykres punktowy Wyznacz współczynnik korelacji i sprawdź jego istotność Utwórz równanie regresji i: 1. Zweryfikuj założenia modelu 2. Zinterpretuj współczynnik regresji 3. Oszacuj dopasowanie modelu
REGRESJA WIELOKROTNA Wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y) Najczęściej stosowanym modelem jest regresja wielokrotna liniowa Gdzie p liczba zmiennych X i zbiór kolumn opisujących zmienną i i wektor współczynników odpowiadających zmiennej i ε błąd losowy
POSTAĆ MACIERZOWA MODELU REGRESJI Wektor wartości zmiennej objaśnianej Wektor wartości parametrów modelu Wektor wartości składnika losowego (reszt) Macierz wartości zmiennych objaśniających punkt przecięcia z osią Y (ang. intercept)
REGRESJA WIELOKROTNA GRAFICZNIE https://slideplayer.com/slide/10915271/
INTERPRETACJA WSPÓŁCZYNNIKÓW REGRESJI Interpretacja współczynników jest podobna jak w przypadku regresji prostej: Stała regresji - szacowana średnia wartość zmiennej zależnej Y, gdy wszystkie zmienne niezależne (X i ) są równe 0 Cząstkowe współczynniki regresji - szacowana średnia zmiana wartości zmiennej zależnej Y, gdy wartość zmiennej niezależnej (X i ) zwiększy się o jednostkę, przy ustalonych wartościach pozostałych zmiennych niezależnych.
ZAŁOŻENIA MODELU REGRESJI WIELOKROTNEJ 1. Zależność jest liniowa 2. Zmienna zależna jest mierzona na skali ilościowej 3. Brak znaczących obserwacji odstających 4. Homoscedastyczność wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji 5. Liczba obserwacji musi być większa niż liczba zmiennych wykorzystanych w analizie (optymalnie > 20 obserwacji na zmienną) 6. Brak autokorelacji reszt 7. Reszty mają rozkład zbliżony do rozkładu normalnego 8. Żadna ze zmiennych objaśniających nie jest skorelowana z innymi predyktorami
REGRESJA WIELOKROTNA - WYZWANIA Które zmienne włączyć do modelu? Jak poradzić sobie z ewentualną współliniowością zmiennych objaśniających? Czy zmienne objaśniające są niezależne? Zbyt mała liczba obserwacji w stosunku do liczby zmiennych objaśniających Czy występuje autokorelacja reszt?
WERYFIKACJA ZAŁOŻEŃ MODELU Odległość Cooka miara stopnia zmiany współczynników regresji, gdyby dany przypadek pominąć w obliczeniach miara wpływu poszczególnych obserwacji na prostą regresji wysoka dźwignia (ang. leverage) typowa wartość Y i i nietypowa wartość X i wysoka odmienność (ang. discrepacy) nietypowa wartość Y i dla typowej wartości X i Wartość wpływowa = wysoka odmienność + wysoka dźwignia Duża odległość Cooka ( > 4/n) duży wpływ na obciążenie równania regresji Częstym punktem odcięcia jest 0.5 lub 1
HOMOSCEDSTYCZNOŚĆ Jednorodność rozproszenia reszt wokół prostej Weryfikacja na wykresie: W SPSS: ZRESID na osi Y - standaryzowane reszty z modelu ZPRED na osi X - Standaryzowana predykcja
AUTOKORELACJA KORELACJA SKŁADNIKÓW LOSOWYCH (RESZT) Sprawdzamy: wykres + test Durbina-Watsona Sprawdza czy reszty mają losowy rozkład, bez określonego wzorca Statystyka DW przyjmuje wartości od 0 do 4 W przybliżeniu statystyka z testu nie powinna być mniejsza niż 1 i większa niż 3 Dokładnie? Porównujemy z tablicami rozkładu: Na co może wskazywać autokorelacja? Brak istotnej zmiennej w modelu Nieliniowa zależność Błąd w zbieraniu danych
AUTOKORELACJA Brak autokorelacji DW ~ 2 Silna autokorelacja dodatnia Znak kolejnej reszty zależy od znaku poprzedniej
WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH VIF czynnik inflacji wariancji (ang. Variance Inflation Factor) Informuje o ile wariancje współczynników są zawyżone z powodu zależności liniowych w badanym modelu regresji Współczynnik nie powinien przekroczyć 10 innym często przyjmowanym punktem odcięcia jest 5 Zmienne objaśniające są współliniowe, gdy są mocno skorelowane ze sobą weryfikacja przez macierz kowariancji Może to skutkować zawyżonym oszacowaniem współczynników, dużymi wartościami błędów standardowych oraz zaniżeniem R 2
WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH Tolerancja Ile procent wariancji danej zmiennej objaśniającej nie jest wyjaśnione przez pozostałe predyktory Współczynnik nie powinien wynosić mniej niż 0,1 ponad 90% zmienności wyjaśniają pozostałe zmienne Innym często przyjmowany punktem odcięcia jest 0,2 Współliniowość zmiennych objaśniających co robić? Usunięcie jednej ze skorelowanych zmiennych objaśniających Analiza czynnikowa i połączenie predyktorów w jeden komponent Modelowanie równań strukturalnych
WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH Baza Irysy: -Sepal length długość działek kielicha -Sepal width szerokość działek kielicha -Petal length długość płatków korony -Petal width szerokość płatków korony
KORELACJA CZĄSTKOWA I SEMICZĄSTKOWA Korelacja cząstkowa opisuje unikalny wpływ predyktora na zmienną zależną przy kontroli wpływu drugiego predyktora na pierwszy Korelacja semicząstkowa ile wariancji zmiennej zależnej niewyjaśnionej przez drugi predyktor wyjaśnia predyktor pierwszy Zmienność wyjaśniona przez: a Predyktor 1 Zmienna zależna d b c Predyktor 2 Korelacja cząstkowa: a / (a+b+c+d) Korelacja semicząstkowa a / (a + d)
RESZTY Surowe (RES) reszty z modelu, w jednostkach pomiaru zmiennej Standaryzowane (ZRE) reszty z modelu, poddana standaryzacji (odjęcie od średniej i podzielenie przez odchylenie standardowe) Studentyzowane (SRE) reszty z modelu, standaryzowane zgodnie z rozkładem t-studenta
KRYTERIA OCENY MODELU R 2 współczynnik determinacji można stosować do porównywania modeli tylko wtedy, gdy nie różnią się one liczbą zmiennych objaśniających Skorygowany R 2 uwzględnia dodatkowo liczbę zmiennych w modelu ważne przy regresji wielokrotnej im wyższa wartość tym lepszy model
KRYTERIA OCENY MODELU AIC - Kryterium Akaike (ang. Akaike information criterion) Im mniejsza wartość tym lepiej Nie unormowany tylko do porównań między modelami Wzór: Gdzie: k liczba parametrów modelu (złożoność modelu) L maksimum funkcji największej wiarygodności (precyzja modelu) BIC - Kryterium Schwartza (ang. Bayesian information criterion) jak AIC ale większa kara za złożoność modelu Nie są podawane przy regresji liniowej przez SPSS - nie jest szacowany logarytm wiarygodności
REGRESJA WIELOKROTNA INTERPRETACJA KROK PO KROKU 1. Istotność dopasowania modelu za pomocą analizy wariancji 2. Weryfikacja założeń modelu: Normalność rozkładu reszt, autokorelacja, współliniowość, homoscedastyczność 3. Współczynniki modelu oraz ich poziom istotności Jeżeli w modelu znajdują się nieistotne współczynniki powtarzamy model bez nich 4. Wielkość wariancji wyjaśnionej przez model - skorygowany R 2
REGRESJA WIELOKROTNA W SPSS STATYSTYKI
METODY WPROWADZANIA ZMIENNYCH OBJAŚNIAJĄCYCH Wprowadzania wszystkie zmienne są wprowadzane do modelu jednocześnie Selekcja postępująca - określa metodę dodawania kolejnych istotnych predyktorów do modelu zawierającego tylko wyraz wolny Pierwszy korelacja ze zmienną zależną Kolejne korelacje semicząstkowe Metoda krokowa podobnie jak selekcja postępująca, ale uwzględnia zabezpieczenie na wypadek że predyktor staje się nieistotny po wprowadzeniu kolejnego
METODY WPROWADZANIA ZMIENNYCH OBJAŚNIAJĄCYCH Metoda eliminacji wstecznej - z modelu zawierającego wszystkie zmienne objaśniające usuwane są kolejno zmienny wyjaśniające najmniej zmienności zmiennej zależnej Metoda usuwania składa się z dwóch kroków Wprowadzamy wszystkie predyktory Usuwamy wszystkie nieistotne predyktory Hierarchiczna kolejność dodawania i usuwania predyktórów jest definiowana przez użytkownika
ZADANIE 1B I 2 1B. Irysy: Sprawdź współliniowość zmiennych objaśniających. Jak powinien wyglądać model uwzględniający jak najwięcej informacji? 2. Ryby: Jakie czynniki mają wpływ na liczbę ryb w potoku? Sprawdź założenia modelu Wybierz odpowiednie zmienne i sprawdź dopasowanie modelu
ZMIENNE JAKOŚCIOWE W ANALIZIE REGRESJI Wprowadzenie do regresji zmiennej dychotomicznej powoduje, że wartości przewidywane będą takie jak średnie grupowe Wartość F to podniesiona do kwadratu wartość statystyki t- studenta przy testowaniu średnich grupowych jeżeli mamy tylko jedną zmienną lepiej wykonać test t-studenta zgodnie z zasadą że zawsze wybieramy najprostsze wyjście Dla grupy oznaczonej jako 0 średnia będzie identyczna jak stała w równaniu regresji Dla grupy oznaczonej 1 średnia ma wartość stałej z dodanym współczynnikiem kierunkowym
ZMIENNE JAKOŚCIOWE W ANALIZIE REGRESJI Jeżeli zmienna ma więcej niż dwa poziomy wymagane jest kodowanie na dychotomiczne zmienne instrumentalne Rodzaje kodowania: Kodowanie zero-jedynkowe najczęściej stosowane, porównujemy zmienne do kategorii odniesienia Kodowanie Quasi-eksperymentalne pozwala na porównanie średniej danej grupy ze średnią dla wszystkich innych obserwacji Kodowanie ortogonlane podobne do kontrastów, uwzględnia hipotezy kierunkowe
KODOWANIE ZERO-JEDYNKOWE Przekształcenie zmiennej o liczbie poziomów k > 2 w kilka zmiennych dychotomicznych gdzie k = 2 zamiana zmiennej nominalnej x na szereg zmiennych dychotomicznych x i, przyjmujących wartość np. 1, gdy x = i 0 w przeciwnym wypadku Pytanie badawcze: Na ile wyniki, w każdej analizowanej kategorii, różnią się od wyników kategorii referencyjnej? O ile rośnie wartość zmiennej zależnej jeżeli w zmiennej niezależnej obserwujemy przynależność do grupy B w stosunku do grupy referencyjnej A
KODOWANIE ZERO-JEDYNKOWE Imie Wykształcenie Kod Ania Średnie 2 Jan Wyższe 3 Marcin Podstawowe 1 Ola Podstawowe 1 Kamil Wyższe 3 Kasia Średnie 2 Wykształcenie podstawowe (1) jest poziomem referencyjnym i jest oznaczane jako 0 (nie posiada własnej kolumny) Imie Wykształcenie Średnie Wyższe Ania Średnie 1 0 Jan Wyższe 0 1 Marcin Podstawowe 0 0 Ola Podstawowe 0 0 Kamil Wyższe 0 1 Kasia Średnie 1 0
ZADANIE 3 I 4 3. Jastrzębie: Na podstawie jakich zmiennych jesteśmy w stanie przewidzieć wagę ptaka? 1. Utwórz model przewidujący wagę ptaka tylko na podstawie zmiennej wiek (przekoduj na 0,1) 2. Sprawdź założenia modelu 3. Wybierz zmienne i sprawdź dopasowanie modelu 4. Sen: Co ma wpływ na całkowitą długość snu zwierząt? 1. Sprawdź założenia modelu 2. Wybierz zmienne i sprawdź dopasowanie modelu
ŹRÓDŁA Bedyńska S., Cypryańska M. 2013. Statystyczny drogowskaz. Praktyczny przewodnik wykorzystania modeli regresji oraz równań strukturalnych. Wydawnictwo akademickie SEDNO. Biecek P. 2013. Analiza danych z programem R. Modele liniowe z efektami stałymi, losowymi, mieszanymi. Wydawnictwo naukowe PWN. Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.