WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Podobne dokumenty
MODELE LINIOWE. Dr Wioleta Drobik

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Rozdział 8. Regresja. Definiowanie modelu

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

3. Modele tendencji czasowej w prognozowaniu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wprowadzenie do analizy korelacji i regresji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Analiza regresji - weryfikacja założeń

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Regresja i Korelacja

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

ANALIZA REGRESJI SPSS

KORELACJE I REGRESJA LINIOWA

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Metody Ilościowe w Socjologii

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Stosowana Analiza Regresji

Analiza współzależności zjawisk

Analiza składowych głównych. Wprowadzenie

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyczna analiza danych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Wykład 4 Związki i zależności

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Ekonometria. Zajęcia

5. Model sezonowości i autoregresji zmiennej prognozowanej

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Statystyka matematyczna i ekonometria

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Statystyka i Analiza Danych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Egzamin z ekonometrii wersja IiE, MSEMAT

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Ćwiczenia IV

Własności statystyczne regresji liniowej. Wykład 4

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

4. Średnia i autoregresja zmiennej prognozowanej

STATYSTYKA MATEMATYCZNA

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

STATYSTYKA MATEMATYCZNA

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta

Z poprzedniego wykładu

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Ekonometria Ćwiczenia 19/01/05

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Zmienne zależne i niezależne

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Analiza niepewności pomiarów

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Estymacja parametrów w modelu normalnym

Analiza współzależności dwóch cech I

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Statystyka opisowa. Robert Pietrzykowski.

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Transkrypt:

WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje zależność?) wsp. korelacji liniowej Pearsona określa kierunek i siłę zależności Jakie współczynniki korelacji dla poniższych danych?

ANALIZA KORELACJI LINIOWEJ KWADRAT ANSCOMBE A Współczynnik korelacji na każdym wykresie jest 0.816 12 10 8 6 4 2 0 2 4 6 8 10 12 14 16 10 9 8 7 6 5 4 3 2 1 0 2 4 6 8 10 12 14 16 14 12 10 8 6 4 2 0 2 4 6 8 10 12 14 16 14 12 10 8 6 4 2 0 6 8 10 12 14 16 18 20

MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą Zmienne są mierzone na skali ilościowej Cel modelowania: Punktowe lub przedziałowe szacowanie wartości cechy objaśnianej na podstawie zmiennych objaśniających Zrozumienie zależności między obserwowanymi zmiennymi Które zmienne objaśniające, i w jaki sposób, są zależne od zmiennej objaśnianej?

METODA NAJMNIEJSZYCH KWADRATÓW Johann Carl Friedrich Gauss (1777-1855) - Używa metody do prac dotyczących astronomii od roku 1795 Adrien-Marie Legendre (1752-1833) - Pierwsza opublikowana praca w 1805 r

METODA NAJMNIEJSZYCH KWADRATÓW Metoda najmniejszych kwadratów minimalizowana jest suma reszt czyli kwadratów odchyleń wartości rzeczywistych (Y) od wartości szacowanych cechy (Ŷ) Reszta (e) różnica między wartością obserwowaną, a szacowaną

ANALIZA REGRESJI Pierwsze użycie terminu regresja badania nad dziedziczeniem wzrostu Sir Francis Galton (1822 1911)

ANALIZA REGRESJI Regresją nazywamy funkcję, w której wartość cechy zależnej (objaśnianej) wyrażona jest za pomocą wartości cech niezależnych (objaśniających) Funkcja liniowa: Gdzie: b yx współczynnik regresji (w terminologii matematycznej: współczynnik kierunkowy prostej) a yx wyraz wolny funkcji regresji (punkt przecięcia linii prostej z osią Y)

WSPÓŁCZYNNIK REGRESJI PROSTEJ Współczynnik regresji Interpretacja: o ile zmieni się wartość zmiennej zależnej (Y) jeżeli wartość zmiennej niezależnej zmieni się o jednostkę Stała regresji (wyraz wolny funkcji) Punkt przecięcia linii prostej z osią Y Nie interpretujemy

REGRESJA LINIOWA Założenia: 1. Zależność jest liniowa 2. Brak znaczących obserwacji odstających 3. Homoscedastyczność wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji 4. Reszty mają rozkład zbliżony do rozkładu normalnego 5. Regresja wielokrotna: Liczba obserwacji musi być większa, bądź równa liczbie parametrów Brak współliniowości parametrów Nie występuje autokorelacja reszt

ZAŁOŻENIA MODELU Zależność jest liniowa Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php Sposób weryfikacji: Inspekcja wykresów punktowych Jeżeli założenie nie jest spełnione: transformacja zmiennej zależnej dopasować model nieliniowy

ZAŁOŻENIA MODELU Brak znaczących obserwacji odstających Sposób weryfikacji: Inspekcja wykresów punktowych, statystyka opisowa, odległość Cooka Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

NORMALNOŚĆ RESZT Rozkład zakłócenia losowego przekłada się na spodziewany rozkład reszt Analiza jakości dopasowania modelu oraz jego diagnostyka opiera się na analizie reszt Weryfikujemy: Normalność rozkładu reszt Homoscedastyczność

ZAŁOŻENIA MODELU Homoscedastyczność reszty Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php homoscedastyczność - stałość wariancji składnika losowego dla poszczególnych wartości zmiennej niezależnej

ZAŁOŻENIA MODELU Normalność reszt diagnostyka Histogram oraz wykres kwantyl-kwantyl Testy statystyczne (np. Shapiro-Wilka) tylko jako dodatkowe źródło informacji Źródło: http://support.sas.com/

NORMALNOŚĆ RESZT Wykres kwantyl-kwantyl Uwaga na małą liczebność próby! N = 10 N = 1000 http://onlinestatbook.com/2/advanced_graphs/q-q_plots.html

NORMALNOŚĆ RESZT Normalność rozkładu reszt Tzw. grube ogony - gęstość prawdopodobieństwa na końcach rozkładów jest większa niż w rozkładzie normalnym Rozkład normalny Grube ogony Cienkie ogony

NORMALNOŚĆ RESZT Asymetria prawostronna Asymetria lewostronna

MOŻLIWOŚCI EKSTRAPOLACJI o Model regresji nie powinien być ekstrapolowany na dane spoza zakresu na których został opracowany! https://www.pinterest.com/pin/18929260905651518/

WERYFIKACJA ZAŁOŻEŃ MODELU W R normalność rozkładu reszt, homoscedastyczność normalność rozkładu reszt homoscedastyczność Wpływ pojedynczych obserwacji na szacowany model

WERYFIKACJA ZAŁOŻEŃ MODELU W R Reszty Wartości dopasowane przez model Dla adekwatnego modelu reszty nie powinny zależeć funkcyjnie od zmiennej objaśnianej, powinny mieć średnią warunkową równą zeru, niezależnie od wartości y i

WERYFIKACJA ZAŁOŻEŃ MODELU W R Standaryzowane reszty to reszty dzielone przez ocenę odchylenia standardowego reszt Pierwiastki z modułów standaryzowanych reszt Linia prosta na środku wskazuje na brak zależności wariancji reszt od oszacowanych wartości Wartości dopasowane przez model Wariancja reszt powinna być jednorodna i nie powinna zależeć funkcyjnie od wartości dopasowanych przez model obserwacja jakiegokolwiek trendu wskazuje na odstępstwo od założeń jednorodności wariancji niejednorodną wariancję można zredukować przez odpowiednią transformację zmiennych

WERYFIKACJA ZAŁOŻEŃ MODELU W R Kwantyle empiryczne dla standaryzowanych reszt Wykres kwantyl-kwantyl (ang. Q-Q plot) Inaczej: wykres kwantylowy dla rozkładu normalnego Weryfikacja zgodności z rozkładem teoretycznym Dobre dopasowanie rozkładu teoretycznego do zaobserwowanych wartości w przypadku gdy wykreślane wartości będą tworzyły linię prostą Mała liczebność próby utrudnia lub uniemożliwia prawidłową interpretację Wartości kwantyli rozkładu normalnego odpowiadające resztom

WERYFIKACJA ZAŁOŻEŃ MODELU W R Odległość Cooka miara stopnia zmiany współczynników regresji, gdyby dany przypadek pominąć w obliczeniach miara wpływu poszczególnych obserwacji na prostą regresji wysoka dźwignia (ang. leverage) typowa wartość Y i i nietypowa wartość X i wysoka odmienność (ang. discrepacy) nietypowa wartość Y i dla typowej wartości X i Wartość wpływowa = wysoka odmienność + wysoka dźwignia Duża odległość Cooka ( > 1) duży wpływ na obciążenie równania regresji Dźwignia miara wpływu obserwacji na ocenę współczynników modelu

Weryfikacja założeń modelu w R

OCENA DOPASOWANIA MODELU SST = SSR + SSE SST Suma kwadratów odchyleń całkowitych SSE suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) SSR suma kwadratów odchyleń wyjaśnionych regresją Współczynnik determinacji

WSPÓŁCZYNNIK DETERMINACJI Procent wariancji wyjaśnionej przez model Jaki procent zmienności zmiennej zależnej (Y - objaśnianej) jest wyjaśniany za pomocą zmiennej niezależnej (X - objaśniającej) Na ile nasz model wyjaśnia zgromadzone dane pomiarowe? Dla prostej regresji liniowej otrzymujemy podnosząc do kwadratu współczynnik korelacji liniowej Pearsona (r) Przyjmuje wartości od 0 do 1 Im bliżej jedynki tym lepsze dopasowanie modelu do danych Silna zależność od liczby parametrów modelu aby tego uniknąć liczymy zmodyfikowany R 2

ISTOTNOŚĆ Istotność modelu Test F-Snedecora H 0 : Funkcja regresji jest nieistotna H 0 > Funkcja regresji jest istotna Istotność współczynników regresji yx = 0 istotność współczynnika kierunkowego yx = 0 istotność wyrazu wolnego Hipotezy weryfikujemy przy pomocy testu t-studenta

REGRESJA LINIOWA PRZYKŁAD W R Gen_1 Gen_2-1.06-1.08-0.81-1.02-0.48-0.39-0.42-0.48-0.30-0.58-0.35-0.24-0.31-0.05-0.18-0.33-0.20 0.51-0.11-0.53-0.09-0.47 0.16 0.10 0.45 0.39 0.53 0.11 0.67 0.52 0.80 0.34 0.87 1.08 0.92 1.21 Zmiana w poziomie ekspresji dwóch genów Czy istnieje zależność pomiędzy poziomem ekspresji analizowanych genów? Czy zależność jest prostoliniowa? Dopasuj model, który opisuje zmianę w poziomie ekspresji genu 2 w zależności od poziomu ekspresji genu 1 Źródło: http://www.jadwigabrzezinska.republika.pl/materialy.html

REGRESJA LINIOWA PRZYKŁAD W R Czy istnieje zależność pomiędzy poziomem ekspresji analizowanych genów?

REGRESJA LINIOWA PRZYKŁAD W R Współczynnik korelacji Pearsona Istnieje silna zależność (r=0,882; p<0,001) pomiędzy poziomem ekspresji pierwszego genu, a genu drugiego Jak możemy tę zależność scharakteryzować?

DIAGNOSTYKA

DIAGNOSTYKA

DIAGNOSTYKA MODELU

MODEL LINIOWY W R Funkcja lm: model <- lm(y~x) wykonuje dopasowanie modelu liniowego, wyznacza oceny współczynników oraz wylicza wartości reszt summary(model) funkcja summary dla modelu regresji liniowej. Zwraca dodatkowe informacje i testuje istotność funkcji regresji i współczynników

MODEL LINIOWY W R formuła modelu statystyki opisowe dla reszt Ocena wartości współczynników regresji i ich istotność Współczynnik determinacji Błąd standardowy dla reszt Istotność funkcji regresji Poprawiony współczynnik determinacji

WSPÓŁCZYNNIK DETERMINACJI X Y -1,06-1,08-1,084 0,000 1,176-0,81-1,02-0,842 0,032 0,708-0,48-0,39-0,521 0,017 0,272-0,42-0,48-0,463 0,000 0,214-0,3-0,58-0,347 0,054 0,120-0,35-0,24-0,395 0,024 0,156-0,31-0,05-0,356 0,094 0,127-0,18-0,33-0,230 0,010 0,053-0,2 0,51-0,250 0,577 0,062-0,11-0,53-0,162 0,135 0,026-0,09-0,47-0,143 0,107 0,020 0,16 0,1 0,100 0,000 0,010 0,45 0,39 0,381 0,000 0,145 0,53 0,11 0,459 0,122 0,211 0,67 0,52 0,595 0,006 0,354 0,8 0,34 0,721 0,145 0,520 0,87 1,08 0,789 0,085 0,623 0,92 1,21 0,838 0,139 0,702 SSE SSR 1.547 5.500

REGRESJA LINIOWA PRZYKŁAD W R Predykcja Wartość obserwowana cechy Y Średnia

MODELE LINIOWE W R Model: Jeżeli funkcja regresji jest istotna, możemy szacować wartości zmiennej zależnej (y) na podstawie wartości zmiennej niezależnej (x) Oszacuj poziom ekspresji genu 2 na podstawie poziomu ekspresji dla genu 1 Gen 1 Predykcja Gen 2-0,35-0,24 0,67 0,52 0,92 1,21

GLUKOZA Za pomocą dwóch różnych urządzeń zmierzono poziom glukozy u 15 pacjentów, Czy uzyskane wyniki są skorelowane?

PYTANIA POMOCNICZE Czy model jest istotny? Jak dobre jest dopasowanie modelu? Czy zależność jest prostoliniowa?

GLUKOZA

GLUKOZA

SZEROKOŚĆ GŁOWY Analizowano zależność pomiędzy szerokością głowy u starszego oraz młodszego syna. Przeanalizuj wykresy diagnostyczne dla modelu regresji liniowej.

SZEROKOŚĆ GŁOWY 1. Oceń dopasowane modelu 2. Oszacuj szerokość głowy dla młodszego syna, jeżeli dla jego starszego brata ten parametr jest równy 15,5 cm

SZEROKOŚĆ GŁOWY Czy zależność jest prostoliniowa?

OGRANICZENIA MODELU REGRESJI LINIOWEJ Małe możliwości ekstrapolacji Zmienna objaśniana musi być na skali ilościowej Prosta regresja liniowa analiza tylko dwóch zmiennych Tylko zależność prostoliniowa bardzo częsty błąd! Co zamiast prostej regresji liniowej? Regresja wielokrotna więcej zmiennych objaśniających Uogólnione modele linowe zmienna objaśniająca Y nie jest cechą o rozkładzie normalnym (np. regresja logistyczna, regresja Poissona)

ŹRÓDŁA Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.