MODELE LINIOWE. Dr Wioleta Drobik

Podobne dokumenty
WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Rozdział 8. Regresja. Definiowanie modelu

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie do analizy korelacji i regresji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

3. Modele tendencji czasowej w prognozowaniu

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

PDF created with FinePrint pdffactory Pro trial version

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

KORELACJE I REGRESJA LINIOWA

ANALIZA REGRESJI SPSS

Analiza regresji - weryfikacja założeń

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Metody Ilościowe w Socjologii

Statystyka matematyczna i ekonometria

Regresja i Korelacja

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Analiza współzależności zjawisk

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Analiza składowych głównych. Wprowadzenie

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Statystyczna analiza danych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Statystyka i Analiza Danych

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Ekonometria. Zajęcia

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Analiza regresji część II. Agnieszka Nowak - Brzezińska

STATYSTYKA MATEMATYCZNA

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

STATYSTYKA MATEMATYCZNA

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

5. Model sezonowości i autoregresji zmiennej prognozowanej

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Wykład 4 Związki i zależności

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Zmienne zależne i niezależne

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Szacowanie wartości hodowlanej. Zarządzanie populacjami

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Proces modelowania zjawiska handlu zagranicznego towarami

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Przykład 2. Stopa bezrobocia

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Analiza Współzależności

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Egzamin z ekonometrii wersja IiE, MSEMAT

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

STATYSTYKA MATEMATYCZNA

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Analiza niepewności pomiarów

Własności statystyczne regresji liniowej. Wykład 4

Rozkłady statystyk z próby

Ekonometria Ćwiczenia 19/01/05

czerwiec 2013 Uwaga: Przy rozwiązywaniu zadań, jeśli to konieczne, należy przyjąć poziom istotności 0,1 i współczynnik ufności 0,90

4. Średnia i autoregresja zmiennej prognozowanej

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Przykład 1. (A. Łomnicki)

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

POLITECHNIKA OPOLSKA

STATYSTYKA MATEMATYCZNA

Wykład 5: Statystyki opisowe (część 2)

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

t y x y'y x'x y'x x-x śr (x-x śr)^2

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Transkrypt:

MODELE LINIOWE Dr Wioleta Drobik

MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą Zmienne mierzone na skali ilościowej Cel modelowania: Punktowe lub przedziałowe szacowanie wartości cechy objaśnianej na podstawie zmiennych objaśniających Zrozumienie zależności między obserwowanymi zmiennymi Które zmienne objaśniające i w jaki sposób, są zależne od zmiennej objaśnianej?

METODA NAJMNIEJSZYCH KWADRATÓW Johann Carl Friedrich Gauss (1777-1855) - Używa metody do prac dotyczących astronomii od roku 1795 Adrien-Marie Legendre (1752-1833) - Pierwsza opublikowana praca w 1805 r

METODA NAJMNIEJSZYCH KWADRATÓW Metoda najmniejszych kwadratów minimalizowana jest suma reszt czyli kwadratów odchyleń wartości rzeczywistych (Y) od wartości szacowanych cechy (Ŷ) Reszta (e) różnica między wartością obserwowaną, a szacowaną

ANALIZA REGRESJI Pierwsze użycie terminu regresja badania nad dziedziczeniem wzrostu Sir Francis Galton (1822 1911)

ANALIZA REGRESJI Regresją nazywamy funkcję, w której wartość cechy zależnej (objaśnianej) wyrażona jest za pomocą wartości cech niezależnych (objaśniających) Funkcja liniowa: Gdzie: b yx współczynnik regresji, przyrost cechy zależnej przypadający na przyrost o jednostkę cechy niezależnej (współczynnik kierunkowy prostej) a yx wyraz wolny funkcji regresji (punkt przecięcia linii prostej z osią Y)

WSPÓŁCZYNNIK REGRESJI PROSTEJ Współczynnik regresji Stała regresji (wyraz wolny funkcji)

REGRESJA LINIOWA Założenia: 1. Zależność jest liniowa 2. Brak znaczących obserwacji odstających 3. Homoscedastyczność wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji 4. Reszty mają rozkład zbliżony do rozkładu normalnego 5. Regresja wielokrotna: Liczba obserwacji musi być większa, bądź równa liczbie parametrów Brak współliniowości parametrów Nie występuje autokorelacja reszt

ZAŁOŻENIA MODELU Zależność jest liniowa Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php Sposób weryfikacji: Inspekcja wykresów punktowych Jeżeli założenie nie jest spełnione: transformacja zmiennej zależnej dopasować model nieliniowy

ZAŁOŻENIA MODELU Brak znaczących obserwacji odstających Sposób weryfikacji: Inspekcja wykresów punktowych, statystyka opisowa, odległość Cooka Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

OBSERWACJE ODSTAJĄCE Odległość Cooka miara stopnia zmiany współczynników regresji, gdyby dany przypadek pominąć w obliczeniach współczynników miara wpływu poszczególnych obserwacji na prostą regresji wysoka dźwignia (ang. leverage) typowa wartość Y i nietypowa wartość X wysoka odmienność (ang. discrepacy) nietypowa wartość Y dla typowej wartości X Wartość wpływowa = odmienność + wysoka dźwignia Duża odległość Cooka ( > 1) duży wpływ na obciążenie równania regresji

ZAŁOŻENIA MODELU Homoscedastyczność Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

ZAŁOŻENIA MODELU Normalność reszt diagnostyka Histogram oraz wykres kwantyl-kwantyl Testy statystyczne - tylko jako dodatkowe źródło informacji Źródło: http://support.sas.com/

NORMALNOŚĆ RESZT Wykres kwantyl-kwantyl (ang. Q-Q plot) Weryfikacja zgodności z rozkładem teoretycznym Dobre dopasowanie rozkładu teoretycznego do zaobserwowanych wartości w przypadku gdy wykreślane wartości będą tworzyły linię prostą Mała liczebność próby utrudnia lub uniemożliwia prawidłową interpretacje

NORMALNOŚĆ RESZT Wykres kwantyl-kwantyl Uwaga na małą liczebność próby! N = 10 N = 1000 http://onlinestatbook.com/2/advanced_graphs/q-q_plots.html

NORMALNOŚĆ RESZT Normalność rozkładu reszt Tzw. grube ogony - gęstość prawdopodobieństwa na końcach rozkładów jest większe niż w rozkładzie normalnym Rozkład normalny Grube ogony Cienkie ogony

NORMALNOŚĆ RESZT Asymetria prawostronna Asymetria lewostronna

MOŻLIWOŚCI EKSTRAPOLACJI o Model regresji nie powinien być ekstrapolowany na dane spoza zakresu na których został opracowany https://www.pinterest.com/pin/18929260905651518/

WERYFIKACJA ZAŁOŻEŃ MODELU W R normalność rozkładu reszt, homoscedastyczność normalność rozkładu reszt homoscedastyczność Wpływ pojedynczych obserwacji na szacowany model

Weryfikacja założeń modelu w R

OCENA DOPASOWANIA MODELU SST = SSR + SSE SST Suma kwadratów odchyleń całkowitych SSE suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) SSR suma kwadratów odchyleń wyjaśnionych regresją Współczynnik determinacji

WSPÓŁCZYNNIK DETERMINACJI Procent wariancji wyjaśnionej przez model Jaki procent zmienności zmiennej zależnej (Y - objaśnianej) jest wyjaśniany za pomocą zmiennej niezależnej (X - objaśniającej) Na ile nasz model wyjaśnia zgromadzone dane pomiarowe? Dla prostej regresji liniowej otrzymujemy podnosząc do kwadratu współczynnik korelacji liniowej Pearsona (r) Przyjmuje wartości od 0 do 1 Im bliżej jedynki tym lepsze dopasowanie modelu do danych Silna zależność od liczby parametrów modelu aby tego uniknąć liczymy zmodyfikowany R 2

ISTOTNOŚĆ Istotność modelu Test F-Snedecora H 0 : Funkcja regresji jest nieistotna H 0 > Funkcja regresji jest istotna Istotność współczynników regresji yx = 0 istotność współczynnika kierunkowego yx = 0 istotność wyrazu wolnego Hipotezy weryfikujemy przy pomocy testu t-studenta

REGRESJA LINIOWA PRZYKŁAD W R Gen_1 Gen_2-1.06-1.08-0.81-1.02-0.48-0.39-0.42-0.48-0.30-0.58-0.35-0.24-0.31-0.05-0.18-0.33-0.20 0.51-0.11-0.53-0.09-0.47 0.16 0.10 0.45 0.39 0.53 0.11 0.67 0.52 0.80 0.34 0.87 1.08 0.92 1.21 Zmiana w poziomie ekspresji dwóch genów Czy istnieje zależność pomiędzy poziomem ekspresji analizowanych genów? Czy zależność jest prostoliniowa? Dopasuj model, który opisuje zmianę w poziomie eskpresji genu 2 w zależności od poziomu ekspresji genu 1 Źródło: http://www.jadwigabrzezinska.republika.pl/materialy.html

REGRESJA LINIOWA PRZYKŁAD W R Czy istnieje zależność pomiędzy poziomem ekspresji analizowanych genów?

REGRESJA LINIOWA PRZYKŁAD W R Współczynnik korelacji Pearsona Istnieje silna zależność (r=0,882; p<0,001) pomiędzy poziomem ekspresji pierwszego genu, a genu drugiego Jak możemy tę zależność scharakteryzować?

DIAGNOSTYKA

DIAGNOSTYKA

DIAGNOSTYKA

MODEL LINIOWY W R Funkcja lm: model <- lm(y~x) wykonuje dopasowanie modelu liniowego, wyznacza oceny współczynników oraz wylicza wartości reszt summary(model) funkcja summary dla modelu regresji liniowej. Zwraca dodatkowe informacje i testuje istotność

MODEL LINIOWY W R formuła modelu statystyki opisowe dla reszt Ocena wartości współczynników regresji i ich istotność Współczynnik determinacji Błąd standardowy dla reszt Istotność funkcji regresji Poprawiony współczynnik determinacji

REGRESJA LINIOWA PRZYKŁAD W R Predykcja Wartość obserwowana Średnia

MODELE LINIOWE W R Model: Jeżeli funkcja regresji jest istotna, możemy szacować wartości zmiennej zależnej (y) na podstawie wartości zmiennej niezależnej (x) Oszacuj poziom ekspresji genu 2 na podstawie poziomu ekspresji dla genu 1 Gen 1 Predykcja Gen 2-0,35-0,24 0,67 0,52 0,92 1,21

GLUKOZA Za pomocą dwóch różnych urządzeń zmierzono poziom glukozy u 15 pacjentów, Czy uzyskane wyniki są skorelowane?

GLUKOZA

GLUKOZA

SZEROKOŚĆ GŁOWY Analizowano zależność pomiędzy szerokością głowy u starszego oraz młodszego syna. Przeanalizuj wykresy diagnostyczne dla modelu regresji liniowej.

SZEROKOŚĆ GŁOWY 1. Oceń dopasowane modelu 2. Oszacuj szerokość głowy dla młodszego syna, jeżeli dla jego starszego brata ten parametr jest równy 15,5 cm

OGRANICZENIA MODELU Małe możliwości ekstrapolacji Zmienna objaśniana musi być na skali ilościowej Prosta regresja liniowa - analiza tylko dwóch zmiennych Tylko zależność prostoliniowa bardzo częsty błąd!

ŹRÓDŁA Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Biecek P. 2014. Przewodnik po pakiecie R. Oficyna Wydawnicza GIS. Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym