Analiza regresji Konspekt do zaj : Statystyczne metody analizy danych

Podobne dokumenty
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Statystyka w analizie i planowaniu eksperymentu

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Rozdział 8. Regresja. Definiowanie modelu

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Regresja liniowa wprowadzenie

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Funkcje, wielomiany. Informacje pomocnicze

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

1 Metody iteracyjne rozwi zywania równania f(x)=0

Ekonometria - wykªad 8

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

1 Bª dy i arytmetyka zmiennopozycyjna

Proste modele o zªo»onej dynamice

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Metody numeryczne i statystyka dla in»ynierów

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

2 Liczby rzeczywiste - cz. 2

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Regresja liniowa w R Piotr J. Sobczyk

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Diagnostyka modelu. Dowód [5.4] Dowód [ ]

Matematyka z elementami statystyki

Aproksymacja funkcji metod najmniejszych kwadratów

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

KORELACJE I REGRESJA LINIOWA

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Modele wielorównaniowe. Estymacja parametrów

Informacje pomocnicze

Ekonometria dla IiE i MSEMat Z7

Materiaªy do Repetytorium z matematyki

Rozdziaª 13. Przykªadowe projekty zaliczeniowe

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Liniowe zadania najmniejszych kwadratów

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Modele wielorównaniowe. Problem identykacji

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

Lab. 02: Algorytm Schrage

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Lepiej zapobiegać niż leczyć Diagnostyka regresji

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

Regresja liniowa. Etapy analizy regresji. Założenia regresji. Kodowanie zmiennych jakościowych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Permutacyjna metoda oceny istotności regresji

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Bioinformatyka V. Analiza Danych w Języku R

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Regresja ważona. Co, gdy nie ma stałej wariancji? Tu prawdziwe σ 2 =1 (dużo powtórzeń, więc wariancje są dobrze oszacowane) PAR Wykład 5 1/8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Ekonometria. wiczenia 7 Modele nieliniowe. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

x y x y x y x + y x y

Regresja - zadania i przykłady.

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Egzamin test. Matematyka dla Biologów Warszawa, 1 lutego GRUPA A

Metoda najmniejszych kwadratów

przewidywania zapotrzebowania na moc elektryczn

Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ. KORELACJA zmiennych jakościowych (niemierzalnych)

Przetwarzanie sygnaªów

Wprowadzenie do analizy korelacji i regresji

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

ANALIZA REGRESJI SPSS

Funkcja kwadratowa, wielomiany oraz funkcje wymierne

Ekonometria Bayesowska

Funkcje wielu zmiennych

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Wykład 4 Związki i zależności

In»ynierskie zastosowania statystyki wiczenia

Lekcja 9 Liczby losowe, zmienne, staªe

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.

Analiza wariancji Piotr J. Sobczyk 19 November 2016

Efekty przestrzenne w konwergencji polskich podregionów

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

Wykªad 6: Model logitowy

Opis matematyczny ukªadów liniowych

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

MODELE LINIOWE. Dr Wioleta Drobik

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Lekcja 12 - POMOCNICY

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Modele ARIMA prognoza, specykacja

Metody dowodzenia twierdze«

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Transkrypt:

Opis zaj Analiza regresji Konspekt do zaj : Statystyczne metody analizy danych Agnieszka Nowak-Brzezi«ska 28 pa¹dziernika 2009 Celem zaj jest realizacja praktyczna zagadnie«zwi zanych z analiz regresji, wykresami rezyduów oraz obliczeniem warto±ci korelacji, omówionych na wykªadzie Pana Profesora Jacka Koronackiego ( http://www.ipipan.waw.pl/~korona/). 2 Wprowadzenie Analiza regresji jest bardzo popularn i ch tnie stosowan technik statystyczn pozwalajac opisywa zwi zki zachodz ce pomi dzy zmiennymi wej±ciowymi (obja±niaj cymi) a wyj±ciowymi (obja±nianymi). Innymi sªowy dokonujemy estymacji jednych danych, korzystaj c z innych. Istnieje wiele ró»nych technik regresji. Niew tpliwie najpopularniejsza jest regresja liniowa. Zakªada ona,»e pomi dzy zmiennymi obja±niaj cymi i obja±nianymi istnieje mniej lub bardziej wyrazista zale»no± liniowa. Procedura liniowej regresji w R Szukamy równania ŷ = b 0 + b x.wiadomym jest,»e mi dzy danymi, które s rzeczywiste y i (które analizujemy) a tych, które by±my chcieli uzyska (oczekiwanymi) - ŷ i - istnieje zwykle pewna rozbie»no±. Wyra»amy j wzorem e i = y i ŷ i (rezydua, reszty). Precyzyjniej powiemy,»e gdy po wykonaniu wykresu rozrzutu obserwujemy,»e chmura punktów (x i, y i ) ukªada si wzdªu» prostej, mo»emy spróbowa wyznaczy jej równanie. Szukamy wtedy modelu regresji dla próbki i staramy si tak wyznaczy wspóªczynniki b i b 0 w ukªadzie równo±ci y i = b x i + b 0 + e i, dla i =,...N, by suma warto±ci bezwzgl dnych bª dów e i byªa jak najmniejsza. Mówimy wtedy to tzw. metodzie najmniejszych kwadratów (MNK). Metoda MNK polega na tym,»e szukamy takich warto±ci b 0 oraz b które minimalizuj sum kwadratów rezyduów: N (y i ŷ i ) 2 Dla takich danych: i= b = s xy s 2 x N i= = (x i x i )(y i y i ) N i= (x i x i ) 2

za± b 0 = ŷ b ˆx W ±rodowisku R ta procedura wykonuje si w krokach:. wyrysowanie punktów na wykresie rozrzutu: > plot(x,y) 2. znalezienie warto±ci b i b 0. dodanie linii do grafu: abline(lm(y ~ x)) Funkcja abline jest do± trudna w zrozumieniu. Drukuje ona linie na bie» - cym oknie gracznym. Wykorzystuje do tego znan z modelu liniowego funkcj lm. Wyra»enie y x mówi,»e chcemy znale¹ model dla zmiennej y w zale»no±ci od zmiennej x. Funkcja cor pomo»e obliczy wspóªczynnik korelacji Pearsona: R = (xi x)(y i ȳ) (xi x) 2 (y i ȳ) 2,, który pozwala stwierdzie jak jedna zmienna zale»y od zmian na drugiej zmiennej. Warto±ci R 2 bliskie ±wadcz o silnej korelacji, za± bliskie 0 o braku korelacji. W ±rodowisku R u»yjemy do tego funkcji cor > cor(x,y) # to find R [] 0.88 > cor(x,y)^2 # to find R^2 [] 0.776 Musimy jawnie wywoªa summary(lm(y x)). Gdy chcemy wyznacza warto±ci zmiennej x w zale»no±ci od y to zamieniamy we wzorach x z y. Otrzymane proste pokrywaj si, gdy badana zale»no±ci jest zale»no±ci funkcyjn i nie ma losowo±ci. Przypadki odstaj ce i znacz ce: W celu wykluczenia z analizy przypadków odstaj cych, które mog na ni niekorzystnie wpªyn, nale»y zrobi wykresy skrzynkowe analizowanych zmiennych. Na wykresach tych kóªkiem i gwiazdk zaznaczone s przypadki odstaj ce, odpowiednio nietypowe i skrajne. Przypadki te sugeruje si usuwa, a w przypadku du»ej ich liczby analizowa osobno. Tutaj nale»y uwzgl dni uwagi Pana Profesora na temat zmiennych znacz cych i odstaj cych, pami taj c,»e nie ka»da zmienna odstaj ca jest nie znacz ca, i»e czasami zmienna znacz ca mo»e by równie» odstaj ca i wtedy sugeruje sie jej nie wyrzuca z analizy, a wr cz j uwzgl dnia po to by minimalizowa zadanie MNK Wspóªczynnik korelacji liniowej Pearsona (Karl Pearson (896)) r xy = (xi x)(y i ȳ) (n )s x s y,.przyjmuje warto±ci z przedziaªu [, ]. Dodatnia warto± tego wspóªczynnika oznacza,»e wzrost warto±ci jednej zmiennej generalnie poci ga za sob wzrost warto±ci drugiej zmiennej; ujemna spadek. r = 0, gdy nie ma zwi zku mi dzy zmiennymi, r, gdy zwi zek jest bardzo silny. Zwi zek regresji i wspóªczynnika Pearsona Wspóªczynnik korelacji jest miar dobroci dopasowania prostej regresji do danych. 2

Im bli»szy, tym dopasowanie lepsze. Interpretacja r 2 xy (tzw. wspóªczynnik determinacji): rxy 2 = s2 y x s 2, y gdzie s 2 y x jest bª dem kwadratowym regresji liniowej dla x i na y i danej równaniem y = a + bx. Wi c jest to: i s 2 y jest wariancj dla y: s 2 y x = n n (y i a bx i ) 2, i= s 2 y = n n (y i ȳ) 2. i= Je±li korelacja b dzie symetryczna dla x i i y i otrzymamy te same warto±ci dopasowania dla zmiennych y i i x i : rxy 2 = s2 x y s 2. x Wykonajmy analiz.... krok : wczytujemy dane > wiek<-c(8,9,20,2,22,2,24,25,26,27,28,29) > wzrost<-c(76.,77,78.,78.2,78.8,79.7,79.9,8.,8.2,8.8,82.8,8.5) 2. Chc c znale¹ równanie regresji dla zmiennych wzrost oraz wiek, gdzie zakªadamy,»e zmienn obja±nian (y) jest wzrost a obja±niaj c (x) jest wiek, powiemy,»e interesuje nas równanie: wzrost = b 0 + b wiek Oczywi±cie musimy wliczy w to jakie± zakªócenia, wi c powiemy,»e nasz model opiszemy równaniem: gdzie e b dzie bª dem resztowym. wzrost = b 0 + b wiek + e. Je±li u»yjemy polecenia: >lm.r = lm(formula = wzrost ~ wiek) to utworzony w ten sposób obiekt mo»e by u»yty do wywoªania innych polece«r. Je±li np u»yjemy teraz polecenia summary(lm.r) otrzymamy zestawienie:

> summary(lm.r) Call: lm(formula = wzrost ~ wiek) Residuals: Min Q Median Q Max -0.2728-0.24248-0.02762 0.604 0.4728 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 64.928 0.5084 27.7 < 2e-6 *** wiek 0.650 0.024 29.66 4.4e- *** --- Signif. codes: 0 `***' 0.00 `**' 0.0 `*' 0.05 `.' 0. ` ' Residual standard error: 0.256 on 0 degrees of freedom Multiple R-squared: 0.9888, Adjusted R-squared: 0.9876 F-statistic: 880 on and 0 DF, p-value: 4.428e- 4. Gdy u»yjemy polecenia coef(lm.r) otrzymamy zestawienie: (Intercept) 64.928 wiek 0.650 5. Powiemy wtedy,»e nasz model regresji przedstawia si nast puj co: wzrost = 64.928 + 0.650 wiek 6. generujemy wykres > plot(lm.r) Waiting to confirm page change... Klikaj c enter dostajemy kolejne wykresy... 7. obliczenie korelacji > cor(wzrost,wiek) [] 0.99466 8. obliczenie korelacji R 2 > cor(wzrost,wiek)^2 [] 0.988764 9. wyrysowanie wykresów rezyduów dla konkretnych zmiennych > plot(wzrost,lm.r$residuals) > plot(wiek,lm.r$residuals) 4

lm.r$residuals 0.2 0.0 0.2 0.4 76 78 80 82 wzrost Rysunek : wykres reszt dla zmiennej wzrost lm.r$residuals 0.2 0.0 0.2 0.4 8 20 22 24 26 28 wiek Rysunek 2: wykres reszt dla zmiennej wiek 5

lm.r$residuals 0.2 0.0 0.2 0.4 8 20 22 24 26 28 wiek Rysunek : dodanie linii poziomej Wówczas wynikiem b d odpowiednio rysunki: i 2. 0. dodaje poziom linie > abline(h = 0) Wówczas wynikiem b dzie rysunek.. Zastosujemy zwykª funkcje plot z argumentem b d cym rezultatem funkcji lm. Generuje ona 4 wykresy dla regresji. Zmieniaj c parametr mf row uzyskujemy wszystkie wykresy w jednym oknie > par(mfrow = c(2, 2));plot(lm.r);par(mfrow = c(, )) Wówczas wynikiem b dzie rysunek 4. 2. Gdy chcemy u»y R i regresji do predykcji: U»ywamy do tego funkcji predict, której ogólna formuªa jest nast puj ca: predict(model, data.frame(pred = new pred), level = 0.95, interval = ''confidence'') gdzie pred to zmienna dla której chcemy sprawdzi now warto± by poda jej warto± dla zmiennej obja±nianej. Podajemy tu tak»e odpowiedni przedziaª zaufania. Np chcemy przewidzie jaka b dzie warto± wzrostu dla wieku 28.5, to u»ywamy polecenia: predict(lm.r,data.frame(wiek = 28.5), level = 0.9, interval = "confidence") Po jej wywoªaniu otrzymujemy: 6

Residuals vs Fitted Normal Q Q Residuals 0.2 0.2 8 0 Standardized residuals.0 0.0.0 2.0 8 77 79 8 8 Fitted values.5 0.5 0.5.5 Theoretical Quantiles Standardized residuals 0.0 0.4 0.8.2 Scale Location 8 Standardized residuals 0 2 Residuals vs Leverage Cook s distance 0 0.5 0.5 77 79 8 8 Fitted values 0.00 0.0 0.20 0.0 Leverage Rysunek 4: rezultat funkcji lm - 4 wykresy na jednym lm.r lwr upr 8.0248 82.789 8.26054 gdzie jak widzimy mamy podane dolne i górne zakresy przedziaªów ufno±ci. 4 Zadania do wykonania wiczenie 0: Dla zbioru: > liczbagodzin <-c(8,9,20,2,22,2,24,25,26,27,28,29,45,50,6,77) > wynagrodzenie <-c(76.,77,78.,78.2,78.8,79.7,79.9,8.,8.2,8.8, 82.8,8.5, 90,94,2,2) wykonaj polecenia: podaj równanie regresji dla zmiennych liczbagodzin oraz wynagrodzenie? predykcja: jaka b dzie warto± wynagrodzenia dla liczbygodzin równej 9? wiczenie. Wykonaj analiz regresji liniowej dla par zmiennych x i y z pliku anscombe dost pnego w pakiecie R. Porównaj wyniki otrzymane w tabelach oraz wykresy rozrzutu z zaznaczonymi prostymi regresji. Czy we wszystkich przypadkach prosta regresji dobrze oddaje zale»no± mi dzy zminnymi? wiczenie 2. Zaªó»my, ze sporzadzili±my krzyw kalibracyjn oznaczania pewnego zwi zku dla st»e«, 2,..., 9, 0 mg/ml. Ka»de oznaczenie powtarzano trzykrotnie. Wyniki zapisa nale»y w dwóch wektorach x i y: > x <-c(,,, 2, 2, 2,,,, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 0, 0, 0) 7

> y <- c(2.00, 2.0, 2.00, 2.42, 2.42, 2.4, 2.72, 2.74, 2.74,.00,.00, 2.98,.2,.24,.2,.44,.44,.45,.66,.65,.62,.82,.85,.8, 4.00, 4.00, 4.00, 4.8, 4.6, 4.8). Wykonaj analiz regresji dla danego zbioru. 8