Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza współzależności zjawisk

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Wykład 4 Związki i zależności

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Rozdział 8. Regresja. Definiowanie modelu

Analiza współzależności dwóch cech I

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

MODELE LINIOWE. Dr Wioleta Drobik

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA MATEMATYCZNA

Stosowana Analiza Regresji

PDF created with FinePrint pdffactory Pro trial version

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

3. Modele tendencji czasowej w prognozowaniu

KORELACJE I REGRESJA LINIOWA

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Równania różniczkowe zwyczajne analityczne metody rozwiazywania

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Wprowadzenie do analizy korelacji i regresji

Wymagania edukacyjne z matematyki klasa II technikum

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Modelowanie układów dynamicznych

ANALIZA REGRESJI SPSS

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Równania różniczkowe metody numeryczne

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Statystyczna analiza danych

Statystyka w analizie i planowaniu eksperymentu

STATYSTYKA MATEMATYCZNA

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Regresja i Korelacja

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Metoda najmniejszych kwadratów

Statystyka matematyczna i ekonometria

Analiza zależności zmiennych ilościowych regresja

Analiza Współzależności

PLAN WYNIKOWY DLA KLASY DRUGIEJ POZIOM PODSTAWOWY I ROZSZERZONY. I. Proste na płaszczyźnie (15 godz.)

Statystyka i Analiza Danych

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WIELOMIANY SUPER TRUDNE

Metoda graficzna może być stosowana w przypadku gdy model zawiera dwie zmienne decyzyjne. Metoda składa się z dwóch kroków (zobacz pierwszy wykład):

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Statystyka. Wykład 13. Magdalena Alama-Bućko. 12 czerwca Magdalena Alama-Bućko Statystyka 12 czerwca / 30

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Korelacja krzywoliniowa i współzależność cech niemierzalnych

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Rozwiazywanie układów równań liniowych. Ax = b

Ćwiczenie 5 PROGNOZOWANIE

Metodologia badań psychologicznych. Wykład 12. Korelacje

Programowanie celowe #1

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Dział I FUNKCJE I ICH WŁASNOŚCI

Analiza składowych głównych. Wprowadzenie

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Wymagania edukacyjne z matematyki w XVIII Liceum Ogólnokształcącym w Krakowie, zakres podstawowy. Klasa druga.

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

ANALIZA KORELACJI I REGRESJI

Systemy Wspomagania Decyzji

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

ZAGADNIENIA PROGRAMOWE I WYMAGANIA EDUKACYJNE DO TESTU PRZYROSTU KOMPETENCJI Z MATEMATYKI DLA UCZNIA KLASY II

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

POLITECHNIKA OPOLSKA

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

DOPASOWYWANIE KRZYWYCH

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

APROKSYMACJA. Rys. 1. Funkcja aproksymująca zbiór punktów pomiarowych (1) (2) (3) (4) (5) (6) (7) ... Zmienna y

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych klasa druga zakres rozszerzony

Transkrypt:

Wprowadzenie do technik analitycznych Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wykład 2

Korelacja i regresja Przykład: Temperatura latem średnia liczba napojów sprzedawanych przez automat Diagram korelacyjny (ang. scatter diagram) wykres punktowy. 70 korelacja liniowa 65 liczba napojów 60 55 50 45 40 k. dodatnia k. ujemna 35 18 20 22 24 26 28 30 32 34 temperatura

Korelacja i regresja korelacja nieliniowa brak korelacji Współczynnik korelacji liniowej Pearsona r = n ( ) ( )( ) x i y i xi yi [n ( ) ( ) x 2 2 ] [ ( ) ( ) i xi n y 2 2 ] i yi

Korelacja i regresja Przykład: Dla następujacych obserwacji: x i 8 4 5 1 y i 2 0 2 6 zbadać istnienie zależności liniowej pomiędzy wielkościami x i y. Własności: 1) r [ 1, 1], r = i x i y i x i y i xi 2 yi 2 1 8 2 16 64 4 2 4 0 0 16 0 3 5 2 10 25 4 4 1 6 6 1 36 4 ( 12) 16 6 (4 106 162 )(4 44 6 2 ) = 0,939 2) r = 0 brak zwiazku liniowego, 3) r = 1 doskonała korelacja liniowa dodatnia, 4) r = 1 doskonała korelacja liniowa ujemna.

Korelacja a przyczynowość W zależności funkcyjnej y = f (x), gdzie: x zmienna objaśniajaca (niezależna), y zmienna objaśniana (zależna), może istnieć bezpośredni zwiazek przyczynowy pomiędzy zmiennymi, czyli x może wpływać na y (brak wody może powodować odwodnienie, wzrost temperatury powoduje topnienie lodu itp.), może istnieć odwrotna zależność przyczynowo-skutkowa, czyli y także może wpływać na x. Przykładowo, spalony tranzystor może spowodować awarię w układzie elektronicznym, ale też awaria układu może być przyczyna spalenia tranzystora. relacja moze być spowodowana przypadkiem lub zmienna zakłócajac a, np. zależność pomiędzy liczba wypadków wśród narciarzy, a wzrostem sprzedaży paczków.

Korelacja a przyczynowość W zależności funkcyjnej y = f (x), gdzie: x zmienna objaśniajaca (niezależna), y zmienna objaśniana (zależna), może istnieć bezpośredni zwiazek przyczynowy pomiędzy zmiennymi, czyli x może wpływać na y (brak wody może powodować odwodnienie, wzrost temperatury powoduje topnienie lodu itp.), może istnieć odwrotna zależność przyczynowo-skutkowa, czyli y także może wpływać na x. Przykładowo, spalony tranzystor może spowodować awarię w układzie elektronicznym, ale też awaria układu może być przyczyna spalenia tranzystora. relacja moze być spowodowana przypadkiem lub zmienna zakłócajac a, np. zależność pomiędzy liczba wypadków wśród narciarzy, a wzrostem sprzedaży paczków.

Korelacja a przyczynowość W zależności funkcyjnej y = f (x), gdzie: x zmienna objaśniajaca (niezależna), y zmienna objaśniana (zależna), może istnieć bezpośredni zwiazek przyczynowy pomiędzy zmiennymi, czyli x może wpływać na y (brak wody może powodować odwodnienie, wzrost temperatury powoduje topnienie lodu itp.), może istnieć odwrotna zależność przyczynowo-skutkowa, czyli y także może wpływać na x. Przykładowo, spalony tranzystor może spowodować awarię w układzie elektronicznym, ale też awaria układu może być przyczyna spalenia tranzystora. relacja moze być spowodowana przypadkiem lub zmienna zakłócajac a, np. zależność pomiędzy liczba wypadków wśród narciarzy, a wzrostem sprzedaży paczków.

Regresja liniowa Aproksymujemy zmienna objaśniana y modelem liniowym ŷ = a 1 x + a 0, tak aby minimalizować błędy predykcji modelu e i = y i ŷ i = y i a 0 a 1 x i

Jak minimalizować naraz wszystkie błędy? e i = (y i a 0 a 1 x i ) min e i = y i a 0 a 1 x i min max e i = max y i a 0 a 1 x i min,...,n,...,n

Kryterium najmniejszej sumy kwadratów S r = ei 2 = (y i a 0 a 1 x i ) 2 min 3500 3000 2500 2000 S r 1500 1000 500 0 20 10 a 0 0 10 4 3 2 a 1 1 0 1 2

Kryterium najmniejszej sumy kwadratów Z warunków optymalności a 0 a 1 otrzymujemy układ równań 0 = 0 = (y i a 0 a 1 x i ) = 0 [(y i a 0 a 1 x i )x i ] = 0 y i y i x i a 0 a 0 x i a 1 x i a 1 xi 2

Równania normalne Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) x i na 0 + ( ( x i ) a 0 + x 2 i a 1 = ) a 1 = y i x i y i Oto jego rozwiazanie a 1 = n x i y i x i yi n x 2 i ( x i ) 2 a 0 = ȳ a 1 x

Równania normalne Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) x i na 0 + ( ( x i ) a 0 + x 2 i a 1 = ) a 1 = y i x i y i Oto jego rozwiazanie a 1 = n x i y i x i yi n x 2 i ( x i ) 2 a 0 = ȳ a 1 x

Regresja liniowa Przykład: Kontynuacja ilustracji dla r: a 1 = 4 ( 12) 16 6 4 106 16 2 = 0.857, a 0 = 1.5 ( 0.857)(4) = 4.929 8 ŷ = 0.857x + 4.929 6 4 y 2 0 2 4 2 0 2 4 6 8 10 x

Ocena dopasowania funkcji regresji Zdefiniujmy S t = (y i ȳ) 2 i porównajmy z S r = ei 2 = (y i a 0 a 1 x i ) 2

Ocena dopasowania funkcji regresji Współczynnik determinacji liniowej: r 2 = S t S r S t 1) r 2 bliski 1 oznacza, że model wyjaśnia większość zmienności zmiennej zależnej i może być użyteczny, 2) r 2 bliski 0 oznacza, że model objaśnia bardzo mało, jeżeli chodzi o zmienność zmiennej zależnej.

Ocena dopasowania funkcji regresji

Ocena dopasowania funkcji regresji Dla doskonałego dopasowania zachodzi S r = 0 oraz r = r 2 = 1, co oznacza, że linia prosta objaśnia 100% zmienności danych. Dla r = r 2 = 0 mamy S r = S t i dopasowanie nie wprowadza żadnej poprawy. Dla rozważanego wcześniej przykładu r 2 = ( 0.939) 2 = 0.8817 około 88% zmienności jest objaśniane modelem Obserwacje odstajace Sa to obserwacje odpowiadajace dużym residuom, powoduja duże zmiany w wartościach parametrów modelu o najlepszym dopasowaniu (obserwacje wpływowe).

Ocena dopasowania funkcji regresji Dla doskonałego dopasowania zachodzi S r = 0 oraz r = r 2 = 1, co oznacza, że linia prosta objaśnia 100% zmienności danych. Dla r = r 2 = 0 mamy S r = S t i dopasowanie nie wprowadza żadnej poprawy. Dla rozważanego wcześniej przykładu r 2 = ( 0.939) 2 = 0.8817 około 88% zmienności jest objaśniane modelem Obserwacje odstajace Sa to obserwacje odpowiadajace dużym residuom, powoduja duże zmiany w wartościach parametrów modelu o najlepszym dopasowaniu (obserwacje wpływowe).

Linearyzacja zalez nos ci liniowych y = a1 eb1 x y = a2 x b2 x y = a3 b3 + x Dariusz Ucin ski

Regresja wielomianowa Dopasujmy do danych parabolę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x i a 2 x 2 Warunki optymalności a 0 a 1 a 2 i ) 2 (y i a 0 a 1 x i a 2 xi 2 ) = 0 x i (y i a 0 a 1 x i a 2 xi 2 ) = 0 x 2 i (y i a 0 a 1 x i a 2 x 2 i ) = 0

Regresja wielomianowa Dopasujmy do danych parabolę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x i a 2 x 2 Warunki optymalności a 0 a 1 a 2 i ) 2 (y i a 0 a 1 x i a 2 xi 2 ) = 0 x i (y i a 0 a 1 x i a 2 xi 2 ) = 0 x 2 i (y i a 0 a 1 x i a 2 x 2 i ) = 0

Regresja wielomianowa Dopasujmy do danych parabolę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x i a 2 x 2 Warunki optymalności a 0 a 1 a 2 i ) 2 (y i a 0 a 1 x i a 2 xi 2 ) = 0 x i (y i a 0 a 1 x i a 2 xi 2 ) = 0 x 2 i (y i a 0 a 1 x i a 2 x 2 i ) = 0

Regresja wielomianowa Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) ( (n)a 0 + xi a 1 + x 2 i )a 2 = y i ( ) ( ( xi a 0 + x 2 i )a 1 + x 3 i )a 2 = x i y i ( ( ( ) x 2 i )a 0 + x 3 i )a 1 + x 4 i a 2 = xi 2 y i Pytanie: Jak to się uogólnia na dowolny wielomian?

Regresja wielomianowa Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) ( (n)a 0 + xi a 1 + x 2 i )a 2 = y i ( ) ( ( xi a 0 + x 2 i )a 1 + x 3 i )a 2 = x i y i ( ( ( ) x 2 i )a 0 + x 3 i )a 1 + x 4 i a 2 = xi 2 y i Pytanie: Jak to się uogólnia na dowolny wielomian?

Wielokrotna regresja liniowa Dopasujmy do danych płaszczyznę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x 1i a 2 x 2i ) 2 Warunki optymalności a 0 a 1 a 2 (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 1i (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 2i (y i a 0 a 1 x 1i a 2 x 2i ) = 0

Wielokrotna regresja liniowa Dopasujmy do danych płaszczyznę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x 1i a 2 x 2i ) 2 Warunki optymalności a 0 a 1 a 2 (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 1i (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 2i (y i a 0 a 1 x 1i a 2 x 2i ) = 0

Wielokrotna regresja liniowa Dopasujmy do danych płaszczyznę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x 1i a 2 x 2i ) 2 Warunki optymalności a 0 a 1 a 2 (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 1i (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 2i (y i a 0 a 1 x 1i a 2 x 2i ) = 0

Wielokrotna regresja liniowa Otrzymuje się w ten sposób układ równań normalnych n x1i x2i x1i x 2 a 0 yi 1i x1i x 2i a 1 = x1i y i x2i x1i x 2i x2i 2 a 2 x2i y i Przykład. Do danych x 1 x 2 y 0 0 5 2 1 10 2.5 2 9 1 3 0 4 6 3 7 2 27 należy dopasować najlepsza płaszczyznę.

Wielokrotna regresja liniowa Otrzymuje się w ten sposób układ równań normalnych n x1i x2i x1i x 2 a 0 yi 1i x1i x 2i a 1 = x1i y i x2i x1i x 2i x2i 2 a 2 x2i y i Przykład. Do danych x 1 x 2 y 0 0 5 2 1 10 2.5 2 9 1 3 0 4 6 3 7 2 27 należy dopasować najlepsza płaszczyznę.

Wielokrotna regresja liniowa W rezultacie otrzymuje się układ równań 6 16.5 14 a 0 54 16.5 76.25 48 a 1 = 243.5 14 48 54 a 2 100 skad a 0 = 5, a 1 = 4, a 2 = 3

Wielokrotna regresja liniowa przypadek ogólny Rozważmy model ŷ = a 0 z 0 + a 1 z 1 + a 2 z 2 + + a m z m gdzie: z 0, z 1,..., z m różne funkcje (nb. jak zapisać w ten sposób wcześniejsze przypadki?). Zdefiniujmy z 01 z 11... z m1 y 1 a 0 z Z = 02 z 12... z m2...., y = y 2., a = a 1. z 0n z 1n... z mn y n a m oraz 2 m S r = y i a j z ji = ( y Z a ) T( ) y Z a = y Z a 2 j=0

Wielokrotna regresja liniowa przypadek ogólny Rozważmy model ŷ = a 0 z 0 + a 1 z 1 + a 2 z 2 + + a m z m gdzie: z 0, z 1,..., z m różne funkcje (nb. jak zapisać w ten sposób wcześniejsze przypadki?). Zdefiniujmy z 01 z 11... z m1 y 1 a 0 z Z = 02 z 12... z m2...., y = y 2., a = a 1. z 0n z 1n... z mn y n a m oraz 2 m S r = y i a j z ji = ( y Z a ) T( ) y Z a = y Z a 2 j=0

Wielokrotna regresja liniowa przypadek ogólny Równania normalne przyjmuja wtedy następujac a postać: ( Z T Z ) a = Z T y Pytanie: Jak je rozwiazywać?

Wielokrotna regresja liniowa przypadek ogólny Równania normalne przyjmuja wtedy następujac a postać: ( Z T Z ) a = Z T y Pytanie: Jak je rozwiazywać?