Wprowadzenie do technik analitycznych Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wykład 2
Korelacja i regresja Przykład: Temperatura latem średnia liczba napojów sprzedawanych przez automat Diagram korelacyjny (ang. scatter diagram) wykres punktowy. 70 korelacja liniowa 65 liczba napojów 60 55 50 45 40 k. dodatnia k. ujemna 35 18 20 22 24 26 28 30 32 34 temperatura
Korelacja i regresja korelacja nieliniowa brak korelacji Współczynnik korelacji liniowej Pearsona r = n ( ) ( )( ) x i y i xi yi [n ( ) ( ) x 2 2 ] [ ( ) ( ) i xi n y 2 2 ] i yi
Korelacja i regresja Przykład: Dla następujacych obserwacji: x i 8 4 5 1 y i 2 0 2 6 zbadać istnienie zależności liniowej pomiędzy wielkościami x i y. Własności: 1) r [ 1, 1], r = i x i y i x i y i xi 2 yi 2 1 8 2 16 64 4 2 4 0 0 16 0 3 5 2 10 25 4 4 1 6 6 1 36 4 ( 12) 16 6 (4 106 162 )(4 44 6 2 ) = 0,939 2) r = 0 brak zwiazku liniowego, 3) r = 1 doskonała korelacja liniowa dodatnia, 4) r = 1 doskonała korelacja liniowa ujemna.
Korelacja a przyczynowość W zależności funkcyjnej y = f (x), gdzie: x zmienna objaśniajaca (niezależna), y zmienna objaśniana (zależna), może istnieć bezpośredni zwiazek przyczynowy pomiędzy zmiennymi, czyli x może wpływać na y (brak wody może powodować odwodnienie, wzrost temperatury powoduje topnienie lodu itp.), może istnieć odwrotna zależność przyczynowo-skutkowa, czyli y także może wpływać na x. Przykładowo, spalony tranzystor może spowodować awarię w układzie elektronicznym, ale też awaria układu może być przyczyna spalenia tranzystora. relacja moze być spowodowana przypadkiem lub zmienna zakłócajac a, np. zależność pomiędzy liczba wypadków wśród narciarzy, a wzrostem sprzedaży paczków.
Korelacja a przyczynowość W zależności funkcyjnej y = f (x), gdzie: x zmienna objaśniajaca (niezależna), y zmienna objaśniana (zależna), może istnieć bezpośredni zwiazek przyczynowy pomiędzy zmiennymi, czyli x może wpływać na y (brak wody może powodować odwodnienie, wzrost temperatury powoduje topnienie lodu itp.), może istnieć odwrotna zależność przyczynowo-skutkowa, czyli y także może wpływać na x. Przykładowo, spalony tranzystor może spowodować awarię w układzie elektronicznym, ale też awaria układu może być przyczyna spalenia tranzystora. relacja moze być spowodowana przypadkiem lub zmienna zakłócajac a, np. zależność pomiędzy liczba wypadków wśród narciarzy, a wzrostem sprzedaży paczków.
Korelacja a przyczynowość W zależności funkcyjnej y = f (x), gdzie: x zmienna objaśniajaca (niezależna), y zmienna objaśniana (zależna), może istnieć bezpośredni zwiazek przyczynowy pomiędzy zmiennymi, czyli x może wpływać na y (brak wody może powodować odwodnienie, wzrost temperatury powoduje topnienie lodu itp.), może istnieć odwrotna zależność przyczynowo-skutkowa, czyli y także może wpływać na x. Przykładowo, spalony tranzystor może spowodować awarię w układzie elektronicznym, ale też awaria układu może być przyczyna spalenia tranzystora. relacja moze być spowodowana przypadkiem lub zmienna zakłócajac a, np. zależność pomiędzy liczba wypadków wśród narciarzy, a wzrostem sprzedaży paczków.
Regresja liniowa Aproksymujemy zmienna objaśniana y modelem liniowym ŷ = a 1 x + a 0, tak aby minimalizować błędy predykcji modelu e i = y i ŷ i = y i a 0 a 1 x i
Jak minimalizować naraz wszystkie błędy? e i = (y i a 0 a 1 x i ) min e i = y i a 0 a 1 x i min max e i = max y i a 0 a 1 x i min,...,n,...,n
Kryterium najmniejszej sumy kwadratów S r = ei 2 = (y i a 0 a 1 x i ) 2 min 3500 3000 2500 2000 S r 1500 1000 500 0 20 10 a 0 0 10 4 3 2 a 1 1 0 1 2
Kryterium najmniejszej sumy kwadratów Z warunków optymalności a 0 a 1 otrzymujemy układ równań 0 = 0 = (y i a 0 a 1 x i ) = 0 [(y i a 0 a 1 x i )x i ] = 0 y i y i x i a 0 a 0 x i a 1 x i a 1 xi 2
Równania normalne Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) x i na 0 + ( ( x i ) a 0 + x 2 i a 1 = ) a 1 = y i x i y i Oto jego rozwiazanie a 1 = n x i y i x i yi n x 2 i ( x i ) 2 a 0 = ȳ a 1 x
Równania normalne Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) x i na 0 + ( ( x i ) a 0 + x 2 i a 1 = ) a 1 = y i x i y i Oto jego rozwiazanie a 1 = n x i y i x i yi n x 2 i ( x i ) 2 a 0 = ȳ a 1 x
Regresja liniowa Przykład: Kontynuacja ilustracji dla r: a 1 = 4 ( 12) 16 6 4 106 16 2 = 0.857, a 0 = 1.5 ( 0.857)(4) = 4.929 8 ŷ = 0.857x + 4.929 6 4 y 2 0 2 4 2 0 2 4 6 8 10 x
Ocena dopasowania funkcji regresji Zdefiniujmy S t = (y i ȳ) 2 i porównajmy z S r = ei 2 = (y i a 0 a 1 x i ) 2
Ocena dopasowania funkcji regresji Współczynnik determinacji liniowej: r 2 = S t S r S t 1) r 2 bliski 1 oznacza, że model wyjaśnia większość zmienności zmiennej zależnej i może być użyteczny, 2) r 2 bliski 0 oznacza, że model objaśnia bardzo mało, jeżeli chodzi o zmienność zmiennej zależnej.
Ocena dopasowania funkcji regresji
Ocena dopasowania funkcji regresji Dla doskonałego dopasowania zachodzi S r = 0 oraz r = r 2 = 1, co oznacza, że linia prosta objaśnia 100% zmienności danych. Dla r = r 2 = 0 mamy S r = S t i dopasowanie nie wprowadza żadnej poprawy. Dla rozważanego wcześniej przykładu r 2 = ( 0.939) 2 = 0.8817 około 88% zmienności jest objaśniane modelem Obserwacje odstajace Sa to obserwacje odpowiadajace dużym residuom, powoduja duże zmiany w wartościach parametrów modelu o najlepszym dopasowaniu (obserwacje wpływowe).
Ocena dopasowania funkcji regresji Dla doskonałego dopasowania zachodzi S r = 0 oraz r = r 2 = 1, co oznacza, że linia prosta objaśnia 100% zmienności danych. Dla r = r 2 = 0 mamy S r = S t i dopasowanie nie wprowadza żadnej poprawy. Dla rozważanego wcześniej przykładu r 2 = ( 0.939) 2 = 0.8817 około 88% zmienności jest objaśniane modelem Obserwacje odstajace Sa to obserwacje odpowiadajace dużym residuom, powoduja duże zmiany w wartościach parametrów modelu o najlepszym dopasowaniu (obserwacje wpływowe).
Linearyzacja zalez nos ci liniowych y = a1 eb1 x y = a2 x b2 x y = a3 b3 + x Dariusz Ucin ski
Regresja wielomianowa Dopasujmy do danych parabolę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x i a 2 x 2 Warunki optymalności a 0 a 1 a 2 i ) 2 (y i a 0 a 1 x i a 2 xi 2 ) = 0 x i (y i a 0 a 1 x i a 2 xi 2 ) = 0 x 2 i (y i a 0 a 1 x i a 2 x 2 i ) = 0
Regresja wielomianowa Dopasujmy do danych parabolę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x i a 2 x 2 Warunki optymalności a 0 a 1 a 2 i ) 2 (y i a 0 a 1 x i a 2 xi 2 ) = 0 x i (y i a 0 a 1 x i a 2 xi 2 ) = 0 x 2 i (y i a 0 a 1 x i a 2 x 2 i ) = 0
Regresja wielomianowa Dopasujmy do danych parabolę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x i a 2 x 2 Warunki optymalności a 0 a 1 a 2 i ) 2 (y i a 0 a 1 x i a 2 xi 2 ) = 0 x i (y i a 0 a 1 x i a 2 xi 2 ) = 0 x 2 i (y i a 0 a 1 x i a 2 x 2 i ) = 0
Regresja wielomianowa Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) ( (n)a 0 + xi a 1 + x 2 i )a 2 = y i ( ) ( ( xi a 0 + x 2 i )a 1 + x 3 i )a 2 = x i y i ( ( ( ) x 2 i )a 0 + x 3 i )a 1 + x 4 i a 2 = xi 2 y i Pytanie: Jak to się uogólnia na dowolny wielomian?
Regresja wielomianowa Po uporzadkowaniu, otrzymuje się układ równań normalnych: ( ) ( (n)a 0 + xi a 1 + x 2 i )a 2 = y i ( ) ( ( xi a 0 + x 2 i )a 1 + x 3 i )a 2 = x i y i ( ( ( ) x 2 i )a 0 + x 3 i )a 1 + x 4 i a 2 = xi 2 y i Pytanie: Jak to się uogólnia na dowolny wielomian?
Wielokrotna regresja liniowa Dopasujmy do danych płaszczyznę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x 1i a 2 x 2i ) 2 Warunki optymalności a 0 a 1 a 2 (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 1i (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 2i (y i a 0 a 1 x 1i a 2 x 2i ) = 0
Wielokrotna regresja liniowa Dopasujmy do danych płaszczyznę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x 1i a 2 x 2i ) 2 Warunki optymalności a 0 a 1 a 2 (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 1i (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 2i (y i a 0 a 1 x 1i a 2 x 2i ) = 0
Wielokrotna regresja liniowa Dopasujmy do danych płaszczyznę: ŷ = a 0 + a 1 x + a 2 x 2 Suma kwadratów residuów: S r = (y i a 0 a 1 x 1i a 2 x 2i ) 2 Warunki optymalności a 0 a 1 a 2 (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 1i (y i a 0 a 1 x 1i a 2 x 2i ) = 0 x 2i (y i a 0 a 1 x 1i a 2 x 2i ) = 0
Wielokrotna regresja liniowa Otrzymuje się w ten sposób układ równań normalnych n x1i x2i x1i x 2 a 0 yi 1i x1i x 2i a 1 = x1i y i x2i x1i x 2i x2i 2 a 2 x2i y i Przykład. Do danych x 1 x 2 y 0 0 5 2 1 10 2.5 2 9 1 3 0 4 6 3 7 2 27 należy dopasować najlepsza płaszczyznę.
Wielokrotna regresja liniowa Otrzymuje się w ten sposób układ równań normalnych n x1i x2i x1i x 2 a 0 yi 1i x1i x 2i a 1 = x1i y i x2i x1i x 2i x2i 2 a 2 x2i y i Przykład. Do danych x 1 x 2 y 0 0 5 2 1 10 2.5 2 9 1 3 0 4 6 3 7 2 27 należy dopasować najlepsza płaszczyznę.
Wielokrotna regresja liniowa W rezultacie otrzymuje się układ równań 6 16.5 14 a 0 54 16.5 76.25 48 a 1 = 243.5 14 48 54 a 2 100 skad a 0 = 5, a 1 = 4, a 2 = 3
Wielokrotna regresja liniowa przypadek ogólny Rozważmy model ŷ = a 0 z 0 + a 1 z 1 + a 2 z 2 + + a m z m gdzie: z 0, z 1,..., z m różne funkcje (nb. jak zapisać w ten sposób wcześniejsze przypadki?). Zdefiniujmy z 01 z 11... z m1 y 1 a 0 z Z = 02 z 12... z m2...., y = y 2., a = a 1. z 0n z 1n... z mn y n a m oraz 2 m S r = y i a j z ji = ( y Z a ) T( ) y Z a = y Z a 2 j=0
Wielokrotna regresja liniowa przypadek ogólny Rozważmy model ŷ = a 0 z 0 + a 1 z 1 + a 2 z 2 + + a m z m gdzie: z 0, z 1,..., z m różne funkcje (nb. jak zapisać w ten sposób wcześniejsze przypadki?). Zdefiniujmy z 01 z 11... z m1 y 1 a 0 z Z = 02 z 12... z m2...., y = y 2., a = a 1. z 0n z 1n... z mn y n a m oraz 2 m S r = y i a j z ji = ( y Z a ) T( ) y Z a = y Z a 2 j=0
Wielokrotna regresja liniowa przypadek ogólny Równania normalne przyjmuja wtedy następujac a postać: ( Z T Z ) a = Z T y Pytanie: Jak je rozwiazywać?
Wielokrotna regresja liniowa przypadek ogólny Równania normalne przyjmuja wtedy następujac a postać: ( Z T Z ) a = Z T y Pytanie: Jak je rozwiazywać?