Regresja liniowa i nieliniowa

Metody prognozowana: Regresja lnowa nelnowa Dr nż. Sebastan Skoczypec

Zmenna losowa Zmenna losowa X zmenna, która w wynku pewnego dośwadczena przyjmuje z pewnym prawdopodobeństwem wartość z określonego zboru Zmenną losową X nazywamy dyskretną (skokową), jeżel zbór wartośc zmennej X jest zborem skończonym lub przelczalnym (cąg lczbowy). Zmenną losową X nazywamy cągłą, jeżel zbór wartośc zmennej X można przedstawć jako przedzał lczbowy. Rozkładem zmennej losowej skokowej (funkcją rozkładu prawdopodobeństwa) nazywamy funkcję prawdopodobeństwa, która każdej realzacj zmennej X przyporządkowuje określone prawdopodobeństwo: dla p>=0 gdze: P(X=x) prawdopodobeństwo, że zmenna X przyjme wartość x, = p 1 = 1 Dystrybuantą zmennej losowej X nazywamy funkcję F(x) dla wszystkch lczb rzeczywstych o postac 0 dla x< x1 F ( x) = P( X x) = p p1 dla x1 x< x2 x x F( x) = p1 + p2 dla x2 x< x3 M 1 dla x x 1 Zmenna losowa skokowa P ( X = x ) = p

Funkcją gęstośc prawdopodobeństwa zmennej losowej cągłej nazywamy funkcję f(x), określoną na zborze lczb rzeczywstych, spełnającą warunk: dla dla dowolnych a < b Zmenna losowa cągła b f ( x) 0 f ( x) dx = P( a X b) = P( a < X < b) a p = 1 = 1 f ( x) dx = 1 f ( x) dx = 1 P( X = a) = 0 b a Dystrybuantą zmennej losowej X cągłej nazwyamy funkcję: x f F ( x) = P( X < x) = ( t) dt P ( X < x1 ) = F( x1 ) P( x2 < X < x3) = F( x3) F( x2 ) P( X > x4 ) = 1 F( x4 )

Wprowadzene Metody Prognozowana: Jakość prognoz 21 Wprowadzene Korelacja: rodzaj zależnośc pomędzy zmennym losowym, z których każda wyznaczona jest przez pewną cechę, ze względu na którą bada sę dano populację. Regresja: sprowadzene zagadnena współzależnośc zmennych losowych do zależnośc funkcyjnej. Na podstawe wynków badań dośwadczalnych wyznacza sę zależność pomędzy zmennym losowym, najczęścej w forme tzw. równana regresj, które przedstawa charakter zwązków pomędzy czynnkam wejścowym wynkowym. Z matematycznego punktu wdzena, regresją nazywamy dowolną metodę statystyczną pozwalającą estymować warunkową wartość oczekwaną zmennej losowej, zwanej zmenną objaśnaną, dla zadanych wartośc nnej zmennej lub wektora zmennych losowych (tzw. zmennych objaśnających). Metody Prognozowana: Jakość prognoz 22

Wprowadzene W zapse formalnym model przybera postać: Y = f(x,β) + ε lub Y = f(x+ ε X,β) + ε gdze: X wektor zmennych objaśnających Y zmenna objaśnana β - wektor współczynnków regresj f(x,β) funkcja regresj ε, ε X - błąd losowy Metody Prognozowana: Jakość prognoz 24

Wprowadzene Celem konstrukcj modelu jest przyblżene neznanej funkcj f przez jej estymator. Sprowadza sę to do takego wyznaczena wektora współczynnków β, aby zmnmalzować w zborze uczącym funkcję straty. L(f, f) = f( (a,b)) Zwykle jako marę błędów stosuje sę sumę kwadratów różnc (błędów regresj): (a,b) = (a-b) 2 wówczas oblczena są najprostsze - dopasowane modelu sprowadza sę do zastosowana prostej matematyczne metody najmnejszych kwadratów (MNK). Metody Prognozowana: Jakość prognoz 25

Stosunek korelacyjny Współczynnk korelacj r ne jest czuły na zależnośc krzywolnowe. Gdy zależność mędzy dwoma zmennym jest nelnowa, wówczas mara koncentracj wynków pomarów względem krzywej regresj może być tzw. stosunek korelacyjny: η x y = 1 k j= 1 ( m j 1) S ( n 1) S 2 x y 2 y j 2 2 gdze: k lczba przedzałów, S x y j m j lość punktów w j przedzale - warancja dla j przedzału, Metody Prognozowana: Jakość prognoz 56

Stosunek korelacyjny Stosunek korelacyjny: określa stosunek pomędzy dwoma zmennym, których zależność przyczynowo skutkowa jest określona (x zależy od y). Jeżel zależność ta ne jest znana to należy określć η x y. η x y = 0: brak koleralcj mędzy badanym zmennym (tzn. brak zależnośc zmennej y od x) η x y = 1: zależność pomędzy x y jest funkcyjna η x y = r x y : zależność lnowa Metody Prognozowana: Jakość prognoz 57 Charakter relacj Współczynnk korelacj lnowej Stosunek korelacj Zależność mędzy zmennym x y r x y =±1 - funkcyjna lnowa r x y =0 η x y =1 funkcja krzywolnowa r x y =0 η x y =0 brak korelacj r x y =0 η x y <1 r x y =η x y - korelacja krzywolnowa dokładna korelacja lnowa r x y >0 η x y <1 korelacja lnowa Metody Prognozowana: Jakość prognoz 58

Estymacja parametrów w modelu (2) ε gdze (y, x ) oznacza elementy próby losowej. Estymacja parametrów w modelu (3) Każdą obserwację empryczną można zapsać jako: y = b + a x +ε. Problem estymacj sprowadza sę do wyznaczena mnumum funkcj s danej wzorem. 2 s ( a, b ) = ε n = 1 = n [ y ( b + a x )] = 1 2

Funkcja s jest funkcją dwóch newadomych (a b), aby znaleźć mnmum tej funkcj musmy wyznaczyć pochodne cząstkowe funkcj s względem obu newadomych: przyrównać te pochodne do zera. Estymacja parametr Estymacja parametrów modelu (4) w modelu (4) = = = = n a n b x a b y x s x a b y s 1 1 ) ( 2 ' ) ( 2 ' Otrzymujemy układ równań postac: Estymacja parametr Estymacja parametrów modelu (5) w modelu (5) = = = = 0 ) ˆ ˆ ( 0 ) ˆ ˆ ( 1 1 n n x a b y x x a b y x xy x x x x y y a n n var cov ) ( ) )( ( ˆ 1 2 1 = = = = x a y b = ˆ ˆ Rozwązując mamy: cov xy (kowarancja ) - lczba określająca zależność lnową mędzy zmennym losowym x y. var x (warancja) mara zmennośc zwązana ze zróżncowanem zboru

Lnearyzacja modelu regresj welomanowej 1 1 y = ; u = x, v = a + bx x x 1 1 y = ; u =, v = a + bx x y y = ax b + c; u = lg x, v = lg( y c) y = ae y = ae bx b x ; u = x, v = lg y 1 ; u =, v = lg y x y = alg x + b; u = lg x, v = y y = ax α ; u = lg x, v = lg y

Użyce regresj: 1.konstruowane modelu - budowa tzw. modelu regresyjnego, czyl funkcj, opsującej jak zależy wartość oczekwana zmennej objaśnającej od zmennych objaśnanych. Funkcja ta może być zadana: ne tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postac drzewa regresyjnego, sec neuronowej, tp. Model konstruuje sę tak, aby jak najlepej pasował do danych z próby, zawerającej zarówno zmenne objaśnające, jak objaśnane (tzw. zbór uczący). Metody Prognozowana: Jakość prognoz 94

2. Wylczane regresj (stosowane modelu, scorng) użyce wylczonego modelu do danych w których znamy tylko zmenne objaśnające (wejścowe), w celu wyznaczena wartośc oczekwanej zmennej objaśnanej. Metody Prognozowana: Jakość prognoz 95

0.4 0 0.3 5 0.3 0 0.2 5 0.2 0 0.1 5 0.1 0 0.0 5 0.0 0 Należy y sprawdzć 1) Adekwatność funkcj - czy funkcja jest odpowedna dla badana ch zmennych X,Y 2) Istotność parametrów funkcj - mów nam, w jakm stopnu, w lu procentach można zawerzyć ch warygodnośc ( czy w ogóle). α /2 1 -α α /2 Pozomem stotnośc nazywamy przyjęte prawdopodobeństwo pomyłk w trakce oceny stotnośc parametru Werykacja adekwatnoc funkcj: test F -3-2 -1 0 1 2 3 -t n,α t n,α weryfkacja stotnośc współczynnków funkcj obektu - test t Studenta. Weryfkacja adekwatnośc modelu obektu Model obektu opsuje jego właścwośc zachowane tylko w przyblżenu. Spowodowane jest to nedokładnoścą wyznaczena parametrów modelu oraz neadekwatnoścą struktury modelu. Na nedokładność wyznaczena parametrów modelu mają wpływ następujące czynnk: - błędy przyjętej metody dentyfkacj parametrów modelu, - błędy oblczeń numerycznych, - błędy danych użytych do dentyfkacj parametrów modelu. Neadekwatność struktury modelu wynka natomast z trzech czynnków: - pomnęca wśród welkośc modelujących obekt, czynnków stotnych dla przebegu zjawsk w obekce, -newłaścwą specyfkacją welkośc modelujących obekt, -przyjęcem newłaścwego typu równana modelu.

Weryfkacja adekwatnosc modelu Model obektu opsuje jego właścwośc zachowane tylko w przyblżenu. Spowodowane jest to: nedokładnoścą wyznaczena parametrów modelu neadekwatnoścą struktury modelu. Na nedokładność wyznaczena parametrów modelu mają wpływ następujące czynnk: - błędy przyjętej metody dentyfkacj parametrów modelu, - błędy oblczeń numerycznych, - błędy danych użytych do dentyfkacj parametrów modelu. Weryfkacja adekwatnosc modelu Neadekwatność struktury modelu wynka natomast z trzech czynnków: pomnęca wśród welkośc modelujących obekt, czynnków stotnych dla przebegu zjawsk w obekce, newłaścwą specyfkacją welkośc modelujących obekt przyjęcem newłaścwego typu równana modelu. Metody Prognozowana: Jakość prognoz 100

Weryfkacja adekwatnosc modelu Oceny adekwatnośc modelu dokonuje sę na dwa sposoby: 1)Perwsza metoda polega oblczenu wartośc błędu aproksymacj wybraną funkcją f porównanu jej z pewną arbtralne wybraną wartoścą dopuszczalną e d. Jeśl oblczona wartość błędu e max jest mnejsza od e d wówczas uznaje sę wyznaczony model za adekwatny. 2)Zastosowane statystycznego testu stotnośc testu F (Snedecora) Metody Prognozowana: Jakość prognoz 101 Weryfkacja adekwatnosc modelu Defncje błędów aproksymacj: maksymalny bezwzględny błąd aproksymacj: maksymalny błąd względny: błąd średnokwadratowy: Metody Prognozowana: Jakość prognoz 102

Hpotezą statystyczną nazywamy: każde przypuszczene dotyczące neznanego rozkładu badanej cechy populacj, o prawdzwośc lub fałszywośc którego wnoskuje sę na podstawe badanej próbk. Przy weryfkacj hpotez postępuje sę w ten sposób, że oprócz weryfkowanej hpotezy zwanej hpotezą zerową wyróżna sę jeszcze nną hpotezę K, która najczęścej wynka z celu badana statystycznego, zwaną hpotezą alternatywną. W celu weryfkacj hpotezy budujemy funkcję opartą na próbe (najlepej próbe losowej prostej) δ(x 1,...,X n ) zwaną statystyką testową. Przy poberanu różnych próbek, nawet o tej samej lcznośc n funkcja ta przyjmuje na ogół różne wartośc, z których jedne będąśwadczyły o prawdzwośc weryfkowanej hpotezy a nne będą ją odrzucały. Naturalnym zatem jest podzelene zboru wszystkch wartośc, które może przyjąć statystyka testowa na dwa dopełnające sę zbory W W, take że: Zbór W nazywamy zborem krytycznym, zaś zbór W zborem przyjęć.

Weryfkacja adekwatnosc modelu Testu stotnośc test F (Snedecora): Weryfkacja sę statystyczne hpotezy poprzez porównane warancję błędów aproksymacj (warancję adekwatnośc) σ a2 z warancją nedokładnośc pomarów welkośc wyjścowej σ 2. Przyjmuje sę następujące hpotezy: 1) hpoteza zerowa H0: σ a2 = σ 2 oznaczająca, ż model jest adekwatny, 2) hpoteza alternatywna: H1: σ a2 > σ 2 oznaczająca, ż model ne jest adekwatny. Metody Prognozowana: Jakość prognoz 109 Weryfkacja adekwatnosc modelu Procedura weryfkacj statystycznej dla jednakowej lczby powtórzeń r we wszystkch układach planu eksperymentu jest następująca: a)oblcza sę wartość funkcj testowej: b)na podstawe rozkładu F (Snedecora) odczytuje sę z tablcy statystycznej wartość krytyczną F α, f 2, f 1 odpowadającą założonemu pozomow ufnośc α. c) Sprawdza sę warunek F F α, f 2, f 1. Jeśl warunek jest spełnony wówczas ne ma podstaw do odrzucena hpotezy zerowej przyjmuje sę, że model jest adekwatny. W przecwnym raze prawdzwa jest hpoteza alternatywna, czyl model ne jest adekwatny. Stwerdzene na podstawe jednej z wymenonych metod neadekwatnośc modelu obektu oznacza koneczność ponownego przeprowadzena aproksymacj funkcją o nnej postac lub zwększene lczby pomarów dla każdego układu planu dośwadczena. Metody Prognozowana: Jakość prognoz 110

Regresja weloraka (1) Dotychczas rozpatrywalśmy tylko dwe zmenne: Y X. Częścej mamy do czynena z przypadkam w których jest zmenna losową Y oraz k zmennych X (stałych lub losowych). y + + b = m( x1,... xk ) = b0 + b1 x1 k x k Model regresj lnowej można równeż rozszerzyć w nny sposób, wprowadzając do nego jako sztuczne stworzone predyktory np. loczyny dwóch lub wększej lczby zmennych objaśnających. Pozwala to na uwzględnene tzw. nterakcj pomędzy zmennym, czyl zmany sły wpływu jednej ze zmennych przy różnych wartoścach nnej zmennej.

Regresja weloraka (2) Współczynnk korelacj welorakej: R = n = 1 n ( yˆ y) ( y ) y = 1 2 2 y empryczna wartość -tego czynnka wynkowego, n lość pomarów, y - wartość średna -tego czynnka wynkowego ŷ - wartość -tego czynnka wynkowego oblczona z r. regresj Regresja weloraka (3) Współczynnk R można też oblczyć na podstawe: R = 2 y x r + r 2 y z ry xry zrx z 2 1 ry x gdze: r y x, r y z, r x z współczynnk korelacj lnowej pomędzy poszczególnym czynnkam. Im R blższe 1 tym wernejsze odwzorowane zmennośc cech badanych przez lnowa funkcję regresj welorakej.

Regresja weloraka (4) Współczynnk modelu b 1,..., b k będzemy nazywamy cząstkowym współczynnkam regresj. y = b + b x + + b x + e j 0 1 1 j k kj j Kryterum estymacj: należy tak dobrać parametry modelu, aby suma kwadratów odchyleń od modelu była jak najmnejsza: 2 j ( j 0 1 1 j k kj ) s = e = y b b x b x = mn j j 2 Badane stotnośc regresj welokrotnej Hpotezę o nestotnośc regresj welokrotnej możemy zapsać jako: H 0 : b 1 = b 2 = = b k = 0 jej weryfkacja testem F Fshera-Snedecora. Sumy kwadratów odchyleń średne kwadraty potrzebne do zweryfkowana hpotezy o stotnośc regresj mogą być wyznaczone z nżej podanych wzorów: SS SSR = b $ cov x y MSR = k SSE SSE = var y b$ cov x y MSE = n k 1 R

Badane stotnośc regresj welokrotnej Hpotezę H 0 : b 1 = b 2 = = b k = 0 odrzucamy gdy F R > F k n k α,, 1 Odrzucene hpotezy H 0 jest równoznaczne z tym, że co najmnej jeden współczynnk regresj jest różny od zera; tzn. stneje zwązek funkcyjny lnowy mędzy zmenną zależną a zmennym nezależnym. Problem statystyczny: które zmenne nezależne pownny pozostać w modelu regresj. Weryfkacja stotno stotnośc współczynnk czynnków regresj (2) Charakteryzując obekt badań przyjmuje sę określoną lczbę zmennych wejścowych. Ne ma jednak pewnośc czy wszystke zdefnowane zmenne wejścowe mają wpływ na dzałane obektu. Stwerdzene braku skorelowana określonej zmennej wejścowej x k ze zmenną wyjścową y umożlwa uproszczene modelu badań poprzez usunęce zmennej x k. Dzałane take jest uzasadnone główne ze względów ekonomcznych, gdyż prostszy model oznacza mnejszą lość sprzętu techncznego ne-zbędnego do przeprowadzena pomarów oraz uproszczene oblczeń matematycznych.

Weryfkacja stotno stotnośc współczynnk czynnków regresj (2) Informacja o wpływe kolejnych welkośc wejścowych x k na welkość wyjścową y jest ukryta w wartoścach współczynnków funkcj aproksymującej. Przykładowo: jeśl wszystke współczynnk przy x 2 wynoszą zero tzn. a 2 = a 22 = a 12 = 0 wówczas można stwerdzć, że welkość wyjścowa y ne zależy od welkośc wejścowej x 2. Gdyby natomast współczynnk przy x 2 wynosły: a 22 = a 12 = 0 oraz a 2 0 wówczas można wycągnąć wnosek, że welkość x 2 wpływa na welkość wyjścową, ale tylko lnowo. Weryfkacja stotno stotnośc współczynnk czynnków regresj (2) Analza współczynnków funkcj aproksymującej jest bardzo stotna dla realzatora badań, który uzyskuje w ten sposób stotne nformacje o sposobe dzałana obektu. Analza ta nos nazwę weryfkacj stotnośc współczynnków funkcj aproksymującej. Realzowana jest w oparcu o test t- Studenta oraz ocenę wartośc kowarancj wszystkch par współczynnków {a, a j } funkcj aproksymującej f( ). Wykryce nestotnych współczynnków funkcj aproksymującej na podstawe testu t-studenta lub ch wzajemnego skorelowana (nezerowej wartośc kowarancj) wskazuje na koneczność uproszczena modelu. Po wyznaczenu funkcj aproksymującej należy ponowne przeprowadzć weryfkację jej adekwatnośc. Dopero pozytywne przejśce tej weryfkacj jest podstawą elmnacj nestotnych współczynnków.

Weryfkacja hpotez o stotnośc cząstkowych współczynnk czynnków regresj Problem sprowadza sę do zweryfkowana ser k hpotez zerowych mówących o tym, że -ty cząstkowy współczynnk regresj jest równy zero. Hpotezy te mogą być weryfkowane testem t-studenta Weryfkacja hpotez H 0 : b = 0 Wyrażene s 2 y/ x,... x 1 k = var y b$ cov x y n k 1 jest oszacowanem średnego kwadratu odchyleń od regresj. Przy prawdzwośc hpotez zerowych tak określone statystyk mają rozkład t-studenta z lczbą stopn swobody równą n-k-1

Hpotezę H 0 : b = 0 będzemy odrzucać, jeżel wartość statystyk t znajdze sę w obszarze krytycznym. Jeżel zmenne nezależne są z sobą powązane to oceny stotnośc cząstkowych współczynnków regresj ne są nezależne. Problem doboru zmennych W przypadku stnena slnych współzależnośc mędzy zmennym nezależnym analzując funkcję regresj welokrotnej dochodzmy do wnosku, że jest ona stotna statystyczne (testem F). Weryfkując dalej hpotezy o stotnośc cząstkowych współczynnków uzyskujemy wartośc testu t Studenta, które ne przeczą hpotezom zerowym. Czyl mamy stotną funkcję regresj ale wszystke zmenne (analzowane oddzelne) są nestotne, pownny węc być usunęte z modelu. Zaczynamy od pełnego zestawu potencjalnych zmennych nezależnych, a następne kolejno usuwamy z modelu tę zmenną nezależną, której rola w opsywanu zależnośc mędzy zmenną Y a zmennym nezależnym jest najmnejsza. Podejśce take nos nazwę regresj krokowej.

Regresja nelnowa (1) W welu przypadkach nteresuje nas nelnowy zwązek mędzy zmenną Y a zmenną X Właścwe Estymację nelnową możemy traktować jako uogólnene metod lnowych. W przypadku Estymacj nelnowej sam decydujemy o określenu natury tego zwązku; na przykład możemy przyjąć, że zmenna zależna ma być funkcją: logarytmczną zmennej nezależnej (zmennych nezależnych) funkcją wykładnczą funkcją pewnego założonego lorazu zmennych nezależnych td. Regresa nelnowa (2) Współczynnk regresj: -ty, cząstkowy współczynnk regresj opsuje o le średno zmen sę wartość zmennej Y przy wzrośce -tej wartośc zmennej X o jednostkę przy ustalonych wartoścach pozostałych zmennych nezależnych. W przypadku wększośc model regresj nelnowej taka nterpretracja ne jest możlwa. Jeśl dopuszczamy dowolny typ zależnośc mędzy zmennym nezależnym a zmenną zależną, pojawają sę dwa pytana, po perwsze, jake rodzaje zależnośc "mają sens", to znaczy, jak można je w znaczący sposób znterpretować? Zależność nelnowa ne daje sę zwykle tak łatwo znterpretować zwerbalzować. Po druge, jak dokładne oblczyć zależność, to znaczy jak wywnoskować, czy faktyczne występuje zależność nelnowa taka, jakej oczekwalśmy?

Współczynnk determnacj Wyrażene to nazywamy współczynnkem determnacj. Informuje: n 2 = 1 y x = n r = 1 ( x x) ( x x) r 2 <0; 1> ( y y) ( y y) jaka część zmennośc całkowtej zmennej losowej Y została wyjaśnona regresją lnową względem X. 2 2 2

Weryfkacja hpotezy o stotnośc korelacj Założymy, że rozkład zmennych losowych Y X w populacj generalnej jest normalny. Na podstawe n - elementowej próby chcemy zweryfkować hpotezę, że zmenne te są lnowo nezależne: H 0 0 :ρ = wobec H 1 :ρ 0 Jeżel H 0 jest prawdzwa, to statystyka: t = r 1 r 2 n 2 ma rozkład t Studenta z lczbą stopn swobody v = n 2. Hpoteza o stotnośc korelacj może być także zweryfkowana poprzez porównane wyznaczonego współczynnka z próby z wartoścam krytycznym współczynnka korelacj welokrotnej Pearsona. r > Rα, k, n k 1 Weryfkacja hpotezy o stotnośc regresj Weryfkacj hpotezy o stotnośc regresj testem F Fshera-Snedecora. Analza warancj ma postać Zmenność df SS M.S F emp. F α Regresj 1 n 2 MS F SS = R R R ( yˆ y) Odchyleń n-2 SS E MS E F α,1,n-2 = 1 Całkowta n-1 ( ) SS = y y = var y T n = 1 2

Przedzał ufnośc dla wartośc modelu Dla regresj lnowej statystyka: m$( x) m( x) t = S m $ ( x ) ma rozkład t Studenta z lczbą stopn swobody n - 2. Na tej podstawe możemy wyznaczyć przedzał ufnośc dla wartośc z modelu: m x) < mˆ ( x) t, n 2Smˆ ( x) ; mˆ ( x) + t, n 2Smˆ ( x) > ( α α