ANALIZA ZALEŻNOŚCI DWÓCH ZMIENNYCH ILOŚCIOWYCH Na ogół oprócz obserwacj jedej zmeej zberam róweż formacje towarzszące, które mogą meć zaczee w aalze teresującej as welkośc. Iformacje te mogą bć p. wkorzstae prz określau przszłch wartośc teresującej as zmeej. Obserwowae zmee mogą meć charakter loścow lub jakoścow. Rozważm stuację dwóch zmech loścowch X Y. Wkres rozproszea Dae dotczące wków kolokwum egzamu dla grup studetów odpowadając tm dam wkres rozproszea Regresja lowa
Wkres rozproszea, cd Mędz zmem wróżam dwa rodzaje zależośc: dodata - małm (odpowedo, dużm) wartoścom jedej zmeej odpowadają z reguł małe (duże) wartośc drugej zmeej. ujema - małm (dużm) wartoścom jedej zmeej odpowadają z reguł duże (małe) wartośc drugej zmeej. Wkres rozproszea dla zależośc tzw. latecj L3-N33 (właścwość somatosesorczego potecjału) od wzrostu osobka Na os pozomej - zmea ezależa, zmea objaśająca Na os poowej - zmea zależa, zmea objaśaa Podzał te trac zaczee, ked e możem wskazać, która zmea jest objaśająca, a która objaśaa. Istota jest ogóla ocea zależośc zmech. Tpową formą zależośc jest przblżoa zależość fukcja. Zależość mootocza, gd fukcja określająca przblżoą zależość fukcją jest mootocza. Regresja lowa
Współczk korelacj próbkowej Współczk korelacj próbkowej jest estmatorem współczka korelacj. Jego wartość oblczoa dla kokretch wartośc prób ułatwa w welu przpadkach określee sł korelacj Współczk korelacj cov( X, Y) ( X, Y) V( X) V( Y) ρ =, cov( X, Y) = E{ [ X E( X) ][ Y E( Y) ]} Współczkem korelacj próbkowej azwam zmeą losową X X Y Y r = = X Y gdze X X ozaczają średą odchlee stadardowe prób X, X,, X, a Y Y ozaczają średą odchlee stadardowe prób Y, Y,, Y. Współczk korelacj próbkowej ma właścwośc aalogcze do współczka korelacj: - e zależ od wboru jedostek welkośc X Y, - jest zmeą losową ograczoą przez lczb -, r, - wartośc blske - lub wskazują, że wkres rozproszea jest skupo w poblżu prostej, - w przpadku lowego charakteru wkresu rozproszea próbkow współczk korelacj merz słę zależośc mędz zmem, - sam fakt dodatej wartośc współczka korelacj e może bć terpretowa jako mówąc o dodatej zależośc zmech, gd e wem, cz zależość ta jest mootocza. Regresja lowa 3
Lowa zależość mędz dwoma zmem, prosta regresj Rozpatrzm stuację, ked wkres rozproszea dla prób wartośc (, ),..., (, ) wskazuje a zależość lową mędz zmem. Wzaczm prostą adekwate reprezetującą aalzowaą chmurę puktów. Rówae tej prostej: = a+ b a - wraz wol, b - współczk kerukow. Określm e jako wartość resztową (lub rezduum) będącą różcą mędz wartoścą a wartoścą ( ) = a+ b przewdwaą przez tą prostą dla wartośc zmeej objaśającej rówej e = ( a+ b ) Podobe jak dla waracj za wskaźk rozproszea możem przjąć sumę kwadratów tch różc = = ab (, ) = e = ( a b) Określm wartośc a b metodą ajmejszch kwadratów (MNK) (wprowadzoą przez F. Gaussa do aalz dach astroomczch) Zgode z tą metodą za prostą ajlepej oddającą charakter wkresu rozproszea przjmuje sę tzw. prostą regresj (prostą regresj MNK, prostą MNK), dla której wartość sum ab (, ) jest mmala. (, ) = ( ) = m = ab a b Regresja lowa 4
Lowa zależość mędz dwoma zmem, prosta regresj, cd Określm wartośc a b a podstawe waruku mmalzacj ab (, ) (, ) = ( ) = m = ab a b Otrzmujem układ rówań = ( a b) = 0 a = = ( a b) = 0 b = tąd a b = 0 = =, lub a b = 0 = = = gdze = =, = =, a b = 0 a b = = =, 0 = = czl a= b, b = Moża róweż pokazać, że ( ) ( )( ) ( ) b = = = = = = ( ) ( ) ( ) = = = Regresja lowa 5
Lowa zależość mędz dwoma zmem, prosta regresj, cd Współczk kerukow prostej regresj może bć wrażo przez współczk korelacj próbkowej ( )( ) ( )( ) b = = = = = ( ) ( ) = ( )( ) = = = r ( ) Poadto, prosta regresj MNK przechodz przez pukt (, ). Pokazalśm, że a= b. Zachodz węc = a+ b. Z faktu, że MNK mmalzuje sumę kwadratów rezduów wka, że e = ( a b ) = 0 = = Regresja lowa 6
Rozkład całkowtej zmeośc zmeej objaśaej Do oce zmeośc zmeej objaśaej użwa sę w paketach statstczch welkośc T, E R T - całkowta suma kwadratów (ag. total sum of squares) zdefowaa jest jako T = ( ) = T może bć traktowae jako deks całkowtej zmeośc zmeej objaśaej. E - suma kwadratów błędów (ag. error sum of squares) zdefowaa jest jako = ( ( )) E = E może bć traktowae jako deks zmeośc zmeej rezduów wokół swojej wartośc średej rówej zero. R - regresja (lub modelowa) suma kwadratów (ag. regresso (model) sum of squares) zdefowaa jest jako = ( ( ) ) R = R może bć traktowae jako deks zmeośc wartośc przewdwach wokół swojej wartośc średej ( ) =. Zachodz zwązek T = E + R Regresja lowa 7
Rozkład całkowtej zmeośc zmeej objaśaej Mmalzacja MNK prowadz do zależośc T = E + R W przpadku, gd chmura puktów a wkrese jest skupoa wokół prostej MNK, składk E jest mał w porówau z T. Współczk determacj R E = T T określa stopeń, w jakm zależość lowa mędz zmeą objaśaą a objaśającą tłumacz zmeość wkresu rozproszea Wartość współczka determacj jest ścśle zwązaa z wartoścą współczka korelacj próbkowej R zmeość wjaśoa przez model r = = T zmeość całkowta Zachodz bowem ( ) ( ) ( ) ( ) ( ) ( ) R a+ b b b = = = = = T = = ( ) = = ( ) = = b = r = r Wartość r jest bardzej adekwatm wskaźkem stopa zależośc lowej ż sama wartość współczka korelacj próbkowej r. Regresja lowa 8
REGREJA LINIOWA W PRZYPADKU RÓŻNYCH NIEPEWNOŚCI POMIAROWYCH ZMIENNEJ Y Nepewośc pomarowe w przpadku dwóch zmech loścowch Wkoując serę pomarów zmeej zależej dla daej wartośc zmeej ezależej otrzmuje sę zazwczaj pewe rozrzut zmerzoch wartośc. Zwązae z tm rozrzutem odchlee stadardowe może bć stałe, ezależe od wartośc, ale mogą pojawć sę też przpadk, ked jest róże dla różch wartośc. Zajmem sę dokładej tą drugą ewetualoścą. Założm dla uproszczea, że całą epewość pomarową możem przpsać tlko do pomarów zmeej ezależej. Jest to rówoważe przjęcu, że odchlee stadardowe pomaru zmeej jest dużo mejsze od, a dokładej, że d d " Założee to e zawsze może bć spełoe. Może sę p. okazać, że w dam przpadku. Wted asza uproszczoa procedura regresj lowej będze z dobrm przblżeem dokłada, jeśl przjmem, że = + I D I d = - pośred przczek do całej epewośc welkośc d pochodząc od epewośc D - bezpośreda epewość pomaru welkośc Regresja lowa 9
Metoda ajwększej wargodośc Załóżm że zmee są w rzeczwstośc zwązae zależoścą ( ) = a + b 0 0 0 Przjmem, że każda zmerzoa wartość pochodz z rozkładu ormalego o wartośc średej ( ) 0 odchleu stadardowm. Prawdopodobeństwo P otrzmaa wku wos węc ( ) 0 P = ep π Prawdopodobeństwo otrzmaa wszstkch wków jest loczem prawdopodobeństw dla poszczególch obserwacj 0( ) Pa ( 0, b0) = P = ep = = π = Podobe, dla dowolch estmowach wartośc współczków a b zachodz ( ) Pab (, ) = ep = π = Zgode z zasadą ajwększej wargodośc założm, że Pab (, ) Pa ( 0, b0), czl że wartoścam a b, które są ajblższe a 0 b 0 są te wartośc, które maksmalzują prawdopodobeństwo Pab. (, ) Poeważ czk / ( π ) jest ezależ od a b, węc waruek maksmalzacj Pab (, ) odpowada warukow mmalzacj sum w wkładku wrażea a Pab (, ) = ( ) = m Regresja lowa 0
Metoda ajwększej wargodośc, cd ( ) Zazwczaj mmalzacj poddaje sę e sumę = fukcję ( ) χ = ν = ν = m - lczba stop swobod m - lczba dopasowwach parametrów, ale Dla prawdłowo określoch wartośc wartość fukcj χ po mmalzacj jest zblżoa do jedośc. Jeżel χ, mogą wstąpć dwa przpadk: χ < χ > - przjęto za duże epewośc dla poszczególch wków, ale fukcja ( ) dobrze je przblża. - przjęto za małe epewośc dla poszczególch wków, albo fukcja ( ) e jest ch dobrm przblżeem. Czk określające wartość χ :. Fluktuacje merzoch wartośc zmech, które są próbą losową z populacj ( ) 0.. Wartośc przporządkowae epewoścom. Newłaścwe przporządkowae prowadz do ewłaścwch wartośc χ. 3. Wbór postac fukcj ( ) będącej aproksmacją "prawdzwej" fukcj ( ) 0. W ektórch przpadkach koecze może sę okazać dopasowwae klku różch fukcj, ab zaleźć tę właścwą dla daego zboru dach. 4. Wartośc parametrów fukcj. ( ) Celem dopasowwaa jest zalezee "ajlepszch wartośc" tch parametrów. Regresja lowa
Mmalzacja χ w przpadku regresj lowej, regresja ważoa W tm przpadku fukcja χ ma postać χ a b = = zajdujem jej mmum ze względu a wartośc parametrów a b Otrzmujem układ rówań χ = ( a b) = 0 a = χ = ( a b) = 0 b = a po podstaweu w = / jego rozwązau mam gdze a= b, b = = w, W = = w W = w W = =, W = w = w W = =, Powższe średe mają charakter średch ważoch z wagam w = /. tąd tak określoa procedura zajdowaa parametrów a b azwa sę lową regresją ważoą. W przpadku jedakowch wag (gd =, =,..., ) regresja ważoa staje sę regresją zwczają. Regresja lowa
OCENA NIEPEWNOŚCI REGREJI LINIOWEJ Przpadek jedakowch epewośc Jeśl odchlea stadardowe dla dach e są zae gd zakładam =, =,...,, wted możem określć korzstając z wków przeprowadzoej procedur dopasowwaa. Oceę moża przeprowadzć podobe jak oceę waracj z prób ( ) # = a b a b = = = = Przpadek zmech epewośc Zmee odchlea stadardowe dla poszczególch dach mogą pojawć sę gd - zmee wkają z stot aalzowaego zjawska, - dae pochodzą z różch źródeł, - pomar wkowae bł a różch zakresach merka, - wk pochodzą z populacj o m rozkładze ż gaussowsk (p. z populacj o rozkładze Possoa, gdze moża przjąć = ), - regresja dotcz zlearzowaej fukcj elowej. Br Np. prz zależośc w populacj o postac z = Ae zmerzoch parach wartośc ( z, r ) zajdowae parametrów A B moża sprowadzć do zagadea regresj lowej poprzez logartmowae odpowede podstawea Regresja lowa 3
l z = l A+ Br, = l z, a= l A, b= B, = r Przpadek zmech epewośc, learzacja zależośc elowej Przkład, cd z Br = Ae l l z = A+ Br = a+ b = l z, a= l A, b= B, = r, Dla potrzeb regresj lowej trzeba odpowedo przetrasformować dae epewośc pomarowe zmeej zależej = l z, = r d d l z = z = z = z dz z= z dz z= z z Otrzmae wartośc zależą od z, co powoduje, że zajdowae parametrów A B powo bć tu prowadzoe metodam regresj ważoej. Regresja lowa 4
Nepewośc parametrów a b Oblczm ajperw epewość oce parametru b b b b = j = j= j j= j wj b= = w w W = =, = b j = = j w ( w j j wj) ( j ) W W = w + = + = W W W ( ) ( ) b j j j j= Prz oblczau epewośc parametru a skorzstam z zależośc a= b a a a = + b = + b b w W = =, = j wj W wj j w j j= j j= j j= = = = = W w W W = + = + = W W W W W W a (bo = ) Regresja lowa 5
Nepewośc parametrów a b, cd Otrzmalśm b = = W w w = W = W = w = = = w W = a = = W w w = W = = a b W przpadku gd odchlea stadardowe dla dach e są zae gd zakładam =, =,...,, wted b = = = b a = = Jak już poprzedo pokazalśm, wted waracja może bć estmowaa ze wzoru # = a b = = = czl wted a b = = = b = = =, zaś b a = = Regresja lowa 6
Estmacja przedzałowa parametrów a 0 b 0 a a0 b b0 Moża pokazać, że zmee losowe Ta = Tb = mają a b rozkład tudeta o ν = stopach swobod, gd waracje są zae, lub o ν = stopach swobod, gd waracje e są zae przjmuje sę, że wszstke wartośc są określoe taką samą waracją # = a b = = = estmowaą a podstawe prób. tąd dla daego pozomu ufośc α możem apsać P t a a 0 α/, ν α/, ν = α a t P t b b 0 α/, ν α/, ν = α b t t α /, ν, t α/, ν - kwatle rzędu α / α / rozkładu tudeta o ν stopach swobod, tα/, ν = t α/, ν. tąd otrzmujem ( a a) P a t a a+ t = α/, ν 0 α/, ν α ( b b) Pb t b b+ t = α/, ν 0 α/, ν α Regresja lowa 7
Obszar ufośc dla prostej regresj lowej Współczk regresj lowej a b obarczoe są epewoścam a b, dlatego prosta regresj e jest jedozacze określoa. Pokazalśm już, że epewość jedego puktu prostej o współrzędch (, ) określoa jest waracją =, W = w = W = = Dla zalezea waracj pozostałch puktów prostej, jej rówae przedstawm w postac ˆ = + b( ) Z prawa przeoszea waracj mam ˆ ˆ ˆ b = + b ˆ Poeważ = oraz ŷ =, węc dla dowolego puktu ŷ b zajdującego sę a prostej, zachodz ( ) = + ŷ b Jak wdać ajmejszą warację ma pukt środkow (, ) rośe oa z kwadratem odległośc od puktu środkowego. Regresja lowa 8
Obszar ufośc dla prostej regresj lowej, cd = +, wprowadźm Tˆ Otrzmalśm ( ) ŷ b = ˆ ˆ Przedzał ufośc dla wartośc moża zatem oblczć ze wzoru ( /, ˆ /, ˆ) P ˆ t ˆ + t = α ν α ν α zerokość przedzału ufośc podobe jak waracja rośe wraz z odchleem od puktu środkowego prostej regresj. Krzwe ufośc prostej regresj lowej - obwede puktów wzaczoch przedzałam ufośc P ˆ t ˆ + t = ( /, ˆ /, ˆ) α ν α ν α dla różch puktów, Obszar ufośc - obszar zawart mędz krzwm ufośc dla prostej regresj a pozome ufośc -α. Y 0 8 6 4 0 8 6 4 0 - -4 =3.-0. -α=0.98 -α=0.80 0 3 4 5 6 X Dwe par krzwch ufośc a pozome ufośc -α=0,98 0,80. Regresja lowa 9