OCENA WPŁYWU ZMIENNYCH OBJAŚNIAJĄCYCH NA ZMIENNĄ ZALEŻNĄ W MEODZIE RZUOWANIA PPR Wprowadzee Metoda rzutowaa PPR (proecto pursut regresso), zapropoowaa przez J Fredmaa W Stuetze a w 98 rou, est edą z eparametryczych metod regres Przeprowadzoe badaa porówawcze poazuą, ż modee regres otrzymae za e pomocą charateryzuą sę często wyższą doładoścą predyc ż modee geerowae przez e metody, zarówo eparametrycze, a asycze (zob [4; 6; 7]) Jest to eda eda z metod, tóre często oreśa sę maem czare srzy Wy, tóre otrzymue sę przy e użycu, e są zazwycza terpretowae, datego ta waże są wszee próby uzysaa dodatowych formac z otrzymaego modeu W artyue przedstawoo dwe procedury: emac dołączaa zmeych, tóre reduuą złożoość modeu otrzymaego metodą PPR, pozwaaą a wyodrębee zmeych, tóre maą awęszy wpływ a zmeą zaeżą, a róweż powęszaą zasób formac uzysaych ze zbudowaego modeu Ceem artyułu, a róweż wspomaych procedur emac dołączaa zmeych będze zbudowae ragu zmeych obaśaących pod wzgędem ch sły wpływu a zmeą Y Metoda rzutowaa PPR Ceem metody rzutowaa est trasformaca daych z przestrze weowymarowe w przestrzeń o ższym wymarze, w tóre łatwe est badaczow zaobserwować pewe własośc aazowaego zboru obserwac rasformaca ta odbywa sę poprzez zrzutowae wetora zmeych obaśaących X w eruach α Uzysue sę w te sposób owe zmee: Z α X, da =,, K, () =
Ocea wpływu zmeych obaśaących a zmeą zaeżą 05 gdze α R są uormowaym wetoram azywaym eruam rzutowaa Mode regresyy, zbudoway za pomocą metody rzutowaa, moża przedstawć w postac addytywe: K = g ( α ) Y = f ( X) = α + β X (2) 0 Fuce sładowe modeu g (da =, K, K ) to fuce ede zmee, azywae fucam grzbetowym, o parametrach β Estymatory tych parametrów, a taże eruów rzutowaa α otrzymue sę w oeych roach agorytmu poprzez mmazacę błędu empryczego (emprca rs): R emp (, β) = ( y f ( x )) = gdze α = ( α, α, 2, ) oraz = ( β, β, 2, ) K α K 2 α, (3) β K β K Błąd empryczy przedstawoy we wzorze (3) moża przeształcć do astępuące postac (zob [5]): gdze: R emp (, β) = ( r g ( α x ) α β, (4) = 2 r = y ( α x ) α 0 β g da =,, (5) Otrzymao w te sposób deompozycę błędu empryczego a dwa sład: resztę częścową r opsuącą zmeość, tóra e została wyaśoa przez fuce sładowe g (da ), oraz fucę g Agorytm mmazac błędu R emp est pewym uogóeem metody wyorzystuące sprzężee zwrote (bacfttg agorthm) słada sę z astępuących roów [, s 255-259; 5]: Usta początowe wartośc współrzędych wetorów α oraz β (da =,, K ) ta, aby: g ( α x ) 0 β, da =,, (6)
06 Przym: α = (7) 0 y = 2 Da ażdego =,, K wyoa astępuące ro: a) Obcz reszty częścowe: r = y ( α x ) α 0 β g, da =,, (8) b) Wyoa rzutowae, aż do osągęca zbeżośc: usta erue rzutowaa α zadź parametr β mmazuący wyrażee: ( α,β) = ( r βg ( α x ) 2 emp, = R (9) zmeń współrzęde wetora α w eruu wyzaczoym przez wyrażee: gdze γ > 0 α α γ R emp ( α ), (0) 3 Zaończ wyoywae agorytmu, gdy est spełoe ustaoe wcześe ryterum stopu ub gdy wartość fuc (3) e zmea sę zacząco Name ugrutowaym eemetem metody rzutowaa est wybór czby fuc sładowych K w modeu regresyym (2) Wartość tego parametru est zazwycza podawaa przez użytowa Poprawę aośc budowaego modeu moża uzysać wyorzystuąc agorytm SMAR (smooth mutpy addtve regresso), w tórym badacz podae dwe wartośc parametru K : K pocz początową (masymaą) czbę fuc sładowych, K oc czbę fuc użytych w ońcowym modeu Stworzoy zostae mode złożoy z K pocz fuc g, tóry z wyorzystaem przyętego ryterum zostae stopowo przycay, aż do uzysaa fuc f, tóra est sumą K oc sładowych g
Ocea wpływu zmeych obaśaących a zmeą zaeżą 07 2 Procedura doboru zmeych obaśaących do modeu zbudowaego metodą rzutowaa PPR Metoda rzutowaa, ao eparametrycza metoda regres, e załada zaomośc rozładu słada osowego w modeu czy aatyczych postac zwązów mędzy zmeym Jest arzędzem, tóre e wymaga spełea weu restrycyych założeń, przez co zacząco został zwęszoy e obszar zastosowań W pratyce często stosuę sę tę metodę do aazy zborów daych charateryzowaych przez dużą czbę zmeych Otrzymue sę wtedy złożoy mode, tórego współczy e są terpretowae Zastosowae procedury doboru zmeych obaśaących do modeu pozwaa a stotą reducę czby zmeych, a co za tym dze złożoośc modeu Oazue sę róweż, że procedura ta pozwaa a poprawę doładośc predyc, a taże stworzee ragu zmeych pod wzgędem ch sły wpływu a zmeą zaeżą W te sposób badacz, czy decydet, otrzymue prostszy mode, daący mesze błędy progoz, a róweż dodatową formacę o tym, tóre zmee są abardze stote da tego modeu W artyue przedstawoo dwa waraty procedury doboru zmeych obaśaących do modeu regresyego: emacę zmeych oraz dołączae zmeych 2 Procedura emac zmeych z modeu Procedura emac zmeych opera sę a strateg wspacz W perwszym etape te procedury zostae zbudoway mode a orygaym zborze wszystch zmeych W ażdym oeym rou zostae usuęta eda zmea według ustaoego a pror ryterum est budoway mode a pomeszoym zborze zmeych Wyorzystywaym ryterum est w tym przypadu mmay błąd średowadratowy czoy metodą sprawdzaa rzyżowego W te sposób oeo są emowae zmee, tóre maą ameszy wpływ a zmeą zaeżą Procedura est powtarzaa ta długo, aż w zborze zostae tyo eda zmea a właśe zmea ma aseszy wpływ a zmeą Y Procedurę emac zmeych z modeu moża przedstawć w astępuących roach: Za pomocą metody rzutowaa PPR zbudu mode regresyy f 0, wyorzystuąc ompety zbór zmeych obaśaących: { X X } V,, 0 = 2 K, X m 2 Da =, K, m wyoa astępuące ro:
08 a) Ze zboru zmeych obaśaących V usuń tymczasowo edą zmeą, wyouąc tę czyość oeo da ażde ze zmeych, zbudu ( m +) mode regresyych za pomocą metody PPR b) Da wszystch zbudowaych w poprzedm rou mode obcz, metodą sprawdzaa rzyżowego z podzałem zboru daych a pęć częśc, błąd średowadratowy c) Ostatecze w rou wyemu zmeą, tóre usuęce w ameszym stopu zmeło doładość predyc modeu, a węc tą, da tóre obczoy błąd średowadratowy est ameszy Zreduoway zbór zmeych ozacz przez V, atomast uzysay ameszy błąd średowadratowy zapamęta ao d) Przym ao mode f te mode regresyy, tóry był zbudoway a zborze zmeych ozaczoym przez średowadratowy 3 Z otrzymaego cągu mode regresyych { } = 0, K, m V tóremu odpowada błąd f (z maeącą czbą zmeych) wyberz te mode, da tórego błąd średowadratowy est ameszy Jest to mode ońcowy zbudoway za pomocą metody rzutowaa PPR z wyorzystaem procedury emac zmeych W ażdym rou te procedury zostae wyemowaa eda zmea, ta, tóra ma ameszy wpływ a zmeą zaeżą Otrzymue sę zatem rag zmeych pod wzgędem ch sły wpływu a zmeą Y, gdze abardze stota est zmea, tóra pozostae a ońcu w zborze zmeych Obczay a ażdym etape błąd średowadratowy pozwaa a wybrae taego modeu, tóremu est przyporządoway ameszy Zmee wyorzystae do budowy tego modeu to zmee, tóre maą stoty wpływ a zmeą zaeżą Pozostałe to zmee redudate W wyu zastosowaa procedury emac otrzymue sę mode, tóry est rozwązaem optymaym edye w sese oaym Zaetą tego podeśca est eda stosuowo sa złożoość agorytmu 22 Przyład ustruący procedurę emac zmeych z modeu Przedstawoa procedura emac zmeych z modeu, zbudowaego metodą rzutowaa, zostae przedstawoa a przyładze zboru daych Bosto Obserwace przedstawoe w tym zborze zostały zebrae opubowae w 978 rou przez Harrsoa oraz Rubfeda, badaczy, tórzy zamowa sę wyrywaem zaeżośc pomędzy ceam eruchomośc w Bostoe a ao-
Ocea wpływu zmeych obaśaących a zmeą zaeżą 09 ścą życa Jest to zbór szeroo zay wyorzystyway do sprawdzaa aośc mode regresyych Zgromadzoe dae są charateryzowae przez trzyaśce zmeych obaśaących: crm wsaź przestępstw, z fraca obszarów zaudoych przeraczaących 25 000 stóp wadratowych, dus wsaź dustrazac, chas zmea zero-edyowa wsazuąca, czy tere zadue sę w pobżu rze Chares, ox ocetraca teu azotu, rm średa czba poo, age procet budyów sprzed 940 rou, ds ważoa odegłość do pęcu sups mesc zatrudea w Bostoe, rad dostęp do autostrady, tax wysoość płacoych podatów, ptrato czba uczów a edego auczycea, bac procet udośc afroameryańse, stat procet udośc o sm statuse społeczym Zmeą zaeżą est Y = medv, czy medaa wartośc domu w tys doarów Zbór Bosto słada sę z 506 obserwac Wy uzysae poprzez zastosowae procedury emac przedstawoo w tabe Wy dzałaa procedury emac zmeych abea Etap Wyemowaa zmea Numery zmeych usuętych z modeu 0 4,089 crm,964 2 rad 9 4,350 3 chas 9 4,33 4 age 9 4 7 2,435 5 z 9 4 7 2 2,338 6 dus 9 4 7 2 3 2,042 7 ds 9 4 7 2 3 8 4,055 8 bac 9 4 7 2 3 8 2 4,992 9 tax 9 4 7 2 3 8 2 0 4,995 0 ptrato 9 4 7 2 3 8 2 0 7,84 ox 9 4 7 2 3 8 2 0 5 9,962 2 rm 9 4 7 2 3 8 2 0 5 6 27,242 3 stat
0 Błąd średowadratowy osąga ameszą wartość, rówą,33, da modeu, z tórego wyemowao zmee: crm, rad, chas Są to zmee redudate Wprowadzee ch do modeu powodue zwęszee wartośc oraz złożoośc modeu Pozostałe dzesęć zmeych ma stoty wpływ a zmeą zaeżą postać modeu Nawęszy wpływ a medv ma zmea, tórą otrzymao w ostatm, 3 rou, atomast amesze zaczee ma zmea wyemowaa w perwszym etape Otrzymae wy pozwaaą a stworzee ragu zmeych obaśaących pod wzgędem sły wpływu a zmeą zaeżą (zob tabea 2) Rag zmeych obaśaących pod wzgędem sły wpływu a zmeą zaeżą uzysay za pomocą procedury emac zmeych abea 2 Nr w ragu Zmee stat 2 rm 3 ox 4 ptrato 5 tax 6 bac 7 ds 8 dus 9 z 0 age chas 2 rad 3 crm zmee stote zmee redudate Nawęsze zaczee da zmee medv ma tuta zmea stat, ta węc awęszy wpływ a medaę wartośc domu ma procet udośc o sm statuse społeczym Koeą ważą zmeą est rm średa czba poo 23 Procedura dołączaa zmeych do modeu Ateratywym podeścem do emac zmeych z modeu regresyego est procedura dołączaa zmeych do modeu Zaczya sę w tym przypadu od modeu zbudowaego da ede zmee, by sucesywe dołączać do ego oee zmee a ońcu otrzymać mode zbudoway a ompetym zborze zmeych W perwszym etape te procedury budue sę m mode da poedyczych zmeych (gdze m est czbą zmeych obaśaących) Wybera sę z ch
Ocea wpływu zmeych obaśaących a zmeą zaeżą aepszy w ażdym oeym etape dołącza sę do ego zmeą według ustaoego a pror ryterum, tórym poowe est mmay błąd średowadratowy Procedurę dołączaa zmeych do modeu moża przedstawć w astępuący sposób: Za pomocą metody rzutowaa PPR zbudu m mode regresyych da poedyczych zmeych obaśaących Da ażdego modeu obcz błąd średowadratowy metodą sprawdzaa rzyżowego Mode, tóry odpowada amesze wartośc, przym ao mode początowy f, zaś ze zmee wyorzystae do budowy modeu f stwórz początowy, edoeemetowy zbór zmeych V Pozostałe zmee ech tworzą zbór W m 2 Da = 2, K, m wyoa ro: a) Do zboru zmeych obaśaących V doda tymczasowo edą zmeą ze zboru W m +, wyouąc tę czyość oeo da ażde zmee, zbudu ( m +) mode regresyych za pomocą metody PPR b) Da wszystch zbudowaych w poprzedm rou mode obcz, metodą sprawdzaa rzyżowego z podzałem zboru daych a pęć częśc, błąd średowadratowy c) Ostatecze w rou dołącz do modeu tę zmeą, da tóre obczoy błąd średowadratowy est ameszy Powęszoy zbór zmeych tworzących mode ozacz przez V, pozostałe zmee przez Uzysay ameszy błąd średowadratowy zapamęta ao Wm d) Przym ao mode f te mode regresyy, tóry był zbudoway a zborze zmeych ozaczoym przez średowadratowy 3 Z otrzymaego cągu mode regresyych { },, m V tóremu odpowada błąd f = K (z rosącą czbą zmeych) wyberz te mode, da tórego błąd średowadratowy est ameszy Jest to mode ońcowy zbudoway za pomocą metody rzutowaa PPR z wyorzystaem procedury dołączaa zmeych Podobe a da procedury emac, moża uzysać rag zmeych obaśaących pod wzgędem ch sły wpływu a zmeą zaeżą Przy czym astotesza tym razem est zmea otrzymaa w perwszym rou procedury, atomast amesze zaczee ma zmea, tórą dołącza sę do modeu w ostatm etape Zmee, tórych e wyorzystao do budowy modeu ońcowego, to zmee redudate
2 Mode ońcowy, otrzymay za pomocą procedury dołączaa zmeych, est rozwązaem optymaym edye w sese oaym Poadto procedura dołączaa zmeych do modeu, ze wzgędu a perwszy etap budowy modeu da poedycze zmee, est uważaa za me stabą ż metoda emac zmeych Z tego też powodu est oa rzadze wyorzystywaa w pratyce 24 Przyład ustruący procedurę dołączaa zmeych do modeu Poowe, w ceu ustrac procedury dołączaa zmeych, wyorzystao zbór daych Bosto Uzysae wy przedstawoo w tabe 3 Etap Dołączoa zmea Wy dzałaa procedury dołączaa zmeych Numery zmeych wyorzystaych do budowy modeu abea 3 stat 3 27,242 2 rm 3 6 9,962 3 tax 3 6 0 5,785 4 ox 3 6 0 5 4,36 5 bac 3 6 0 5 2 4,34 6 age 3 6 0 5 2 7 4,35 7 ds 3 6 0 5 2 7 8 4,34 8 rad 3 6 0 5 2 7 8 9 4,34 9 ptrato 3 6 0 5 2 7 8 9 4,33 0 dus 3 6 0 5 2 7 8 9 3 5,643 chas 3 6 0 5 2 7 8 9 3 4 5,643 2 crm 3 6 0 5 2 7 8 9 3 4 6,298 3 z 3 6 0 5 2 7 8 9 3 4 2 6,298 Nawęszy wpływ a medaę wartośc domu, ta samo a poprzedo, maą zmee: stat oraz rm, tóre zostały dołączoe do modeu w perwszym drugm rou agorytmu Koee zmee w coraz meszym stopu wpływaą a zmeą zaeżą Rag wszystch zmeych przedstawoo w tabe 4 Mode ońcowy, w tym przypadu, to mode, da tórego błąd średowadratowy est rówy 4,33 Do budowy tego modeu wyorzystao dzewęć zmeych maących stoty wpływ a zmeą medv Pozostałe zmee: dus, chas, crm z są, w tym przyładze, zmeym redudatym
Ocea wpływu zmeych obaśaących a zmeą zaeżą 3 Rag zmeych obaśaących pod wzgędem sły wpływu a zmeą zaeżą uzysay za pomocą procedury dołączaa zmeych abea 4 Nr w ragu Zmee stat 2 rm 3 tax 4 ox 5 bac 6 age 7 ds 8 rad 9 ptrato 0 dus chas 2 crm 3 z zmee stote zmee redudate Wartość współczya Spearmaa zgodośc uzysaych ragów wyos: r = 0,833 S Podsumowae W artyue przedstawoo dwe metody doboru zmeych obaśaących do modeu regresyego: emacę oraz dołączae zmeych Pommo wbudowaego w agorytme metody PPR mechazmu seec zmeych opartego a rzutowau zastosowae omawaych metod doboru zmeych doprowadzło do poprawy doładośc predyc modeu Wyorzystae mesze czby zmeych dało w osewec me sompoway mode ońcowy Systematycza emaca ub dołączae zmeych pozwoły a zbudowae ragu zmeych obaśaących pod wzgędem: ch sły wpływu a zmeą zaeżą oraz zdoośc poprawaa aośc modeu PPR W tym przypadu moża taże oddzeć zmee stote od zmeych redudatych Otrzymay rag est róweż dodatową, ważą formacą da badacza czy decydeta posługuącego sę w aaze regres metodą rzutowaa PPR
4 Lteratura Cherassy V, Muer F: Learg from Data Cocepts, heory, ad Methods Wey, New Yor 998 2 Fredma JH, Stuetze W: Proecto Pursut Regresso Joura of the Amerca Statstca Assocato 98, No 76, s 87-823 3 Harrso D, Rubfed DL: Hedoc Prces ad the Demad for Cea Ar Joura of Evrometa Ecoomcs ad Maagemet 978, No 5, s 8-02 4 Meyer D, Lesch F, Hor K: Bechmarg Support Vector Maches Report No 78, Vea Uversty of Ecoomcs ad Busess Admstrato, 2002, http://wwwwuweacat/am/dowoad/ report78pdf 5 rzęso J: Metoda rzutowaa w budowe modeu regresyego W: Postępy eoometr Red AS Barcza Wydawctwo Aadem Eoomcze, Katowce 2004, s 2-30 6 rzęso J: Aaza wybraych własośc metody MAR W: asooma 3 Kasyfaca aaza daych Red K Jauga, M Waesa Prace Nauowe Aadem Eoomcze, Wrocław 2006, No 26, s 50-58 7 rzęso J: Ocea zasadośc łączea wybraych eparametryczych mode regres W: asooma 5 Kasyfaca aaza daych Red K Jauga, M Waesa Prace Nauowe Uwersytetu Eoomczego, Wrocław 2008, No 207, s 346-353 DEERMINING HE INFLUENCE OF PREDICOR VARIABLES ON HE RESPONSE VARIABLE IN HE PPR MODELS Summary Proecto Pursut Regresso (PPR) was troduced by J Fredma ad W Stuetze 98 It s oe of the oparametrc regresso methods he bechmar studes show very ofte the superorty of PPR modes over other oparametrc or cassca regresso modes terms of the test error PPR produces a bac-box predcto mache ad t suffers from the ac of terpretato hus t seems to be a mportat ssue to fd the method for evauatg the fuece of the predctor varabes o the respose We preset the procedure that mght be used to exame the stregth of the fuece of every predctor varabe o the respose varabe Proecto Pursut Regresso modes