Joanna rzęsiok Uniwersytet Ekonoiczny w Katowicach Katedra Mateatyki oanna.trzesiok@ue.katowice.pl PORÓWNANIE ZDOLNOŚCI PREDYKCYJNYCH MODELU REGRESJI GRZBIEOWEJ Z WYBRANYMI NIEPARAMERYCZNYMI MODELAMI REGRESJI Wprowadzenie Wobec coraz powszechniesze inforatyzaci życia gospodarczego, ilość inforaci groadzonych i przechowywanych w bazach danych wzrosła gwałtownie, prowadząc do e nadiarowości. Wpływa to na konieczność stosowania w analizach coraz lepszych etod statystycznych, które uszą być adekwatne do poziou złożoności badanych zawisk. Nabardzie znany i często stosowany odele regresi est regresa wieloraka (o postaci liniowe), które paraetry szacue się etodą nanieszych kwadratów. Wśród zalet te etody należy wyienić prostotę oraz łatwą interpretowalność paraetrów otrzyanego odelu. Je wadą są restrykcyne założenia nałożone na zienne charakteryzuące analizowane zawiska. Ograniczenia te często wykluczaą ożliwość stosowania w praktyce te etody w klasyczne postaci. W związku z ty poawiła się potrzeba stosowania innych narzędzi analizy regresi, które nakładałyby nie założeń na badane zawiska i ty say były przydatne do rozwiązywania tych probleów, do których nie ożna zastosować liniowego odelu regresi wielorakie. Jedną z takich etod est regresa grzbietowa (ridge regression), zaproponowana przez Hoerla i Kennarda [6], [7]. Metoda ta poprzez wprowadzenie do odelu pewne stałe, rozwiązue proble współliniowości ziennych obaśniaących, ak również redukue ich liczbę. Metoda ta zostanie szerze przedstawiona w dalsze części artykułu.
66 Joanna rzęsiok Innyi skutecznyi etodai wielowyiarowe analizy danych są nieparaetryczne etody regresi, które ożna zdefiniować ako takie, w których postać odelu nie est ednoznacznie określona, w ty sensie, że występue przynanie eden z poniższych przypadków: nie est ściśle zadana postać analityczna funkci składowych odelu, liczba funkci składowych odelu nie est z góry ustalona, na etapie budowy odelu nie est ednoznacznie określony zestaw ziennych, który zostanie uwzględniony w odelu końcowy. Ponadto, w odelach nieparaetrycznych nie zachodzi konieczność testowania noralności rozkładu składnika losowego czy sprawdzania współliniowości ziennych obaśniaących. Cele artykułu est porównanie odeli otrzyywanych za poocą regresi grzbietowe z wybranyi nieparaetrycznyi etodai regresi, pod względe zdolności predykcynych, które w te pracy będą rozuiane ako ocena, na ile wartości teoretyczne, oszacowane na podstawie zbudowanego odelu, różnią się od wartości rzeczywistych dla obserwaci spoza zbioru uczącego. W zestawieniach różnych etod regresi, pod względe zdolności predykci, liniowy odel naczęście zaue ostatnie iesce []. Interesuące wydae się więc przeprowadzenie badań porównawczych dla regresi grzbietowe, ako etody będące ulepszoną wersą liniowe regresi wielorakie. Ze względu na charakter nieparaetrycznych etod regresi ich odienne echanizy działania, nieożliwe est analityczne porównanie otrzyywanych odeli. Z tego względu badania porównawcze przeprowadzono za poocą procedur syulacynych, na zbiorach danych standardowo wykorzystywanych do badania własności różnych etod regresi. Wszystkie analizy i obliczenia przeprowadzono z wykorzystanie prograu statystycznego R z dołączonyi bibliotekai tego prograu.. Regresa grzbietowa W odelu regresi wielorakie o postaci liniowe zależność zienne Y od ziennych obaśniaących X, K, X ożna przedstawić ako: Y = a0 + a X + ε, () = Progra statystyczny R est produkte darowy, który est dostępny wraz z dodatkowyi bibliotekai pod adrese http://www.r-proect.org.
Porównanie zdolności predykcynych odelu regresi grzbietowe 67 gdzie a (dla = 0,, K, ) to paraetry strukturalne odelu. Równanie () ożna równoważnie zapisać w postaci acierzowe gdzie y y = M, y n x L x = x L x X, M M O M xn L xn y = X a + ε, () a0 a a =, M a ε ε = M. ε n Do oszacowania wartości paraetrów strukturalnych odelu regresi wielorakie () stosue się etodę nanieszych kwadratów, w które est rozwiązywany proble optyalizacyny: n y i a0 a x in, (3) i= = który również ożna zapisać w postaci acierzowe: ( X a) ( y X a) in. y (4) Rozwiązanie tak postawionego zadania inializaci (4) est estyator wektora a: ( X X ) X y aˆ =. (5) Jednak w przypadku skorelowania ziennych obaśniaących nieożliwe est odwrócenie acierzy X X i ty say wyznaczenie estyatora â. Proble ten został rozwiązany w 977 r. przez Hoerla i Kennarda, którzy ako pierwsi zastosowali regresę grzbietową. Ideą te etody est przezwyciężenie probleu osobliwości acierzy X X poprzez dodanie do e przekątne, przed odwrócenie, stałe, dodatnie wartości λ. Analitycznie zagadnienie to zapisue się w postaci zadania inializaci: n y + i a a in 0 x λ a, (6) = i= = gdzie: λ > 0 paraetr kary. Jeśli λ = 0, to estyatory paraetrów strukturalnych są po prostu wyznaczone za poocą etody nanieszych kwadratów. Jeśli λ, to uzyskany odel regresi będzie złożony tylko z wyrazu wolnego.
68 Joanna rzęsiok Hoerl i Kennard w swoe pracy proponowali testowanie różnych wartości λ i wybór te z nich, dla które układ się ustabilizue. Ze względu na różne zakresy zienności cech do przeprowadzenia poprawne estyaci paraetrów odelu regresi grzbietowe, wszystkie zienne powinny zostać zestandaryzowane. Łatwo zauważyć, że w zadaniu (6) nie nakłada się kary na wyraz wolny odelu. Jego estyator wyznacza się ze wzoru: a 0 = n n y i i=. (7) W związku z ty zadanie inializaci (6) ożna przedstawić w postaci acierzowe: ( Xa ) ( y Xa ) + a a in y λ, (8) gdzie do odelu wprowadzono zienne po standaryzaci, natoiast a to wektor paraetrów strukturalnych a = [ a ], K, a. Rozwiązanie tak postawionego probleu inializaci prezentue wzór [5, s. 60]: ( X X + I) X y aˆ = λ, (9) gdzie X est acierzą realizaci ziennych obaśniaących, po zastosowaniu foruły standaryzacyne (bez edynek w pierwsze kolunie). W praktyce sytuaca dokładne współliniowości (gdy acierz X X est osobliwa) występue rzadko. Naczęście występue zawisko przybliżone współliniowości, które a niekorzystne konsekwence, np.: nieożliwy stae się prawidłowy poiar siły oddziaływania ziennych obaśniaących na zienną zależną, oceny warianci oszacowanych estyatorów (5), odpowiadaące skorelowany zienny, są bardzo wysokie, oszacowania paraetrów są bardzo wrażliwe nawet na niewielkie ziany liczby obserwaci. Skorelowanie ziennych obaśniaących sao w sobie nie zawsze est powode probleów przy wnioskowaniu []. Współliniowość nie powodue utraty własności nieobciążoności oraz efektywności estyatorów (5), ednak ze względu na ich dużą wariancę, ożna się spodziewać niewielkie precyzi ocen paraetrów [3]. W ty kontekście dobór odpowiednie wartości paraetru λ (paraetru kary) w regresi grzbietowe est również próbą znalezienia kopro-
Porównanie zdolności predykcynych odelu regresi grzbietowe 69 isu poiędzy obciążenie a wariancą w przypadku przybliżone współliniowości ziennych obaśniaących. Można także zauważyć, że proble inializaci (6) est typowy przykłade zagadnienia regularyzaci [5, s. 34]: PRSS ( f, ) = RSS( f ) + λj ( f ) in λ, (0) gdzie: RSS ( f ) iara akości dopasowania funkci regresi (obliczona na zbiorze uczący), J ( f ) stopień złożoności odelu, paraetr λ koprois poiędzy dopasowanie odelu a ego złożonością, określaąc proporce poiędzy składowyi funkconału PRSS f,λ. ( ) W etodzie regresi grzbietowe ożna przyąć: n yi a0 a x, J ( f ) i= = RSS( f ) = = a. () = Nałożenie kary ( λ ) na estyatory paraetrów strukturalnych powodue ponieszenie ich wartości, aż do wyzerowania niektórych z nich [5]. W ten sposób z odelu liniowego zostaą usunięte zienne odpowiadaące ty paraetro. Redukca liczby ziennych wprowadzanych do odelu iplikue uzyskanie prostsze funkci regresi (z nieszą liczbą składowych). Regresa grzbietowa est w literaturze przedstawiana w różnych kontekstach: ako próba rozwiązania probleu współliniowości ziennych obaśniaących, etoda szukaąca koproisu poiędzy obciążenie a wariancą estyatorów czy ako etoda doboru ziennych do odelu. Są to niewątpliwie zalety te etody. Interesuący wydae się więc ocena e zdolności predykcynych w kontekście innych skutecznych narzędzi wielowyiarowe analizy regresi, akii są etody nieparaetryczne.. Analiza porównawcza Główny cele regresi est predykca. Ocena odelu regresynego nie powinna zate być dokonywana na podstawie stopnia ego dopasowania do danych ze zbioru uczącego, tylko z wykorzystanie iar pozwalaących określić
70 Joanna rzęsiok zdolność predykci tego odelu. ak ak uż wsponiano we wprowadzeniu, w ninieszy artykule poęcie zdolność predykcyna odelu będzie rozuiane ako ocena, na ile wartości teoretyczne ŷ różnią się od wartości epirycznych y i dla obserwaci spoza zbioru uczącego. Do oceny akości predykci ożna wykorzystać zbiór testowy, eśli est dostępny, lub wydzielić ze zbioru danych część uczącą oraz walidacyną. rzeci alternatywny podeście est zastosowanie etody sprawdzania krzyżowego (cross validation) [por. 9], [], w które zbiór danych est dzielony na b w przybliżeniu równolicznych oraz rozłącznych części uczących oraz testowych. W każdy z b kroków algorytu te etody, edną (ale za każdy raze inną) część z otrzyanego podziału wykorzystue się do testowania odelu, zbudowanego na pozostałych b częściach zbioru danych. W ten sposób otrzyue się b wartości iernika akości predykci odelu, który naczęście est błąd średniokwadratowy MSE. Wartości te zostaą następnie uśrednione, a otrzyana statystyka MSE CV est nieobciążony estyatore błędu średniokwadratowego [por. 9]. Zbiory danych wykorzystane w analizie Analizę przeprowadzono na pięciu rzeczywistych zbiorach danych, standardowo wykorzystywanych do badania własności różnych etod regresi. Naważniesze charakterystyki tych zbiorów zestawiono w tabeli. i Charakterystyki zbiorów danych wykorzystywanych w analizie abela Nazwa zbioru Liczba obserwaci Liczba ziennych Autopg 398 8 Boston 506 4 Clothing 400 3 Ozone 366 3 Star 5748 6 Zbiór danych Autopg pochodzi z repozytoriu StatLib z uniwersytetu Carnegie Mellon 3, natoiast pozostałe zbiory danych są dostępne w bibliotekach lbench oraz Ecdat prograu statystycznego R. 3 http://archive.ics.uci.edu/l/datasets/auto+mpg.
Porównanie zdolności predykcynych odelu regresi grzbietowe 7 Nieparaetryczne etody regresi wykorzystane w analizie W badaniu porównywano odel regresi grzbietowe z nieparaetrycznyi odelai regresi zbudowanyi za poocą: etody rzutowania PPR [4], etody zagregowanych drzew regresynych Breiana RANDOM FORESS [3], wielowyiarowe etody krzywych skleanych POLYMARS [0], etody wykorzystuące sieci neuronowe (oznaczone ako NNE) [por. ]. Do budowy odeli regresi wykorzystano progra statystyczny R z dodatkowyi bibliotekai. Większość badanych etod wyaga ustalenia wartości pewnych paraetrów budowanego odelu regresi. Przeszukiwane zakresy paraetrów dla poszczególnych etod to: w etodzie rzutowania PPR wartość paraetru opisuącego początkową liczbę funkci składowych odelu przyowano na pozioie: 0, 5, 0, 5, zaś końcowa liczba tychże funkci w odelu zieniała się od do 0, w etodzie zagregowanych drzew regresynych Breiana liczbę ziennych losowanych przy każdy podziale ustalano na pozioie:,, 3 ( liczba ziennych), liczbę drzew równą 00 oraz 00, zaś inialną liczbę obserwaci w liściu:, 5, 0, w odelach POLYMARS oraz regresi grzbietowe przyęto doyślne wartości paraetrów, zaproponowane przez funkcę realizuącą tę etodę w prograie statystyczny R, w odelach sieci neuronowych z edną ukrytą warstwą, przyowano liczbę obserwaci w warstwie ukryte zieniaącą się od do ln(n) (gdzie n est liczbą obserwaci). Procedura badawcza Do porównania, pod względe zdolności predykcynych, odelu regresi grzbietowe z odelai nieparaetrycznyi, zostało zbudowanych wiele odeli. Były one tworzone dla różnych zestawów paraetrów, dla każde z etod. Jednak w ostateczny zestawieniu daną etodę reprezentue zawsze tylko eden odel ten w który wykorzystano optyalną kobinacę paraetrów. Zwieńczenie tego etapu procedury badawcze est zestawienie odeli, pod względe dokładności predykci, oceniane za poocą estyatora punktowego, aki est błąd średniokwadratowy obliczony etodą sprawdzania krzyżowego (MSE CV ). Model będący nalepszy rozwiązanie danego zadania regresi to ten o naniesze wartości błędu MSE CV. Szczegółowo etapy procedury badawcze przedstawiono w tabeli.
7 Joanna rzęsiok Kroki procedury badawcze porównywanie zdolności predykcynych odeli za poocą estyatora punktowego MSE CV abela Krok Krok Krok 3 Podziel zbiór uczący D na 0 równolicznych (w przybliżeniu) oraz rozłącznych części* Wykonanie następuących czynności dla każde z rozpatrywanych etod regresi: a) zbudu wiele odeli regresi dla różnych wartości paraetrów te etody, b) oblicz etodą sprawdzania krzyżowego błąd MSE CV dla wszystkich odeli otrzyanych w punkcie a), c) wybierz ten układ paraetrów i odpowiadaący u odel, dla którego uzyskałeś nanieszy błąd MSE CV; wybrany odel est reprezentante dane etody do porównań Stwórz zestawienie analizowanych odeli regresi, pod względe otrzyanych wartości błędów MSE CV * Możliwy est podział zbioru danych na inną liczbę części, ednak Kohavi w pracy [9] zaleca stosowanie etody sprawdzania krzyżowego z paraetre b 0..4. Wyniki analizy Po wyznaczeniu odelu optyalnego (nalepszego układu paraetrów) dla każde z etod i każdego z badanych zbiorów 4, zestawiono otrzyane wyniki w tabeli 3, według kryteriu błędu średniokwadratowego obliczonego etodą sprawdzania krzyżowego. Nalepsze wyniki zaznaczono pogrubioną czcionką, natoiast nagorsze kursywą. Błędy średniokwadratowe MSE CV obliczone dla odeli otrzyanych różnyi etodai regresi abela 3 Autopg Boston Clothing Ozone Star R. grzbietowa,,68 PPR 7,6 0,3 R.FORES 4,04 5,74 POLYMARS 7,45,85 NNE 8,75 4,3 6 8654 0 9,40 088,6 6 055 0 7,06 988,3 6 47579 0 8,93 8, 9 94507 0 4,59 08, 6 68 4 0 3,08 037,8 4 Należy wsponieć, że nie wszystkie etody regresi pozwalaą na budowę odelu, gdy w zbiorze danych brakue wartości niektórych ziennych. W celu zapewnienia pełne porównywalności otrzyanych odeli, ze zbiorów danych usunięto obserwace z brakuącyi wartościai.
Porównanie zdolności predykcynych odelu regresi grzbietowe 73 Podsuowanie Wyniki przeprowadzonych analiz pokazuą, iż nie ożna wskazać etody regresi, która dawałaby naniesze błędy średniokwadratowe, niezależnie od rozważanego zbioru danych, choć naczęście nalepsze wartości uzyskano dla etody zagregowanych drzew regresynych Breiana. Wśród otrzyanych wyników, w czterech przypadkach na pięć, błędy MSE CV odelu regresi grzbietowe są nawiększe, a odel ten zdecydowanie ustępuące odelo regresi nieparaetryczne pod względe zdolności predykcynych. Literatura [] Bishop C., Neural Networks for Pattern Recognition, Oxford University Press, Oxford 995. [] Blu A., Kalai A., Langford J., Beating the Hold-Out: Bounds for K-fold and Progressive Cross-Validation, COL 999, s. 03-08. [3] Breian L., Rando Forests, Machine Learning 00, Vol. 45, s. 5-3. [4] Friedan J., Stuetzle W., Proection Pursuit Regression, Journal of the Aerican Statistical Association 98, Vol. 76, s. 87-83. [5] Hastie., ibshirani R., Friedan J., he Eleents of Statistical Learning: Data Mining, Inference and Prediction, Springer Series in Statistics, Springer Verlag, New York 00. [6] Hoerl A.E., Kennard R.W., Ridge Regression: Applications to Nonorthogonal Probles, echnoetrics 970, Vol., s. 69-8. [7] Hoerl A.E., Kennard R.W., Ridge Regression: Biased Estiation for Nonorthogonal Probles, echnoetrics 970, Vol., s. 55-67. [8] Hothorn., Leisch F., Zeileis A., Hornik K., he Design and Analysis of Benchark Experients, Journal of Coputational and Graphical Statistics 005, Vol. 4(3), s. 675-699. [9] Kohavi R., A Study of Cross-Validation and Bootstrap for Accuracy Estiation and Model Selection, IJCAI 995, s. 37-45. [0] Kooperberg C., Bose S., Stone C., Polychotoous Regression, Journal of the Aerican Statistical Association 997, Vol. 9, s. 7-7. [] Maddala G.S., Ekonoetria, WN PWN, Warszawa 006. [] rzęsiok J., Porównanie nieparaetrycznych odeli regresi pod względe zdolności predykcynych, [w:] Metody i odele analiz ilościowych w ekonoii i zarządzaniu cz. 4, red. J. Mika, Wydawnictwo Uniwersytetu Ekonoicznego, Katowice 0, s. 0-. [3] Welfe A., Ekonoetria, PWE, Warszawa 003.
74 Joanna rzęsiok COMPARING HE PERFORMANCE OF HE RIDGE REGRESSION WIH SOME NONPARAMERIC REGRESSION MODELS Suary he paper presents a short description of ridge regression and coparing the perforance of this regression with soe nonparaetric ethods of regression. he analysis was conducted with the use of siulation procedures on bencharking data sets.