PORÓWNANIE ZDOLNOŚCI PREDYKCYJNYCH MODELU REGRESJI GRZBIETOWEJ Z WYBRANYMI NIEPARAMETRYCZNYMI MODELAMI REGRESJI



Podobne dokumenty
WYKORZYSTANIE REGRESJI NIEPARAMETRYCZNEJ DO MODELOWANIA WIELKOŚCI OSZCZĘDNOŚCI GOSPODARSTW DOMOWYCH

UOGÓLNIONA MIARA DOPASOWANIA W MODELU LINIOWYM

O ODPORNOŚCI NA OBSERWACJE ODSTAJĄCE WYBRANYCH NIEPARAMETRYCZNYCH MODELI REGRESJI

Jakość uczenia i generalizacja

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Wojciech Skwirz

Metody numeryczne. materiały do ćwiczeń dla studentów. 1. Teoria błędów, notacja O

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

przedmiotu Nazwa Pierwsza studia drugiego stopnia

Poszukiwanie optymalnego wyrównania harmonogramu zatrudnienia metodą analityczną

2... Pˆ - teoretyczna wielkość produkcji (wynikająca z modelu). X X,..., b b,...,

ALGORYTM RANDOM FOREST

Wprowadzenie do analizy korelacji i regresji

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

CEL PRACY ZAKRES PRACY

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Testowanie modeli predykcyjnych

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Współczesna Gospodarka

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Metody Ilościowe w Socjologii

Maszyny wektorów podpierajacych w regresji rangowej

Rozdział 8. Regresja. Definiowanie modelu

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Własności statystyczne regresji liniowej. Wykład 4

3. Modele tendencji czasowej w prognozowaniu

Monte Carlo, bootstrap, jacknife

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

(Dantzig G. B. (1963))

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stosowana Analiza Regresji

Aproksymacja funkcji a regresja symboliczna

OCENA PRZYDATNOŚCI MODELU EKONOMETRYCZNEGO DO BADANIA ZMIAN DYNAMIKI GOSPODARKI WOJEWÓDZTWA ŚLĄSKIEGO

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Metody systemowe i decyzyjne w informatyce

Opisy przedmiotów do wyboru

Ekonometryczne modele nieliniowe

Państwowa Wyższa Szkoła Zawodowa w Suwałkach SYLLABUS na rok akademicki 2014/2015

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

5. Model sezonowości i autoregresji zmiennej prognozowanej

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Obliczenia polowe 2-fazowego silnika SRM w celu jego optymalizacji

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

METODY STATYSTYCZNE W BIOLOGII

Interpolacja. Interpolacja wykorzystująca wielomian Newtona

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

wiedzy Sieci neuronowe (c.d.)

Rozpoznawanie obrazów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

2. Szybka transformata Fouriera

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Ekonometria_FIRJK Arkusz1

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wprowadzenie do teorii prognozowania

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

PORÓWNANIE WPŁYWU WYBRANYCH PARAMETRÓW CIĄGNIKA ROLNICZEGO NA JEGO DRGANIA

SZTUCZNA INTELIGENCJA

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Podstawowy (podstawowy / kierunkowy / inny HES) Obowiązkowy (obowiązkowy / nieobowiązkowy) Semestr 2. Semestr letni (semestr zimowy / letni)

Uczelnia Łazarskiego. Sylabus. 1. Nazwa przedmiotu EKONOMETRIA 2. Kod przedmiotu

Agnieszka Nowak Brzezińska

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

GEODEZJA I KARTOGRAFIA I stopień (I stopień / II stopień) Ogólnoakademicki (ogólnoakademicki / praktyczny)

Programowanie celowe #1

Analiza statystyczna trudności tekstu

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

MATLAB Neural Network Toolbox przegląd

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

INTERPOLACJA I APROKSYMACJA FUNKCJI

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

MODELE LINIOWE. Dr Wioleta Drobik

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Optymalizacja ciągła

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Motto. Czy to nie zabawne, że ci sami ludzie, którzy śmieją się z science fiction, słuchają prognoz pogody oraz ekonomistów? (K.

Transkrypt:

Joanna rzęsiok Uniwersytet Ekonoiczny w Katowicach Katedra Mateatyki oanna.trzesiok@ue.katowice.pl PORÓWNANIE ZDOLNOŚCI PREDYKCYJNYCH MODELU REGRESJI GRZBIEOWEJ Z WYBRANYMI NIEPARAMERYCZNYMI MODELAMI REGRESJI Wprowadzenie Wobec coraz powszechniesze inforatyzaci życia gospodarczego, ilość inforaci groadzonych i przechowywanych w bazach danych wzrosła gwałtownie, prowadząc do e nadiarowości. Wpływa to na konieczność stosowania w analizach coraz lepszych etod statystycznych, które uszą być adekwatne do poziou złożoności badanych zawisk. Nabardzie znany i często stosowany odele regresi est regresa wieloraka (o postaci liniowe), które paraetry szacue się etodą nanieszych kwadratów. Wśród zalet te etody należy wyienić prostotę oraz łatwą interpretowalność paraetrów otrzyanego odelu. Je wadą są restrykcyne założenia nałożone na zienne charakteryzuące analizowane zawiska. Ograniczenia te często wykluczaą ożliwość stosowania w praktyce te etody w klasyczne postaci. W związku z ty poawiła się potrzeba stosowania innych narzędzi analizy regresi, które nakładałyby nie założeń na badane zawiska i ty say były przydatne do rozwiązywania tych probleów, do których nie ożna zastosować liniowego odelu regresi wielorakie. Jedną z takich etod est regresa grzbietowa (ridge regression), zaproponowana przez Hoerla i Kennarda [6], [7]. Metoda ta poprzez wprowadzenie do odelu pewne stałe, rozwiązue proble współliniowości ziennych obaśniaących, ak również redukue ich liczbę. Metoda ta zostanie szerze przedstawiona w dalsze części artykułu.

66 Joanna rzęsiok Innyi skutecznyi etodai wielowyiarowe analizy danych są nieparaetryczne etody regresi, które ożna zdefiniować ako takie, w których postać odelu nie est ednoznacznie określona, w ty sensie, że występue przynanie eden z poniższych przypadków: nie est ściśle zadana postać analityczna funkci składowych odelu, liczba funkci składowych odelu nie est z góry ustalona, na etapie budowy odelu nie est ednoznacznie określony zestaw ziennych, który zostanie uwzględniony w odelu końcowy. Ponadto, w odelach nieparaetrycznych nie zachodzi konieczność testowania noralności rozkładu składnika losowego czy sprawdzania współliniowości ziennych obaśniaących. Cele artykułu est porównanie odeli otrzyywanych za poocą regresi grzbietowe z wybranyi nieparaetrycznyi etodai regresi, pod względe zdolności predykcynych, które w te pracy będą rozuiane ako ocena, na ile wartości teoretyczne, oszacowane na podstawie zbudowanego odelu, różnią się od wartości rzeczywistych dla obserwaci spoza zbioru uczącego. W zestawieniach różnych etod regresi, pod względe zdolności predykci, liniowy odel naczęście zaue ostatnie iesce []. Interesuące wydae się więc przeprowadzenie badań porównawczych dla regresi grzbietowe, ako etody będące ulepszoną wersą liniowe regresi wielorakie. Ze względu na charakter nieparaetrycznych etod regresi ich odienne echanizy działania, nieożliwe est analityczne porównanie otrzyywanych odeli. Z tego względu badania porównawcze przeprowadzono za poocą procedur syulacynych, na zbiorach danych standardowo wykorzystywanych do badania własności różnych etod regresi. Wszystkie analizy i obliczenia przeprowadzono z wykorzystanie prograu statystycznego R z dołączonyi bibliotekai tego prograu.. Regresa grzbietowa W odelu regresi wielorakie o postaci liniowe zależność zienne Y od ziennych obaśniaących X, K, X ożna przedstawić ako: Y = a0 + a X + ε, () = Progra statystyczny R est produkte darowy, który est dostępny wraz z dodatkowyi bibliotekai pod adrese http://www.r-proect.org.

Porównanie zdolności predykcynych odelu regresi grzbietowe 67 gdzie a (dla = 0,, K, ) to paraetry strukturalne odelu. Równanie () ożna równoważnie zapisać w postaci acierzowe gdzie y y = M, y n x L x = x L x X, M M O M xn L xn y = X a + ε, () a0 a a =, M a ε ε = M. ε n Do oszacowania wartości paraetrów strukturalnych odelu regresi wielorakie () stosue się etodę nanieszych kwadratów, w które est rozwiązywany proble optyalizacyny: n y i a0 a x in, (3) i= = który również ożna zapisać w postaci acierzowe: ( X a) ( y X a) in. y (4) Rozwiązanie tak postawionego zadania inializaci (4) est estyator wektora a: ( X X ) X y aˆ =. (5) Jednak w przypadku skorelowania ziennych obaśniaących nieożliwe est odwrócenie acierzy X X i ty say wyznaczenie estyatora â. Proble ten został rozwiązany w 977 r. przez Hoerla i Kennarda, którzy ako pierwsi zastosowali regresę grzbietową. Ideą te etody est przezwyciężenie probleu osobliwości acierzy X X poprzez dodanie do e przekątne, przed odwrócenie, stałe, dodatnie wartości λ. Analitycznie zagadnienie to zapisue się w postaci zadania inializaci: n y + i a a in 0 x λ a, (6) = i= = gdzie: λ > 0 paraetr kary. Jeśli λ = 0, to estyatory paraetrów strukturalnych są po prostu wyznaczone za poocą etody nanieszych kwadratów. Jeśli λ, to uzyskany odel regresi będzie złożony tylko z wyrazu wolnego.

68 Joanna rzęsiok Hoerl i Kennard w swoe pracy proponowali testowanie różnych wartości λ i wybór te z nich, dla które układ się ustabilizue. Ze względu na różne zakresy zienności cech do przeprowadzenia poprawne estyaci paraetrów odelu regresi grzbietowe, wszystkie zienne powinny zostać zestandaryzowane. Łatwo zauważyć, że w zadaniu (6) nie nakłada się kary na wyraz wolny odelu. Jego estyator wyznacza się ze wzoru: a 0 = n n y i i=. (7) W związku z ty zadanie inializaci (6) ożna przedstawić w postaci acierzowe: ( Xa ) ( y Xa ) + a a in y λ, (8) gdzie do odelu wprowadzono zienne po standaryzaci, natoiast a to wektor paraetrów strukturalnych a = [ a ], K, a. Rozwiązanie tak postawionego probleu inializaci prezentue wzór [5, s. 60]: ( X X + I) X y aˆ = λ, (9) gdzie X est acierzą realizaci ziennych obaśniaących, po zastosowaniu foruły standaryzacyne (bez edynek w pierwsze kolunie). W praktyce sytuaca dokładne współliniowości (gdy acierz X X est osobliwa) występue rzadko. Naczęście występue zawisko przybliżone współliniowości, które a niekorzystne konsekwence, np.: nieożliwy stae się prawidłowy poiar siły oddziaływania ziennych obaśniaących na zienną zależną, oceny warianci oszacowanych estyatorów (5), odpowiadaące skorelowany zienny, są bardzo wysokie, oszacowania paraetrów są bardzo wrażliwe nawet na niewielkie ziany liczby obserwaci. Skorelowanie ziennych obaśniaących sao w sobie nie zawsze est powode probleów przy wnioskowaniu []. Współliniowość nie powodue utraty własności nieobciążoności oraz efektywności estyatorów (5), ednak ze względu na ich dużą wariancę, ożna się spodziewać niewielkie precyzi ocen paraetrów [3]. W ty kontekście dobór odpowiednie wartości paraetru λ (paraetru kary) w regresi grzbietowe est również próbą znalezienia kopro-

Porównanie zdolności predykcynych odelu regresi grzbietowe 69 isu poiędzy obciążenie a wariancą w przypadku przybliżone współliniowości ziennych obaśniaących. Można także zauważyć, że proble inializaci (6) est typowy przykłade zagadnienia regularyzaci [5, s. 34]: PRSS ( f, ) = RSS( f ) + λj ( f ) in λ, (0) gdzie: RSS ( f ) iara akości dopasowania funkci regresi (obliczona na zbiorze uczący), J ( f ) stopień złożoności odelu, paraetr λ koprois poiędzy dopasowanie odelu a ego złożonością, określaąc proporce poiędzy składowyi funkconału PRSS f,λ. ( ) W etodzie regresi grzbietowe ożna przyąć: n yi a0 a x, J ( f ) i= = RSS( f ) = = a. () = Nałożenie kary ( λ ) na estyatory paraetrów strukturalnych powodue ponieszenie ich wartości, aż do wyzerowania niektórych z nich [5]. W ten sposób z odelu liniowego zostaą usunięte zienne odpowiadaące ty paraetro. Redukca liczby ziennych wprowadzanych do odelu iplikue uzyskanie prostsze funkci regresi (z nieszą liczbą składowych). Regresa grzbietowa est w literaturze przedstawiana w różnych kontekstach: ako próba rozwiązania probleu współliniowości ziennych obaśniaących, etoda szukaąca koproisu poiędzy obciążenie a wariancą estyatorów czy ako etoda doboru ziennych do odelu. Są to niewątpliwie zalety te etody. Interesuący wydae się więc ocena e zdolności predykcynych w kontekście innych skutecznych narzędzi wielowyiarowe analizy regresi, akii są etody nieparaetryczne.. Analiza porównawcza Główny cele regresi est predykca. Ocena odelu regresynego nie powinna zate być dokonywana na podstawie stopnia ego dopasowania do danych ze zbioru uczącego, tylko z wykorzystanie iar pozwalaących określić

70 Joanna rzęsiok zdolność predykci tego odelu. ak ak uż wsponiano we wprowadzeniu, w ninieszy artykule poęcie zdolność predykcyna odelu będzie rozuiane ako ocena, na ile wartości teoretyczne ŷ różnią się od wartości epirycznych y i dla obserwaci spoza zbioru uczącego. Do oceny akości predykci ożna wykorzystać zbiór testowy, eśli est dostępny, lub wydzielić ze zbioru danych część uczącą oraz walidacyną. rzeci alternatywny podeście est zastosowanie etody sprawdzania krzyżowego (cross validation) [por. 9], [], w które zbiór danych est dzielony na b w przybliżeniu równolicznych oraz rozłącznych części uczących oraz testowych. W każdy z b kroków algorytu te etody, edną (ale za każdy raze inną) część z otrzyanego podziału wykorzystue się do testowania odelu, zbudowanego na pozostałych b częściach zbioru danych. W ten sposób otrzyue się b wartości iernika akości predykci odelu, który naczęście est błąd średniokwadratowy MSE. Wartości te zostaą następnie uśrednione, a otrzyana statystyka MSE CV est nieobciążony estyatore błędu średniokwadratowego [por. 9]. Zbiory danych wykorzystane w analizie Analizę przeprowadzono na pięciu rzeczywistych zbiorach danych, standardowo wykorzystywanych do badania własności różnych etod regresi. Naważniesze charakterystyki tych zbiorów zestawiono w tabeli. i Charakterystyki zbiorów danych wykorzystywanych w analizie abela Nazwa zbioru Liczba obserwaci Liczba ziennych Autopg 398 8 Boston 506 4 Clothing 400 3 Ozone 366 3 Star 5748 6 Zbiór danych Autopg pochodzi z repozytoriu StatLib z uniwersytetu Carnegie Mellon 3, natoiast pozostałe zbiory danych są dostępne w bibliotekach lbench oraz Ecdat prograu statystycznego R. 3 http://archive.ics.uci.edu/l/datasets/auto+mpg.

Porównanie zdolności predykcynych odelu regresi grzbietowe 7 Nieparaetryczne etody regresi wykorzystane w analizie W badaniu porównywano odel regresi grzbietowe z nieparaetrycznyi odelai regresi zbudowanyi za poocą: etody rzutowania PPR [4], etody zagregowanych drzew regresynych Breiana RANDOM FORESS [3], wielowyiarowe etody krzywych skleanych POLYMARS [0], etody wykorzystuące sieci neuronowe (oznaczone ako NNE) [por. ]. Do budowy odeli regresi wykorzystano progra statystyczny R z dodatkowyi bibliotekai. Większość badanych etod wyaga ustalenia wartości pewnych paraetrów budowanego odelu regresi. Przeszukiwane zakresy paraetrów dla poszczególnych etod to: w etodzie rzutowania PPR wartość paraetru opisuącego początkową liczbę funkci składowych odelu przyowano na pozioie: 0, 5, 0, 5, zaś końcowa liczba tychże funkci w odelu zieniała się od do 0, w etodzie zagregowanych drzew regresynych Breiana liczbę ziennych losowanych przy każdy podziale ustalano na pozioie:,, 3 ( liczba ziennych), liczbę drzew równą 00 oraz 00, zaś inialną liczbę obserwaci w liściu:, 5, 0, w odelach POLYMARS oraz regresi grzbietowe przyęto doyślne wartości paraetrów, zaproponowane przez funkcę realizuącą tę etodę w prograie statystyczny R, w odelach sieci neuronowych z edną ukrytą warstwą, przyowano liczbę obserwaci w warstwie ukryte zieniaącą się od do ln(n) (gdzie n est liczbą obserwaci). Procedura badawcza Do porównania, pod względe zdolności predykcynych, odelu regresi grzbietowe z odelai nieparaetrycznyi, zostało zbudowanych wiele odeli. Były one tworzone dla różnych zestawów paraetrów, dla każde z etod. Jednak w ostateczny zestawieniu daną etodę reprezentue zawsze tylko eden odel ten w który wykorzystano optyalną kobinacę paraetrów. Zwieńczenie tego etapu procedury badawcze est zestawienie odeli, pod względe dokładności predykci, oceniane za poocą estyatora punktowego, aki est błąd średniokwadratowy obliczony etodą sprawdzania krzyżowego (MSE CV ). Model będący nalepszy rozwiązanie danego zadania regresi to ten o naniesze wartości błędu MSE CV. Szczegółowo etapy procedury badawcze przedstawiono w tabeli.

7 Joanna rzęsiok Kroki procedury badawcze porównywanie zdolności predykcynych odeli za poocą estyatora punktowego MSE CV abela Krok Krok Krok 3 Podziel zbiór uczący D na 0 równolicznych (w przybliżeniu) oraz rozłącznych części* Wykonanie następuących czynności dla każde z rozpatrywanych etod regresi: a) zbudu wiele odeli regresi dla różnych wartości paraetrów te etody, b) oblicz etodą sprawdzania krzyżowego błąd MSE CV dla wszystkich odeli otrzyanych w punkcie a), c) wybierz ten układ paraetrów i odpowiadaący u odel, dla którego uzyskałeś nanieszy błąd MSE CV; wybrany odel est reprezentante dane etody do porównań Stwórz zestawienie analizowanych odeli regresi, pod względe otrzyanych wartości błędów MSE CV * Możliwy est podział zbioru danych na inną liczbę części, ednak Kohavi w pracy [9] zaleca stosowanie etody sprawdzania krzyżowego z paraetre b 0..4. Wyniki analizy Po wyznaczeniu odelu optyalnego (nalepszego układu paraetrów) dla każde z etod i każdego z badanych zbiorów 4, zestawiono otrzyane wyniki w tabeli 3, według kryteriu błędu średniokwadratowego obliczonego etodą sprawdzania krzyżowego. Nalepsze wyniki zaznaczono pogrubioną czcionką, natoiast nagorsze kursywą. Błędy średniokwadratowe MSE CV obliczone dla odeli otrzyanych różnyi etodai regresi abela 3 Autopg Boston Clothing Ozone Star R. grzbietowa,,68 PPR 7,6 0,3 R.FORES 4,04 5,74 POLYMARS 7,45,85 NNE 8,75 4,3 6 8654 0 9,40 088,6 6 055 0 7,06 988,3 6 47579 0 8,93 8, 9 94507 0 4,59 08, 6 68 4 0 3,08 037,8 4 Należy wsponieć, że nie wszystkie etody regresi pozwalaą na budowę odelu, gdy w zbiorze danych brakue wartości niektórych ziennych. W celu zapewnienia pełne porównywalności otrzyanych odeli, ze zbiorów danych usunięto obserwace z brakuącyi wartościai.

Porównanie zdolności predykcynych odelu regresi grzbietowe 73 Podsuowanie Wyniki przeprowadzonych analiz pokazuą, iż nie ożna wskazać etody regresi, która dawałaby naniesze błędy średniokwadratowe, niezależnie od rozważanego zbioru danych, choć naczęście nalepsze wartości uzyskano dla etody zagregowanych drzew regresynych Breiana. Wśród otrzyanych wyników, w czterech przypadkach na pięć, błędy MSE CV odelu regresi grzbietowe są nawiększe, a odel ten zdecydowanie ustępuące odelo regresi nieparaetryczne pod względe zdolności predykcynych. Literatura [] Bishop C., Neural Networks for Pattern Recognition, Oxford University Press, Oxford 995. [] Blu A., Kalai A., Langford J., Beating the Hold-Out: Bounds for K-fold and Progressive Cross-Validation, COL 999, s. 03-08. [3] Breian L., Rando Forests, Machine Learning 00, Vol. 45, s. 5-3. [4] Friedan J., Stuetzle W., Proection Pursuit Regression, Journal of the Aerican Statistical Association 98, Vol. 76, s. 87-83. [5] Hastie., ibshirani R., Friedan J., he Eleents of Statistical Learning: Data Mining, Inference and Prediction, Springer Series in Statistics, Springer Verlag, New York 00. [6] Hoerl A.E., Kennard R.W., Ridge Regression: Applications to Nonorthogonal Probles, echnoetrics 970, Vol., s. 69-8. [7] Hoerl A.E., Kennard R.W., Ridge Regression: Biased Estiation for Nonorthogonal Probles, echnoetrics 970, Vol., s. 55-67. [8] Hothorn., Leisch F., Zeileis A., Hornik K., he Design and Analysis of Benchark Experients, Journal of Coputational and Graphical Statistics 005, Vol. 4(3), s. 675-699. [9] Kohavi R., A Study of Cross-Validation and Bootstrap for Accuracy Estiation and Model Selection, IJCAI 995, s. 37-45. [0] Kooperberg C., Bose S., Stone C., Polychotoous Regression, Journal of the Aerican Statistical Association 997, Vol. 9, s. 7-7. [] Maddala G.S., Ekonoetria, WN PWN, Warszawa 006. [] rzęsiok J., Porównanie nieparaetrycznych odeli regresi pod względe zdolności predykcynych, [w:] Metody i odele analiz ilościowych w ekonoii i zarządzaniu cz. 4, red. J. Mika, Wydawnictwo Uniwersytetu Ekonoicznego, Katowice 0, s. 0-. [3] Welfe A., Ekonoetria, PWE, Warszawa 003.

74 Joanna rzęsiok COMPARING HE PERFORMANCE OF HE RIDGE REGRESSION WIH SOME NONPARAMERIC REGRESSION MODELS Suary he paper presents a short description of ridge regression and coparing the perforance of this regression with soe nonparaetric ethods of regression. he analysis was conducted with the use of siulation procedures on bencharking data sets.