STUDIA INFORMATICA 008 Volume 9 Number (75) Marci MICHALAK, Katarzya STĄPOR Politechika Śląska, Istytut Iformatyki OCENA RZECZYWISTEJ WYDAJNOŚCI WYBRANYCH REGRESORÓW Streszczeie. Poiższa praca porusza temat ieparametryczej estymacji fukcji regresji oraz jej efektywości czasowej. Autorzy porówują dokładość regresji, ale i czas potrzeby a wyzaczeie wartości dla obiektu testowego. Czas te uwzględia ie tylko samo wyzaczaie wartości, ale i etap tworzeia regresora. Eksperymety zostały przeprowadzoe a wielowymiarowych daych rzeczywistych. Słowa kluczowe: aaliza daych, fukcja regresji, estymacja ieparametrycza, estymatory jądrowe, maszya wektorów podpierających, regresja wielowymiarowa EVALUATION OF THE REAL EFFICIENCY FOR SELECTED REGRESSORS Summary. This paper raises a problem of oparametric estimatio of the regressio fuctio ad its time efficiecy. Authors compare the regressio accuracy but cosiders also the time that is eeded to evaluate the value for the test object. That time takes ito cosideratio the evaluatio time, but also the time of regressor creatig. Experimets were coducted with the usage of multidimesioal real data. Keywords: data aalysis, regressio fuctio, oparametric estimatio, kerel estimators, support vectors machie, multidimesioal regressio. Wstęp Problem wyzaczaia fukcji regresji, awet dla ustaloego charakteru daych uczących, ie jest zadaiem łatwym. Istieje bowiem wiele zaych metod pozwalających wyzaczać fukcję regresji, której ogóly kształt (klasa) ie jest zay. Do metod takich moża
4 M. Michalak, K. Stąpor z powodzeiem zaliczyć fukcje sklejae [, 5], estymatory jądrowe [, 3, 4], metody kierukowe [6] czy maszyy wektorów podpierających [, 9, 8]. W iiejszej pracy autorzy skupili się a problemie doboru odpowiediego estymatora, w sytuacji gdy istotym wyzaczikiem jest ie tylko dokładość estymacji, lecz także i czas, jaki potrzebuje estymator a jej wyzaczeie. Jako dae uczące wykorzystao rzeczywiste dae pomiarowe pochodzące z kopali, a które składało się 7 zmieych iezależych oraz jeda zależa. W pierwszej części artykułu opisae zostały teoretycze aspekty związae z użytymi arzędziami oraz sposobem przeprowadzaia eksperymetu. W drugiej części przedstawioo wyiki eksperymetów, a astępie sformułowao wioski, jakie wyikęły z aalizy uzyskaych wyików. Ostatia część staowi podsumowaie omówioego w artykule problemu oraz stawia pewe możliwe kieruki badań w tym temacie.. Zastosowae arzędzia Spośród wielu istiejących metod służących wyzaczaiu fukcji regresji a cele artykułu postaowioo ograiczyć się do dwóch ieparametryczych arzędzi. Pierwszym z ich jest estymator jądrowy Nadarayi Watsoa, drugim atomiast maszya wektorów podpierających (ag. Support Vector Machie, SVR)... Estymatory jądrowe Estymator jądrowy [3] to w ogólości fukcja f ˆ( x) : R m R opisaa wzorem: fˆ ( x) = h m i= x xi K h gdzie ozacza liczość próby losowej, dodatia liczba h to parametr wygładzaia. Fukcja K(x) określaa jest miaem fukcji jądra. W zagadieiu estymacji fukcji regresji, od fukcji jądra wymaga się jedyie, by była symetrycza względem zera oraz posiadała w tym pukcie słabe maksimum globale: x R x R m m K( x) = K( x) K(0) K( x) Poieważ jakość estymatora zależy ie tylko od wybraej fukcji jądra, ale i od wartości parametru wygładzającego, istoty jest sposób jego dobraia. Jede z ich przedstawioo poiżej (), gdzie s to odchyleie stadardowe z próby, a IQ to rozstęp międzykwartylowy: 5 h= 0,9 mi( s, IQ/,34) ()
Ocea rzeczywistej wydajości wybraych regresorów 5 Ie, bardziej zaawasowae metody wyzaczaia wartości h, moża zaleźć w [3, 4, 7]. W iiejszym artykule użyto ajprostszego z estymatorów jądrowych, jakim jest estymator Nadarayi-Watsoa [], którego wzór przedstawia rówaie (). x xi yik i= h f ˆ ( x) = x xi () K i= h Do celów iiejszego opracowaia zdecydowao się a korzystaie z jąder radialych. Jądro radiale to jądro, w którym jako argumet wyliczay jest iloczy skalary x T x. W eksperymetach użyto astępujących jąder (pomijając jądro ormale, każde z jąder przyjmuje wartość zero poza podaym obszarem): jądro Epaeczikowa (Epa): jądro jedostaje (Ui): jądro dwuwagowe (Two): jądro ormale (Nor): jądro trójkąte (Tri): + ( T ) T x x dla x x V V T dla x x ( + )( + 4) ( T ) T x x dla x x 8V T ( π ) exp( x x) / + ( T ) T x x dla x x V gdzie V() to objętość -wymiarowej kuli jedostkowej w przestrzei R. V / ( π ) 4... = ( )/ ( π ) 3... dla parzystych dla ieparzystych (3).. Maszya wektorów podpierających Maszya wektorów podpierających została po raz pierwszy zdefiiowaa w pracy [0] i staowi arzędzie przydate zarówo w zadaiu klasyfikacji, jak i zajdowaiu fukcji regresji. Dla zadaego zestawu, mając dae x i y, zakładamy, że optymalą fukcją regresji liiowej jest fukcja wskazaa przez miimum wyrażeia (4) [8]: w ξ = w + C ξ + ξ ) (4) (, ) ( * i i i= Przy astępujących ograiczeiach:
6 M. Michalak, K. Stąpor yi wxi b ε + ξi * wxi + b yi ε + ξi * ξi, ξi 0 Zatem, zadaiem wyzaczaia regresji jest zalezieie optymalych wartości w. Końcowa wartość fukcji regresji wyzaczaa jest a podstawie wzoru (5). f ˆ ( x, w) = wi xi + b (5) i= Sposób wyzaczaia wyrazu wolego b przedstawioy jest dokładiej w [9]. Dla przypadku regresji ieliiowej ostateczy wzór fukcji regresji przyjmuje postać: f ˆ * ( x) = ( α αi ) K( x, xi ) i= i + b gdzie K jest pewą ustaloą fukcją jądra, atomiast współczyiki α i oraz α * i to możiki Lagrage a, będące rozwiązaiem zadaia dualego optymalizacji w stosuku do problemu (4). Poieważ ie dla każdego obiektu ze zbioru uczącego wyzaczoa wartość w i jest róża od zera (różica α i α * i w przypadku ieliiowym), tylko iektóre z obiektów biorą udział w obliczaiu wartości dla obiektu testowego. Te właśie obiekty azywae są wektorami podpierającymi (ag. support vectors)..3. Błąd regresji Błąd regresji w każdym pojedyczym eksperymecie był wyzaczay jako pierwiastek ze średiej wartości kwadratu różicy wartości estymowaej i wyzaczoej przez estymator (ag. root mea square error, RMSE). err = y y ( ˆ i= i i) (6) 3. Badaia i wyiki 3.. Dae poddawae aalizie Porówaie efektywości estymatorów odbywało się a daych rzeczywistych []. Dae te opisywały zależość stężeia metau a kopali od czyików, takich jak prędkość przepływu powietrza, wydobycie oraz wcześiejsze (historycze) wartości stężeia metau. Zbiór uczący składał się z 0 obiektów, atomiast zbiór testowy z 5 obiektów.
Ocea rzeczywistej wydajości wybraych regresorów 7 3.. Przebieg badań Obliczeia przeprowadzae były a procesorze Petium Xeo z wykorzystaiem programu Matlab. Skorzystao z gotowego pakietu dla tego środowiska [3, 4], implemetującego algorytm wyzaczaia fukcji regresji metodą SVR. W badaiach z użyciem SVR zastosowao regresję ieliiową z użyciem jądra Gaussa. Pojedyczy eksperymet estymacji fukcji regresji z użyciem estymatorów jądrowych polegał a zmierzeiu czasu trwaia wyzaczaia wartości fukcji regresji dla całego zbioru testowego. Natomiast w pojedyczym eksperymecie z użyciem maszyy wektorów podpierających mierzoo dwa czasy: po pierwsze sam czas wyzaczaia zbioru wektorów podpierających, a po drugie czas trwaia wyzaczaia wartości fukcji regresji dla całego zbioru testowego. W każdym z eksperymetów wyzaczao także błąd regresji według wzoru (6). Każdy z eksperymetów przeprowadzay był dziesięciokrotie, celem ziwelowaia różic czasowych związaych z iymi procesami wykoywaymi a maszyie podczas eksperymetu (zwłaszcza losowymi procesami systemowymi). 3.3. Wyiki W tabeli pierwszej zestawioo czas wyzaczaia wartości fukcji regresji dla zbioru testowego (t), a także błąd regresji (err). W ostatim wierszu uśredioo wartości dla całej kolumy. Tabela Czas trwaia estymacji dla pięciu różych fukcji jądra Epa Ui Two Nor Tri t err t err t err t err t err 6,64 0,748 7,97 0,748 7,547 0,748 8,34 0,093 7,984 0,748 6,406 0,748 7,4 0,748 7,500 0,748 8,97 0,093 7,969 0,748 6,344 0,748 7,34 0,748 7,453 0,748 8,50 0,093 7,953 0,748 6,344 0,748 7,34 0,748 7,547 0,748 8,03 0,093 7,9 0,748 6,344 0,748 7,50 0,748 7,56 0,748 8,09 0,093 7,938 0,748 6,375 0,748 7,7 0,748 7,53 0,748 8,5 0,093 7,844 0,748 6,33 0,748 7,50 0,748 7,453 0,748 8,03 0,093 8,000 0,748 6,375 0,748 7,4 0,748 7,39 0,748 8,03 0,093 7,969 0,748 6,359 0,748 7,9 0,748 7,453 0,748 8,88 0,093 7,969 0,748 6,359 0,748 7,9 0,748 7,469 0,748 8,7 0,093 8,09 0,748 6,386 0,748 7,6 0,748 7,486 0,748 8,98 0,093 7,966 0,748
8 M. Michalak, K. Stąpor Tabela Czas tworzeia estymatora SVM, trwaia estymacji oraz jej błąd t l t r err 55,03 0,34 0,73 55,7 0,9 0,73 550,39 0,7 0,73 546,000 0,9 0,73 550,9 0,03 0,73 549,89 0,9 0,73 550,047 0,33 0,73 550,438 0,9 0,73 549,38 0,34 0,73 548,7 0,9 0,73 549,769 0,5 0,73 Tabela przedstawia dla każdego z eksperymetów trzy wartości: czas trwaia uczeia (t l ), czas trwaia estymacji fukcji regresji dla zbioru testowego (t r ) oraz błąd regresji (err). 4. Aaliza wyików Przyglądając się daym zawartym w poprzediej części, moża zauważyć pewe różice pomiędzy poszczególymi typami estymatorów, a także i wśród samych estymatorów jądrowych. Pierwsza z tabel porówawczych przedstawia dokładość regresji poszczególych regresorów zarówo bezwzględą, jak i względem ajlepszego z regresorów. Tabela 3 Bezwzględe oraz względe błędy regresji poszczególych estymatorów Nor Tri Epa Two Ui SVR Błąd regresji 0,096 0,74793 0,74794 0,74797 0,7480 0,500 Względy błąd regresji,00000 8,07586 8,07597 8,07630 8,07673,4949 Na uwagę zwraca fakt, że estymator SVM okazał się gorszy od ajlepszego z estymatorrów jądrowych. Okazuje się zatem, że w przypadku daych, takich jak użytych w iiejszym opracowaiu, klasycze metody wyzaczaia fukcji regresji mogą dać lepsze rezultaty iż zaczie owsza metoda, jaką jest maszya wektorów podpierających. Z drugiej stroy, biorąc pod uwagę czas, jakiego potrzebował regresor a wyzaczeie wartości, asuwają się astępujące wioski: pojedycze wyzaczeie wartości dokouje się zaczie szybciej opierając się a wektorach podpierających (będących w istocie miej liczym zbiorem w porówaiu do całego zbioru uczącego); ajlepszą dokładość uzyskao działającym 80 razy woliej estymatorem jądrowym.
Ocea rzeczywistej wydajości wybraych regresorów 9 Powyższe dwa wioski ukazują jedyie pobieżą różicę obu estymatorów. Poieważ pierwszym etapem tworzeia estymatora SVR jest wyzaczeie zbioru wektorów podpierających, ależy przyjrzeć się, ile trwa te etap (dae a te temat zajdują się w tabeli ). W celu określeia efektywości estymatora SVR wprowadzoo pojęcie średiego czasu wyzaczeia wartości fukcji regresji, które uwzględia, oprócz samego wyzaczaia tejże wartości, także czas trwaia kostruowaia estymatora. Średi czas regresji oblicza się według wzoru (7): tl + tr tl tavg ( ) = = + tr (7) Wzór te wyika z astępującej obserwacji: średi czas estymacji fukcji regresji dla każdego z obiektów testowych to pojedyczy czas uczeia regresora oraz -kroty czas samego wyzaczaia wartości fukcji regresji. W przypadku estymatorów jądrowych ie moża bezpośredio wskazać graicy pomiędzy uczeiem estymatora a estymacją właściwą. Stąd też średi czas trwaia regresji to czas średi, zawarty w ostatim wierszu tabeli. Porówaie średiego czasu regresji estymatora jądrowego (z jadrem ormalym) i SVM, w zależości od liczby przeprowadzoych estymacji, przedstawia wykres. średi czas estymowaia wartości 000 00 0 efektywość wybraych estymatorów 6 6 6 3 36 4 46 liczba estymow aych w artości przypadająca a pojedycze uczeie regresora SVMr Nor Rys.. Zależość średiego czasu estymacji wartości dla dwóch estymatorów, w zależości od częstości uczeia regresora Fig.. The depedecy of the mea estimatio time from the regressor learig frequecy, for two estimators Dla argumetu wyoszącego około 3 obserwujemy przecięcie się hiperboli, związaej z estymatorem SVM, z poziomą prostą, odpowiadającej estymatorowi jądrowemu. Poieważ jedak zbiór testowy składał się z 5 obiektów, jako wartość graiczą ależy przyjąć około 5 500 (dokładiej: z aalizy wzoru (7) wyika, że hiperbola przecia się z prostą w pukcie 30,5004, więc odpowiada to 5 586 estymowaym puktom). Zatem, dla wszystkich war-
30 M. Michalak, K. Stąpor tości, większych iż podaa wartość graicza, estymator SVM będzie cechował się krótszym średim czasem trwaia estymacji iż estymator jądrowy. Otrzymujemy w tym momecie owe kryterium doboru estymatora, jakim jest jego efektywość czasowa. W praktyczym zastosowaiu ależy zatem ie tylko brać pod uwagę samą dokładość estymatora, ale także i czas potrzeby estymatorowi a wygeerowaie wartości. 5. Ocea rzeczywistej efektywości regresorów Chcąc zdefiiować pojęcie rzeczywistej efektywości regresora q R, która będzie uwzględiała oba zbadae w poprzediej części artykułu cechy, jakimi są błąd regresji oraz czas jej trwaia, ależy zacząć od przyjęcia założeia: ajlepszym (idealym) regresorem jest te o q R rówym 0, wraz ze wzrostem błędu regresji bądź ze wzrostem czasu regresji wartość rośie (fukcja jest ściśle rosąca). Powyższe założeia doskoale spełiają fukcje trzech klas: q = t ( ) + err R0 q = t ( ) err R q = t ( ) q R R3 avg avg avg = err err tavg ( ) W praktyce, bardzo często okazuje się, że wielkości błędu i czasu regresji są liczbami różych rzędów. Stąd raczej ależy odrzucić pierwszą z klas z tego względu, że trudo by skompesować a przykład zwiększeie czasu regresji poprawą jej dokładości. W skrajym przypadku mogłoby się okazać, że do zrówoważeia wzrostu czasu regresji potrzeba by uzyskać ujemy błąd regresji. Omówioe powyżej wady są fukcjami pozostałych trzech klas, gdyż zakładając wzrost czasu regresji o czyik a, moża wyzaczyć odpowiedie owe wartości błędu regresji, które zapewią iezmieioą oceę regresora: q = t ( ) err = ( at ( )) err err = err a R avg avg ( ) q = t ( ) = ( at ( )) err = err + log a err err R avg avg t tavg ( ) ( atavg ( )) a R3 = = = q err err err err Zaczący jest jedak fakt, że wszystkie trzy klasy fukcji cechują się rozbieżością do + przy którymkolwiek z argumetów dążącym do +. Chcąc uzyskać ormalizację przyjmowaych wartości do przedziału [0, ), moża wykoać prostą operację:
Ocea rzeczywistej wydajości wybraych regresorów 3 QRi = ( qri / k) e dla i =,, 3. Zaczeie parametru k jest astępujące: im wartość k jest większa, tym wykres woliej rośie ze wzrostem błędu i czasu regresji. Zaleca się, by stosować duże wartości k, w przypadku gdy wartości błędów i czasów regresji są duże. Dla przebadaych w artykule regresorów poszczególe ocey efektywości kształtują się astępująco: Tabela 4 Zestawieie rzeczywistych efektywości badaych regresorów Epa Ui Two Nor Tri SVR Błąd regresji (err) 0,748 0,748 0,748 0,093 0,748 0,73 Średi czas regresji (t avg ) 6,386 7,6 7,486 8,98 7,966 550,90 k = 0 q R,567,8776 3,0795,694 3,4386 95,879 q R 6,578 6,7633 6,844,050 6,985,994 q R3 0,0086 0,0067 0,006 ~0,0000 0,0054 ~0,0000 Q R 0,7064 0,74 0,796 0,557 0,739 0,9999 Q R 0,4789 0,495 0,4955 0,0997 0,505 0,974 Q R3 0,0009 0,0007 0,0006 ~0,0000 0,0005 ~0,0000 Aalizując dae zawarte w tabeli 4, moża zauważyć, że awet pomimo stosukowo długiego czasu regresji za pomocą SVR (średi czas regresji wyzaczoo za pomocą wzoru (7) dla = ) rzeczywista wydajość tego arzędzia jest lepsza od iektórych regresorów jądrowych. 6. Podsumowaie W iiejszym artykule aalizowao rzeczywiste dae wielowymiarowe. Jako arzędzia estymacji fukcji regresji użyto dwóch ieparametryczych metod: estymatora jądrowego oraz maszyy wektorów podpierających. Jedak zasadiczym celem była ie tyle dokładość estymacji, lecz powiązaie dokładości estymacji oraz czasu jej wykoaia. W wyiku przeprowadzoych badań okazało się, że dokładiejszy okazał się estymator jądrowy, cechujący się jedak dłuższym czasem obliczaia wartości fukcji regresji. Sprawiejszy w użyciu okazał się estymator działający a podstawie wektorów podpierających: przy stosukowo długim czasie uczeia, bardzo szybko wyzacza o wartości fukcji regresji dla obiektów testowych. Moża zatem zauważyć, że problem wyboru ajlepszego estymatora w zagadieiu, w którym rówie istotą rolę co dokładość odgrywa czas estymacji, ie musi posiadać jedozaczego rozwiązaia. Natomiast istotą wskazówką, pozwalającą a dokoaie wy-
3 M. Michalak, K. Stąpor boru, może się okazać odpowiedź a pytaie: Jak często w zastosowaiu praktyczym będzie miało miejsce uczeie regresora? Okazuje się zatem, że miara jakości estymatora, jaką jest błąd estymacji, jest iewystarczającym opisem arzędzia. Zapropooway w artykule średi czas regresji, będący pewą empiryczą miarą jakości, pozwala w lepszy sposób oceić zachowaie estymatora w warukach częstego stosowaia. Jest o także podstawą zdefiiowaej w pracy rzeczywistej wydajości regresora. LITERATURA. Koroacki J., Ćwik J.: Statystycze systemy uczące się. WNT, Warszawa 005.. De Boor C.: A practical guide to splies., Spriger 00. 3. Kulczycki P.: Estymatory jądrowe w aalizie systemowej. WNT, Warszawa 005. 4. Gajek L., Kałuszka M.: Wioskowaie statystycze. WNT, Warszawa 000. 5. Friedma J. H.: Multivariate Adaptive Regressio Splies. The Aals of Statistics, vol. 9, o., s. 4, 99. 6. Friedma J. H., Stuetzle W.: Projectio Pursuit Regressio. Joural of the America Statistical Associatio, vol, 76, s. 87 83, 98. 7. Gasser T., Keip A., Kohler W.: A flexible ad fast method for authomatic smoothig. Joural of the America Statistical Associatio, vol. 86, o. 45, s. 643 65, 99. 8. Smola A. J., Scholkopf B.: A tutorial o Support Vector Regressio. NeuroCOLT Techical Report NC-TR-998-030, 003,. 9. Gu S.: Support Vector Machies for Classificatio ad Regressio. Techical Report ISIS--98, Departmet of Electroics ad Computer Sciece, Uiversity of Southampto, 998. 0. Boser B.E., Guyo M. I., Vapik V.: A traiig algorithm for optimal margi classifiers, Fifth Aual Workshop o Computatioal Learig Theory, Pittsburgh, 99.. Vapik V.: The Nature of Statistical Learig Theory. Spriger, New York, USA, 995.. Sikora M., Sikora B., Applicatio of Machie Learig for predictio a methae cocetratio i a coal-mie. Archives of Miig Scieces, vol. 5, Issue 4, 006, s. 475 49. 3. Cau S., Gradvalet Y., Guigue V., Rakotomamojy A.: SVM ad Kerel Methods Matlab Toolbox. Perceptio Systèmes et Iformatio, INSA de Roue, Roue, Frace, 005. 4. http://asi.isa-roue.fr/~arakotom/toolbox/idex.html, SVM ad Kerel Methods Matlab Toolbox.
Ocea rzeczywistej wydajości wybraych regresorów 33 Recezet: Dr iż. Krzysztof Fujarewicz Wpłyęło do Redakcji 3 paździerika 007 r. Abstract This short article cosiders problems that deal with the estimatio of regressio fuctio for the multidimesioal data. I particular, the time of the value estimatig. Authors describe two groups of oparametric estimators: kerel estimators ad Support Vector Machie (SVM). Both of them are tested with the usage of real multidimesioal data. The mai stress of this article is laid o two criterios of regressio quality. First of them is the regressio accuracy but the secod is strogly coected with the time of the regressio duratio. The mea regressio time for the SVM regressio depeds o the umber of separate regressio fuctio evaluatios per sigle regressor creatig. Oe of the result of experimets is that the kerel methods gives more accuracy results tha SVM regressor. But results also shows that those two groups of regressors behaves differet i the real applicatio: kerel estimators have the costat time of the value geeratig ad the same value for the SVMs decrease with the icrease of the umber of estimated values per sigle regressor learig. It leads to the coclusio, that the choice of regressor should also take ito accout the frequecy of the regressor re-learig. Authors defie some ew measures that match two metioed criterios of regressors quality: accuracy ad the mea time of the value evaluatio. Adresy Marci MICHALAK: Politechika Śląska, Istytut Iformatyki, ul, Akademicka 6, 44-00 Gliwice, Polska, Marci.Michalak@polsl.pl Katarzya STĄPOR: Politechika Śląska, Istytut Iformatyki, ul, Akademicka 6, 44-00 Gliwice, Polska, Katarzya.Stapor@polsl.pl