POLITECHNIKA WARSZAWSKA. Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA. mgr inż. Paweł Chudzian
|
|
- Ignacy Witkowski
- 9 lat temu
- Przeglądów:
Transkrypt
1 POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Tehnik Informayjnyh ROZPRAWA DOKTORSKA mgr inż. Paweł Chudzian Optymalizaja parametrów przekształenia jadrowego w zadaniah klasyfikaji Promotor prof. nzw. dr hab. inż. Jarosław Arabas Warszawa, 2012
2
3 Podziękowania Pragnę wyrazić swoją wdzięzność mojemu promotorowi dr. hab. inż. Jarosławowi Arabasowi za opiekę naukową nad moją osobą w zasie, kiedy powstawała niniejsza praa. Jego ierpliwość, doiekliwość i otwartość na nowe obszary badań miały nieoeniony wpływ na ostatezny kształt tej pray. Jestem bardzo wdzięzny dr. hab. inż. Markowi Nałęzowi z Instytutu Systemów Elektroniznyh za udostępnienie danyh, stanowiąyh ważny element badań wykonanyh na potrzeby tej pray. Nie zapominam również o zasie, jaki poświęił na wytłumazenie mi zjawisk, któryh te dane dotyzą. Osobne podziękowania za ierpliwość i wytrzymałość w zasie mojej pray nad rozprawą doktorską pragnę złożyć mojej rodzinie i przyjaiołom. W szzególnośi dziękuję mojej żonie Joannie, która narażona była na bezpośrednie i nieustanne oddziaływanie emoji towarzysząyh pisaniu rozprawy. Moje podziękowania kieruję także do wszystkih osób, które inspirowały mnie do pray naukowej, a któryh lizba nie pozwala wymienić ih wszystkih z imienia. Mam nadzieję, że są świadome mojej wdzięznośi.
4
5 Streszzenie Praa dotyzy wykorzystania metod jądrowyh w zadaniu klasyfikaji. Szzególny naisk położony został na problem doboru parametrów przekształenia jądrowego, zwanego dalej jądrem. Systemy uząe się z nadzorem wykorzystująe odpowiednio dobrane jądro zęsto uzyskują rezultaty lepsze od tradyyjnie używanyh algorytmów, takih jak siei neuronowe zy drzewa deyzyjne, tworzą przy tym modele o wysokiej zdolnośi do generalizaji. Główną zaletą jądrowyh metod klasyfikaji jest możliwość modelowania nieliniowyh zależnośi w danyh przy jednozesnym stosowaniu klasyfikatorów liniowyh. Zastąpienie ilozynu skalarnego jądrem pozwala na niejawną nieliniową transformaję danyh do wielowymiarowej przestrzeni, w której problem klasyfikaji daje się rozwiązać z użyiem liniowego klasyfikatora, bez konieznośi znajomośi postai tej transformaji. Właśiwy dobór jądra i jego parametrów ma kluzowe znazenie dla jakośi klasyfikaji. Pozwala na uzyskanie modelu, który poprawnie oddaje harakter zależnośi występująyh w danyh i jednoześnie nie dopasowuje się do obserwowanej próbki. W pray przeanalizowano znane z literatury miary jakośi jądra: dopasowanie jądro-klasa i metody oparte na regule Fishera. Praktyzne właśiwośi tyh podejść oraz ih użytezność do optymalizaji parametrów jądra, mająej na elu uzyskanie klasyfikatorów o wysokiej jakośi, zostały zweryfikowane eksperymentalnie. Uzyskane wyniki pokazują, że żadna z analizowanyh miar nie pozwala na uzyskanie klasyfikatora o minimalnej wartośi błędu. W pray sformułowane zostały alternatywne metody oeny jądra, które prowadzą do uzyskania lepszyh wyników klasyfikaji. Głównym rezultatem pray jest opraowanie metody doboru parametrów jądra, która nie wymaga konstrukji klasyfikatora. Wykorzystanie w tej metodzie zaproponowanyh w pray miar jakośi umożliwia skonstruowanie liniowego klasyfikatora o błędzie istotnie niższym w porównaniu do uzyskiwanego podzas stosowania miar jakośi znanyh z literatury. Sformułowane w pray metody oeny jądra definiują jednowymiarowe funkje z jednym optimum, dzięki zemu proes doboru parametrów jest szybko zbieżny i powtarzalny. Wyniki uzyskane na danyh testowyh z repozytorium UCI wskazują, że zaproponowane w pray miary jakośi jądra prowadzą do wyników optymalizaji znaznie bardziej stabilnyh niż uzyskiwane za pomoą miar jakośi znanyh z literatury. Zaproponowaną w pray metodę doboru parametrów jądra zweryfikowano pozytywnie w zadaniu klasyfikaji danyh radiolokayjnyh rejestrowanyh w warunkah poligonowyh. Słowa kluzowe: systemy uząe się, metody jądrowe, przekształenie jądrowe, klasyfikaja, maszyna wektorów podpierająyh, optymalizaja parametrów przekształenia jądrowego 5
6 Abstrat Thesis onerns kernel methods in lassifiation, with the speial emphasis on the task of finding appropriate kernel parameters. Supervised learning tehniques that inorporate kernel funtion proved to give better results than many standard algorithms, like artifiial neural networks and deision trees, while still providing models of high generalization apabilities. The main advantage of kernel methods is the possibility of working in a nonlinear subspae while still using linear models. Inorporating so alled kernel trik amounts to an impliit transformation of the data points to a high-dimensional feature spae without omputing their images diretly. An appropriately onstruted kernel results in a model that fits well to the struture underlying the data and does not over-fit to the sample. Reent state-of-the-art kernel evaluation measures were examined in the thesis, namely Kernel-Target Alignment and measures based on the Fisher disrimination rule. Their properties along with appliations in kernel optimization have been verified. Experiments show that none of the examined measures results in the lassifiers of a minimal error rate, therefore alternative kernel evaluation measures that outperform presented methods have been proposed in the thesis. Main outome of the thesis is methodology that allows to find appropriate kernel parameters without onstruting the lassifier. Kernel optimization leveraging proposed evaluation measures results in parameters orresponding to the lassifier that ahieves signifiantly lower error rate for a given kernel funtion while the omplexity of the model is ontrolled. In addition, presented measures allow to apply onvex optimization methods to effetively tune kernel parameters. Results obtained on benhmark data sets from UCI repository learly show that kernel evaluation measures introdued in the thesis are better suited for kernel optimization than methods presented in the literature. Methodology proposed in the thesis was verified on real data set where observations represent objets deteted with impulse radar during the field experiment. Keywords: mahine learning, kernel methods, kernel, lassifiation, support vetor mahine, kernel optimization 6
7 Spis treśi 1. Wprowadzenie Klasyfikaja danyh Metody jądrowe Cel i zakres pray Układ pray Przekształenie jądrowe w klasyfikaji Klasyfikaja w przestrzeni liniowej Liniowa maszyna wektorów podpierająyh Problem nieseparowalny liniowo Przekształenie jądrowe Jądro w przestrzeni eh Nieujemnie określone jądro Właśiwośi jąder Przykładowe jądra Algorytmy jądrowe Jądrowa analiza dyskryminayjna Fishera Jądrowa analiza składowyh głównyh Podsumowanie Oena przekształenia jądrowego Dobór parametrów przekształenia jądrowego Wpływ parametrów jądra na jakość klasyfikaji Optymalizaja parametrów przekształenia jądrowego Metody oeny przekształenia jądrowego znane z literatury Dopasowanie jądro-klasa Zastosowanie do optymalizaji Właśiwośi miary jakośi jądra Oena oparta na regule Fishera Zastosowanie do optymalizaji
8 Właśiwośi miary jakośi jądra Modyfikaja oeny opartej na regule Fishera Zastosowanie do optymalizaji Właśiwośi miary jakośi jądra Podsumowanie Klasyfikaja z użyiem optymalizowanyh jąder Metodyka eksperymentów Zastosowanie miar jakośi jądra w proesie optymalizaji Wyniki klasyfikaji na podstawie zoptymalizowanyh jąder Porównanie zmiennośi miar jakośi jądra i błędu wynikowego klasyfikatora Wnioski Podsumowanie Alternatywne metody oeny jądra Miary jakośi jądra Miara α miara korelayjna Miara β testowanie równośi średnih Miara γ testowanie warianji Zastosowanie miar jakośi jądra w proesie optymalizaji Wyniki klasyfikaji na podstawie zoptymalizowanyh jąder Porównanie zmiennośi miar jakośi jądra i błędu wynikowego klasyfikatora Wnioski Podsumowanie Klasyfikaja danyh radiolokayjnyh Dane radiolokayjne Klasyfikaja na podstawie zoptymalizowanyh jąder Podsumowanie Podsumowanie Podsumowanie uzyskanyh wyników Możliwośi udoskonalenia metodyki optymalizaji jądra Bibliografia
9 1. Wprowadzenie Systemami uząymi się nazywamy algorytmizne metody odkrywania wiedzy z danyh [38]. Obserwowane dane podawane są do systemu w postai wektorów x i opisująyh pojedynze próbki (obserwaje). Wartośi poszzególnyh współrzędnyh wektora x i reprezentują wartośi eh (atrybutów) obserwowanej próbki. Dane dostarzone do systemu uząego się mogą pohodzić z obserwaji dowolnego zjawiska, w związku z tym typy wartośi atrybutów również mogą być dowolne, tzn. mogą to być wartośi lizbowe, dyskretne, nominalne, jak i porządkowe. Wśród systemów uząyh się wyróżnia się dwie istotne grupy systemy uząe się z nadzorem i systemy uząe się bez nadzoru. W przypadku pierwszej grupy, w obserwowanyh danyh wyraźny jest podział na atrybuty wejśiowe (zmienne objaśniająe) i atrybuty wyjśiowe (zmienne objaśniane). Obserwowane dane mają postać iągu par (x i,y i ), i = 1,...,n gdzie n jest rozmiarem ałej próby (zbioru danyh), x i X jest p-wymiarowym wektorem wartośi atrybutów wejśiowyh, natomiast y i Y jest wartośią atrybutu wyjśiowego. Celem uzenia się z nadzorem jest stworzenie możliwie dokładnego opisu obserwowanego zjawiska, umożliwiająego późniejsze przewidywanie wartośi atrybutu wyjśiowego na podstawie znanyh wartośi atrybutów wejśiowyh. Do przykładów tego rodzaju uzenia się należą zadania klasyfikaji, zyli przydzielania obserwaji do jednej z k możliwyh kategorii (wówzas Y = { 1,..., k,}), i regresji, zyli poszukiwania wartośi funkji rzezywistej powiązanyh z obserwajami (Y = R). W przypadku uzenia się bez nadzoru w obserwowanyh danyh nie wyróżnia się atrybutu wyjśiowego. Celem tego rodzaju uzenia się jest znalezienie i opisanie ukrytej w danyh struktury, np. poprzez podział obserwaji na grupy ze względu na wartośi atrybutów, jak ma to miejse w przypadku analizy skupień, zy też selekję istotnyh atrybutów w elu redukji wymiarowośi danyh. Wyzerpująy przegląd i opis systemów uząyh się znaleźć można m.in. w praah [15, 38]. 9
10 1.1. Klasyfikaja danyh W zadaniu klasyfikaji atrybut wyjśiowy Y nazywany jest zęsto zbiorem etykiet klasy lub kategorii. Zadaniem algorytmu klasyfikaji jest przypisanie jednej z etykiet na podstawie wartośi atrybutów wejśiowyh, o formalnie można zapisać jako zadanie poszukiwania funkji f : X Y, która każdej obserwaji x i ze zbioru X przypisuje etykietę klasy y i Y. Ogólny shemat tworzenia modelu (uzenia systemu) jest podobny w przypadku większośi algorytmów klasyfikaji. Do systemu dostarzana jest próbka danyh, tzw. zbiór trenująy lub uząy, w którym opróz wektorów reprezentująyh atrybuty wejśiowe znajdują się odpowiadająe obserwajom etykiety klas. Na podstawie informaji zawartej w danyh algorytm uzy się zależnośi pomiędzy wektorem wartośi atrybutów wejśiowyh a atrybutem wyjśiowym. Wynikiem proesu uzenia się jest klasyfikator model opisująy zależność pomiędzy X i Y który w zależnośi od przyjętej metody reprezentaji klasyfikatora może przyjmować różne formy, np. hiperpłaszzyzny rozdzielająej klasy, drzewa deyzyjnego lub listy reguł. Wygenerowany w ten sposób model służy do przewidywania etykiet klas w przypadku danyh, dla któryh znane są jedynie wartośi wektora atrybutów wejśiowyh. Liniowe algorytmy klasyfikaji Wśród algorytmów klasyfikaji danyh szzególną pozyję zajmują algorytmy tworząe modele liniowe. Zainteresowanie tego typu metodami wynika przede wszystkim z dwóh właśiwośi jakimi się harakteryzują. Po pierwsze konstruowany model jest łatwy w interpretaji, po drugie sposób konstrukji modelu pozwala mieć nadzieję, że uzyskany klasyfikator nie będzie nadmiernie dopasowany do zbioru trenująego, na podstawie którego system uzył się zależnośi między atrybutami wejśiowymi a klasą. U podstaw konstrukji klasyfikatora liniowego leży prosta intuija znaleźć w przestrzeni atrybutów wejśiowyh hiperpłaszzyznę możliwie najlepiej rozdzielająą przykłady z różnyh klas. Reguła deyzyjna dla takiego modelu przyjmuje postać: f (x) = sgn( w,x + b), (1.1) gdzie wektor normalny w i przesunięie b jednoznaznie opisują hiperpłaszzyznę deyzyjną. Przykładem algorytmu konstrukji liniowego klasyfikatora o regule deyzyjnej określonej wzorem (1.1) jest maszyna wektorów podpierająyh (ang. Support Vetor Mahine SVM) [5, 16]. Konstrukja modelu polega w tym przypadku na znalezieniu parametrów hiperpłaszzyzny, dla 10
11 <w,x>+b=0 Rysunek 1.1: Optymalna hiperpłaszzyzna wyznazona przez algorytm SVM rozdzielająa obserwaje z dwóh klas reprezentowanyh przez okręgi i kwadraty (wypełnione figury oznazają wektory podpierająe) której odległość punktów z obu klas położonyh najbliżej tej hiperpłaszzyzny jest maksymalna. Punkty leżąe najbliżej hiperpłaszzyzny nazywane są wektorami podpierająymi, a postać funkji deyzyjnej zależy wyłąznie od tyh punktów, tzn. usunięie dowolnyh punktów leżąyh poza marginesem nie wpływa na położenie hiperpłaszzyzny deyzyjnej. Rysunek 1.1 ilustruje wybór optymalnej hiperpłaszzyzny wyznazonej przez algorytm SVM dla przykładowego problemu klasyfikaji. W powyższym przykładzie pozynione zostało założenie, że rozważane dane są liniowo separowalne, tzn. istnieje hiperpłaszzyzna rozdzielająa klasy. W praktye jest to zęsto założenie zbyt mone i bardzo zęsto spotyka się ze zbiorami danyh, dla któryh nie jest możliwe znalezienie liniowego klasyfikatora poprawnie rozdzielająego klasy. Zastosowanie algorytmu SVM w takim przypadku oznaza koniezność wprowadzenia poprawki dopuszzająej, aby niektóre obserwaje leżały po niewłaśiwej stronie hiperpłaszzyzny 1. Na ogół poprawka ta pozwala na skutezne stosowanie klasyfikatora w przypadku pojedynzyh błędów w analizowanej próbe danyh oraz wtedy gdy nieliniowość jest stosunkowo niewielka. Modyfikaja algorytmu SVM nie zdaje jednak egzaminu w przypadku kiedy grania pomiędzy klasami harakteryzuje się silnie nieliniowym kształtem. Przykładem takiej sytuaji są nieseparowalne liniowo dane przedstawione na rysunku W praktye zezwala się też, aby niektóre punkty leżały wewnątrz marginesu, ale po właśiwej stronie hiperpłaszzyzny, o wpływa pozytywnie na zdolność generalizayjną klasyfikatora. 11
12 Rysunek 1.2: Obserwaje z dwóh klas reprezentowanyh przez okręgi i kwadraty tworzą zahodząe na siebie spirale; nie istnieje hiperpłaszzyzna poprawnie rozdzielająe obie klasy Indukja atrybutów Wzajemne położenie danyh w przestrzeni atrybutów zęsto uniemożliwia efektywne stosowanie klasyfikatora liniowego, hoiażby ze względu na wspomniany już brak separowalnośi liniowej klas. W sytuaji takiej jednym z możliwyh rozwiązań jest wzbogaenie przestrzeni poprzez zwiększenie jej wymiarowośi, o wiąże się z indukją atrybutów, lub ogranizają się jedynie do punktów ze zbioru danyh rzutowanie obserwaji za pomoą pewnej nieliniowej funkji Φ : X H do nowej przestrzeni atrybutów. W tym drugim przypadku, zależność liniową w przestrzeni H można interpretować jako przejśie od zależnośi nieliniowej w przestrzeni atrybutów X do zależnośi liniowej w bogatszej przestrzeni [38]. Dane nieseparowalne liniowo w pierwotnej przestrzeni można w nowej przestrzeni klasyfikować za pomoą liniowej funkji deyzyjnej (hiperpłaszzyzny). Indukja nowyh atrybutów na podstawie istniejąyh ma na elu zwiększenie rozróżnialnośi danyh, o w efekie prowadzi do umożliwienia poprawnej klasyfikaji większej lizby obserwaji. Zgodnie z twierdzeniem Covera [17], przeniesienie nieliniowego problemu klasyfikaji do przestrzeni o większej lizbie wymiarów powoduje zwiększenie prawdopodobieństwa liniowej separowalnośi klas. Zagadnienie indukji atrybutów w tradyyjnym ujęiu dotyzy 12
13 bezpośrednio analizy atrybutów, natomiast geometria przestrzeni H będąej efektem rzutowania jest domeną metod jądrowyh Metody jądrowe Korzystanie bezpośrednio z funkji Φ, rzutująej dane do nowej przestrzeni eh H, i wyznazanie w jawny sposób obrazu punktu w tej przestrzeni może być niepraktyzne ze względu na złożoność oblizeniową operaji rzutowania. W [55] zaprezentowano przykładową funkję Φ, która rzutuje punkty reprezentująe obrazy o wymiarah pikseli do przestrzeni rozpiętej przez wszystkie jednomiany stopnia 5. Dla tak określonej funkji rzutowanie pojedynzej obserwaji wymaga oblizenia wartośi około nowyh atrybutów, tyle bowiem wynosi w przybliżeniu wymiar przestrzeni eh H, do której funkja Φ rzutuje dane. Przekształenie jądrowe Wraają na hwilę do postai funkji deyzyjnej (1.1) można zauważyć, że do stosowania klasyfikatora liniowego wystarzająa jest informaja o względnym położeniu punktów. Funkja deyzyjna dla wytrenowanego klasyfikatora SVM przyjmuje postać f (x) = sgn( y i α i x,x i + b), (1.2) i gdzie indeks i przehodzi po wszystkih wektorah podpierająyh, x i i y i oznazają odpowiednio wektor wartośi atrybutów wejśiowyh oraz etykietę i-tej obserwaji ze zbioru trenująego, zaś współzynniki α i, odpowiadająe poszzególnym obserwajom, wynikają z rozwiązania zadania optymalizaji związanego z proesem uzenia (por. rozdział 2). Jak widać, do klasyfikaji wystarzająa jest znajomość wartośi ilozynu skalarnego pomiędzy klasyfikowanym punktem x a wektorami podpierająymi. Wynika stąd istotny wniosek, dotyząy wprowadzenia przekształenia jądrowego, będąego podstawą metod jądrowyh. Jeżeli w przestrzeni eh H można wyznazyć ilozyn skalarny, to podstawienie Φ(x),Φ(x ) = k(x,x ) (1.3) pozwala, dzięki zastosowaniu nieliniowej funkji k(x,x ), na uzyskanie nieliniowej funkji deyzyjnej f (x) w przestrzeni X poprzez zastosowanie klasyfikatora liniowego w przestrzeni eh H. Ogranizeniem nakładanym na algorytm klasyfikaji jest wymaganie, aby również w proesie uzenia wykorzystywany był jedynie ilozyn skalarny x,x. Funkja k(x,x ) nazywana jest 13
14 zwyzajowo jądrem, przekształeniem jądrowym lub funkją jądrową 2. Szzegóły formalne dotyząe kryteriów jakie spełniać musi jądro znajdują się w kolejnyh rozdziałah. W tym miejsu warto jeszze przyjrzeć się przykładowym postaiom, jakie przyjmować może funkja jądrowa. Dwie najpopularniejsze to jądro wielomianowe [55] k(x,y) = ( x,y + ) d (1.4) i jądro gaussowskie [5] ) x y 2 k(x,y) = exp ( 2σ 2. (1.5) Jak można zauważyć, stosowanie jądra w klasyfikatorze liniowym poiąga za sobą koniezność wyboru odpowiedniej jego postai oraz ustalenia wartośi parametrów (stopień d i przesunięie wielomianu lub parametr σ dla jądra gaussowskiego). Mimo że jest to problem kluzowy, nie był on przez długi zas tematem dokładnyh badań w kontekśie metod jądrowyh. Dopiero ostatnie lata przyniosły próby dokładniejszego zrozumienia wpływu doboru jądra i jego parametrów na jakość metod jądrowyh (m.in. [12, 18]). Wykorzystanie przekształenia jądrowego Interpretaja wartośi jądra jako ilozynu skalarnego w przestrzeni eh H niesie ze sobą jeden bardzo ważny wniosek. Wszystkie algorytmy klasyfikaji liniowej, które zarówno w proesie konstrukji modelu, jak i klasyfikaji nowyh danyh, operują wyłąznie na informaji o wzajemnym położeniu punktów w przestrzeni, mogą zostać zastąpione wersją jądrową. Opróz wspomnianego wześniej algorytmu SVM [4, 57, 64] powyższe warunki spełniają m.in. dyskryminator liniowy Fishera [38, 43] zy klasyfikator Parzena [55]. Zastosowanie operaji polegająej na zastąpieniu ilozynu skalarnego wartośią jądra nie ograniza się jednak jedynie do algorytmów klasyfikaji. Istnieje szereg tehnik, w któryh przekształenie jądrowe jest stosowane z dużym powodzeniem, wspominają hoiażby jądrową analizę składowyh głównyh [54, 56]. Optymalizaja parametrów przekształenia jądrowego Stosowanie algorytmów klasyfikaji wykorzystująyh przekształenie jądrowe pozwala uzyskać modele o wysokiej jakośi. Warunkiem stosowalnośi metod jądrowyh jest jednak odpowiedni dobór parametrów jądra, dostosowanyh do rozważanego zadania. Użyie jądra o niewłaśiwie dobranyh parametrah może nie tylko nie przynieść poprawy wyników, ale wręz trik. 2 W literaturze anglojęzyznej zastąpienie ilozynu skalarnego funkją jądrową określane jest jako tzw. kernel 14
15 pogorszyć jakość modelu. Jako przykład nieh posłuży jądro gaussowskie, z którego postai wynika, że duże wartośi parametru σ prowadzą do uzyskania wartośi jądra k(x i,x j ) = 1 niezależnie od wyboru punktów x i i x j, o prowadzi do wniosku, że obrazy rzutów wszystkih obserwaji w przestrzeni eh H znajdują się w takim przypadku w tym samym punkie. Z kolei dla małyh σ jądro gaussowskie przyjmuje wartośi k(x i,x i ) = 1 i k(x i,x j ) = 0 dla i j, o oznaza, że wszystkie wektory danyh są wzajemnie ortogonalne w przestrzeni eh H, a wię wymiar przestrzeni równy jest lizbie obserwaji. Speyfizne zadania wymuszają konkretną postać przekształenia jądrowego, jednak w większośi typowyh przypadków problem polega na znalezieniu odpowiednih wartośi parametrów dla jednej z typowyh form jądra. W przypadku zadania klasyfikaji poszukiwana jest ozywiśie taka wartość parametru jądra, należąa do zbioru dopuszzalnyh wartośi (np. w przypadku jądra gaussowskiego parametr σ (0, )), dla której błąd klasyfikatora jest minimalny. W przypadku klasyfikatorów jądrowyh wykorzystywanyh jest kilka podejść do wyboru parametrów jądra. Jednym z nih jest systematyzne przeszukiwanie przestrzeni wartośi parametrów i sprawdzanie jakośi uzyskanego modelu. Metoda ta wymaga jednak dużyh nakładów oblizeniowyh, zwłaszza w przypadku algorytmu SVM, który ehuje się stosunkowo wysoką złożonośią oblizeniową [7]. Dodatkowo, ze względu na ogranizoną rozdzielzość siatki, na której rozłożone są testowane wartośi, w praktye nie ma możliwośi znalezienia optymalnyh wartośi parametrów. Innym podejśiem stosowanym przy wyborze parametrów jądra jest optymalizaja maierzy jądrowej powstałej z wyznazenia wartośi jądra dla wszystkih punktów należąyh do zbioru danyh [20]. Maierz jądrowa dla zbioru danyh składająego się z n wektorów (x i,y i ) opisująyh obserwaje zdefiniowana jest następująo: K i j = k(x i,x j ), i, j = 1,...,n. (1.6) Znają postać maierzy jądrowej oraz poprawne etykiety klas dla zadanego problemu można optymalizować w sposób niejawny parametry przekształenia jądrowego dokonują operaji na maierzy jądrowej. Istotnym ogranizeniem tego podejśia jest koniezność jednozesnego wykonywania operaji maierzowyh na danyh, które mają podlegać klasyfikaji (tzw. shemat transdukyjny), o zasadnizo ograniza stosowalność tej metody. Najzęśiej stosowanym w praktye podejśiem jest bezpośrednia optymalizaja parametrów jądra, przy ustalonej jego postai, która eliminuje ogranizenia związane zarówno z rozdzielzośią przestrzeni przeszukiwań jak i shematem transdukyjnym. Przykłady takiego po- 15
16 dejśia można znaleźć hoiażby w praah [47] i [65]. Często spotykane jest również wykorzystanie w optymalizaji pewnyh własnośi jądra (będzie o nih mowa w kolejnyh rozdziałah), które pozwalają na praę z bardziej ogólną klasą jąder, stanowiąyh na przykład liniowe kombinaje różnyh jąder bazowyh (np. [40] i [66]). Niezależnie jednak od sposobu optymalizaji wymagane jest określenie odpowiedniej funkji elu zapewniająej minimalny błąd klasyfikatora i jednoześnie nie wymagająej dużyh nakładów oblizeniowyh. Postać funkji elu ma także wpływ na metody optymalizaji, jakie mogą być w danym problemie stosowane, o również przekłada się na złożoność oblizeniową zadania. Wybór odpowiedniej funkji elu w zadaniu optymalizaji parametrów przekształenia jądrowego ma zatem kluzowy wpływ zarówno na jakość uzyskanego klasyfikatora, jak i na zasoby niezbędne do optymalizaji parametrów przekształenia jądrowego Cel i zakres pray Celem pray jest rozwój metodyki konstrukji klasyfikatorów jądrowyh poprzez optymalizaję parametrów wykorzystywanyh jąder. W pray zweryfikowana zostanie teza o możliwośi zdefiniowania predykyjnej miary jakośi jądra takiej, że: optymalny parametr według tej miary prowadzi do konstrukji klasyfikatora harakteryzująego się wartośią błędu bliską minimalnej, nakłady oblizeniowe wynikająe ze stosowanie tej miary w proesie optymalizaji są pomijalne w stosunku do wymaganyh przy systematyznym przeszukiwaniu przestrzeni wartośi parametrów. Na wstępie pray została poddana weryfikaji możliwość zastosowania istniejąyh miar jakośi jądra w rozważanym w pray problemie optymalizaji. Wskazano istotne wady jakimi odznazają się znane z literatury metody oeny. Uzyskane wyniki pozwoliły na zaproponowanie miar jakośi dostosowanyh do postawionego zadania. Celem było wyodrębnienie metod oeny jądra, któryh zastosowanie jako funkji elu w proesie optymalizaji będzie prowadziło do uzyskania parametrów optymalnyh również ze względu na jakość klasyfikatora zbudowanego na podstawie zoptymalizowanego jądra. Ze względu na znazne rozmiary zbiorów danyh podlegająyh klasyfikaji poszukiwano miar jakośi jądra harakteryzująyh się dodatkowo niską złożonośią oblizeniową oraz zapewniająyh szybką zbieżność proesu optymalizaji. W elu weryfikaji możliwośi optymalizaji jądra względem zadanej metody oeny przy jednozesnej maksymalizaji jakośi klasyfikatora jądrowego porównano przebiegi zmiennośi 16
17 miary jakośi jądra i estymatora błędu klasyfikatora. Analizie poddana została złożoność oblizeniowa poszzególnyh miar. Zbieżność proesu optymalizaji zweryfikowana została eksperymentalnie. Badania prowadzono na dwóh zestawah problemów klasyfikaji. Pierwszy z nih stanowiły zadania klasyfikaji danyh wykorzystywane w dziedzinie systemów uząyh się do porównywania działania algorytmów klasyfikaji. Drugi problem dotyzył klasyfikaji obiektów lotnizyh na podstawie rzezywistyh danyh pohodząyh z radaru impulsowego 3. Wart podkreślenia jest fakt, że w literaturze brak jest tak kompleksowej eksperymentalnej weryfikaji praktyznej stosowalnośi metod oeny jądra, zarówno jeśli hodzi o lizbę rozważanyh problemów klasyfikaji, jak również ze względu na rodzaje przekształeń jądrowyh i rozdzielzość, z jaką badane było zahowanie miar jakośi w przestrzeni parametrów jąder. Brak również w literaturze wzajemnej analizy zmiennośi błędu klasyfikaji i wartośi poszzególnyh metod oeny w funkji parametrów jądra, która pozwalałaby wyiągać wnioski odnośnie potenjalnego wykorzystania miar w proesie optymalizaji. Tam gdzie było to możliwe, metody jądrowe analizowano w oderwaniu od konkretnego algorytmu klasyfikaji. W pozostałyh przypadkah jako metoda bazowa posłużył algorytm SVM. Naturalnym dla tego algorytmu zadaniem jest problem klasyfikaji binarnej, w którym poszukuje się funkji deyzyjnej klasyfikująej obserwaje należąe do jednej z dwóh kategorii. W praktye jednak spotyka się nierzadko zadania, w któryh dane należą do więej niż dwóh klas. Aby uwzględnić oba przypadki, działanie zaproponowanego w pray podejśia do optymalizaji parametrów jądra zostało przeanalizowane dla obu typów problemów Układ pray Rozdział 2 stanowi wprowadzenie do teorii metod jądrowyh. Zawiera on również przegląd metod jądrowyh, nie ogranizają się przy tym do algorytmów klasyfikaji. W rozdziale 3 przedstawione są znane z literatury podejśia do wyboru parametrów przekształenia jądrowego oraz wyszzególnione są miary jakośi jądra, które mogą być zastosowane jako funkja elu w zadaniu optymalizaji parametrów przekształenia jądrowego. Rozdział 4 przedstawia metodę badań eksperymentalnyh dotyząyh optymalizaji parametrów jądra za pomoą omówionyh literaturowyh metod oeny, uzyskane wyniki i ih analizę. W rozdziale 5 znajduje się opis miar jakośi, wprowadzonyh przez autora niniejszej pray, któryh definija ma na elu poprawę 3 Dane udostępnione dzięki uprzejmośi prof. dr. hab. inż. Marka Nałęza z Instytutu Systemów Elektroniznyh Politehniki Warszawskiej. 17
18 skuteznośi metodyki oeny jądra. W dalszej zęśi rozdziału wyniki uzyskane za pomoą wprowadzonyh miar porównane są z rezultatami uzyskanymi za pomoą metod znanyh z literatury. Rozdział 6 zawiera wyniki badań dotyząyh rzezywistego problemu klasyfikaji obiektów lotnizyh na podstawie danyh pohodząyh z radaru impulsowego. Podsumowanie pray, dyskusja uzyskanyh wyników, a także sugestie dotyząe możliwyh kierunków dalszyh badań znajdują się w rozdziale 7.
19 2. Przekształenie jądrowe w klasyfikaji Wykorzystanie przekształenia jądrowego w klasyfikaji, jak również innyh obszarah dziedziny systemów uząyh się, jest zagadnieniem stosunkowo młodym. Choć najbardziej dynamizny rozwój metod jądrowyh obserwować można było w ostatnim dziesięioleiu ubiegłego wieku, nadal jest to tematyka iesząa się niesłabnąym zainteresowaniem. Wiele kwestii, dotyząyh hoiażby doboru jąder i ih parametrów, pozostaje nadal otwartyh. Choiaż historia zastosowań przekształenia jądrowego w systemah uząyh się jest dość krótka, ih teoria znana jest znaznie dłużej. Teoretyzne podstawy przekształenia jądrowego sformułowane zostały w [2] w roku 1950, a kilkanaśie lat później po raz pierwszy wprowadzono w [1] interpretaję jądra jako ilozynu skalarnego w przestrzeni eh Klasyfikaja w przestrzeni liniowej Przekształenie jądrowe po raz pierwszy znalazło zastosowanie w algorytmie klasyfikaji zaproponowanym pierwotnie w [63] przez Wapnika w latah 60. W pray tej przedstawiony został algorytm budowy liniowej maszyny wektorów podpierająyh. Dopiero 30 lat później w [5] został on rozszerzony, poprzez wykorzystanie jądra, o możliwość uwzględniania nieliniowyh zależnośi w danyh. W następnyh punktah, na podstawie algorytmu Wapnika, pokazane zostaną kolejne kroki prowadząe do wprowadzenia jądra do klasyfikatora liniowego Liniowa maszyna wektorów podpierająyh W poprzednim rozdziale budowa klasyfikatora liniowego została zdefiniowana jako zadanie poszukiwania hiperpłaszzyzny rozdzielająej obserwaje ze zbioru danyh należąe do różnyh klas. W elu wprowadzenia algorytmu SVM niezbędne jest dodatkowe założenie, że klasyfikowane dane należą do jednej z dwóh klas, które w dalszyh rozważaniah etykietowane będą wartośiami ze zbioru Y = {1, 1}, natomiast atrybuty wejśiowe, opisująe elementy próby uząej, są wektorami rzezywistolizbowymi x i R p. Aktualnie rozważany zbiór danyh składa się zatem z par (x i,y i ), i = 1,...,n, o któryh dodatkowo zakłada się, że są liniowo sepa- 19
20 Rysunek 2.1: Istnieje nieskońzenie wiele hiperpłaszzyzn, które poprawnie separują obserwaje należąe do obu klas rowalne ze względu na klasę, tzn. istnieje taka hiperpłaszzyzna, że punkty z obu klas znajdują się po przeiwnyh jej stronah. Na rysunku 2.1 przedstawione zostały dwie przykładowe proste poprawnie rozdzielająe obserwaje należąe do poszzególnyh klas. W rzezywistośi takih hiperpłaszzyzn może być nieskońzenie wiele, o rodzi pytanie, która z nih powinna zostać wybrana jako reguła deyzyjna. We wspomnianej już pray [63] Wapnik zaproponował metodę rozwiązania problemu poszukiwania optymalnej hiperpłaszzyzny rozdzielająej dane liniowo separowalne w przestrzeni R p. Spośród wszystkih możliwyh hiperpłaszzyzn rozdzielająyh obie klasy za optymalną traktowana jest ta, której odległość do najbliższego punktu ze zbioru danyh jest maksymalna: argmax min{ x x i x R p, w,x + b = 0, i = 1...,n}. (2.1) w R p,b R Istnieje tylko jedna hiperpłaszzyzna, dla której spełniony jest warunek (2.1). Punkty z obu klas leżąe najbliżej hiperpłaszzyzny deyzyjnej leżą na hiperpłaszzyznah do niej równoległyh i oddalonyh od niej o tę samą odległość. Punkty te nazywane są wektorami podpierająymi usunięie któregokolwiek z nih może wpływać na położenie hiperpłaszzyzny rozdzielająej. Usunięie pozostałyh punktów nie wpływa na zmianę postai hiperpłaszzyzny deyzyjnej. Na rysunku 2.2 przedstawiona została optymalna hiperpłaszzyzna dla przykładowego problemu klasyfikaji. Szerokość marginesu γ, lizona jako odległość między hiperpłaszzyznami, na któryh położone są wektory podpierająe, jest dla optymalnej hiperpłaszzyzny deyzyjnej maksymalna dalsze rozszerzanie marginesu spowodowałoby, że któryś z punktów musiałby 20
21 <w,x>+b<0 <w,x>+b=0 <w,x>+b>0 Rysunek 2.2: Hiperpłaszzyzna dla problemu z rysunku 2.1 zapewniająa maksymalną szerokość marginesu znaleźć się w jego wnętrzu. W przypadku separowalnym liniowo rozszerzanie marginesu nie zmienia wprawdzie błędu klasyfikatora na zbiorze trenująym dowolna poprawnie rozdzielająa hiperpłaszzyzna daje zerowy błąd jednak zwiększanie szerokośi marginesu ma na elu maksymalizaję zdolnośi generalizayjnyh modelu. Dla maszyny wektorów podpierająyh poprawne jest następująe twierdzenie [19]: Twierdzenie 1. Rozważmy klasę liniowyh funkji L o jednostkowym wektorze wag oraz zbiór n punktów wylosowanyh zgodnie z dowolnym rozkładem prawdopodobieństwa i zawartyh w sferze o promieniu R o środku w pozątku układu współrzędnyh. Z prawdopodobieństwem 1 δ dowolna hipoteza f L o marginesie nie mniejszym niż γ ma błąd nie większy niż ( f ) 2 n ( 64R 2 γ 2 log enγ 128nR2 log 4R γ 2 + log 4 ) δ (2.2) jeżeli n > 2 ε oraz 64R2 γ 2 < n. Liniowe funkje f L występująe w powyższym twierdzeniu są realizajami hiperpłaszzyzn deyzyjnyh (zwanyh również hipotezami). Parametr ε zdefiniowany jest jako ε = 1 n ln H δ, gdzie H oznaza wymiar Wapnika-Czerwonenkisa [62]. Wielkość ta określa tzw. pojemność dyskryminayjną klasy funkji deyzyjnyh, tzn. przyjmuje wartość równą lizbie punktów w przestrzeni jakie funkje z danej klasy mogą poprawnie rozdzielać. Zwiększanie pojemnośi klasyfikatora liniowego prowadzi zazwyzaj do zmniejszania wartośi błędu obserwowanego w fazie uzenia, pozwala bowiem na poprawne rozdzielanie za pomoą hiperpłaszzyzny oraz większej 21
22 lizby punktów. Z drugiej jednak strony wraz ze wzrostem wymiaru Wapnika-Czerwonenkisa oszaowanie na błąd rzezywisty jest oraz mniej dokładne i oraz trudniej przewidzieć zahowanie modelu dla nowyh danyh. Przy ustalonej wartośi H, zyli przy określonej klasie funkji deyzyjnyh, rozszerzanie marginesu powoduje, że oszaowanie na błąd (2.2) jest oraz dokładniejsze. W elu wyznazenia szerokośi maksymalnego marginesu wygodnie jest przeskalować parametry optymalnej hiperpłaszzyzny wektor wag w i stałą b w taki sposób, aby punkty leżąe najbliżej hiperpłaszzyzny spełniały warunek w,x i + b = 1. Przeskalowanie parametrów nie zmienia postai hiperpłaszzyzny, ponieważ dla dowolnego hiperpłaszzyzna w,x +b = 0 jest równoważna hiperpłaszzyźnie w,x +b = 0. Odległość hiperpłaszzyzny H 1 (na której leżą punkty spełniająe warunek w,x i + b = 1) od pozątku układu współrzędnyh wynosi po przeskalowaniu d 1 = 1 b w. Podobnie hiperpłaszzyzna H 2 (na której rozłożone są punkty, dla któryh prawdziwa jest równość w,x i + b = 1) jest odległa od pozątku układu współrzędnyh o d 2 = 1 b. w Odległość pomiędzy obiema hiperpłaszzyznami, równa szerokośi marginesu, wynosi γ = d 1 d 2 = 2 w. (2.3) Dzięki znajomośi odległośi pomiędzy hiperpłaszzyznami wyznazenie parametrów optymalnej hiperpłaszzyzny można sprowadzić do rozwiązania zadania maksymalizaji szerokośi marginesu (2.3) przy ogranizeniah y i ( w,x i + b) 1, i = 1,...,n. (2.4) Ponieważ rozważany problem jest problemem wypukłym, możliwe jest przekształenie go do zadania programowania nieliniowego, w którym maksymalizaji szerokośi marginesu odpowiada minimalizaja wyrażenia 1 2 w 2. (2.5) Tak zdefiniowany problem optymalizaji w praktye rozwiązuje się stosują funkję Lagrange a. Wprowadzenie współzynników Lagrange a α i,i=1,...,n prowadzi do problemu prymalnego sformułowanego w następująy sposób: L p (w,b, α) = 1 2 w 2 n i=1 22 α i y i ( w,xi + b ) + n i=1 α i. (2.6)
23 Rozwiązanie zadania maksymalizaji marginesu poprzez wprowadzenie funkji Lagrange a pozwala na zastąpienie ogranizeń (2.4) wygodniejszymi oblizeniowo współzynnikami α i. Dodatkowo, o jest szzególnie istotne z punktu widzenia metod jądrowyh, w sformułowaniu zadania optymalizaji przykłady uząe są uwzględniane jedynie poprzez ilozyn skalarny z wektorem wag. Optymalizaja funkji (2.6) jest równoważna znalezieniu punktu siodłowego będąego minimum tej funkji względem w i b oraz maksimum względem α, gdzie α i 0 dla i = 1,...,n. Ponieważ problem poszukiwania maksymalnego marginesu jest zadaniem wypukłym, zastosowanie znajduje twierdzenie Karusha-Kuhna-Tukera [58], na moy którego warunkiem konieznym i wystarzająym optymalnośi dowolnego punktu jest spełnienie warunków Karusha- -Kuhna-Tukera. W przypadku zadania optymalizaji (2.6) na warunki te składają się: zerowanie się pohodnej ząstkowej względem wektora w: L p (w,b, α) w = w zerowanie się pohodnej ząstkowej względem b: spełnienie ogranizeń: L p (w,b, α) b = n i=1 n i=1 y i α i x i = 0, (2.7) α i y i = 0, (2.8) α i (y i ( w,x i + b) 1) = 0, (2.9) α i 0, (2.10) y i ( w,x i + b) 1 0. (2.11) Uwzględnienie warunków (2.7) i (2.8) we wzorze na funkję (2.6) prowadzi do sformułowania problemu dualnego: przy ogranizeniah L d (α) = n i i=1α 1 n 2 α i α j y i y j x i,x j, (2.12) i, j=1 α i 0, i = 1,...n, (2.13) n i=1 y i α i = 0. (2.14) Z wypukłośi zadania wynika, że optima problemów prymalnego i dualnego znajdują się w tym samym punkie siodłowym. W tym miejsu warto zwróić uwagę na dwa fakty uwidazniająe 23
24 się po sformułowaniu problemu dualnego dla zadania maksymalizaji szerokośi marginesu. Z warunku (2.9) wynika, że współzynniki Lagrange a dla punktów leżąyh poza marginesem (dla któryh y i ( w,x i +b) > 1) muszą się zerować, o oznaza, że niezerowe wartośi α i odpowiadają wyłąznie wektorom podpierająym. Drugą interesująą obserwają jest to, że w optymalizowanej funkji, podobnie jak dla problemu prymalnego, dane uwzględnione są jedynie w postai ilozynu skalarnego. Rozwiązanie zadania optymalizaji i wyznazenie wartośi α i w punkie siodłowym pozwala na oblizenie wektora optymalnyh wag w = n i=1 y i α i x i, (2.15) odpowiadająego optymalnej hiperpłaszzyźnie związanej z maksymalnym marginesem. Wartość stałej b można wyznazyć podstawiają wartośi dla dowolnego wektora podpierająego do warunku (2.9), hoiaż jak zasugerowano w [7] rozwiązaniem stabilniejszym numeryznie jest przyjęie średniej wartośi b względem wszystkih wektorów podpierająyh. Dla rozwiązania optymalnego sumowanie we wzorze (2.15) można ogranizyć jedynie do wektorów podpierająyh, ponieważ dla pozostałyh elementów zbioru trenująego współzynniki α i zerują się. Funkja deyzyjna przyjmuje ostateznie postać f (x) = sgn ( α i 0 y i α i x i,x + b ). (2.16) Wynika stąd wspomniana już właśiwość algorytmu SVM tylko te punkty, które leżą na marginesie mają wpływ na postać hiperpłaszzyzny rozdzielająej klasy. Pominięie dowolnyh innyh punktów, nawet wszystkih poza wektorami podpierająymi, nie zmienia postai funkji deyzyjnej. Dodatkowo, lizba wektorów podpierająyh stanowi informaję o złożonośi uzyskanego modelu duża ih lizba może sugerować, że wygenerowany model jest silnie dopasowany do zbioru trenująego i rezultaty jego zastosowania do nowyh danyh mogą być obarzone znaznym błędem Problem nieseparowalny liniowo Problemy separowalne liniowo są w praktye rzadko spotykane, ze względu na sztywne założenia dotyząe wzajemnego położenia obserwaji z poszzególnyh klas. Brak separowalnośi liniowej jest zęsto spowodowany występowaniem pojedynzyh wartośi odstająyh lub położeniem obserwaji wynikająym z niezbyt silnej nieliniowej zależnośi harakteryzująej 24
25 <w,x>+b<0 <w,x>+b=0 1 <w,x>+b>0 Rysunek 2.3: Optymalna (przy ustalonej wartośi parametru C) hiperpłaszzyzna dla problemu nieseparowalnego liniowo dane. W przypadku algorytmu SVM istnieje uogólnienie umożliwiająe rozwiązywanie tego typu problemów. Polega ono na rozluźnieniu ogranizenia (2.4) poprzez wprowadzenie do niego dodatkowyh zmiennyh: y i ( w,x i + b) 1 ξ i, i = 1,...,n, (2.17) gdzie ξ i 0, i = 1,...,n. (2.18) Dla ξ i (0,1) punkt leży wewnątrz marginesu, ale nadal po właśiwej stronie hiperpłaszzyzny rozdzielająej klasy. Dopiero wartośi większe od 1 powodują wystąpienie błędu. Wynika stąd, że suma i ξ i jest górnym ogranizeniem na błąd trenująy klasyfikatora i naturalnym postępowaniem jest uwzględnienie tej sumy w minimalizowanym wyrażeniu 1 2 w 2 +C n i=1 ξ i. (2.19) Nierównośi (2.17) i (2.18) pełnią rolę ogranizeń dla zadania (2.19). Parametr C występująy w minimalizowanym wyrażeniu jest współzynnikiem kary za niespełnienie ogranizeń dotyząyh położenia punktu po właśiwej stronie hiperpłaszzyzny dyskryminująej, a jego wartość jest ustalana przed uruhomieniem algorytmu uzenia klasyfikatora. 25
26 Wprowadzenie zmiennyh ξ i nadal prowadzi do problemu dualnego (2.12) tym razem jednak przy zmienionyh ogranizeniah: n i=1 α i y i = 0, (2.20) 0 α i C, i = 1,...,n. (2.21) Różnią w stosunku do problemu separowalnego liniowo jest ogranizenie (2.21) nałożone na współzynniki α i mająe na elu ogranizanie wpływu pojedynzyh obserwaji na rozwiązanie. Rysunek 2.3 przedstawia przykładowy problem nieseparowalny liniowo wraz z rozwiązaniem dla ustalonego C. Duże wartośi tego parametru odpowiadają wysokiej karze nakładanej na obserwaje leżąe po niewłaśiwej stronie hiperpłaszzyzny deyzyjnej lub wewnątrz marginesu. Nadmierne zwiększanie wartośi C może doprowadzić do sytuaji, w której rozwiązanie będzie tożsame z tym, które uzyskałoby się stosują wersję algorytmu z twardym marginesem. Innym sposobem uwzględnienia nieseparowalnośi jest zdefiniowanie zadania optymalizaji jako [53] przy ogranizeniah 1 2 w 2 νρ + 1 n n i=1 ξ i, (2.22) y i ( w,x i + b) ρ ξ i, i = 1,...,n, (2.23) ξ i 0, i = 1,...,n, (2.24) ρ 0. (2.25) Parametr ν, występująy we wzorze (2.22), przyjmuje wartośi z zakresu (0, 1]. Wartość tego parametru można interpretować jako dolne ogranizenie na stosunek lizby wektorów podpierająyh do rozmiaru próby trenująej i jednoześnie jako górne ogranizenie na stosunek lizby wektorów danyh o niezerowyh wartośiah ξ do wszystkih obserwaji ze zbioru trenująego. Oba sposoby uwzględniania nieseparowalnośi liniowej są sobie równoważne, tzn. rozwiązanie problemów prymalnego i dualnego w algorytmie ν-svm jest równoześnie rozwiązaniem obu problemów w algorytmie C-SVM z parametrem C = 1 ρn [10]. W tym miejsu warto jeszze poświęić hwilę uwagi na problem złożonośi oblizeniowej algorytmu SVM. Zagadnienie wyznazania optymalnej hiperpłaszzyzny dozekało się wielu rozwiązań ze względu na wymagania pamięiowe i oblizeniowe z nim związane. Opis liznyh podejść do tego problemu znaleźć można w pray [7], w której przedstawiona jest również analiza złożonośi różnyh algorytmów, włąznie z przypadkiem analityznego rozwiązania zadania 26
27 optymalizaji parametrów hiperpłaszzyzny. W pray [49] zaproponowana została metoda rozwiązania optymalizaji kwadratowej w algorytmie SVM poprzez jej dekompozyję na szereg małyh problemów programowania kwadratowego, możliwyh do analityznego rozwiązania. Kolejne usprawnienia tej metody umożliwiły rozwiązanie problemu wyznazania optymalnej hiperpłaszzyzny dla problemów o rozmiarah rzędu dziesiątek tysięy obserwaji. Biblioteka LIBSVM [9], obenie jedna z najlepszyh implementaji algorytmu SVM, oparta jest na modyfikaji metody dekompozyji zaproponowanej w [24]. Dla danyh o lizbie obserwaji n i przy założeniu kosztu wyznazenia pojedynzej wartośi jądra na poziomie O ( l ), gdzie l oznaza wymiar przestrzeni danyh, metoda ta harakteryzuje się złożonośią rzędu m iter O ( ln ), (2.26) obarzoną dodatkowo dużą stałą wynikająą z zadania programowania kwadratowego. Dodatkowo lizba iteraji m iter jest nadliniową funkją lizby obserwaji Przekształenie jądrowe Brak liniowej separowalnośi klas zęsto objawia się w bardziej skomplikowany sposób niż poprzez położenie pojedynzyh obserwaji w sąsiedztwie elementów przeiwnej klasy. Nieliniowość występująa w danyh może przybierać różną formę i skalę, najzęśiej jednak uniemożliwia praktyzne stosowanie klasyfikatorów liniowyh, nawet tyh potrafiąyh radzić sobie z łamaniem założeń dotyząyh liniowej separowalnośi. Na rysunku 2.4 pokazany został przykładowy problem, w którym zależność w danyh jest silnie nieliniowa. Obserwaje należąe do jednej z klas tworzą elipsę, wewnątrz której znajdują się elementy z klasy przeiwnej. Zadanie klasyfikaji danyh, w któryh występuje silna zależność nieliniowa, można próbować rozwiązać na dwa sposoby wprowadzają jawnie klasyfikator nieliniowy lub przerzutowują dane do bogatszej przestrzeni, w której zależność pomiędzy obserwajami będzie zależnośią liniową. Za drugim rozwiązaniem przemawiają wspomniane już zalety klasyfikatorów liniowyh łatwa interpretaja modelu i dobra generalizaja problemu. Rzutowanie wektora obserwaji x R p do nowej przestrzeni można zrealizować za pomoą nieliniowej funkji Φ : R p H. (2.27) Przekształenie powinno być tak dobrane, aby uwzględniona została nieliniowa zależność występująa w danyh. Skutkiem jest zazwyzaj większa wymiarowość doelowej przestrzeni eh H 27
28 x 2 x 1 Rysunek 2.4: Punkty należąe do jeden z klas leżą wewnątrz elipsy wyznazonej przez punkty z klasy przeiwnej; linią przerywaną zaznazono nieliniową funkję deyzyjną względem pierwotnej przestrzeni atrybutów. Reguła deyzyjna przyjmuje w efekie postać f (x) = sgn ( α i 0 y i α i Φ(x),Φ(x ) + b ). (2.28) Rzutowanie do przestrzeni o większej lizbie wymiarów pozwala na uwzględnienie nieliniowośi i stosowanie klasyfikatorów liniowyh w bogatszej przestrzeni, umożliwiają rozwiązanie skomplikowanyh problemów klasyfikaji. Z drugiej jednak strony duża wymiarowość zadania powoduje problemy natury oblizeniowej. W przypadku danyh należąyh do wielowymiarowyh przestrzeni i skomplikowanyh przekształeń Φ, jawne rzutowanie nie jest praktyzne. Rozwiązanie tego problemu wykorzystuje fakt, że w algorytmie SVM zarówno wyrażenie (2.12) optymalizowane w dualnym problemie, jak i reguła deyzyjna (2.16), uwzględniają obserwaje ze zbioru danyh jedynie poprzez ilozyn skalarny. Zastąpienie ilozynu skalarnego Φ(x),Φ(x ) funkją k(x,x ) powoduje, że transformaja wektora x na Φ(x) jest ukryta w definiji jądra k [51]. W efekie reguła deyzyjna w nieliniowej maszynie wektorów podpierająyh wygląda następująo: f (x) = sgn ( α i 0 y i α i k(x i,x) + b ). (2.29) Wprowadzenie jądra uwalnia od problemów natury oblizeniowej, ponieważ nie ma potrzeby wyznazania obrazu każdego punktu w przestrzeni H. Wystarzająe jest oblizenie wartośi jądra, o zazwyzaj stanowi koszt dużo mniejszy w porównaniu z wyznazeniem obrazu Φ(x). 28
29 Zastosowanie przekształenia jądrowego pozwala na praę w przestrzeniah o bardzo dużej wymiarowośi, teoretyznie również nieskońzonej. W praktye zastosowanie jądra możliwe jest w każdym algorytmie, w którym zarówno w proesie uzenia, jak i fazie wykorzystania modelu, dane wprowadzane są jedynie poprzez ilozyn skalarny. Przykładem jest nie tylko opisany wześniej algorytm SVM. Istnieje wiele metod, które zostały adaptowane do użyia jądra. Ih przykłady zostaną podane w dalszej zęśi rozdziału Jądro w przestrzeni eh Stosowanie klasyfikatora liniowego pozwala na kontrolę nad złożonośią modelu stanowi on prostą hipotezę, mniej narażoną na nadmierne dopasowanie do danyh ze zbioru używanego w zasie uzenia. Jednoześnie zastosowanie przekształenia jądrowego pozwala w tak kontrolowanym proesie na wzbogaenie zbioru możliwyh do nauzenia funkji deyzyjnyh. Głównym założeniem wprowadzenia przekształenia jądrowego przedstawionego w poprzednim punkie jest przystosowanie algorytmu do operowania na danyh w przestrzeni H poprzez odpowiednio zdefiniowane jądro k. Atrybuty harakteryzująe dane w rozważanyh do tej pory problemah należały do zbioru lizb rzezywistyh. Zastosowanie przekształenia jądrowego usuwa to ogranizenie klasyfikowane dane mogą pohodzić z dowolnej dziedziny, w której wzajemne położenie obserwaji można określić na podstawie wartośi funkji jądrowej. Spostrzeżenie to rozszerza stosowalność klasyfikatorów liniowyh na wszystkie przypadki, w któryh nie można bezpośrednio mówić o reprezentaji wektorowej danyh, możliwe jest natomiast lizbowe określenie wzajemnego położenia rozważanyh obiektów. Przykładem jest zastosowanie metod jądrowyh w analizie tekstu i bioinformatye [3, 6, 31, 34, 55]. W dalszej zęśi rozdziału przedstawione są podstawowe elementy teorii metod jądrowyh, z uwzględnieniem wybranyh właśiwośi jądra. Przedstawione zostały jedynie informaje niezbędne do zrozumienia zasad funkjonowania metod jądrowyh. Czytelnik zainteresowany głębszym poznaniem tej dziedziny powinien sięgnąć po prae [19] i [55] Nieujemnie określone jądro Odpowiedź na pytanie, zy funkja k będąa jądrem reprezentuje ilozyn skalarny w przestrzeni eh, wymaga wprowadzenia kilku definiji. Pierwsza z nih dotyzy maierzy Grama: 29
30 Definija 1. Dla danego zbioru obserwaji {x 1,...,x n } X i funkji k : X X R, maierz K o elementah K i j = k(x i,x j ) (2.30) nazywana jest maierzą Grama funkji k ze względu na {x 1,...,x n } X. Nieujemne jądro zdefiniowane jest następująo: Definija 2. Nieh X będzie zbiorem niepustym. Funkja k określona na X X, która dla wszystkih {x 1,...,x n } X definiuje nieujemną maierz Grama nazywana jest nieujemnym jądrem lub po prostu jądrem. W tym miejsu warto również zdefiniować maierz nieujemnie określoną: Definija 3. Rzezywista symetryzna maierz K n n spełniająa warunek n i j K i j 0 (2.31) i, j=1 dla każdego i R nazywana jest maierzą nieujemnie określoną lub półdodatnio określoną. Równoważna definija mówi, że symetryzna maierz jest nieujemnie określona jeśli wszystkie jej wartośi własne są nieujemne. Nieujemność maierzy w sensie powyższyh definiji implikuje nieujemność na przekątnej oraz symetrię maierzy. Każda symetryzna nieujemnie określona maierz jest maierzą jądrową, tzn. reprezentuje ilozyn skalarny w pewnej przestrzeni. Dla każdego nieujemnie określonego jądra k możliwe jest znalezienie przekształenia Φ do przestrzeni eh H takiej, że k zahowuje się w niej jak ilozyn skalarny. Co więej, możliwe jest skonstruowanie więej niż jednej takiej przestrzeni. Nieh k będzie nieujemnie określonym jądrem na zbiorze X. Przestrzeń eh H zdefiniowana jest jako przestrzeń wszystkih funkji przekształająyh X w R: H = R X = { f f : X R}. Przekształenie Φ do tej przestrzeni zdefiniowane jest jako: Φ : X R X, (2.32) Φ(x) = k(,x). (2.33) Wektor x przekształony zostaje za pomoą Φ w funkję k(,x), dla której jeden z argumentów jest ustalony, a drugi wolny. Dla ustalonyh n N, α i R oraz x 1,...,x n zbiór wszystkih liniowyh kombinaji postai f ( ) = n i=1 30 α i k(,x i ) (2.34)
31 tworzy przestrzeń wektorową. Dla wszystkih funkji postai (2.34) otrzymujemy natomiast k(,x), f H = f (x), (2.35) gdzie, H oznaza ilozyn skalarny w przestrzeni Hilberta. W szzególnośi k(,x 1 ),k(,x 2 ) H = Φ(x 1 ),Φ(x 2 ) H = k(x 1,x 2 ). (2.36) Ze względu na powyższą właśiwość nieujemnie określone jądra są zęsto nazywane reprodukująymi. Istotnym wnioskiem z powyższego wywodu jest to, że jądro k faktyznie wyznaza wartość ilozynu skalarnego w przestrzeni H. Przestrzeń ta nazywana jest przestrzenią Hilberta z reprodukująym jądrem. Jej formalna definija, podana za [55], jest następująa: Definija 4. Nieh X będzie zbiorem niepustym, a H przestrzenią Hilberta funkji f : X R. H nazywana jest przestrzenią Hilberta z reprodukująym jądrem wyposażoną w ilozyn skalarny,, jeśli istnieje funkja k : X X R o następująyh właśiwośiah: 1. k posiada właśiwość reprodukji, tj. f,k(,x) = f (x) dla wszystkih f H, w szzególnośi k(,x 1 ),k(,x 2 ) = k(x 1,x 2 ), 2. k rozpina przestrzeń H. Inny sposób na wyznazenie przestrzeni powiązanej z jądrem k wynika z twierdzenia Merera. Korzystają z wersji twierdzenia pohodząej z [55] zakładamy, że (X, µ) jest skońzoną przestrzenią metryzną, tj. µ(x ). Twierdzenie 2 (Merer). Załóżmy, że k L (X X,µ) jest symetryzną rzezywistą funkją, taką że operator ałkowy T k : L 2 (X,µ) L 2 (X,µ) zdefiniowany jako (T k f )(x) := X k(x,x ) f (x )dµ(x ) (2.37) jest nieujemnie określony, tzn. dla wszystkih f L 2 (X,µ) zahodzi X X k(x,x ) f (x) f (x )dµ(x)dµ(x ) 0. (2.38) Nieh ψ j L 2 (X,µ) będą znormalizowanymi ortogonalnymi funkjami własnymi operatora T k powiązanymi z wartośiami własnymi λ j > 0, uporządkowanymi w sposób nierosnąy. Wówzas 1. λ j l 1, 2. k(x,x ) = j NH λ j ψ j (x)ψ j (x ) zahodzi dla prawie wszystkih x,x. N H N lub N H = (w drugim przypadku szereg jest jednostajnie zbieżny dla prawie wszystkih x,x ). 31
32 Z ostatniego punktu twierdzenia Merera wynika, że k(x,x ) odpowiada ilozynowi skalarnemu w l N H 2, tj. k(x,x ) = Φ(x),Φ(x ) przy przekształeniu Φ : X l N H 2, Φ(x) = ( λ j ψ j (x)) j=1,...,nh. (2.39) Warto zauważyć, że zarówno przekształenie Merera (2.39) jak i przekształenie do przestrzeni Hilberta z reprodukująym jądrem (2.33) oznazane są jako Φ, mimo że wynikowe przestrzenie nie są tożsame. W praktye bowiem ważne jest jedynie to, że obie są przestrzeniami Hilberta, w któryh jądro k reprezentuje ilozyn skalarny. Zgodnie z wnioskiem zaprezentowanym w [55], jeżeli z jądrem k związane są dwa różne przekształenia Φ 1 i Φ 2 do przestrzeni odpowiednio H 1 i H 2, to mimo iż przeważnie prawdą jest, że Φ 1 (x) Φ 2 (x), to jednoześnie prawdziwa jest następująa równość: k(x,x ) = Φ 1 (x),φ 1 (x ) H1 = Φ 2 (x),φ 2 (x ) H2, (2.40) skąd wniosek, że dopóki ogranizamy się do ilozynu skalarnego w przestrzeni eh, przestrzenie możemy traktować jako tożsame Właśiwośi jąder Dwie bardzo istotne właśiwośi jądra symetria i nieujemność zostały przedstawione we wześniejszej zęśi rozdziału. W tym miejsu warto zwróić uwagę na konsekwenje jakie z tyh właśiwośi wynikają. Symetria ma wpływ na złożoność numeryzną algorytmów jądrowyh. Pozwala ona między innymi na zmniejszenie o połowę lizby operaji niezbędnyh do wyznazenia wartośi jądra dla wszystkih par elementów zbioru danyh. Z nieujemnośi jądra wynika wiele dodatkowyh iekawyh właśiwośi. Jeżeli k 1 i k 2 są jądrami to jądrami są również między innymi następująe funkje: k(x 1,x 2 ) = k 1 (x 1,x 2 ) + k 2 (x 1,x 2 ), k(x 1,x 2 ) = k 1 (x 1,x 2 ), dla dowolnyh 0, k(x 1,x 2 ) = k 1 (x 1,x 2 ) k 2 (x 1,x 2 ), k(x 1,x 2 ) = f (x 1 ) f (x 2 ), dla dowolnej funkji f : X R, k(x 1,x 2 ) = x T 1 Bx 2, dla dowolnej symetryznej nieujemnie określonej maierzy B. 32
33 Konsekwenją nieujemnośi jądra jest również możliwość wyznazenia, na podstawie wartośi jądra, odległośi między dwiema obserwajami w przestrzeni H : d(φ(x 1 ),Φ(x 2 )) = Φ(x 1 ) Φ(x 2 ) 2 = Φ(x 1 ),Φ(x 1 ) 2 Φ(x 1 ),Φ(x 2 ) + Φ(x 2 ),Φ(x 2 ) = k(x 1,x 1 ) 2k(x 1,x 2 ) + k(x 2,x 2 ). (2.41) Średniej wartośi obserwaji w danyh przeniesionyh do przestrzeni eh H za pomoą funkji Φ nie da się wyrazić za pomoą jądra i bez znajomośi jawnej postai przekształenia środek iężkośi Φ(x) = 1 n n i=1 Φ(x i ) (2.42) nie jest możliwy do wyznazenia. Brak możliwośi wyrażenia wartośi średniej za pomoą wartośi jądra nie przeszkadza jednak w oblizeniu odległośi dowolnego punktu Φ(x ) od środka iężkośi, a zatem również wyznazeniu warianji danyh w przestrzeni eh przy wykorzystaniu jedynie wartośi jądra: s 2 Φ = 1 n = 1 n = 1 n n i=1 n i=1 n i=1 n ( ) 2 Φ(x i ) Φ(x) ( Φ(x i ),Φ(x i ) 2 n ( k(x i,x i ) 2 n n i ),Φ(x j ) + j=1 Φ(x 1 n n 2 j=1 n i,x j ) + j=1k(x 1 n n ) n 2 k(x j,x k ) j=1 k=1 n = 1 i,x i ) n i=1k(x 2 n n 2 i,x j ) + i=1 j=1k(x 1 n n 3 i=1 = 1 n n i=1k(x i,x i ) 1 n 2 n i=1 n j=1 n k=1 n k=1 k(x j,x k ) ) Φ(x j ),Φ(x k ) n k(x i,x j ). (2.43) j=1 Możliwość wyznazenia odległośi punktu w przestrzeni H od środka iężkośi jest podstawą m.in. jądrowej wersji algorytmu k-średnih. Na zakońzenie warto jeszze wspomnieć o operaji normalizaji w przestrzeni eh do wektora jednostkowego k(x 1,x 2 ) = k(x 1,x 2 ) k(x1,x 1 )k(x 2,x 2 ), (2.44) która ma duże znazenie ze względów numeryznyh [30]. 33
34 z 2 z 3 x 2 x 1 z 1 Rysunek 2.5: Zastosowanie jądra wielomianowego powoduje rzutowanie obserwaji do przestrzeni H, w której elipsa z pierwotnej przestrzeni atrybutów jest hiperpłaszzyzną Przykładowe jądra Najprostszym przykładem jądra jest jednorodne jądro wielomianowe będąe naturalnym uogólnieniem ilozynu skalarnego k(x i,x j ) = x i,x j d, (2.45) w którym stopień d harakteryzuje siłę nieliniowej zależnośi w przestrzeni eh H. Bardziej uniwersalny przykład stanowi niejednorodne jądro wielomianowe k(x i,x j ) = ( x i,x j + ) d, (2.46) dla którego 0. W obu przypadkah d N. Na rysunku 2.5 pokazany został przykład zastosowania jednorodnego jądra wielomianowego o stopniu d = 2 do danyh z przestrzeni atrybutów R 2 (por. rysunek 2.4), o odpowiada rzutowaniu obserwaji do przestrzeni eh R 3. Innym przykładem funkji jądrowej, interesująym ze względu na właśiwośi oraz skutezność w praktyznyh zastosowaniah, jest jądro gaussowskie k(x i,x j ) = exp ( x i x j 2 ) 2σ 2, (2.47) gdzie σ > 0. Dla każdego x i X jądro gaussowskie przyjmuje wartość k(x i,x i ) = 1, skąd wynika, że wektory Φ(x i ) w przestrzeni eh H mają jednostkową długość, o w przypadku innyh jąder wymaga dodatkowej normalizaji (por. wzór (2.44)). W przypadku jądra gaussowskiego 34
35 można zauważyć, że jeżeli σ 0 oraz x i x j dla dowolnyh i j, to maierz jądrowa uzyskana poprzez wyznazenie wartośi jądra (2.47) dla wszystkih par (x i,x j ) jest maierzą nieosobliwą, a o za tym idzie, rzuty n obserwaji Φ(x i ) tworzą n liniowo niezależnyh wektorów. Wynika stąd wniosek, że dla zbioru danyh o nieskońzonej lizbie przykładów zastosowanie jądra gaussowskie może implikować przestrzeń o nieskońzonej lizbie wymiarów, o z kolei może rodzić obawy o zdolnośi generalizayjne modelu utworzonego w takiej przestrzeni. Ponieważ jednak dla wektorów o jednostkowej długośi zahodzi k(x i,x j ) = Φ(x i ),Φ(x j ) = os( (Φ(x i ),Φ(x j ))), (2.48) a dodatkowo wartość k(x i,x j ) 0 dla wszystkih i, j = 1,...,n, to w praktye kąt między każdą parą obserwaji w przestrzeni H jest mniejszy niż 90. Wynika stąd zatem, że zastosowanie jądra gaussowskiego powoduje, że przekształone obserwaje rzutowane są do ogranizonego fragmentu przestrzeni H. Na rysunku 2.6 przedstawiony został przykład zastosowania jądra gaussowskiego w klasyfikatorze SVM. Obserwaje należąe do dwóh klas tworzą dwie zahodząe na siebie spirale (por. rysunek 1.2). Dzięki zastosowaniu jądra gaussowskiego możliwe jest znalezienie hiperpłaszzyzny poprawnie rozdzielająą obie klasy. Innym przykładem funkji zęsto wykorzystywanej w praktye jako jądro jest funkja sigmoidalna k(x i,x j ) = tanh(κ x i,x j + ), (2.49) dla κ > 0 i R. Warto zaznazyć, że funkja (2.49) bywa z powodzeniem stosowana jako jądro, mimo że dla niektóryh zbiorów danyh oraz speyfiznyh wartośi parametrów κ i może ona nie być nieujemnie określona Algorytmy jądrowe We wzesnej fazie rozwoju metod jądrowyh główny naisk kładziony był na tworzenie algorytmów jądrowyh lub adaptaję istniejąyh w sposób taki, aby możliwe było wykorzystanie przekształenia jądrowego. Obenie w entrum uwagi znajduje się problem tworzenia dobryh jąder, a zatem takih, które odpowiadają rzutowaniu danyh w sposób umożliwiająy skutezne stosowanie algorytmu liniowego w przestrzeni eh H. Przykłady zarówno nowyh algorytmów, jak i jądrowyh adaptaji znanyh metod są lizne [45]. Opróz opisanej wześniej maszyny wektorów podpierająyh [5, 63, 62], w dziedzinie 35
36 SVM lassifiation plot Rysunek 2.6: Dane z rysunku 1.2 klasyfikowane przy użyiu algorytmu SVM z jądrem gaussowskim; funkji deyzyjnej z przestrzeni eh H odpowiada obszar o wartośi 0 uzenia z nadzorem uwagę warto zwróić przede wszystkim na jądrową wersję liniowej reguły dyskryminayjnej Fishera [43, 45], klasyfikator oparty na metodzie okna Parzena [11], jądrowy pereptron [27], jądrową metodę najbliższyh sąsiadów [67] zy modyfikaję klasyfikatora bayesowskiego wykorzystująą przekształenie jądrowe [21]. Wykorzystanie metod jądrowyh w uzeniu z nadzorem nie ograniza się jedynie do zadania klasyfikaji, zego dowodzi pomyślne zastosowanie algorytmu SVM również w zadaniu regresji [55]. W przypadku metod uzenia bez nadzoru na uwagę zasługuje przede wszystkim naturalne rozszerzenie analizy składowyh głównyh na przypadek jądrowy [56, 54]. Metody jądrowe znajdują również zastosowanie w analizie skupień [29], w szzególnośi zaś dobrze dopasowane są do zastosowania w metodzie k-średnih [22, 46]. W kolejnyh dwóh punktah przedstawione zostaną dwa algorytmy będąe jądrowymi adaptajami znanyh systemów uząyh się: jądrowa analiza dyskryminayjna Fishera oraz jądrowa analiza składowyh głównyh Jądrowa analiza dyskryminayjna Fishera Tradyyjny algorytm liniowej analizy dyskryminayjnej zaproponowany przez Fishera [25] poszukuje hiperpłaszzyzny dyskryminayjnej prostopadłej do kierunku najlepiej rozdzielająego 36
37 dwie klasy, uwzględniają przy tym zmienność wewnątrz obu klas. Reguła dyskryminayjna reprezentowana jest przez wektor w maksymalizująy wyrażenie gdzie J(w) = wt S B w w T S W w, (2.50) S B = (m 1 m 2 )(m 1 m 2 ) T, (2.51) S W = 2 n k k=1 i=1 (x ki m k )(x ki m k ) T (2.52) są maierzami zmiennośi międzyklasowej i wewnątrzklasowej, k oznaza indeks klasy, n k jej lizność (n = k n k ), natomiast m k = 1 n k n k i=1 x ki (2.53) jest środkiem iężkośi k-tej klasy. Maksymalizaja wyrażenia (2.50) ma na elu znalezienie kierunku w, który maksymalizuje kwadrat odległośi między rzutami środków iężkośi obu klas i dla którego jednoześnie warianja wewnątrzklasowa jest możliwie jak najmniejsza. Zastosowanie przekształenia Φ daje w efekie hiperpłaszzyznę dyskryminująą w przestrzeni eh H. Minimalizowane wyrażenie w nowej przestrzeni ma postać oraz J(w) = wt S Φ B w w T S Φ W w (2.54) S Φ B = (m Φ 1 m Φ 2 )(m Φ 1 m Φ 2 ) T, (2.55) S Φ W = 2 n k k=1 i=1 (Φ(x ki ) m Φ k )(Φ(x ki) m Φ k )T. (2.56) Podobnie jak w przypadku oryginalnej wersji algorytmu, wektor m Φ k k-tej klasy, tym razem jednak w przestrzeni eh H (por. wzór (2.42)). jest środkiem iężkośi Jak łatwo się domyślić, kolejnym krokiem prowadząym do uzyskania jądrowej wersji algorytmu Fishera jest wprowadzenie ilozynu skalarnego pomiędzy danymi wszędzie tam, gdzie jawnie występuje wartość przekształenia Φ. Z właśiwośi przestrzeni Hilberta z reprodukująym jądrem wynika [52], że możliwe jest wyznazenie rozwinięia wektora w postai w = n i=1 α i Φ(x i ) (2.57) (por. wzór (2.34)). Wykorzystują powyższe rozwinięie możemy zapisać w T m Φ k = 1 n k n i=1 n k α i k(x i,x k j ) = α T M k, (2.58) j=1 37
38 gdzie M i k = 1 n k n k k(x i,x j ). (2.59) j=1 Oznazają M = (M 1 M 2 )(M 1 M 2 ) T oraz L = 2 k=1 K k(i 1 k )K T k, gdzie K k jest maierzą jądrową k-tej klasy, zaś 1 k jest maierzą, w której wszystkie komórki mają wartość 1 n k, otrzymujemy: J(α) = αt Mα α T Lα. (2.60) Zadanie maksymalizaji, podobnie jak w przypadku wersji liniowej, można rozwiązać znajdują wektor własny odpowiadająy największej wartośi własnej maierzy L 1 M. Klasyfikaja w przypadku jądrowej wersji algorytmu Fishera polega, podobnie jak w wersji liniowej, na rzutowaniu punktu x o nieznanej etykieie na kierunek w: w,φ(x) = l i=1 α i k(x i,x). (2.61) Badanej obserwaji nadaje się etykietę klasy o bliższym środku iężkośi Jądrowa analiza składowyh głównyh Analiza składowyh głównyh [38] jest tehniką pozwalająą na redukję lizby atrybutów opisująyh wielowymiarowe dane. Redukja ta dokonywana jest poprzez transformaję przestrzeni danyh do nowego układu współrzędnyh, opisanego za pomoą nieskorelowanyh składowyh głównyh, które są liniowymi kombinajami zmiennyh z pierwotnego układu. Ponieważ zazwyzaj niewielka lizba składowyh uwzględnia większość kierunków zróżniowania w obserwowanej próbie, analiza składowyh głównyh jest jedną z podstawowyh metod redukji wymiarowośi danyh. Zadanie znajdowania składowyh głównyh można rozwiązać poprzez dekompozyję maierzy kowarianji na wektory i wartośi własne. Dla zbioru danyh składająego się z n wektorów x i R p entrowanyh względem wartośi średniej ( n i=1 x i = 0) analiza składowyh głównyh polega na diagonalizaji próbkowej maierzy kowarianji Równoważne jest to rozwiązaniu zadania C = 1 n n i=1 x i x T i. (2.62) λv = Cv (2.63) 38
39 dla wartośi własnyh λ i 0 i wektorów własnyh v R p \ {0}. Ponieważ wszystkie wektory własne leżą w podprzestrzeni rozpiętej przez zbiór punktów {x i,...,x n }, to problem (2.63) można zastąpić równoważnym mu problemem λ x i,v = x i,cv i = 1,...,n. (2.64) Wprowadzenie ilozynu skalarnego ponownie otwiera drogę do zastosowania przekształenia jądrowego [56]. Wykorzystują przekształenie Φ otrzymujemy maierz kowarianji w przestrzeni H : C = 1 n dla której problem własny przyjmuje postać n i=1 Φ(x i )Φ(x i ) T, (2.65) λv = Cv, (2.66) gdzie poszukiwanym rozwiązaniem są wartośi własne λ i 0 i odpowiadająe im wektory własne v H \{0}. Podobnie jak w przypadku tradyyjnej analizy składowyh głównyh rozważać można równoważny problem λ Φ(x i ),v = Φ(x i ),Cv i = 1,...,n. (2.67) Dodatkowo, podobnie jak w przypadku jądrowej analizy dyskryminayjnej, można zauważyć, że ze względu na harakter przestrzeni eh H istnieje zestaw współzynników α i taki, że wektor v można rozwinąć jako v = n i=1 α i Φ(x i ). (2.68) Podstawienie rozwinięia (2.68) i maierzy kowarianji (2.65) do problemu własnego (2.67) prowadzi do następująego układu: nλkα = K 2 α, (2.69) gdzie α jest wektorem kolumnowym o wartośiah α i,...,α n, zaś K jest maierzą jądrową. Z symetryznośi maierzy jądrowej K wynika, że jej wektory własne leżą w podprzestrzeni rozpiętej przez obrazy obserwaji w przestrzeni H, skąd wynika dalej, że wektor α, będąy rozwiązaniem układu (2.69), spełnia również równanie nλα = Kα. (2.70) Ponieważ maierz jądrowa K jest nieujemnie określona, wię wszystkie jej wartośi własne są nieujemne. Rozwiązanie zadania analizy składowyh głównyh sprowadza się wię do problemu diagonalizaji maierzy jądrowej K. 39
40 Ostatezne rozwiązanie problemu analizy składowyh głównyh wymaga jeszze normalizaji wektorów rozwiązań o niezerowyh wartośiah własnyh do długośi jednostkowej v k,v k = 1, (2.71) o również można wyrazić korzystają jedynie z wartośi jądra w następująy sposób: v 2 = 1 = n i=1 n α k i α k j Φ(x i ),Φ(x j ) = j=1 n i=1 n α k i α k jk i, j = α T Kα = nλα T α. (2.72) j=1 Poszzególne składowe nie są w przypadku jądrowej analizy głównyh dostępne bezpośrednio, o wynika z braku znajomośi obrazu Φ(x) obserwaji w przestrzeni H. Bez trudu można jednak wyznazyć rzut dowolnego punktu x na k-ty wektor własny: v k,φ(x ) = n i=1 α k i k(x,x i ). (2.73) W odróżnieniu od tradyyjnego sformułowania, lizba składowyh głównyh w sformułowaniu jądrowym nie jest ogranizona pierwotną lizbą wymiarów rozważanego problemu, lez zależy od zastosowanego jądra i w skrajnym przypadku może być równa lizbie obserwaji, przez o trudno w takim przypadku mówić o redukji wymiarowośi. Warto jednak zwróić uwagę, że zastosowanie właśiwego przekształenia jądrowego prowadzi do sytuaji, w której lizba składowyh głównyh w przestrzeni eh H uwzględniająyh większość warianji w danyh jest mniejsza niż w pierwotnej przestrzeni. Z drugiej strony, w sytuaji kiedy zastosowanie tradyyjnej analizy składowyh głównyh jest utrudnione ze względu na silnie nieliniowy harakter danyh, użyie wersji jądrowej może umożliwić stosowanie liniowyh algorytmów dla danyh rzutowanyh na nowe składowe. Na rysunku 2.7 pokazano przykład użyia jądrowej analizy składowyh głównyh. Jądrowa analiza składowyh głównyh znajduje zastosowanie m.in w redukji wymiarowośi poprzedzająej użyie liniowej maszyny wektorów podpierająyh [59]. Analiza w przestrzeni H pozwala nie tylko uhwyić nieliniowy harakter zależnośi w danyh, ale jednoześnie ograniza nadmierny rozrost wymiarowośi tej przestrzeni. W innym przykładowym zastosowaniu, składowe główne służą do rzutowania punktów, na któryh następnie wykonywane jest grupowanie k-średnih [39]. Wraają jeszze do rysunku 2.7 warto zwróić uwagę na fakt, że jądrowa analiza składowyh głównyh może służyć jako pomo przy wyborze jądra dla rozważanego zbioru danyh. Grafizna prezentaja położenia obserwaji w przestrzeni wyznazonej przez trzy składowe główne o największyh wartośiah własnyh pozwala na zgrubną oenę poprawnośi doboru przekształenia. 40
41 3. składowa 2. składowa 3. składowa 2. składowa y x 1. składowa 1. składowa Rysunek 2.7: Przykładowe zastosowanie analizy składowyh głównyh; po lewej: dane w oryginalnej przestrzeni, po środku: rzut obserwaji na 3 pierwsze składowe w przestrzeni wyznazonej przez zastosowanie jądra wielomianowego, po prawej: rzut obserwaji na 3 pierwsze składowe w przestrzeni wyznazonej przez zastosowanie jądra gaussowskiego 2.4. Podsumowanie Zastosowanie przekształenia jądrowego pozwala uwzględnić zależnośi w danyh, które w tradyyjnym podejśiu wymagają bezpośredniego rzutowania obserwaji do nowej przestrzeni za pomoą nieliniowej funkji przekształająej. Głównym atutem jądrowyh metod klasyfikaji jest możliwość stosowania w przestrzeni eh H algorytmów liniowyh. Możliwość uwzględnienia skomplikowanyh nieliniowyh zależnośi w danyh, wynikająa z zastosowania jądra, łązy się z zaletami algorytmów budowy klasyfikatorów liniowyh. Oznaza to stabilność rozwiązania, wysoką zdolność do generalizaji i stosunkowo łatwą interpretaję modelu. Metody jądrowe nie ogranizają się jedynie do zadania klasyfikaji. Zastosowanie przekształenia jądrowego możliwe jest wszędzie tam, gdzie wszystkie operaje na danyh można prowadzić za pomoą ilozynu skalarnego. Oznaza to możliwość zastosowania jądra między innymi w analizie skupień zy analizie składowyh głównyh.
42 3. Oena przekształenia jądrowego Poprzedni rozdział dotyzył teoretyznyh podstaw metod jądrowyh oraz prezentował przykładowe algorytmy wykorzystująe przekształenie jądrowe. Najważniejszym wnioskiem z dotyhzasowyh rozważań jest obserwaja, że zastosowanie jądra prowadzi do uzyskania nieliniowej reguły deyzyjnej w przestrzeni atrybutów, której odpowiada liniowy klasyfikator w przestrzeni eh H. Do rozstrzygnięia pozostaje jednak kwestia w jaki sposób dokonywać wyboru konkretnej postai jądra oraz zym należy kierować się dobierają parametry przekształenia jądrowego Dobór parametrów przekształenia jądrowego Właśiwy dobór przekształenia jądrowego i jego parametrów prowadzi do uzyskania lepszyh rezultatów podzas stosowania algorytmów jądrowyh. Wiąże się to z ustalaniem doelowej przestrzeni eh H w taki sposób, aby analizowane dane posiadały w niej odpowiednie właśiwośi harakterystyzne dla problemu i stosowanego do jego rozwiązania algorytmu. W przypadku zadania klasyfikaji elem doboru parametrów jądra jest przeniesienie obserwaji do przestrzeni eh H, w której dane są liniowo separowalne Wpływ parametrów jądra na jakość klasyfikaji Mówią o właśiwym doborze parametrów przekształenia nie można zapomnieć o problemie nadmiernego dopasowania do próbki danyh. Celem doboru wartośi parametrów jądra stosowanego w problemah indukyjnyh jest właśiwe oddanie harakteru rozkładu, z którego pohodzi dostępna próbka danyh. Zbyt silne dostrojenie się do obserwaji występująyh w zbiorze używanym do budowy modelu może prowadzić do uzyskania klasyfikatora nie uwzględniająego ogólnego harakteru danyh, przez o niezdolnego do generalizaji na inne próbki danyh pohodząe z tego samego źródła. Na rysunku 3.1 przedstawione zostały reguły deyzyjne wygenerowane przez maszynę wektorów podpierająyh, w której zastosowano jądro gaussowskie o różnyh wartośiah parametru σ. Przedstawiony problem klasyfikaji danyh w dwuwymiarowej przestrzeni nie jest se- 42
43 4 SVM lassifiation plot 4 4 SVM lassifiation plot SVM lassifiation plot (a) σ 5e + 07 (b) σ 0.1 () σ 2e 04 Rysunek 3.1: Reguła deyzyjna wygenerowana przez algorytm SVM dla różnyh wartośi parametru σ jądra gaussowskiego parowalny liniowo, o sugeruje elowość zastosowania przekształenia jądrowego. Na rysunku zaznazono punkty z obu klas (trójkąty i okręgi) wraz z wygenerowaną regułą deyzyjną (obszar o wartośi 0) oraz wektorami podpierająymi (wypełnione figury). Pierwsza reguła wygenerowana została za pomoą jądra o zbyt dużej wartośi parametru σ, w efekie zego nieliniowa zależność w danyh nie została w odpowiednim stopniu uwzględniona podzas transformaji do przestrzeni eh. W drugim przypadku odpowiedni dobór parametru jądra pozwolił na wygenerowanie reguły dyskryminayjnej właśiwie oddająej harakter nieliniowośi występująej w danyh. W trzeiej sytuaji zbyt mała wartość σ spowodowała, że algorytm SVM wygenerował model nadmiernie dopasowany do rozważanej próbki, harakteryzująy się dodatkowo znazną lizbą wektorów podpierająyh, reprezentująyh w tym przypadku także pojedynze odstająe obserwaje. Przykład z rysunku 3.1 obrazuje typową sytuaję z jaką spotyka się, wykorzystują metody jądrowe. Nawet niewielkie zmiany wartośi parametrów przekształenia jądrowego mogą znaząo zmienić właśiwośi klasyfikatora, a w efekie również jego jakość. Przykład ten pokazuje również, że różnie w jakośi modelu mogą być niezależne od algorytmu budowy klasyfikatora i jego ustawień parametry algorytmu budowy maszyny wektorów podpierająyh są identyzne w każdej z trzeh sytuaji z rysunku Optymalizaja parametrów przekształenia jądrowego Waga problemu odpowiedniego doboru parametrów przekształenia jądrowego ma odzwieriedlenie w lizbie pra poświęonyh temu zagadnieniu w ostatnih kilkunastu latah. W kontekśie algorytmu budowy maszyny wektorów podpierająyh warto zwróić uwagę m. in. na opra- 43
44 owania [12], [18] i [23]. W praah tyh jednozesnemu strojeniu podlegają zarówno parametry jądra, jak i stosowanego do klasyfikaji algorytmu SVM. Jak jednak sugerują autorzy [33], wybór optymalnyh ustawień do konstrukji maszyny wektorów podpierająyh można potraktować niezależnie od postai jądra oraz jego parametrów, o pozwala postawić tezę, że optymalizaja przekształenia jądrowego może być wykonywana niezależnie od algorytmu klasyfikaji, w którym jest później ono stosowane. Jak pokazano w dalszyh rozdziałah, w przypadku badanyh w pray problemów, zmiana parametrów algorytmu SVM wpływa na poziom błędu klasyfikaji, nie powoduje jednak istotnej zmiany położenia minimum błędu Metody oeny przekształenia jądrowego znane z literatury Dyskusja dotyząa sposobów optymalizaji jądra przedstawiona została w punkie 1.2. Podstawowy wniosek, jaki z niej wypływa, jest następująy: niezależnie od przyjętego shematu optymalizaji parametrów przekształenia jądrowego niezbędne jest określenie sposobu lizbowej oeny jakośi jądra. W literaturze tematu wyraźnie wybijają się dwie metody oeny przekształenia jądrowego. Pierwsza z nih opiera się na prostym i efektownym wniosku, że najlepsze jądro to takie, które osiąga tylko dwie wartośi: jedną, gdy obserwaje ze zbioru danyh należą do tej samej klasy, zaś drugą w przeiwnym przypadku. Celem optymalizaji parametrów jest takie ih dopasowanie, aby uzyskane jądro możliwie dobrze odwzorowywało to idealne przekształenie jądrowe. Miara jakośi zaproponowana w [20] do wyznazania stopnia przybliżenia się do tego ideału bliskośi obu jąder dopasowanie jądro-klasa (ang. Kernel Target Alignement, KTA) stosowana jest jako funkja elu w wielu różnyh podejśiah do optymalizaji jądra, m.in. [36], [40] zy [50]. Druga metoda oeny jądra, a właśiwie rodzina metod, wykorzystuje miarę jakośi inspirowaną algorytmem dyskryminaji liniowej Fishera, którą jest stosunek warianji międzyklasowej i wewnątrzklasowej względem parametrów przekształenia (por. wzór (2.54)). Podejśie to zastosowano m.in. w [65] i [66] oraz, w nieo zmienionej formie, w [47]. Szzegóły dotyząe obu podejść przedstawione zostaną w dalszyh punktah, w któryh dla ułatwienia zapisu przyjęte zostało założenie, zgodnie z którym dane należąe do dwóh klas o etykietah ze zbioru Y = {C 1,C 2 } = {1, 1} oraz liznośiah odpowiednio n 1 i n 2, ułożone są w kolejnośi klas. Założenie to nie ma wpływu na uzyskane w dalszej zęśi wyniki, pozwoli jednak na zahowanie spójnej formy we wzorah prezentująyh poszzególne miary jakośi jądra. Powyższe założenie dotyząe uszeregowania obserwaji w zbiorze danyh implikuje na- 44
45 stępująą postać maierzy jądrowej K = K 11 K 12 K 21 K 22 (3.1) w której K 11 i K 22 są maierzami jądrowymi o wymiarah n 1 n 1 i n 2 n 2 odpowiednio. Z kolei K 12 i K 21 mają odpowiednio wymiary n 1 n 2 i n 2 n 1, przy zym K 12 = K T Dopasowanie jądro-klasa Zaproponowane w [20] i rozwijane dalej w [36] dopasowanie jądro-klasa mierzy stopień podobieństwa maierzy jądrowej do maierzy klas K y = yy T, która, z punktu widzenia zadania klasyfikaji, stanowi optymalną 1 maierz jądrową. Badanie stopnia dopasowania dwóh maierzy można interpretować jako pomiar wartośi kosinusa kąta pomiędzy dwuwymiarowymi wektorami reprezentująymi te maierze: A(K 1,K 2 ) = K 1,K 2 F K1,K 1 F K 2,K 2 F, (3.2) gdzie, F oznaza ilozyn Frobeniusa zdefiniowany następująo: X,Y F = n i=1 n X i j Y i j. (3.3) j=1 Dopasowanie jądro-klasa stanowi szzególny przypadek oeny dopasowania. Jedną z maierzy we wzorze (3.2) zastępuje się maierzą klas, otrzymują tym samym ogólny wzór na wartość miary KTA: A(K,y) = K,K y F K,K F K y,k y F. (3.4) Komórki maierzy klas przyjmują tylko dwie wartośi, zależnie od tego zy odpowiadająe im (i j) obserwaje ze zbioru danyh mają tę samą zy przeiwną klasę. W pray [20] przyjęto K y = y i y j, skąd wynika 1 jeśli y i = y j, K y = 1 jeśli y i y j. (3.5) Maierz klas K y warto jednak zaprojektować w zależnośi od użytego jądra w taki sposób, aby wartośi maierzy K y dla przypadków y i = y j i y i y j odpowiadały wartośiom możliwie dobrze 1 Optymalną w sensie błędu na zbiorze uząym zdolność generalizaji jaką ehuje się klasyfikator oparty na maierzy K y może być daleka od optymalnej. 45
46 reprezentująym jądro dla obserwaji należąyh odpowiednio do tej samej i do przeiwnej klasy. Dla przykładu, dla jądra gaussowskiego (2.47) rozsądnym wyborem jest maierz klas o wartośiah 1 i 0, odpowiednio dla y i = y j i y i y j. Wartość miary KTA zależy silnie od rozkładu liznośi obserwaji z poszzególnyh klas. Aby zniwelować ten wpływ, w pray [35] zaproponowano poprawkę uwzględniająą nierówno- (i j) mierność rozkładu klas poprzez korekję wartośi maierzy klas K y = y i y j przyjmują: 1 y n i = 1 jeśli y i = 1, (3.6) n 1 2 jeśli y i = 1. Dla rozróżnienia podstawowej i skorygowanej wersji dopasowania w dalszej zęśi tekstu używane będą oznazenia odpowiednio KTA i KTA or Zastosowanie do optymalizaji Pierwotnie wskaźnik KTA zastosowany został w tzw. shemaie transdukyjnym uzenia. W odróżnieniu od uzenia indukyjnego, w którym na podstawie obserwowanej próbki danyh wnioskuje się na temat postai rozkładu, z którego dane pohodzą, w uzeniu transdukyjnym obserwowany zbiór służy do wnioskowania o wartośiah atrybutu wyjśiowego w innej, z góry zadanej próbie. W pray [20] zaproponowany został następująy shemat wykorzystania miary KTA do optymalizaji przekształenia jądrowego. Maierz reprezentująa optymalizowane jądro przyjmuje postać gdzie K i = v i v T i ˆK = i α i K i = α i v i v T i, (3.7) i jest i-tą maierzą bazową opartą na i-tym wektorze własnym v i maierzy jądrowej K. Ze względu na zastosowanie shematu transdukyjnego K reprezentuje maierz jądrową połązonyh prób (o znanyh i nieznanyh etykietah klas). Celem optymalizaji jest znalezienie wartośi α maksymalizująyh dopasowanie pomiędzy maierzą jądrową ˆK i maierzą klas K y. Powyższe wyniki wykorzystane są w shemaie transdukyjnym, w którym wykonywana jest dekompozyja bazowej maierzy jądrowej i wyznazane są wektory własne v i. Dekompozyja wykonywana jest dla ałego zbioru danyh, tzn. zarówno zęśi trenująej jak i zęśi testowej o nieznanyh etykietah klasy. Koniezność wykorzystania shematu transdukyjnego narzua algorytm aktualizaji jądra, w którym do maierzy jądrowej w kolejnyh iterajah dodawana jest maierz K i = v i v T i oparta na i-tym wektorze własnym z wagą odpowiadająą war- 46
47 tośi dopasowania A(K i,k y ). Fakt zastosowania dopasowania jądro-klasa do optymalizaji jądra w shemaie transdukyjnym nie wykluza jednak jego wykorzystania w uzeniu indukyjnym Właśiwośi miary jakośi jądra Zakres możliwyh wartośi wskaźnika KTA zależny jest od konstrukji maierzy klas. W przypadku maierzy K y o wartośiah ze zbioru { 1,1} jest to przedział [ 1,1]. Wartośi bliskie jednośi świadzą o wysokim stopniu dopasowania maierzy jądrowej do maierzy klas. Wysoka wartość miary (3.4) oznaza duże podobieństwo maierzy jądrowej do maierzy klas, z zego można wnioskować, że zastosowane przekształenie jądrowe umożliwia dobry podział klas w przestrzeni eh H. Dopasowanie jądro-klasa harakteryzuje się złożonośią O ( n 2) do wyznazenia wartośi miary wystarzająe jest jedno przejśie po komórkah obu maierzy. Wydaje się jednak, że elowe byłoby ogranizenie oblizeń do jednego z trójkątów maierzy jądrowej, o pozwoliłoby nie tylko na zmniejszenie lizby operaji niezbędnyh do wyznazenia wartośi wskaźnika KTA, ale także ustrzegło przed podwójnym uwzględnianiem wartośi jądra dla każdej pary obserwaji. Analiza dopasowania jądro-klasa przeprowadzona w [47] wskazuje, że maierz jądrowa umożliwiająa dobrą klasyfikaję nie zawsze harakteryzuje się wysoką wartośią wskaźnika KTA. W szzególnośi, gdy dane w przestrzeni eh H są znaznie oddalone od pozątku układu współrzędnyh, a klasy są równolizne, zahodzi A(K, y) = 0 nawet wtedy, gdy obserwaje z obu klas są separowalne liniowo Oena oparta na regule Fishera Drugim popularnym podejśiem do szaowania jakośi jądra, zastosowanym m.in. w praah [65, 66], jest oena oparta na pomiarze separowalnośi liniowej obserwaji należąyh do dwóh klas. Wykorzystywane jest w tym elu wyrażenie optymalizowane w algorytmie Fishera w elu znalezienia hiperpłaszzyzny najlepiej rozdzielająej dane należąe do dwóh klas. W [66] jako funkji elu w zadaniu optymalizaji użyto kryterium: J = tr(s B) tr(s W ), (3.8) gdzie operator tr() wyznaza ślad maierzy. Maierze S B i S W reprezentują maierze zmiennośi odpowiednio międzyklasowej i wewnątrzklasowej w przestrzeni eh H (por. wzór (2.54)). 47
48 W [65] jako miara jakośi jądra użyte zostało również następująe kryterium: J = tr(s 1 W S B). (3.9) Zgodnie z intuiją, w przypadku obu powyższyh wyrażeń ih maksymalizaja względem parametrów jądra oznaza zwiększanie separowalnośi liniowej w przestrzeni eh H Zastosowanie do optymalizaji W [66] do optymalizaji wyrażenia (3.8) wykorzystana została metoda gradientu prostego. Optymalna wartość parametru posłużyła do konstrukji jądra, które następnie wykorzystano do budowy modeli za pomoą kilku różnyh algorytmów klasyfikaji: maszyny wektorów podpierająyh oraz jądrowyh wersji analizy dyskryminayjnej Fishera i metody k-najbliższyh sąsiadów. Autorzy rozważają dwa rodzaje jąder: gaussowskie (2.47) i wielomianowe (2.45). Uzyskane wyniki wskazują na poprawę jakośi klasyfikaji po zastosowaniu optymalizaji, raportowany jest nawet kilkuproentowy spadek wartośi błędu dla niektóryh rozważanyh zbiorów danyh. Metodyka testowania zastosowana przez autorów powoduje jednak, że wyniki mogą być obiążone i trudne do powtórzenia. Dla każdego ze zbiorów danyh wykorzystanyh w [66] dokonany został podział na zbiory trenująy i testowy oraz na osobną zęść wykorzystywaną do tworzenia bazowego jądra podlegająego optymalizaji. Zastosowane podejśie nie gwarantuje wykorzystania wszystkih obserwaji na każdym z etapów budowy i ewaluaji modelu. Dodatkowym problemem metodologiznym jest normalizaja danyh wykonywana jednoześnie na zbiorah trenująym i testowym, o zaburza prawidłową symulaję proesu uzenia i oeny modelu. W [65] maksymalizowano wyrażenie (3.9), podobnie jak w [66] wykorzystują metodę gradientu prostego. Klasyfikaja za pomoą jądrowej wersji metody k-najbliższyh sąsiadów oparta była na jądrze gaussowskim (2.47), skonstruowanym na podstawie wyznazonego optymalnego parametru. Dodatkowe wyniki, prezentująe zmienność błędu i wartośi miar opartyh na obu kryteriah (3.8) i (3.9), sugerują ih potenjalną stosowalność jako funkji elu obserwuje się wzrost wartośi miary jakośi przy spadku wartośi błędu. Wysokie wartośi błędów uzyskane za pomoą wybranej metody klasyfikaji nie pozwalają jednak jednoznaznie oenić przydatnośi miary opartej na regule Fishera w zadaniu optymalizaji jądra Właśiwośi miary jakośi jądra Obie miary jakośi (3.8) i (3.9) harakteryzują się, podobnie jak KTA, złożonośią O ( n 2). Do ih wyznazenia wystarzająe jest jednokrotne przejśie przez komórki maierzy jądrowej. Od- 48
49 powiednie wartośi zmiennośi można wyznazyć następująo: tr(s B ) = 1 { } n 1 ( Φ (1) Φ) T ( Φ (1) Φ) + n 2 ( Φ (2) Φ) T ( Φ (2) Φ) n = 1 [ 1 T n n1 1 T ] 1 n 1 K n 1 n n 2 K 22 1 n 2 1T n K1 n (3.10) n2 tr(s W ) = 1 } n{ (Φ(x i ) Φ (1) ) T (Φ(x i ) Φ (1) ) + (Φ(x i ) Φ (2) ) T (Φ(x i ) Φ (2) ) i C 1 i C 2 { } = 1 tr(k) 1 T 1 n 1 K 11 0 n 1 n n 1 0 n 2 K 22 (3.11) gdzie Φ i Φ (k) oznazają środek iężkośi odpowiednio ałego zbioru danyh i obserwaji należąyh do k-tej klasy, zaś 1 n jest wektorem o długośi n, którego wszystkie współrzędne mają wartość Modyfikaja oeny opartej na regule Fishera W pray [47] zaproponowana została oena oparta pośrednio na regule Fishera. Główna modyfikaja polega na zastąpieniu badania warianji w kierunku między klasami odległośią pomiędzy środkami ih iężkośi. Miara FSM (od ang. Feature Spae-based Kernel Matrix Evaluation Measure) zdefiniowana jest jako gdzie oraz σ w = FSM(K,y) = i C1 Φ(x i ) Φ (1),e 2 n 1 1 σ w Φ (1) Φ (2), (3.12) + e = Φ (1) Φ (2) Φ (1) Φ (2) i C2 Φ(x i ) Φ (2),e 2 n 2 1 (3.13) (3.14) jest wektorem jednostkowym o kierunku wyznazonym przez prostą łąząą środki iężkośi obu klas (oznazone symbolami Φ (1) i Φ (2) ). Do oeny przekształenia jądrowego stosowany jest wskaźnik błędu postai: FSMerr(K,y) = który pozwala utrzymywać wartość oeny jądra w przedziale [0,1). FSM(K,y)2 1 + FSM(K,y) 2, (3.15) 49
50 Zastosowanie do optymalizaji Eksperymenty przedstawione w [47] polegały na wyznazeniu maierzy jądrowyh dla kilku zestawów danyh przy użyiu różnyh typów jądra (wielomianowe, gaussowskie i sigmoidalne). Na podstawie maierzy wygenerowano modele liniowe stosują w tym elu algorytm SVM, a następnie wyznazono wartośi FSMerr i KTA. Parametry jąder wyznazone zostały automatyznie w zasie tworzenia modelu możliwość taką daje wykorzystana przez autorów biblioteka LIBSVM. Zaprezentowane wyniki nie pozwalają w istoie wyiągnąć wniosków dotyząyh stosowalnośi miary FSMerr jako funkji elu w optymalizaji. Przedstawione rezultaty pokazują głównie, że, nawet przy dużyh zmianah jakośi modelu, wartośi miary zmieniają się nieznaznie. Wprawdzie opisane w [47] eksperymenty wskazują na podążanie zmian wartośi FSMerr za kierunkiem zmian błędu klasyfikaji, jednak przyjęta metodologia nie skłania do uznania wyższośi (o sugerują autorzy) miary FSMerr nad KTA Właśiwośi miary jakośi jądra Wyznazenie wartośi miary FSMerr wymaga jednokrotnego przejśia po maierzy jądrowej, o oznaza złożoność O ( n 2). FSMerr przyjmuje wartośi większe lub równe zeru, przy zym niska wartość wskaźnika oznaza wyższą jakość maierzy K. Mimo iż zastosowanie tej miary pozwala uwolnić się od problemu położenia danyh w przestrzeni eh H, przedstawiona miara może nie radzić sobie w przypadku, gdy rozkłady w obu klasah harakteryzują się różnymi maierzami kowarianji. Na rysunku 3.2 przedstawiono trzy różne rozkłady dla przypadku dwóh klas w przestrzeni dwuwymiarowej. Jak widać dla dwóh pierwszyh rozkładów wartość FSMerr pozwala poprawnie oenić jakość jądra. W trzeim przypadku, w którym określenie prostej rozdzielająej klasy jest trywialne, wysoka wartość FSMerr dyskwalifikuje uzyskane jądro. Warto zwróić uwagę, że wprowadzenie do miary FSM odległośi pomiędzy środkami iężkośi obu klas może przynieść jeszze gorsze skutki w sytuaji, w której postać obu maierzy kowarianji powoduje, że odinek łąząy środki iężkośi nie pozwala na wyznazenie kierunku najlepiej rozdzielająego klasy. Dokładniejsza analiza miary FSMerr pozwala zauważyć jeszze jedną niepokojąą właśiwość tego wskaźnika, która objawia się przy stosowaniu go do oeny jądra gaussowskiego. Wraz z dążeniem wartośi parametru σ do zera maierz jądrowa zbliża się do maierzy jednostkowej. Zdefiniowane w [47] wielkośi pomonize redukują się wówzas do A = a i = n 1 1, B = C = b i = i = 0 oraz D = d i = n 1 2. Przekształenie FSMerr do postai, w której miara wy- 50
51 FSMerr FSMerr FSMerr Rysunek 3.2: Wartość miary FSMerr dla danyh pohodząyh z różnyh rozkładów: dwa pierwsze przypadki oeniane są poprawnie (odpowiednio niski i wysoki błąd FSMerr), w trzeim przypadku wysoka wartość błędu sugeruje brak separowalnośi liniowej rażona jest za pomoą tyh wielkośi prowadzi do uzyskania następująego wzoru na wartość wskaźnika: FSMerr(K, y) = n 1 i=1 (b i a i + A B) 2 (n1 1)(A + D B C) + n 2 i=n 1 +1 ( i d i + D C) 2 2 (n2 1)(A + D B C). (3.16) 2 Jak łatwo zauważyć, dla maierzy jednostkowej otrzymuje się FSMerr= 0. W przypadku danyh, w któryh obserwaje nie są unikalne, maierz jądrowa nie jest maierzą jednostkową i powyższa właśiwość nie jest prawdziwa. Nie zmienia to jednak ogólnego wniosku, że wartość FSMerr zależy wówzas od lizby obserwaji w poszzególnyh klasah oraz od lizby powtarzająyh się wektorów danyh Podsumowanie Przedstawione w niniejszym rozdziale miary jakośi jądra posiadają właśiwośi umożliwiająe ih stosowanie w proesie optymalizaji. Przesłanki płynąe z teoretyznej ih analizy sugerują również, mimo wykazanyh wad, posiadanie przez nie własnośi pozwalająyh na poprawną oenę jakośi przekształenia jądrowego. Nakłady oblizeniowe poniesione na wyznazenie wartośi omawianyh miar są minimalne, tzn. do wyznazenia wartośi każdej z nih wystarzająe jest jednokrotne przejśie po wartośiah maierzy jądrowej. Wyniki zaprezentowane w praah [20, 36, 47, 65, 66] sugerują wysoką efektywność poszzególnyh metod użytyh 51
52 w połązeniu z zadaniem klasyfikaji. Przedstawione rezultaty nie są jednak porównywalne, ponieważ metodyka eksperymentów różni się znaznie, zarówno w kontekśie danyh użytyh w badaniah, jak również pod względem zastosowanyh algorytmów klasyfikaji. W kolejnym rozdziale zaprezentowana zostanie próba zastosowania opisywanyh miar jakośi w jednorodnym shemaie eksperymentalnym z użyiem metodologii pozwalająej na bezpośrednie porównanie przydatnośi każdej z metod w zadaniu optymalizaji parametrów przekształenia jądrowego.
53 4. Klasyfikaja z użyiem optymalizowanyh jąder Zaprezentowane w poprzednim rozdziale miary jakośi przekształenia jądrowego w oryginalnyh praah weryfikowane były za pomoą shematów eksperymentalnyh wykorzystująyh odmienne metody optymalizaji i porównująyh jakość modeli zbudowanyh za pomoą różnyh algorytmów klasyfikaji. Rzetelne porównanie jakośi przedstawionyh miar jakośi przy tak niejednorodnej metodologii eksperymentów jest w praktye niemożliwe. W niniejszym rozdziale przedstawione zostały wyniki porównania miar jakośi opartego na ujednolionej metodologii pozwalająej na bezpośrednie porównanie ih efektywnośi w warunkah identyznyh ze względu na zbiory danyh, metodę optymalizaji oraz algorytm klasyfikaji Metodyka eksperymentów Weryfikaja stosowalnośi poszzególnyh miar jakośi wykonana została przy użyiu wspólnego dla wszystkih miar shematu. Wykorzystano w nim dane pohodząe z repozytorium UCI [26], które składały się na 13 rozważanyh problemów klasyfikaji binarnej. Dla każdego z zadań klasyfikaji w pierwszej fazie przeprowadzona została optymalizaja parametru jądra, w której jako funkje elu wykorzystywano kolejno wszystkie przedstawione miary jakośi przekształenia jądrowego. W elu zapewnienia identyznyh warunków, punkt startowy dla optymalizaji był identyzny dla każdej z miar. Pozątkowa wartość parametru jądra była wybierana losowo z rozkładem jednostajnym z przedziału, w jakim optymalizowany był parametr danego jądra. Jądra o optymalnyh parametrah, wyznazonyh przy zastosowaniu poszzególnyh miar jakośi, wykorzystywane były następnie do budowy klasyfikatora za pomoą algorytmu SVM. Dla tak uzyskanyh modeli wyznazony został błąd klasyfikaji: { } i ŷ i y i e = 100, (4.1) n gdzie ŷ i i y i są odpowiednio przewidywaną i faktyzną etykietą klasy dla i-tej obserwaji, zaś n jest lizbą wszystkih obserwaji. Dodatkowo, wyznazony został zrównoważony błąd klasyfi- 53
54 kaji: ( { (1) i ŷ i y (1) } i { i ŷ (2) i y (2) } ) i e = n (1) + n (2) 50, (4.2) gdzie górny indeks odpowiada jednej z dwóh klas, do której należą obserwaję. Błąd zrównoważony jest bardziej miarodajny niż zwykły błąd w przypadku silnie nierównomiernego rozkładu liznośi klas. Do wyznazenia wartośi błędów uzyskiwanyh modeli wykorzystana została proedura 10-krotnej walidaji krzyżowej. Rozważany zbiór danyh dzielony był w sposób losowy na 10 podzbiorów, z któryh każdy kolejno pozostawiany był do wykorzystania jako próba testowa, a pozostałe 9 podzbiorów służyło razem jako zbiór trenująy do budowy modelu. Wyniki predykji na wszystkih 10 zbiorah testowyh służyły następnie do wyznazenia wartośi błędów (4.1) i (4.2). Dla zwiększenia powtarzalnośi uzyskanyh rezultatów proedura walidaji krzyżowej powtórzona została 5 razy, a wartośi błędów zostały uśrednione. Obie fazy optymalizaji i klasyfikaji dla każdej z miar wykonywane były na identyznym podziale zbioru danyh. Wszystkie wartośi błędów, zarówno dla klasyfikaji binarnej jak i wielowartośiowej, raportowane w dalszej zęśi pray są wyznazone na podstawie powyższej proedury. Zastosowany shemat umożliwił bezpośrednie porównanie jakośi modeli uzyskanyh przy użyiu jąder optymalizowanyh poszzególnymi miarami. W elu oeny ogólnej stosowalnośi miary jakośi jądra porównane zostały również przebiegi zmiennośi błędu klasyfikaji i wartośi miary w funkji parametrów jądra. Pozwala to na dokładniejszą analizę zahowania się wskaźników, umożliwiają obserwaję wartośi poszzególnyh metod nie tylko w punktah optymalnyh, ale w ałym zakresie wartośi optymalizowanego parametru. Metoda optymalizaji W kontekśie porównywania właśiwośi poszzególnyh miar jakośi jądra bezwzględna efektywność metody optymalizaji nie jest kluzowa, dlatego w pray zdeydowano się na zastosowanie gotowej implementaji. Do optymalizaji parametrów przekształenia jądrowego wykorzystana została metoda optymalizaji kierunkowej zaimplementowana w środowisku R [60] na podstawie algorytmu zaproponowanego w [8]. Implementaja ta, dostępna z poziomu funkji optim, oparta jest na interpolaji wielomianowej badanej funkji [44]. W dalszej zęśi rozdziału przedstawione zostaną szzegółowo zakresy zmiennośi parametrów poszzególnyh jąder. W tym miejsu warto jednak wiedzieć, że różnie pomiędzy minimalną i maksymalną wartośią parametru sięgają kilku rzędów wielkośi. Z tego względu 54
55 w badaniu optymalizowane były logarytmy wartośi parametru, dzięki zemu krok aktualizaji w algorytmie optymalizaji był bardziej łagodny, o z kolei przekładało się na szybszą zbieżność i większą dokładność wyznazenia rozwiązania. Algorytm klasyfikaji Do weryfikaji jakośi jądra o optymalnyh parametrah w zadaniu klasyfikaji wykorzystany został algorytm budowy maszyny wektorów podpierająyh. Algorytm ten, przedstawiony szerzej w rozdziale 2, jest obenie najpopularniejszym z wykorzystywanyh w dziedzinie klasyfikatorów jądrowyh [28]. Implementaja wykorzystana w eksperymentah oparta została o bibliotekę LIBSVM [9], w której zastosowano modyfikaję algorytmu SMO (od ang. Sequential Minimal Optimization) [24]. Jest to metoda dekompozyji problemu programowania kwadratowego występująego podzas wyznazania optymalnej hiperpłaszzyzny w trakie uzenia maszyny wektorów podpierająyh. Polega ona na jednozesnej analizie tylko dwóh obserwaji, o pozwala na analityzne rozwiązania zadania. Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) ν = 0.2 ν = 0.3 ν = 0.4 ν = 0.5 Błąd klasyfikaji (%) ν = 0.2 ν = 0.3 ν = 0.4 ν = 0.5 1e 03 1e 01 1e+01 1e+03 1e 04 1e 02 1e+00 1e+02 σ Udział wektorów podpierająyh Udział wektorów podpierająyh e 03 1e 01 1e+01 1e+03 1e 04 1e 02 1e+00 1e+02 σ (a) Liver (b) Vehile: Saab Bus Rysunek 4.1: Błąd klasyfikaji i udział wektorów podpierająyh dla różnyh wartośi ν Zastosowanie algorytmu SVM wymaga określenia parametrów budowy modelu. W eksperymentah wykorzystana została wersja algorytmu ν-svm z miękkim marginesem i funkją kary sterowaną za pomoą parametru ν (2.22). Zgodnie z uwagami zawartymi w rozdziale 2, parametr ten wpływa na lizbę wektorów podpierająyh, a o za tym idzie, na zdolność generalizaji jaką ehować się będzie wygenerowany model i jak wspomniano w tymże rozdziale może być interpretowany jako górne ogranizenie na udział obserwaji przekrazająyh ba- 55
56 Jądro wielomianowe (d=3) Jądro sigmoidalne Błąd klasyfikaji (%) ν = 0.2 ν = 0.3 ν = 0.4 ν = 0.5 1e 04 1e 02 1e+00 1e Udział wektorów podpierająyh Błąd klasyfikaji (%) ν = 0.2 ν = 0.3 ν = 0.4 ν = 0.5 Udział wektorów podpierająyh e 04 1e 02 1e+00 1e (a) Vehile: Opel Bus (b) Balane-Sale: L R Rysunek 4.2: Błąd klasyfikaji i udział wektorów podpierająyh dla różnyh wartośi ν rierę marginesu i jednoześnie dolne ogranizenie na udział wektorów podpierająyh w ałym zbiorze trenująym. Ogranizenie ryzyka nadmiernego dopasowania do danyh uzyskuje się zatem, między innymi, ogranizają lizbę wektorów podpierająyh w modelu [55]. Na rysunkah 4.1 i 4.2 przedstawiono zmiany wartośi błędu klasyfikaji oraz udziału wektorów podpierająyh w ałym zbiorze trenująym dla przykładowyh modeli uzyskanyh za pomoą algorytmu SVM. Przebiegi przedstawiono w funkji parametrów jądra dla różnyh wartośi parametru ν. Jak widać na wykresah, wartość parametru ν wpływa przede wszystkim na dynamikę zmian błędu klasyfikaji względem wartośi parametru jądra. Jego wpływ na położenie minimum jest niewielki, ma natomiast istotne znazenie dla bezwzględnej wartośi błędu. Eksperymenty wykonane w [13, 14] z użyiem danyh oraz miar jakośi identyznyh z rozważanymi w pray pokazują, że dla wartośi ν [0.1, 0.6] wartośi błędu i błędu zrównoważonego zmieniają się w ogranizonym zakresie, nie zmienia się natomiast wzajemna jakość wyników pomiędzy poszzególnymi miarami. Dopiero dla wartośi ν > 0.6 uszeregowanie miar względem jakośi uzyskiwanyh przy ih stosowaniu modeli zmienia się, jednak wraz z nim obserwować można istotny wzrost wartośi błędu, o oznaza że parametr ν znajduje się już w zakresie zbyt wysokih wartośi. Do eksperymentów wybrana została wartość ν = 0.3, dla której lizba wektorów podpierająyh w modelu jest ogranizona od dołu do 30% wszystkih obserwaji biorąyh udział w zasie uzenia. W przypadku danyh Balane-Sale przyjęto ν = 0.2 (a o za tym idzie, ogra- 56
57 nizono od dołu lizbę wektorów podpierająyh do 20%), ponieważ niewielka lizba obserwaji jednej z trzeh klas uniemożliwiałaby znalezienie optymalnej hiperpłaszzyzny z o najmniej trzydziestoproentowym udziałem wektorów podpierająyh. Dane wykorzystane w eksperymentah Do eksperymentów wybranyh zostało 5 zbiorów danyh pohodząyh z bazy danyh UCI. Dane te wybrane zostały w taki sposób, aby różniły się między sobą rozmiarem (lizbą obserwaji), złożonośią (lizbą atrybutów) oraz stopniem trudnośi problemu klasyfikaji z nimi związanego np. dla danyh Balane-Sale znane są proste reguły umożliwiająe rozróżnienie poszzególnyh klas, natomiast dla zbioru Vehile niektóre klasy są bardzo trudne do poprawnego zaetykietowania. Dane o wielowartośiowym zbiorze etykiet zostały zdekomponowane na zestawy problemów binarnyh według shematu każdy z każdym. Dla k klas daje to k(k 1) 2 różnyh par kategorii stanowiąyh osobne zadania klasyfikaji. Dla każdej z par klas wyznazony został zbiór zawierająy obserwaje należąe do tyh kategorii, stanowiąy dane do budowy klasyfikatora za pomoą algorytmu SVM. Obserwaja o nieznanej etykieie klasyfikowana była przez każdą z par do jednej z kategorii odpowiadająyh danemu zadaniu binarnemu. Ostateznie obserwaji nadawana była etykieta tej z klas, do której modele klasyfikowały ją najzęśiej. W przypadku równej maksymalnej lizby głosów dla kilku kategorii, końowa etykieta była losowana spośród tyh najzęśiej wygrywająyh klas. Dla każdego z zaprezentowanyh dalej zbiorów danyh wygenerowane zostały wykresy pokazująe średni błąd klasyfikaji (w ramah 10-krotnej walidaji krzyżowej) w funkji wartośi parametru jądra. Przedstawione rysunki zawierają przebiegi dla jądra gaussowskiego (parametr σ), jąder wielomianowyh o stopniah d = 2 i d = 3 (parametr ) oraz jądra sigmoidalnego (parametr ). Wisonsin Breast Caner Zbiór danyh Wisonsin Breast Caner pohodzi z Uniwersytetu Wisonsin-Madison [42] i dotyzy analizy parametrów jąder komórkowyh obenyh w obrazah pohodząyh z biopsji. Składa się on z 699 obserwaji opisanyh za pomoą wartośi 10 atrybutów rzezywistolizbowyh oraz zaopatrzonyh w etykietę kategorii. Obserwaje podzielone są na 2 klasy harakteryzująe rodzaj rozpoznanego nowotworu: 444 (65.1%) obserwaje należąe do klasy Benign (łagodny) i 239 (34.9%) należąyh do klasy Malignant (złośliwy). Z oryginalnego zbioru danyh 57
58 usunięty został atrybut id, nieistotny z punktu widzenia klasyfikaji. Dodatkowo zbiór został ogranizony o 16 obserwaji zawierająyh braki danyh. Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) 1e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e Rysunek 4.3: Błąd klasyfikaji dla zbioru Wisonsin Breast Caner dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Pima Indians Diabetes Zbiór danyh Pima Indians Diabetes pohodzi z Amerykańskiego Towarzystwa Diabetologiznego. Składa się on z 768 obserwaji zawierająyh wyniki badań dotyząyh pajentek z plemienia Indian Pima. Każda z obserwaji w zbiorze danyh posiada etykietę reprezentująą występowanie ukrzyy (positive) 268 (34.8%) obserwaji lub jej brak (negative) 500 (65.2%) obserwaji. Dane opisane są za pomoą 9 atrybutów o wartośiah rzezywistyh. Johns Hopkins University Ionosphere Dane pohodzą z wyników obserwaji radarowyh wolnyh elektronów w jonosferze. 17 zespolonyh wartośi reprezentująyh sygnał odbierany przez antenę tworzy zbiór danyh o 34 atrybutah (każdy odpowiada zęśi rzezywistej lub urojonej sygnału). Obserwaje należą do jednej z dwóh klas. Obserwaji dobryh, dla któryh wykryto strukturę w jonosferze, występuje 225 (64.1%), obserwaji złyh, dla któryh sygnał jest przepuszzany przez jonosferę, występuje 126 (35.9%). Ze zbioru danyh usunięty został pierwszy atrybut, który dla każdej obserwaji przyjmuje wartość 0. 58
59 Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) Błąd Błąd zrównoważony Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 1e 05 1e 03 1e 01 1e+01 1e+03 σ Błąd klasyfikaji (%) Jądro wielomianowe (d=3) Błąd klasyfikaji (%) Jądro sigmoidalne 1e 05 1e 03 1e 01 1e+01 1e Rysunek 4.4: Błąd klasyfikaji dla zbioru Pima Indians Diabetes dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) Błąd Błąd klasyfikaji (%) Błąd zrównoważony 1e 03 1e 01 1e+01 1e+03 1e 05 1e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) Jądro sigmoidalne Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e Rysunek 4.5: Błąd klasyfikaji dla zbioru Ionosphere dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego BUPA liver disorders Zbiór danyh BUPA liver disorders dotyzy badania występowania zaburzeń funkjonowania wątroby w grupie 345 mężzyzn. Obserwaje, opisane za pomoą 6 atrybutów dotyząyh wyników badania krwi oraz ilośi spożywanego alkoholu, należą do jednej z dwóh kategorii o liznośiah odpowiednio 145 (42%) i 200 (58%). 59
60 Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) 1e 03 1e 01 1e+01 1e+03 1e 05 1e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) Jądro sigmoidalne Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e Rysunek 4.6: Błąd klasyfikaji dla zbioru Liver dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Balane-Sale Dane pohodząe z [37] modelują wyniki eksperymentu psyhologiznego. Każda z 625 obserwaji należy do jednej z trzeh klas: L 288 (46.08%), R 288 (46.08%) lub B 49 (7.84%). Dane opisane są za pomoą 4 atrybutów: left-distane, left-weight, right-distane i right-weight. Etykieta klasy zależy od wartośi stosunku ilozynów left-distane*left-weight oraz right-distane*right-weight. Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) 1e 03 1e 01 1e+01 1e+03 1e 05 1e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) Jądro sigmoidalne Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e Rysunek 4.7: Błąd klasyfikaji dla zbioru Balane-Sale (B R) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego 60
61 Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Rysunek 4.8: Błąd klasyfikaji dla zbioru Balane-Sale (L B) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) Błąd Błąd zrównoważony Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e Rysunek 4.9: Błąd klasyfikaji dla zbioru Balane-Sale (L R) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Vehile Zbiór danyh pohodzi z Instytutu Turinga w Glasgow. Obserwaje reprezentują pojazdy samohodowe opisane za pomoą atrybutów związanyh z ih kształtem widzianym z różnyh kątów. Obiekty (Opel, Saab, Bus i Van) zostały dobrane w taki sposób, aby rozróżnienie pomiędzy gru- 61
62 Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) Błąd Błąd zrównoważony Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e Rysunek 4.10: Błąd klasyfikaji dla zbioru Vehile (Bus Van) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) Błąd Błąd zrównoważony Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Rysunek 4.11: Błąd klasyfikaji dla zbioru Vehile (Opel Bus) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego pą pojazdów osobowyh a pojazdami iężarowymi było łatwe, natomiast klasyfikaja w grupah była trudna. Dane opisane są za pomoą 18 atrybutów ałkowitolizbowyh. Obserwaje (846) należą do jednej z 4 klas: Opel 212 (25.06%), Saab 217 (25.65%), Bus 218 (25.77%), Van 199 (23.52%). 62
63 Jądro gaussowskie Jądro wielomianowe (d=2) Błąd klasyfikaji (%) Błąd Błąd zrównoważony Błąd klasyfikaji (%) Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne 1e 05 1e 03 1e 01 1e+01 1e Rysunek 4.12: Błąd klasyfikaji dla zbioru Vehile (Opel Saab) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Rysunek 4.13: Błąd klasyfikaji dla zbioru Vehile (Opel Van) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego 4.2. Zastosowanie miar jakośi jądra w proesie optymalizaji W dalszej zęśi rozdziału przedstawione zostały wyniki klasyfikaji wybranyh zbiorów danyh przy użyiu modeli zbudowanyh na podstawie przekształeń jądrowyh, któryh parametry wyznazono podzas optymalizaji wykorzystująej jako funkję elu opisane wześniej miary jakośi jądra. Eksperymenty wykonane zostały dla 4 rodzajów jądra: gaussowskiego (2.47), 63
64 Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Rysunek 4.14: Błąd klasyfikaji dla zbioru Vehile (Saab Bus) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego Błąd klasyfikaji (%) Błąd Błąd zrównoważony Jądro gaussowskie Błąd klasyfikaji (%) Jądro wielomianowe (d=2) Błąd klasyfikaji (%) e 03 1e 01 1e+01 1e+03 σ Jądro wielomianowe (d=3) 1e 05 1e 03 1e 01 1e+01 1e+03 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e+03 Jądro sigmoidalne Rysunek 4.15: Błąd klasyfikaji dla zbioru Vehile (Saab Van) dla różnyh wartośi parametrów σ jądra gaussowskiego, jąder wielomianowyh d = 2 i d = 3 oraz jądra sigmoidalnego wielomianowego o stopniah d = 2 i d = 3 (2.46) oraz sigmoidalnego (2.49). Dla jąder tyh optymalizowano odpowiednio: parametr σ jądra gaussowskiego w przedziale [10 2,10 4 ], parametr obu wielomianów w przedziale [10 8,10 4 ] oraz parametr jądra sigmoidalnego w przedziale [ 10 2,10 2 ]. Wybrane przedziały zawierają wartośi poszzególnyh parametrów odpowiadająe minimom błędu dla wszystkih zadań klasyfikaji (por. rysunki ). Jak wspomniano wześniej w niniejszym rozdziale, w zęśi eksperymentalnej optymalizowane były logarytmy 64
65 parametrów, poza przypadkiem jądra sigmoidalnego, dla którego taki sposób optymalizaji nie jest bezpośrednio możliwy w zadanym przedziale parametru Wyniki klasyfikaji na podstawie zoptymalizowanyh jąder Jądro gaussowskie Jakość modeli uzyskanyh podzas optymalizaji jądra gaussowskiego rozważanymi miarami jakośi, mierzona za pomoą wartośi błędu klasyfikaji oraz zrównoważonego błędu klasyfikaji, przedstawiona została w tabeli 4.1. Raportowane średnie wielkośi błędów uzupełnione zostały o odpowiadająe wartośi odhylenia standardowego. W przypadku danyh o wielu kategoriah doelowyh w nawiasie podano etykiety klas dla problemów binarnyh. Tabela 4.1: Błąd klasyfikaji dla jądra gaussowskiego Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr KTA KTA or Fisher FSMerr Breast Caner 4.34 ± ± ± ± ± ± ± ±2.18 Pima Diabetes ± ± ± ± ± ± ± ±4.38 Ionosphere 5.36 ± ± ± ± ± ± ± ±4.21 Liver ± ± ± ± ± ± ± ±2.84 Balane-Sale (B R) 5.03 ± ± ± ± ± ± ± ±4.23 Balane-Sale (L B) 4.93 ± ± ± ± ± ± ± ±8.04 Balane-Sale (L R) 2.08 ± ± ± ± ± ± ± ±0.00 Vehile (Bus Van) 2.62 ± ± ± ± ± ± ± ±7.08 Vehile (Opel Bus) 1.77 ± ± ± ± ± ± ± ±0.00 Vehile (Opel Saab) ± ± ± ± ± ± ± ±0.00 Vehile (Opel Van) 5.01 ± ± ± ± ± ± ± ±0.70 Vehile (Saab Bus) 1.47 ± ± ± ± ± ± ± ±0.32 Vehile (Saab Van) 3.92 ± ± ± ± ± ± ± ±0.64 Minimalne wartośi błędów dla poszzególnyh zadań klasyfikaji zostały wyróżnione pogrubieniem. Warto zauważyć, że dla jądra gaussowskiego odpowiadają one w większośi przypadków minimalnym wartośiom błędów odzytanym z rysunków Dla większośi zadań najlepsze rezultaty daje klasyfikator oparty o jądro z parametrami wyznazonymi przy użyiu miary KTA lub jej poprawki KTA or uwzględniająej nierównomierny rozkład klas w zbiorze danyh. Ponieważ silna nierównomierność występuje jedynie w kontekśie dwóh zadań dla zbioru Balane-Sale, wartośi błędów dla obu miar są w większośi przypadków zbliżone. Wspomniane dwa zadania binarne są jednak szzególnie interesująe, ponieważ modele uzyskane na podstawie miary z poprawką dla przypadków nierównomiernego rozkładu klas harakteryzują się dla tyh zadań szzególnie niską jakośią. Obie miary nie są również w stanie 65
66 Tabela 4.2: Optymalne wartośi parametrów dla jądra gaussowskiego KTA KTA or Fisher FSMerr Breast Caner 1.59e+00±1.24e e+00±1.31e e+03±3.60e e+00±6.28e+00 Pima Diabetes 1.53e+00±8.00e e+00±8.10e e+03±6.87e e+00±8.16e+00 Ionosphere 2.62e+00±1.16e e+00±1.29e e+00±1.28e e+00±6.08e+00 Liver 7.99e-02±4.68e e-01±1.50e e+00±4.53e e-02±3.63e-02 Balane-Sale (B R) 3.18e+00±1.07e e-02±4.10e e+03±3.28e e-02±3.55e-02 Balane-Sale (L B) 3.18e+00±9.91e e-01±5.95e e+03±2.98e e-02±3.35e-02 Balane-Sale (L R) 1.04e+00±1.07e e+00±1.07e e+03±6.39e e-02±3.27e-02 Vehile (Bus Van) 2.99e-01±1.15e e-01±6.91e e+03±3.14e e-01±5.95e-02 Vehile (Opel Bus) 1.50e+00±8.88e e+00±9.16e e+00±1.55e e-02±3.34e-02 Vehile (Opel Saab) 5.53e-02±4.01e e-02±3.96e e+00±5.33e e-02±3.72e-02 Vehile (Opel Van) 1.81e+00±1.12e e+00±1.13e e+01±3.43e e-02±3.97e-02 Vehile (Saab Bus) 1.46e+00±8.41e e+00±8.56e e+00±1.55e e-02±3.37e-02 Vehile (Saab Van) 1.75e+00±1.04e e+00±1.04e e+01±5.45e e-02±4.24e-02 poprawnie oenić jądra gaussowskiego w przypadku klasyfikaji Opel Saab ze zbioru Vehile. W pozostałyh przypadkah, dla któryh obie miary oparte na dopasowaniu maierzy nie uzyskują najlepszego wyniku, jakość modeli uzyskanyh za ih pomoą nie odbiega znaznie od tyh, które harakteryzują się najmniejszym błędem. Zastosowanie miary jakośi opartej na regule Fishera skutkuje w kilku przypadkah uzyskaniem modelu o niskim błędzie klasyfikaji, a w 3 przypadkah (2 dla błędu zrównoważonego) najlepszego spośród uzyskanyh dla poszzególnyh zadań klasyfikaji. W szzególnośi dla problemu Opel Saab (dane Vehile) miara oparta na regule Fishera jako jedyna pozwoliła uzyskać klasyfikator o jakośi zbliżonej do maksymalnej (por. rysunek 4.12). Użyie miary FSMerr powoduje dalszy spadek jakośi uzyskiwanyh modeli. W przypadku tej metody, jedynie dla 4 z 13 zadań klasyfikaji udało się uzyskać błąd o wartośi zbliżonej do tej, którą uzyskuje się stosują najlepsze modele. W tabeli 4.2 przedstawiono optymalne, z punktu widzenia poszzególnyh miar, wartośi parametru σ uzyskane dla zadań binarnyh. W przypadku obu wariantów dopasowania jądro-klasa można mówić porównują z wykresami błędów dla poszzególnyh zadań o odpowiednih właśiwośiah tyh miar, uwidazniająyh się poprawnym odwzorowaniem otozenia minimum błędu. Jedynie dla danyh Vehile i zadania Opel Saab odwzorowanie to jest niewłaśiwe i optymalne wartośi miary znajdują się poza obszarem błędu. W przypadku miary opartej na regule Fishera oraz FSMerr widać wyraźnie, że w wielu przypadkah optymalne wartośi 66
67 znajdują się w okoliah ogranizeń zadania optymalizaji. Pierwsza z miar preferuje górną granię (10 4 ), druga zaś zęsto ma swoje optimum bliżej dolnego krańa przedziału (10 2 ). Tabela 4.3: Wartośi miar jakośi dla jądra gaussowskiego KTA KTA or Fisher FSMerr Breast Caner 5.96e-01 ±6.00e e-01 ±6.00e e+00 ±1.70e e-01 ±5.00e-03 Pima Diabetes 2.01e-01 ±8.00e e-02 ±3.00e e-02 ±3.00e e-01 ±1.00e-02 Ionosphere 3.33e-01 ±9.00e e-01 ±6.00e e-02 ±3.00e e-01 ±1.20e-02 Liver 5.80e-02 ±8.00e e-02 ±1.00e e-02 ±2.00e e-02 ±7.00e-03 Balane-Sale (B R) 5.17e-01 ±1.80e e-02 ±1.00e e-02 ±2.00e e-03 ±5.70e-02 Balane-Sale (L B) 5.17e-01 ±1.90e e-02 ±1.00e e-02 ±2.00e e-02 ±8.40e-02 Balane-Sale (L R) 2.45e-01 ±4.00e e-01 ±4.00e e-01 ±6.00e e+00 ±0.00e+00 Vehile (Bus Van) 1.83e-01 ±1.90e e-01 ±1.90e e-01 ±4.00e e-01 ±3.70e-02 Vehile (Opel Bus) 2.14e-01 ±4.00e e-01 ±5.00e e-02 ±4.00e e+00 ±0.00e+00 Vehile (Opel Saab) 5.10e-02 ±0.00e e-02 ±0.00e e-03 ±0.00e e+00 ±0.00e+00 Vehile (Opel Van) 2.29e-01 ±6.00e e-01 ±6.00e e-01 ±9.00e e+00 ±0.00e+00 Vehile (Saab Bus) 2.02e-01 ±5.00e e-01 ±5.00e e-02 ±4.00e e+00 ±0.00e+00 Vehile (Saab Van) 2.16e-01 ±7.00e e-01 ±7.00e e-01 ±9.00e e+00 ±0.00e+00 Tabela 4.3 zawiera wartośi rozważanyh miar odpowiadająe optymalnym wartośiom parametru σ. Dopasowanie jądro-klasa, mimo generowania jąder dająyh dobre wyniki klasyfikaji, nie osiąga w żadnym z przypadków wartośi bliskih maksimum (KTA = 1). Z kolei miara FSMerr, zwłaszza dla zbioru Vehile, harakteryzuje się wartośiami równymi lub bliskimi zera (optymalna wartość miary), mimo bardzo słabyh rezultatów klasyfikaji opartej na optymalizowanym za jej pomoą jądrze. Warto również zwróić uwagę na fakt, że wysoka wartość odhylenia standardowego, obserwowanego w tabeli 4.2 dla niektóryh zadań klasyfikaji, nie wpływa na duży rozrzut odpowiadająyh wartośi miar jakośi. Świadzy to o stosunkowo płaskih obszarah przyiągania optimum w przypadku obu wariantów dopasowania jądro-klasa. Ustalenie wartośi parametru ν = 0.3 (ν = 0.2 dla zbioru Balane-Sale) w algorytmie SVM ogranizało od dołu lizbę wektorów podpierająyh do o najmniej 30% (dla Balane-Sale odpowiednio 20%) lizby wszystkih obserwaji biorąyh udział w budowie modelu. Na rysunku 4.16 przedstawione zostały wykresy pudełkowe udziału wektorów podpierająyh w zbiorze trenująym dla modeli wygenerowanyh na podstawie wartośi parametru σ, optymalnyh z punktu widzenia poszzególnyh miar jakośi. Brzegi pudełka wyznazają wartośi pierwszego i trzeiego kwartyla, wrysowana w pudełko linia odpowiada medianie, zaś wąsy oddalone są o półtora odstępu międzykwartylowego od brzegów pudełka. 67
68 W przypadku obu wariantów dopasowania jądro-klasa widać wyraźnie, że w zadaniah z którymi miary te nie poradziły sobie poprawnie, modele są nadmiernie rozbudowane większość obserwaji stanowi wektory podpierająe. Objaw ten powtarza się również dla miary FSMerr, w której przypadku dla wielu modeli ały zbiór trenująy ma wpływ na postać hiperpłaszzyzny rozdzielająej klasy. W sytuajah tyh, optymalne z punktu widzenia miar jakośi wartośi parametrów prowadzą do uzyskania jąder, w któryh przypadku trudno o znalezienie hiperpłaszzyzny poprawnie rozdzielająej obie klasy. W efekie koniezne jest uwzględnienie praktyznie ałego zbioru danyh w elu ustalenia parametrów hiperpłaszzyzny, a o za tym idzie budowa modelu silnie dopasowanego do danyh trenująyh. Końowym efektem jest wysoki błąd na zbiorze testowym. KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.16: Udział wektorów podpierająyh dla jądra gaussowskiego Dla zastosowania omawianyh miar jakośi jako funkji elu przy optymalizaji parametrów jądra, opróz końowej jakośi zbudowanyh modeli, bardzo istotnym parametrem jest szybkość zbieżnośi proesu poszukiwania optimum. Na rysunku 4.17 przedstawiona została lizba oblizeń funkji elu niezbędna do znalezienia optymalnyh wartośi parametrów. Podobnie jak w przypadku błędu klasyfikaji, najlepsze wyniki osiągają miary KTA i KTA or. Lizba oblizeń funkji konieznyh do osiągnięia maksimum przeważnie nie przekraza 10. Zdeydowanie bardziej zasohłonna jest optymalizaja z wykorzystaniem pozostałyh dwóh miar, zwłaszza 68
69 opartej na regule Fishera, dla której potrzeba było w wielu przypadkah kilkudziesięiu iteraji aby odnaleźć poszukiwane optimum. KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.17: Lizba oblizeń funkji elu dla jądra gaussowskiego Dla uzyskania pełnego porównania rozważanyh miar jakośi wykonany został dodatkowo eksperyment polegająy na zastosowaniu modeli o optymalnyh wartośiah jądra w klasyfikaji wielowartośiowej. Wykorzystany został w tym elu omówiony w punkie 4.1 shemat każdy z każdym. Klasyfikaja wielowartośiowa wykonana została, podobnie jak w przypadku zadań binarnyh, w ramah proedury 10-krotnej walidaji krzyżowej, powtórzonej pięiokrotnie. Wyniki klasyfikaji zebrane zostały w tabeli 4.4, w której podano średni błąd wraz z odhyleniem standardowym, a w nawiasie proent przypadków, w któryh koniezne było losowanie etykiety. Najlepsze rezultaty uzyskiwane są przy zastosowaniu miary KTA (Balane-Sale) i jej poprawki (Vehile). Widać jednak, że tylko pierwsza z miar harakteryzuje się wysoką jakośią w obu rozważanyh zadaniah klasyfikaji wielowartośiowej. Poprawka miary KTA, podobnie jak w przypadku problemów binarnyh, nie poradziła sobie ze zbiorem Balane-Sale. Podobna sytuaja występuje w przypadku miary fisherowskiej, która daje stosunkowo dobre wyniki tylko dla zbioru Vehile. Warto jednak zwróić uwagę na wysoki odsetek losowań dla tyh danyh oraz wysoką warianję błędów. Wykorzystanie miary FSMerr skutkuje błędami klasyfikaji na poziomie wielokrotnie większym od uzyskiwanyh dla pozostałyh miar. 69
70 Tabela 4.4: Błąd klasyfikaji wielowartośiowej dla jądra gaussowskiego KTA KTA or Fisher FSMerr Balane-Sale 8.60 ±0.96 (1.82%) ±1.09 (1.88%) ±8.67 (14.31%) ±18.44 (0.96%) Vehile ±0.75 (2.32%) ±0.73 (2.39%) ±3.17 (13.01%) ±1.41 (37.94%) Spośród rozważanyh wskaźników jakośi do najlepszyh wyników, zarówno pod względem błędu klasyfikaji jak i złożonośi generowanyh modeli oraz szybkośi zbieżnośi, prowadzi stosowanie miary KTA, dla której można mówić o możliwośi praktyznego wykorzystania w rozważanym shemaie optymalizaji i klasyfikaji. Co zaskakująe, poprawka dopasowania jądro-klasa uwzględniająa nierównomierność rozkładu klas daje w przypadku takih zadań zdeydowanie gorsze rezultaty. Nie powinna natomiast dziwić tendenja miary FSMerr do preferowania niskih wartośi parametru σ. O możliwośi występowania takiego zahowania mowa była już w rozdziale 3, przy okazji omawiania właśiwośi tego wskaźnika (por. wzór (3.16)). Obserwaja optymalnyh wartośi uzyskiwanyh podzas stosowania miary opartej na regule Fishera pokazuje jednak, że również i ten wskaźnik wykazuje tendenję do lepszego oeniania skrajnyh, tym razem wysokih wartośi parametru σ. Przyzyna tej właśiwośi leży w zbliżaniu się wszystkih elementów maierzy jądrowej do wartośi 1 wraz ze wzrostem σ, w której to sytuaji różnia we wzorze (3.11) zbliża się do zera (jednozesne zmniejszanie się wartośi (3.10) ograniza jednak duży wzrost wartośi wskaźnika fisherowskiego). Warto również zauważyć, że dla niewielkih σ, dla któryh maierz jądrowa jest maierzą jednostkową, wartośi miary fisherowskiej zależą wyłąznie od lizby obserwaji w zbiorze danyh oraz rozkładu liznośi poszzególnyh klas. Iloraz wartośi obu zynników (3.10) i (3.11) w tym przypadku powoduje jednak, że wartośi miary są niewielkie, o przy maksymalizaji miary fisherowskiej nie jest praktyznym ogranizeniem, jak ma to miejse w przypadku wskaźnika FSMerr. Jądro wielomianowe (d=2) W warunkah identyznyh jak dla jądra gaussowskiego zbadane zostało również zahowanie się omawianyh miar jakośi jako funkji elu przy optymalizaji jądra wielomianowego. W niniejszym punkie rozważane było jądro wielomianowe o stopniu d = 2 z parametrem optymalizowanym w zakresie [10 8,10 4 ]. W tabeli 4.5 przedstawiono wyniki klasyfikaji uzyskane dla modeli opartyh na zoptymalizowanyh jądrah. Błąd klasyfikaji dla jądra wielomianowego jest w ogólnym przypadku nieo niższy lub równie niski w porównaniu z klasyfikają z użyiem jądra gaussowskiego. Na przykład w przypadku zadania L R dla zbioru Balane-Sale 70
71 zastosowanie jądra wielomianowego drugiego stopnia prowadzi do uzyskania błędu na poziomie jedynie 0.3%. Jedynie dla danyh Diabetes jakość klasyfikaji jest wyraźnie niższa, w którym to przypadku obserwować można wzrost błędu klasyfikaji o prawie 7% przy porównaniu najlepszyh wyników dla obu jąder. Warty uwagi jest wynik jaki uzyskuje miara FSMerr, która dla jądra gaussowskiego dawała bardzo słabe rezultaty. W przypadku jądra wielomianowego o stopniu d = 2 pozwala ona wygenerować modele o najniższym błędzie dla 7 zadań klasyfikaji (dla 3, biorą pod uwagę błąd zrównoważony), dla pozostałyh zaś uzyskane modele nie odbiegają znaząo jakośią od najlepszyh spośród uzyskanyh dla wszystkih miar. Oba warianty dopasowania jądro-klasa jak i metoda oeny oparta na regule Fishera dają w ogólnośi modele harakteryzująe się błędem na poziomie zbliżonym do uzyskiwanyh przy stosowaniu miary FSMerr. Jedynie w pojedynzyh przypadkah różnie pomiędzy średnimi wartośiami błędów obu rodzajów różnią się o kilka proent, o widać wyraźnie dla danyh Diabetes (miara fisherowska lepsza o około 5 proent), Liver (miara fisherowska gorsza o około 7 proent) oraz Balane-Sale (zadania L B oraz B R dopasowanie jądro-klasa gorsze o kilkanaśie proent). Tabela 4.5: Błąd klasyfikaji dla jądra wielomianowego (d = 2) Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr KTA KTA or Fisher FSMerr Breast Caner 3.04 ± ± ± ± ± ± ± ±2.11 Pima Diabetes ± ± ± ± ± ± ± ±9.17 Ionosphere 5.47 ± ± ± ± ± ± ± ±4.28 Liver ± ± ± ± ± ± ± ±10.13 Balane-Sale (B R) ± ± ± ± ± ± ± ±7.51 Balane-Sale (L B) ± ± ± ± ± ± ± ±5.92 Balane-Sale (L R) 0.73 ± ± ± ± ± ± ± ±0.66 Vehile (Bus Van) 2.40 ± ± ± ± ± ± ± ±1.76 Vehile (Opel Bus) 1.63 ± ± ± ± ± ± ± ±1.94 Vehile (Opel Saab) ± ± ± ± ± ± ± ±5.96 Vehile (Opel Van) 4.18 ± ± ± ± ± ± ± ±3.02 Vehile (Saab Bus) 1.42 ± ± ± ± ± ± ± ±1.64 Vehile (Saab Van) 4.24 ± ± ± ± ± ± ± ±2.62 Analiza optymalnyh wartośi parametrów uzyskanyh dla jądra wielomianowego o stopniu d = 2 przedstawionyh w tabeli 4.6 pozwala zauważyć przede wszystkim wysoką stabilność uzyskiwanyh rozwiązań, objawiająą się w postai niskih wartośi odhylenia standardowego. Dla tego jądra również rzadziej widać zbliżanie się rozwiązań do graniy przedziałów optyma- 71
72 lizaji. Jedynie dla miary opartej na regule Fishera w kilku przypadkah można zaobserwować, że końowe wartośi znalazły się w okoliah górnego kresu przedziału dopuszzalnyh wartośi. Warto również zauważyć, że w niektóryh przypadkah, mimo znaznyh różni wartośi optymalnyh parametrów, jakość klasyfikaji jest podobna, o związane jest z obserwowanymi na wykresah stosunkowo szerokimi obszarami niskih wartośi błędu. Tabela 4.6: Optymalne wartośi parametrów dla jądra wielomianowego (d = 2) KTA KTA or Fisher FSMerr Breast Caner 5.18e+00 ±4.03e e+00 ±3.22e e+02 ±6.67e e+00 ±2.33e-01 Pima Diabetes 3.94e+00 ±1.58e e+00 ±4.28e e+02 ±2.68e e+00 ±1.78e-01 Ionosphere 3.57e+00 ±4.06e e+00 ±2.60e e+01 ±1.78e e-01 ±8.22e-02 Liver 4.30e-01 ±9.11e e-01 ±8.59e e+02 ±4.51e e+00 ±1.69e-01 Balane-Sale (B R) 9.15e-01 ±4.50e e+00 ±7.29e e+03 ±2.07e e+00 ±5.72e+00 Balane-Sale (L B) 4.20e-01 ±2.92e e+00 ±7.69e e+03 ±0.00e e+00 ±5.22e+00 Balane-Sale (L R) 2.05e+00 ±1.04e e+00 ±1.06e e+03 ±3.50e e-01 ±1.02e-01 Vehile (Bus Van) 2.52e+00 ±2.56e e+00 ±2.27e e+03 ±5.00e e+00 ±3.65e-01 Vehile (Opel Bus) 5.57e+00 ±1.62e e+00 ±1.67e e+01 ±1.24e e-01 ±4.85e-02 Vehile (Opel Saab) 2.04e+00 ±9.55e e+00 ±8.65e e-02 ±2.74e e+00 ±2.31e+00 Vehile (Opel Van) 6.49e+00 ±2.00e e+00 ±1.60e e+02 ±3.28e e+00 ±2.09e-01 Vehile (Saab Bus) 5.37e+00 ±2.29e e+00 ±2.24e e+01 ±2.12e e-01 ±9.22e-02 Vehile (Saab Van) 6.30e+00 ±2.67e e+00 ±2.20e e+02 ±4.20e e+00 ±1.85e-01 Szzególnie interesująe z punktu widzenia przydatnośi omawianyh miar jakośi do optymalizaji parametrów jądra jest porównanie ih wartośi w optimah dla różnyh jąder, przy jednozesnej obserwaji odpowiadająyh różni błędów klasyfikaji. W przypadku dopasowania jądro-klasa znazna lizba rozważanyh zadań klasyfikaji wykazuje podobną średnią wartość błędu dla obu jąder przy jednoześnie zbliżonyh wartośiah miary jakośi, o utrudnia porównanie. Tam jednak gdzie różnie są wyraźne, można jednoześnie zauważyć, że zmiana wartośi błędu nie wiąże się z odpowiednio ukierunkowaną zmianą wartośi miary. W przypadku miary KTA or, hoć różnie jej wartośi i błędów również nie zmieniają się istotnie względem jądra, przypadki, w któryh kierunki zmian są właśiwe, stanowią ponad połowę zadań. W przypadku metody opartej na regule Fishera można zauważyć, że wartośi tej miary zmieniły się bardzo nieznaznie w stosunku do odpowiadająyh wartośi dla jądra gaussowskiego. Mimo tego, w kilku przypadkah zmianom tym odpowiada istotna poprawa jakośi klasyfikaji dla jądra wielomianowego. Również dla miary fisherowskiej kierunek zmian jest właśiwy w ponad połowie przypadków. Wartośi miary FSMerr dla uzyskanyh w tym eksperymenie jąder 72
73 są wyższe niż dla odpowiadająyh jąder gaussowskih, mimo iż błąd klasyfikaji jest wyraźnie niższy, o w praktye wykluza przydatność miary FSMerr przy selekji typu stosowanego jądra. Tabela 4.7: Wartośi miar jakośi dla jądra wielomianowego (d = 2) KTA KTA or Fisher FSMerr Breast Caner 6.25e-01 ±6.00e e-01 ±6.00e e+00 ±2.10e e-01 ±5.00e-03 Pima Diabetes 1.93e-01 ±6.00e e-02 ±3.00e e-02 ±2.00e e-01 ±8.00e-03 Ionosphere 3.29e-01 ±6.00e e-01 ±6.00e e-02 ±3.00e e-01 ±1.10e-02 Liver 4.10e-02 ±5.00e e-02 ±2.00e e-02 ±1.00e e-01 ±1.00e-02 Balane-Sale (B R) 3.72e-01 ±2.80e e-02 ±2.00e e-02 ±1.00e e-01 ±3.80e-02 Balane-Sale (L B) 3.69e-01 ±2.40e e-02 ±2.00e e-02 ±1.00e e-01 ±3.40e-02 Balane-Sale (L R) 2.51e-01 ±5.00e e-01 ±5.00e e-01 ±6.00e e-01 ±5.00e-03 Vehile (Bus Van) 1.34e-01 ±4.00e e-01 ±3.00e e-01 ±5.00e e-01 ±1.60e-02 Vehile (Opel Bus) 1.38e-01 ±5.00e e-01 ±5.00e e-02 ±4.00e e-01 ±1.80e-02 Vehile (Opel Saab) 1.00e-02 ±1.00e e-03 ±1.00e e-03 ±1.00e e-01 ±1.10e-02 Vehile (Opel Van) 2.23e-01 ±5.00e e-01 ±5.00e e-01 ±8.00e e-01 ±8.00e-03 Vehile (Saab Bus) 1.36e-01 ±7.00e e-01 ±7.00e e-02 ±5.00e e-01 ±1.80e-02 Vehile (Saab Van) 2.16e-01 ±6.00e e-01 ±6.00e e-01 ±1.00e e-01 ±7.00e-03 Złożoność modeli, wyrażona udziałem wektorów podpierająyh w ałym zbiorze trenująym (rysunek 4.18), jest silnie związana z wynikami klasyfikaji przedstawionymi w tabeli 4.5. W przypadku zadań klasyfikaji, dla któryh średni błąd był niski a warianja mała, rozrzut udziału wektorów podpierająyh jest niewielki, a wartość udziału jest bliska dolnego ogranizenia wynikająego z wartośi parametru ν. Dla zadań, które okazały się trudniejsze, niezbędne było wykorzystanie większej lizby przykładów trenująyh przy tworzeniu modelu. W przypadku optymalizaji parametrów jądra wielomianowego o stopniu d = 2 przy zastosowaniu rozważanyh miar jako funkji elu widać, że proes optymalizaji końzył się stosunkowo szybko. Zazwyzaj wystarzająe było kilkanaśie oblizeń funkji elu, aby znaleźć optymalne wartośi parametru. Największą stabilnośią pod tym względem harakteryzowała się poprawka dopasowania jądro-klasa oraz miara FSMerr. W przypadku tej drugiej jest to szzególnie istotne, biorą pod uwagę wysoką jakość modeli generowanyh za jej pomoą. Wyniki klasyfikaji wielowartośiowej przedstawione w tabeli 4.8 wskazują, że zastosowanie jądra wielomianowego do zbioru Vehile daje w efekie wyniki lepsze niż dla jądra gaussowskiego, mimo że obserwowane wześniej wyniki na zadaniah binarnyh dla obu jąder są podobne. Warto zauważyć, że zmniejszeniu uległa lizba losowanyh etykiet, o może mieć 73
74 KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.18: Udział wektorów podpierająyh dla jądra wielomianowego (d = 2) KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.19: Lizba oblizeń funkji elu dla jądra wielomianowego (d = 2) w tym przypadku wpływ na mniejszy błąd klasyfikaji. W przypadku zbioru Balane-Sale generowane modele harakteryzują się podobną jakośią do uzyskanyh za pomoą jądra gaus- 74
75 sowskiego. Wartośi błędów klasyfikaji uzyskiwane dla jąder optymalizowanyh z użyiem poszzególnyh miar jakośi są zbliżone, z minimalnymi wartośiami w przypadku poprawki dopasowania jądro-klasa dla danyh Balane-Sale i miary fisherowskiej w przypadku zbioru Vehile. Ta druga miara harakteryzuje się jednak jakośią wyraźnie niższą od pozostałyh dla danyh Balane-Sale. Tabela 4.8: Błąd klasyfikaji wielowartośiowej dla jądra wielomianowego (d = 2). KTA KTA or Fisher FSMerr Balane-Sale 8.68 ±0.54 (1.18%) 8.22 ±1.03 (0.92%) ±0.81 (2.82%) 8.74 ±0.98 (1.03%) Vehile ±0.79 (0.78%) ±1.01 (0.81%) ±0.71 (0.54%) ±0.91 (1.16%) Wyniki przedstawione w tym punkie wskazują, że dla wybranyh zadań klasyfikaji optymalizaja parametrów jądra wielomianowego o stopniu d = 2 daje w efekie lepsze rezultaty w porównaniu z jądrem gaussowskim. Istotne jest również, że omawiane miary jakośi jądra pozwalają na skutezne znalezienie optymalnyh wartośi parametrów, potrzebują do tego niewielkiej ilośi iteraji. Interesująe jest również to, że względnie najlepsze wyniki uzyskano przy użyiu miary FSMerr, która dla jądra gaussowskiego dawała rezultaty znaznie gorsze od pozostałyh miar jakośi. Jądro wielomianowe (d=3) Kolejnym analizowanym przekształeniem jądrowym było jądro wielomianowe o stopniu d = 3, w przypadku którego parametr optymalizowany był w przedziale [10 8,10 4 ]. Wyniki klasyfikaji, uzyskane dla modeli opartyh na jądrah optymalizowanyh przy użyiu omawianyh miar jakośi, przedstawiono w tabeli 4.9. Obserwują oba rodzaje błędów widać, że omawiane w tym punkie jądro, w połązeniu z przedstawionymi miarami jakośi, daje pod względem błędu jeszze lepsze rezultaty niż jądro wielomianowe o stopniu d = 2 oraz jądro gaussowskie. Analiza zahowania poszzególnyh miar jakośi prowadzi do wniosku, że w przypadku wielomianu trzeiego stopnia wyróżniająymi metodami są dopasowanie jądro-klasa oraz miara FSMerr. Pierwsza z nih prowadzi do uzyskania najniższego błędu dla wszystkih zbiorów danyh o dwóh kategoriah oraz jednego z podproblemów zbioru Vehile. Miara FSMerr pozwala znaleźć modele o najwyższej jakośi w pozostałyh 8 przypadkah dla zbiorów danyh Balane-Sale i Vehile. Warto zauważyć, że miara FSMerr jako jedyna daje wyniki najlepsze lub zbliżone do najlepszyh we wszystkih zadaniah klasyfikaji binarnej. Zdeydowanie słabsza w tym względzie jest metoda oparta na regule Fishera oraz poprawka dopasowania 75
76 jądro-klasa. Pierwszy z tyh wskaźników jako jedyny odbiega jakośią dla zadań B R i L B ze zbioru Balane-Sale oraz klasyfikaji danyh Liver i Diabetes (dla tyh danyh obserwowana jest również istotnie niższa jakość modeli uzyskanyh podzas stosowania miary KTA or ). Tabela 4.9: Błąd klasyfikaji dla jądra wielomianowego (d = 3) Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr KTA KTA or Fisher FSMerr Breast Caner 2.86 ± ± ± ± ± ± ± ±1.97 Pima Diabetes ± ± ± ± ± ± ± ±5.45 Ionosphere 4.73 ± ± ± ± ± ± ± ±4.11 Liver ± ± ± ± ± ± ± ±7.54 Balane-Sale (B R) 4.88 ± ± ± ± ± ± ± ±6.22 Balane-Sale (L B) 4.81 ± ± ± ± ± ± ± ±7.66 Balane-Sale (L R) 5.52 ± ± ± ± ± ± ± ±1.77 Vehile (Bus Van) 1.98 ± ± ± ± ± ± ± ±1.84 Vehile (Opel Bus) 3.77 ± ± ± ± ± ± ± ±1.79 Vehile (Opel Saab) ± ± ± ± ± ± ± ±6.46 Vehile (Opel Van) 4.00 ± ± ± ± ± ± ± ±2.88 Vehile (Saab Bus) 3.18 ± ± ± ± ± ± ± ±1.74 Vehile (Saab Van) 3.30 ± ± ± ± ± ± ± ±3.77 Optymalne wartośi parametrów dla poszzególnyh miar jakośi przedstawiono w tabeli W przypadku metody fisherowskiej i poprawki dopasowania widać, że proes optymalizaji zakońzył się kilkukrotnie w obszarze bliskim dolnej graniy przedziału wartośi dopuszzalnyh. Miary te preferują jednorodne jądro wielomianowe, o jest zahowaniem niewłaśiwym. Można to zauważyć, obserwują optymalne wartośi uzyskane przy użyiu wskaźników KTA i FSMerr, dla któryh modele harakteryzują się niższym błędem klasyfikaji. Wartośi miar jakośi odpowiadająe optymalnym wartośiom parametrów zamieszzono w tabeli Szzególnie interesująe jest porównanie zmian wartośi wraz ze zmianą odpowiadająego błędu przy przejśiu od jądra wielomianowego o stopniu d = 2 do wielomianu stopnia trzeiego. Jak już wześniej zauważono, aby skuteznie stosować rozważane miary do wyboru postai jądra lepiej dostosowanego do badanego problemu klasyfikaji, zmniejszenie (zwiększenie) błędu przy zmianie jądra powinno powodować wzrost (spadek) wartośi obu wariantów dopasowania i miary opartej na regule Fishera oraz zmniejszenie (zwiększenie) wartośi FSMerr. Porównują przedstawione tu wyniki z rezultatami z tabeli 4.6 dla wielomianu drugiego stopnia oraz tabeli 4.2 dla jądra gaussowskiego widać, że w przypadku obu wariantów dopasowania jądro-klasa pożądany kierunek zmian zahowany jest dla ponad połowy zadań klasyfikaji. Metoda fisherowska i miara FSMerr harakteryzują się mniejszą skuteznośią dyskrymina- 76
77 Tabela 4.10: Optymalne wartośi parametrów dla jądra wielomianowego (d = 3) KTA KTA or Fisher FSMerr Breast Caner 3.44e-08 ±5.39e e-08 ±2.95e e+01 ±2.40e e+00 ±3.38e-01 Pima Diabetes 5.32e+00 ±2.73e e-04 ±2.72e e-07 ±4.59e e+00 ±8.46e-02 Ionosphere 9.78e+00 ±5.18e e+00 ±2.92e e+01 ±1.14e e+00 ±2.53e-01 Liver 7.34e-01 ±1.25e e-01 ±6.29e e+02 ±4.50e e-01 ±7.45e-02 Balane-Sale (B R) 3.42e+01 ±2.59e e-02 ±2.17e e-07 ±4.41e e-01 ±2.42e+00 Balane-Sale (L B) 3.43e+01 ±3.58e e-02 ±2.15e e-07 ±1.21e e-01 ±3.13e-02 Balane-Sale (L R) 4.74e-05 ±3.20e e-05 ±3.19e e-08 ±4.35e e-01 ±4.52e-02 Vehile (Bus Van) 7.23e-01 ±7.99e e-01 ±6.55e e-02 ±2.83e e+00 ±2.51e-01 Vehile (Opel Bus) 1.75e-01 ±9.66e e-01 ±8.91e e-07 ±6.26e e+00 ±1.32e-01 Vehile (Opel Saab) 1.45e+00 ±3.00e e+00 ±2.48e e-01 ±6.64e e+00 ±5.59e-01 Vehile (Opel Van) 2.54e-07 ±7.82e e-07 ±5.91e e-07 ±2.44e e+00 ±9.68e-02 Vehile (Saab Bus) 2.80e-01 ±1.15e e-01 ±1.14e e-07 ±8.38e e+00 ±1.31e-01 Vehile (Saab Van) 2.33e-07 ±9.06e e-07 ±5.17e e-07 ±2.68e e+00 ±1.17e-01 Tabela 4.11: Wartośi miar jakośi dla jądra wielomianowego (d = 3) KTA KTA or Fisher FSMerr Breast Caner 7.84e-01 ±4.00e e-01 ±6.00e e-01 ±1.50e e-01 ±5.00e-03 Pima Diabetes 1.98e-01 ±6.00e e-01 ±5.00e e-02 ±1.00e e-01 ±9.00e-03 Ionosphere 3.29e-01 ±7.00e e-01 ±6.00e e-02 ±6.00e e-01 ±9.00e-03 Liver 4.10e-02 ±3.00e e-02 ±3.00e e-02 ±1.00e e-01 ±1.60e-02 Balane-Sale (B R) 5.15e-01 ±1.40e e-02 ±3.00e e-02 ±1.00e e-01 ±2.30e-02 Balane-Sale (L B) 5.15e-01 ±1.90e e-02 ±3.00e e-02 ±1.00e e-01 ±2.20e-02 Balane-Sale (L R) 3.57e-01 ±5.00e e-01 ±5.00e e-01 ±2.00e e-01 ±4.00e-03 Vehile (Bus Van) 2.57e-01 ±5.00e e-01 ±5.00e e-02 ±1.00e e-01 ±1.40e-02 Vehile (Opel Bus) 1.84e-01 ±8.00e e-01 ±8.00e e-02 ±3.00e e-01 ±1.30e-02 Vehile (Opel Saab) 1.50e-02 ±1.00e e-02 ±1.00e e-03 ±0.00e e-01 ±1.50e-02 Vehile (Opel Van) 3.19e-01 ±1.00e e-01 ±1.00e e-01 ±4.00e e-01 ±6.00e-03 Vehile (Saab Bus) 1.82e-01 ±8.00e e-01 ±8.00e e-02 ±3.00e e-01 ±1.40e-02 Vehile (Saab Van) 3.08e-01 ±1.00e e-01 ±1.00e e-01 ±4.00e e-01 ±8.00e-03 ji pomiędzy jakośią wielomianu trzeiego stopnia a jądrami gaussowskim i wielomianowym o stopniu d = 2. Obserwaja udziałów wektorów podpierająyh w zbiorze trenująym dla przypadku jądra wielomianowego o stopniu d = 3, przedstawionyh na rysunku 4.20, wskazuje na nieznazny ih wzrost w stosunku do modeli opartyh na wielomianie stopnia drugiego. O wzrośie można mówić również w kontekśie lizby oblizeń funkji potrzebnyh do zakońzenia proesu 77
78 KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.20: Udział wektorów podpierająyh dla jądra wielomianowego (d = 3) KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.21: Lizba oblizeń funkji elu dla jądra wielomianowego (d = 3) optymalizaji (rysunek 4.21). Jest on wyraźny dla większośi zadań w przypadku wszystkih miar. 78
79 Przedstawione w tabeli 4.12 wyniki klasyfikaji wielowartośiowej, będąej efektem klasyfikaji binarnej w shemaie każdy z każdym, nie są zaskakująe. Modele o najniższym błędzie uzyskiwane są w przypadku stosowania jako funkji elu miary FSMerr. W dalszej kolejnośi nieo słabsze wyniki dają poprawka oraz podstawowy wariant dopasowania jądro-klasa. Najwyższym błędem odznazają się modele z jądrem optymalizowanym z użyiem metody opartej na regule Fishera. Tabela 4.12: Błąd klasyfikaji wielowartośiowej dla jądra wielomianowego (d = 3) KTA KTA or Fisher FSMerr Balane-Sale 9.90 ±1.23 (4.56%) 8.22 ±0.75 (4.46%) ±0.73 (5.6%) 6.50 ±0.83 (0.92%) Vehile ±0.90 (1.76%) ±0.83 (1.82%) ±0.91 (1.97%) ±0.96 (0.87%) Wyniki klasyfikaji dla jądra wielomianowego o stopniu d = 3 świadzą o dalszej poprawie uzyskiwanyh modeli. Podobnie jak dla wielomianu drugiego stopnia, do najlepszyh rezultatów prowadzi stosowanie miary FSMerr, jednak pozostałe miary pozwalają uzyskać klasyfikatory o zbliżonej jakośi. Jednym z powodów uzyskiwania wysokiej jakośi modeli niezależnie od stosowanej miary są szerokie obszary niskih wartośi błędu względem parametru, typowe dla rozważanyh zadań w przypadku jądra wielomianowego trzeiego stopnia (por. rysunki ). Uzyskiwane modele harakteryzują się również niską złożonośią, zaś proes optymalizaji jest średnio tylko o kilka iteraji dłuższy niż dla wielomianu stopnia drugiego. Jądro sigmoidalne Ostatnim badanym w pray przekształeniem było jądro sigmoidalne, w którego przypadku optymalizowano parametr w zakresie [ 10 2,10 2 ] przy wartośi κ ustalonej na odwrotność lizby atrybutów dla poszzególnyh danyh, o jest typowym ustawieniem dla tego jądra [61]. Wartośi błędu i błędu zrównoważonego przedstawione zostały w tabeli Uzyskane wyniki wskazują, że jądro sigmoidalne daje modele o najniższej jakośi w porównaniu z omawianymi do tej pory przekształeniami. Jest to potwierdzeniem dla wykresów , na któryh można było obserwować przebiegi zmiennośi błędu w funkji parametru. W porównaniu z wynikami dla innyh jąder na uwagę zasługuje tylko wysoka jakość modeli dla zadań Breast, L R ze zbioru Balane-Sale oraz Opel Bus dla danyh Vehile uzyskanyh podzas stosowania miary FSMerr. Wskaźnik ten daje również modele o jakośi relatywnie niewiele słabszej dla zbioru Vehile w porównaniu z innymi jądrami. 79
80 Tabela 4.13: Błąd klasyfikaji dla jądra sigmoidalnego Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr KTA KTA or Fisher FSMerr Breast Caner 3.02± ± ± ± ± ± ± ±2.26 Pima Diabetes 64.48± ± ± ± ± ± ± ±6.10 Ionosphere 24.79± ± ± ± ± ± ± ±6.01 Liver 47.67± ± ± ± ± ± ± ±7.95 Balane-Sale (B R) 52.68± ± ± ± ± ± ± ±12.27 Balane-Sale (L B) 59.82± ± ± ± ± ± ± ±12.98 Balane-Sale (L R) 7.05± ± ± ± ± ± ± ±1.23 Vehile (Bus Van) 63.86± ± ± ± ± ± ± ±6.39 Vehile (Opel Bus) 57.77± ± ± ± ± ± ± ±2.23 Vehile (Opel Saab) 52.39± ± ± ± ± ± ± ±15.64 Vehile (Opel Van) 14.74± ± ± ± ± ± ± ±2.73 Vehile (Saab Bus) 54.69± ± ± ± ± ± ± ±2.85 Vehile (Saab Van) 13.31± ± ± ± ± ± ± ±3.27 Z wykresów przebiegu błędu widać, że wszystkie zadania, dla któryh FSMerr daje relatywnie dobre modele, harakteryzują się rozległym obszarem minimum błędu. Co interesująe, właśiwość ta nie jest wystarzająa, aby pozostałe miary były w stanie odpowiednio odwzorować minimum błędu (nie lizą miar KTA i KTA or dla danyh Breast). Kształt wykresu błędu w funkji parametru jądra sigmoidalnego wskazywał w przypadku wielu zadań klasyfikaji występowanie stosunkowo wąskih obszarów przyiągania minimum, któryh żadna z miar nie była w stanie poprawnie odwzorować. W pozostałyh sytuajah, dla któryh obszary te są wyraźnie szersze, tylko w nieliznyh przypadkah można obserwować poprawne odwzorowanie. Należy jednak podkreślić, że ostatezna jakość klasyfikaji dla modeli SVM z jądrem sigmoidalnym jest nawet kilkukrotnie niższa (wyłązają zbiór danyh Breast) w porównaniu do klasyfikaji modelami uzyskanymi na podstawie pozostałyh przekształeń jądrowyh. Porównanie wykresów błędów w funkji parametru oraz wartośi tego parametru uzyskiwanyh po zakońzeniu proesu optymalizaji (tabela 4.14) świadzy o tym, że najlepsze wyniki podzas stosowania miary FSMerr nie są przypadkowe. Za wyjątkiem zbioru Breast, dla którego minimum błędu położone jest w zakresie dodatnih wartośi, minima błędów wszystkih zadań binarnyh położone są w obszarze < 0. Optymalne wartośi uzyskiwane podzas optymalizaji z miarą FSMerr znajdują się w każdym z przypadków w odpowiedniej zęśi zakresu parametru. Najgorsze zahowanie harakteryzuje wskaźnik oparty na regule Fishera, w którego przypadku optymalne wartośi są zawsze dodatnie. Porównanie wartośi miar dla optymalnyh parametrów, przedstawionyh w tabeli 4.15, 80
81 Tabela 4.14: Optymalne wartośi parametrów dla jądra sigmoidalnego KTA KTA or Fisher FSMerr Breast Caner 9.54e-02±7.12e e-03±6.41e e+01±1.29e e-03±7.45e-03 Pima Diabetes 2.45e-01±2.15e e-03±5.63e e+00±1.89e e-01±6.03e-02 Ionosphere 1.47e-01±2.56e e-02±2.41e e-01±7.89e e+00±6.75e-02 Liver 1.38e+00±2.70e e-02±6.86e e-01±1.19e e-01±1.24e-01 Balane-Sale (B R) 1.51e+00±1.52e e-03±7.27e e+00±3.52e e-01±3.12e-01 Balane-Sale (L B) 1.72e+00±4.77e e-03±8.83e e+00±1.90e e-01±2.65e-01 Balane-Sale (L R) -1.89e-03±4.99e e-03±3.94e e+01±1.30e e-01±8.56e-02 Vehile (Bus Van) 4.71e-03±3.35e e-03±1.54e e+01±1.28e e-01±3.46e-02 Vehile (Opel Bus) -3.69e-02±8.32e e-02±6.47e e-01±1.93e e+00±8.30e-02 Vehile (Opel Saab) -1.47e-01±4.98e e-01±3.89e e-01±3.70e e+00±2.45e+00 Vehile (Opel Van) -2.75e-02±3.24e e-02±2.85e e+00±1.40e e+00±1.32e-01 Vehile (Saab Bus) -3.86e-02±7.51e e-02±5.96e e+00±2.77e e+00±6.64e-02 Vehile (Saab Van) -2.85e-02±3.72e e-02±3.24e e+00±3.49e e+00±9.21e-02 z odpowiadająymi wartośiami dla jąder gaussowskiego i wielomianowyh wskazuje, że oba warianty dopasowania jądro-klasa poprawnie oeniają różnie w jakośi poszzególnyh jąder w ponad połowie przypadków. W przypadku miary wywodząej się z reguły Fishera wartośi wskaźnika sugerują wyższą jakość jądra sigmoidalnego, zego nie potwierdzają wartośi błędu klasyfikaji. Dla miary FSMerr porównanie z jądrami wielomianowymi pozwala w ponad połowie zadań poprawnie określić, które jądro jest lepsze. Warto zauważyć jednak, że preferowanie niskih wartośi σ w przypadku jądra gaussowskiego powoduje, że wyniki dla tego jądra nie mogą w praktye stanowić punktu odniesienia do porównań z innymi jądrami. Wykresy pudełkowe przedstawiająe udział wektorów podpierająyh w zbiorze trenująym (rysunek 4.22) wskazują, że modele uzyskane podzas optymalizaji jądra sigmoidalnego harakteryzują się mniejszą złożonośią niż te, które uzyskano wykorzystują pozostałe jądra. Lizba wektorów podpierająyh we wszystkih przypadkah zbliża się do dolnej graniy określonej wartośią parametru ν. Nieo większe mediany udziału obserwowane są tylko dla danyh Ionosphere i zadania Opel Saab ze zbioru Vehile. Również lizba iteraji algorytmu optymalizaji (rysunek 4.23) jest nieznaznie niższa niż dla poprzednio analizowanyh funkji jądrowyh. W przypadku obu wariantów dopasowania jądro-klasa mediana lizby oblizeń funkji elu dla poszzególnyh zadań osyluje w okoliah 10. Wydłużenie zasu optymalizaji zaobserwować można dla miary opartej na regule Fishera, gdzie dla kilku zadań mediana przekrozyła wartość 40, a w pojedynzyh przypadkah potrzeba było ponad 100 iteraji do zakońzenia opty- 81
82 Tabela 4.15: Wartośi miar jakośi dla jądra sigmoidalnego KTA KTA or Fisher FSMerr Breast Caner 8.35e-01±5.00e e-01±5.00e e+00±1.11e e-01±5.00e-03 Pima Diabetes 1.72e-01±5.00e e-01±6.00e e-01±3.60e e-01±1.00e-02 Ionosphere 1.58e-01±8.00e e-01±9.00e e-02±6.00e e-01±1.00e-02 Liver 3.00e-02±4.00e e-02±3.00e e-02±2.00e e-01±1.30e-02 Balane-Sale (B R) 4.86e-01±1.47e e-02±3.00e e-02±1.50e e-01±3.80e-02 Balane-Sale (L B) 5.07e-01±1.70e e-02±2.00e e-02±4.00e e-01±3.70e-02 Balane-Sale (L R) 3.70e-01±7.00e e-01±7.00e e-01±9.90e e-01±4.00e-03 Vehile (Bus Van) 1.70e-01±7.00e e-01±7.00e e-01±1.65e e-01±8.00e-03 Vehile (Opel Bus) 1.08e-01±9.00e e-01±9.00e e-02±8.00e e-01±1.20e-02 Vehile (Opel Saab) 4.00e-03±1.00e e-03±1.00e e-03±1.00e e-01±2.90e-02 Vehile (Opel Van) 2.89e-01±9.00e e-01±9.00e e-01±1.96e e-01±6.00e-03 Vehile (Saab Bus) 1.10e-01±7.00e e-01±7.00e e-02±8.00e e-01±1.10e-02 Vehile (Saab Van) 2.81e-01±1.10e e-01±1.10e e-01±3.30e e-01±6.00e-03 KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.22: Udział wektorów podpierająyh dla jądra sigmoidalnego malizaji. Dla wskaźnika FSMerr wymagana lizba oblizeń funkji elu jest najniższa spośród omawianyh miar jakośi. Wynik eksperymentu przeprowadzonego dla zadania klasyfikaji o wielu kategoriah potwierdza niską użytezność jądra sigmoidalnego w przypadku rozważanyh danyh oraz sła- 82
83 KTA KTAor Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Fisher FSMerr Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 4.23: Lizba oblizeń funkji elu dla jądra sigmoidalnego Tabela 4.16: Błąd klasyfikaji wielowartośiowej dla jądra sigmoidalnego KTA KTA or Fisher FSMerr Balane-Sale ±3.11 (20.71%) ±5.83 (43.44%) ±2.24 (18.47%) ±3.63 (50.66%) Vehile ±1.15 (33.82%) ±1.27 (33.35%) ±2.08 (28.15%) ±3.62 (47.26%) bą jakość modeli generowanyh na podstawie parametrów optymalizowanyh z użyiem analizowanyh miar jakośi. Wyniki przedstawione w tabeli 4.16, opróz bardzo wysokiego błędu, szzególnie w porównaniu z wynikami dla pozostałyh jąder, wskazują również na dużą lizbę przypadków, w któryh etykieta doelowa musiała zostać wylosowana od do proent dla danyh Balane-Sale oraz od do proent dla zbioru Vehile. Wyniki dla jądra sigmoidalnego pokazują, że w przypadku analizowanyh zadań klasyfikaji przekształenie to daje w efekie modele o najniższej jakośi. Błędy klasyfikaji o wartośiah porównywalnyh do obserwowanyh przy innyh jądrah harakteryzują jedynie pojedynze modele wynikająe z jądra sigmoidalnego o parametrze optymalizowanym z wykorzystaniem miary FSMerr. Pozostałe wskaźniki, a w szzególnośi metoda fisherowska, nie są w stanie w poprawny sposób wskazać obszaru niskih wartośi błędu w większośi rozważanyh zadań klasyfikaji. Podsumowują wyniki eksperymentów opisanyh w niniejszej zęśi pray można stwier- 83
84 dzić, że najlepsze wyniki uzyskane zostały podzas optymalizaji parametru jądra wielomianowego o stopniu d = 3 z użyiem miary FSMerr jako funkji elu. W przypadku jądra gaussowskiego najlepiej sprawdziły się oba warianty dopasowania jądro-klasa. Miary te oraz wskaźnik FSMerr dawały dobre efekty również dla wielomianu drugiego stopnia. W przypadku jądra sigmoidalnego porównanie jakośi poszzególnyh miar jest utrudnione ze względu na niską jakość modeli uzyskiwanyh na podstawie tego przekształenia dla rozważanyh w pray zadań klasyfikaji Porównanie zmiennośi miar jakośi jądra i błędu wynikowego klasyfikatora Przedstawione w poprzednih punktah wyniki optymalizaji i klasyfikaji z zastosowaniem omawianyh w niniejszym rozdziale miar w głównej mierze pozwalają na wzajemną oenę ih skuteznośi, a w pewnyh przypadkah także na wskazanie braku praktyznego zastosowania niektóryh kombinaji zadania klasyfikaji i postai funkji jądrowej. W elu pokazania bezwzględnej jakośi poszzególnyh miar, w dalszej zęśi tego punktu przedstawione zostaną przykładowe wykresy błędu klasyfikaji dla badanyh jąder wraz z odpowiadająymi im wartośiami rozważanyh miar jakośi w funkji optymalizowanyh parametrów. Przebiegi zmiennośi miary KTA w funkji wartośi parametru jądra przedstawione zostały na rysunku 4.24, składająym się z 4 zęśi odpowiadająyh badanym w pray postaiom jądra: gaussowskiego (4.24a), wielomianowego drugiego stopnia (4.24b), wielomianowego trzeiego stopnia (4.24) oraz sigmoidalnego (4.24d). Rysunek dla każdego z jąder składa się z dwóh wykresów, na któryh linią iągła przedstawiona została wartość średnia dla 10-krotnej walidaji krzyżowej, zaś wypełnioną wstęgą oznazono obszar odpowiadająy średniej powiększonej/pomniejszonej o wartość odhylenia standardowego. Na każdym z rysunków na górnym wykresie przedstawiony został błąd klasyfikaji w funkji parametru jądra, na dolnym zaś odpowiadająe wartośi miary. Pionową linią, na obu wykresah, oznazono minimum średniej wartośi błędu, dla którego podano również odpowiadająą wartość parametru. Dla każdego z rysunków, odpowiadająyh poszzególnym jądrom, wybrane zostały przykładowe zadania klasyfikaji, dla któryh można obserwować harakterystyzne przebiegi rozważanyh miar jakośi. Na rysunku 4.24a przedstawiono wykresy dla zadania klasyfikaji na zbiorze Diabetes. Maksimum miary KTA nie odpowiada dokładnie minimum błędu, jednak znajduje się w obszarze wartośi do niego zbliżonyh. Jest to harakterystyzne zahowanie miary KTA w przypadku 84
85 Błąd klasyfikaji (%) Błąd = σ=0.8 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 KTA Błąd klasyfikaji (%) Błąd = =20 KTA e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Diabetes) σ 1e 05 1e 03 1e 01 1e+01 1e+03 (b) Jądro wielomianowe d = 2 (Balane-Sale: B R) Błąd klasyfikaji (%) Błąd = 0 =20 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e KTA Błąd = = 6 KTA e 05 1e 03 1e 01 1e+01 1e () Jądro wielomianowe d = 3 (Balane-Sale: L R) Rysunek 4.24: Błąd klasyfikaji i wartośi miary KTA (d) Jądro sigmoidalne (Vehile: Opel Van) optymalizaji parametru jądra gaussowskiego. Maksimum miary jest w większośi przypadków wyraźnie zarysowane, jedynie dla zadania Opel Saab z danyh Vehile miara KTA monotoniznie maleje ze wzrostem wartośi parametru σ (por. tabela 4.2). Odwzorowanie minimum błędu przez miarę KTA w przypadku jądra wielomianowego o stopniu d = 2 jest dokładniejsze niż dla jądra gaussowskiego, zego przykład można zobazyć na rysunku 4.24b (zadanie B R ze zbioru Balane-Sale). W ogólnośi, maksimum tej miary wypada w bliskim sąsiedztwie minimum błędu klasyfikaji, o po zęśi wynika z szerokiego obszaru 85
86 niskih wartośi błędu. Dla wszystkih rozważanyh zadań dopasowanie jądro-klasa harakteryzuje się wąskim obszarem przyiągania maksimum, o również przekłada się na stosunkowo dużą szybkość zbieżnośi optymalizaji. Zastosowanie miary KTA przy optymalizaji wielomianu trzeiego stopnia daje zdeydowanie gorsze efekty. W większośi przypadków maksimum miary KTA nie jest już tak wyraźne, a dla niektóryh zadań wskaźnik monotoniznie maleje ze wzrostem parametru, w związku z zym można mówić o wyraźnie mniejszej zułośi tej miary w przypadku jądra wielomianowego o stopniu d = 3. Dodatkowo optimum wypada najzęśiej poza obszarem niskih wartośi błędu klasyfikaji, o skutkuje modelami o relatywnie niskiej jakośi (por. tabela 4.9). Dla jądra sigmoidalnego przedstawiony został na rysunku 4.24d przykładowy wykres dla zadania Opel Van ze zbioru Vehile. Obszar minimum błędu występuje w zakresie [ 6, 2], miara KTA najwyżej oenia natomiast jądro o wartośi bliskiej zera. Przywołują optymalne wartośi parametrów z tabeli 4.14 można zauważyć, że miara KTA jako jedyna opróz wskaźnika FSMerr poszukuje minimum błędu w zakresie ujemnyh wartośi parametru. Przedstawiony wykres, reprezentatywny dla tej miary na jądrze sigmoidalnym, pokazuje jednak, że najwyżej oeniane są jądra wynikająe z wartośi bliskih zeru. Nie lizą zadań L B i B R ze zbioru Balane-Sale, wskaźnik KTA posiada wyraźne maksimum, jednak jak już wspomniano, położone w zakresie wartośi parametru prowadząyh do jąder, dla któryh modele harakteryzują się wysokim błędem klasyfikaji. Jako zaletę miary KTA należy zalizyć wyraźną jej stabilność, rozumianą jako małą wrażliwość wartośi miary na wybór próbki danyh. Szerokość wstęgi reprezentująej wartość odhylenia standardowego na wykresah z rysunku 4.24 jest niewielka. Podobnie szerokośi obszarów przyiągania maksimów, dzięki zemu zbieżność optymalizaji jest stosunkowo szybka. Odwzorowanie minimum błędu przez maksimum miary jest dość dokładne, zwłaszza dla jądra gaussowskiego oraz wielomianu drugiego stopnia. Warto jednak zwróić uwagę na małą wrażliwość miary KTA na zmiany wartośi parametru jądra w sytuaji, gdy wartość tego parametru znaznie odbiega od optymalnej, o widozne jest szzególnie dla jądra sigmoidalnego i wielomianowego o stopniu d = 3. Na rysunku 4.25 przedstawione zostały harakterystyzne przebiegi błędu i wartośi dla miary KTA or. Dobre wyniki uzyskiwane przy zastosowaniu tej miary dla jądra gaussowskiego mają potwierdzenie w wykresie 4.25a. Wprawdzie maksimum miary nie wypada dokładnie w punkie minimum błędu klasyfikaji dla zadania L R ze zbioru Balane-Sale, jednak obszar przyią- 86
87 Błąd klasyfikaji (%) Błąd = σ=3 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 KTAor Błąd klasyfikaji (%) Błąd = 0 =2 KTAor e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Balane-Sale: L R) (b) Jądro wielomianowe d = 2 (Vehile: Opel Bus) Błąd klasyfikaji (%) Błąd = =5 1e 05 1e 03 1e 01 1e+01 1e KTAor Błąd klasyfikaji (%) Błąd = = 2 KTAor e 05 1e 03 1e 01 1e+01 1e () Jądro wielomianowe d = 3 (Ionosphere) (d) Jądro sigmoidalne (Ionosphere) Rysunek 4.25: Błąd klasyfikaji i wartośi miary KTA or gania optimum jest na tyle szeroki i spłaszzony, że pozwala to na uzyskanie wyniku zbliżonego do wartośi minimalnej. W większośi przypadków przebiegi dla wskaźnika KTA or są niemal identyzne z odpowiadająymi wykresami dla dopasowania jądro-klasa, wyłązają zadania L B i B R dla danyh Balane-Sale. W tyh przypadkah obserwować można mało wyraźne maksima położone poza obszarem niskih wartośi błędu. Miara KTA or dla jądra gaussowskiego daje inne rezultaty niż podstawowy wariant dopasowania tylko w przypadku wyraźnyh nierównomiernośi rozkładu kategorii w danyh. 87
88 Podobne odwzorowanie błędu przez miarę KTA or uzyskiwane jest w przypadku jądra wielomianowego dla obu rozważanyh stopni d = 2 i d = 3. Wykresy 4.25b i 4.25 pokazują harakterystyzne zahowanie miary KTA or dla jąder o postai wielomianowej. W obu przypadkah optima miary i błędu są przeważnie położone blisko siebie, a jakość uzyskiwanyh modeli jest bliska uzyskiwanym za pomoą miary FSMerr. Miara KTA or, podobnie jak jej pierwotny wariant KTA, harakteryzuje się wysoką stabilnośią. W porównaniu ze swoim pierwowzorem wykazuje większą wrażliwość na zmiany parametru jądra w przypadku niewielkih różni w liznośi poszzególnyh kategorii, jednak dla bardziej nierównomiernyh rozkładów wprowadzenie poprawki wyraźnie przesuwa maksimum w obszar wyższyh wartośi błędu (np. zadania B R i L B dla danyh Balane-Sale przy jądrze wielomianowym drugiego stopnia), bądź też powoduje zanik wyraźnego maksimum (dane Diabetes dla wielomianu trzeiego stopnia). W przypadku jądra sigmoidalnego, na przedstawionym wykresie dla zbioru Ionosphere widać, że miara KTA or nie umożliwia poprawnego odwzorowania błędu klasyfikaji. Porównują z tabelą 4.14 widać, że poprawka definiji KTA powoduje, że maksima przesunięte są w kierunku minimum błędu w stosunku do optimów miary KTA, jednak nadal znajdują się w zakresie wartośi parametru bliskih zera. Porównanie przebiegów błędu klasyfikaji oraz wartośi miary opartej na regule Fishera przedstawione zostało na rysunku Problemy, jakie miara ta ma z poprawnym odwzorowaniem błędu dla jądra gaussowskiego, zilustrowane są na wykresie 4.26a. Wygenerowany on został dla harakterystyznego przypadku, w którym miara fisherowska w rozważanym przedziale wartośi parametru σ ma bardzo mało wyraźne maksimum położone poza obszarem niskih wartośi błędu. W 6 z 13 rozważanyh zadań maksimum to występuje w okoliah górnego krańa przedziału dopuszzalnyh wartośi σ lub miara jest monotoniznie rosnąa. Jedynie dla danyh Ionosphere oraz zadań Opel Bus i Saab Bus ze zbioru Vehile wykres wartośi wskaźnika jest jednomodalny, z wyraźnym maksimum wypadająym w okoliy minimum błędu (por. tabela 4.1). W przypadku jądra wielomianowego o stopniu d = 2 (4.26b) przedstawiona została harakterystyzna sytuaja, w której obszar minimum błędu klasyfikaji roziąga się na dość dużym zakresie wartośi parametru. Dzięki temu, mimo brak idealnego dopasowania maksimum miary i minimum błędu, miara fisherowska daje dobre rezultaty. W przypadku tego jądra, jak wynika z wykresów błędów przedstawionyh na rysunkah , dla wielu zadań klasyfikaji nawet słaby wybór wartośi parametru może prowadzić do modelu o stosunkowo dobrej jakośi, 88
89 Błąd klasyfikaji (%) Błąd = σ=10 Błąd klasyfikaji (%) 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 Fisher Błąd = 0 =2 Fisher e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Vehile: Opel Van) (b) Jądro wielomianowe d = 2 (Vehile: Opel Bus) Błąd klasyfikaji (%) Błąd = =0.9 Błąd klasyfikaji (%) Błąd = 0.93 = 6 1e 05 1e 03 1e 01 1e+01 1e Fisher e 05 1e 03 1e 01 1e+01 1e+03 Fisher () Jądro wielomianowe d = 3 (Breast) Rysunek 4.26: Błąd klasyfikaji i wartośi miary fisherowskiej (d) Jądro sigmoidalne (Vehile: Saab Bus) porównują na przykład z wynikami dla jądra gaussowskiego. Tłumazy to, dlazego dla wielu zadań, dla któryh miara fisherowska rośnie monotoniznie w rozważanym zakresie parametru, uzyskiwane wyniki są porównywalne z uzyskiwanymi za pomoą pozostałyh miar. Wykres 4.26, pokazująy przebieg miary fisherowskiej dla danyh Breast, wskazuje natomiast na harakterystyzny problem jaki występuje przy stosowaniu tego wskaźnika dla jądra wielomianowego trzeiego stopnia. Miara ta posiada w rozważanym zakresie wartośi parametru maksimum globalne w górnym krańu przedziału oraz maksimum lokalne w okoliah 89
90 dolnego ogranizenia. Rozwiązanie zadania optymalizaji z miarą fisherowską jako funkją elu zależy wię silnie od wyboru punktu startowego. W wielu przypadkah właśnie maksimum lokalne wybierane było jako wartość optymalna (por. tabela 4.10). Podobnie jak dla wielomianu drugiego stopnia, szerokie i płaskie obszary niskih wartośi błędu dla wielu zadań sugerują poprawne odwzorowanie przez miarę opartą na regule Fishera. W rzezywistośi jedynie dla zadań Opel Bus, Saab Bus i Saab Van ze zbioru Vehile można mówić o bliskim położeniu minimum błędu i maksimum miary fisherowskiej. Jak widać jednak z tabeli 4.9 i 4.10 nie w każdym z tyh trzeh przypadków udało się opuśić lokalne maksimum i trafić do globalnego optimum miary fisherowskiej. Wykres 4.26d pokazuje jeden z dwóh harakterystyznyh przebiegów dla miary fisherowskiej stosowanej do optymalizaji parametru jądra sigmoidalnego. W wielu przypadkah wskaźnik ten posiada wyraźne globalne maksimum oraz lokalne maksimum na górnym krańu rozważanego zakresu wartośi parametru. Druga harakterystyzna sytuaja to monotonizny wzrost wartośi miary wraz ze wzrostem wartośi parametru. W obu sytuajah maksymalne wartośi leżą w obszarze dodatnih wartośi, o prowadzi do bardzo słabyh wyników uzyskiwanyh podzas stosowania metody opartej na regule Fishera podzas optymalizaji parametru jądra sigmoidalnego. Na rysunku 4.27 przedstawione zostały przebiegi zmiennośi miary FSMerr. Szzególnie interesująy jest wykres 4.27a dla jądra gaussowskiego. Widać na nim, że miara FSMerr ma lokalne minimum w bliskiej okoliy minimum błędu. Jednak ze względu na właśiwośi tej miary w przypadku jądra gaussowskiego minimum globalne leży w zakresie wartośi σ bliskih zera. Porównują z optymalnymi wartośiami z tabeli 4.2 widać, że dla danyh Ionosphere oraz Diabetes, dla któryh występuje lokalne minimum, możliwe jest uzyskanie dość dobrego zlokalizowania minimum błędu. Jednak w przypadku pozostałyh zadań binarnyh miara FSMerr monotoniznie rośnie w funkji parametru σ, przez o optymalne wartośi leżą w okoliah górnego ogranizenia optymalizowanego parametru. W przypadku jądra wielomianowego drugiego stopnia (wykres 4.27b) przedstawiony został harakterystyzny przebieg miary FSMerr w funkji parametru. Dla wszystkih zadań wskaźnik ten posiada wyraźne minimum globalne zapewniająe stosunkowo szybką zbieżność. Dokładność odwzorowania położenia minimum błędu dla innyh problemów binarnyh nie jest wprawdzie tak duża jak dla przedstawionego na wykresie przypadku, jednak dostatezna bliskość obu minimów oraz szeroki zakres niskih wartośi błędu dla jądra wielomianowego o stop- 90
91 Błąd klasyfikaji (%) Błąd = 4 σ=3 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 FSMerr Błąd klasyfikaji (%) Błąd = 0 =1 FSMerr e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Ionosphere) σ 1e 05 1e 03 1e 01 1e+01 1e+03 (b) Jądro wielomianowe d = 2 (Balane: L R) Błąd klasyfikaji (%) Błąd = =20 Błąd klasyfikaji (%) 1e 05 1e 03 1e 01 1e+01 1e FSMerr Błąd = = 6 FSMerr e 05 1e 03 1e 01 1e+01 1e+03 () Jądro wielomianowe d = 3 (Balane: B R) Rysunek 4.27: Błąd klasyfikaji i wartośi miary FSMerr (d) Jądro sigmoidalne (Vehile: Opel Van) niu d = 2 powodują, że miara FSMerr pozwala uzyskać jedne z lepszyh wyników klasyfikaji (por. tabela 4.5). Przebiegi zmiennośi miary FSMerr w funkji parametru jądra wielomianowego o stopniu d = 3 są bardzo zbliżone do obserwowanyh w przypadku wielomianu drugiego stopnia. Na wykresie 4.27 przedstawiony został jednak jeden z dwóh nietypowyh przypadków (zadania B R i L B dla danyh Balane-Sale), w któryh wskaźnik FSMerr jest dwumodalny z minimum lokalnym położonym bliżej minimum błędu. Porównują z optymalnymi wartośiami 91
92 przedstawionymi w tabeli 4.10 widać, że proes optymalizaji najzęśiej końzy się w optimum globalnym, które ze względu na szeroki i płaski obszar niskih wartośi błędu prowadzi mimo wszystko do bardzo dobryh wyników klasyfikaji (por. tabela 4.9). Podobnie jak dla jąder wielomianowyh, również w przypadku jądra sigmoidalnego miara FSMerr harakteryzuje się wyraźnym globalnym minimum położonym stosunkowo blisko minimum błędu w zakresie ujemnyh wartośi parametru. Przebieg przedstawiony na wykresie 4.27d pokazuje, że miara FSMerr nie odwzorowuje dokładnie przebiegu błędu, trafiają jedynie w zakres obniżonej wartośi błędu. Tłumazy to, dlazego wartośi błędu uzyskiwane na jądrah optymalizowanyh tym wskaźnikiem, hoć najlepsze spośród omawianyh miar, są mimo wszystko wyraźnie gorsze od uzyskiwanyh dla pozostałyh rozważanyh jąder Wnioski Wyniki eksperymentów pokazują, że najlepiej jako funkja elu w proesie optymalizaji parametrów jądra gaussowskiego dla zadania klasyfikaji za pomoą algorytmu SVM sprawdzają się obie wersje dopasowania jądro-klasa. W większośi przypadków przebieg zmiennośi tej funkji jest skorelowany z przebiegiem błędu w dziedzinie parametru σ jądra gaussowskiego, jednak ekstrema obu przebiegów są w pewnym stopniu przesunięte, o w efekie powoduje większy błąd klasyfikaji przy modelah generowanyh z wykorzystaniem miary KTA. Dodatkowo miara ta wykazuje się małą dynamiką w porównaniu do amplitud zmian błędów w funkji parametru jądra. Klasyfikaja z zastosowaniem jądra wielomianowego daje najlepsze wyniki, w tym przypadku również widać najlepsze dopasowanie poszzególnyh miar. Dla wielomianu o stopniu d = 2 miara FSMerr wyróżnia się tylko jeśli hodzi o standardowy błąd klasyfikaji, dla błędu zrównoważonego można mówić o równomiernym podziale najlepszyh przypadków na poszzególne miary, z niewielkim wskazaniem na miarę KTA or. Dla wielomianu stopnia trzeiego wyższość miary FSMerr jest już wyraźna. Równie wyraźnie wskaźnik FSMerr przewyższa jakośią pozostałe miary w przypadku jądra sigmoidalnego. Błędy uzyskiwane dla modeli opartyh o jądra optymalizowane z użyiem miary FSMerr są wyraźnie lepsze, pamiętać jednak należy o relatywnie wysokih wartośiah błędów w przypadku tego jądra. 92
93 4.3. Podsumowanie Wyniki eksperymentów przedstawionyh w niniejszym rozdziale pokazują, że podzas optymalizaji parametrów jądra gaussowskiego do elów klasyfikaji, używane aktualnie w dziedzinie metod jądrowyh miary jakośi napotykają duże ogranizenia. Dopasowanie jądro-klasa pozwala na zgrubne oszaowanie wartośi σ odpowiadająe minimum błędu, ale zazwyzaj różnie między ekstremami wpływają znaznie na wartośi błędu. Zdeydowanie lepsza sytuaja występuje w przypadku jąder wielomianowyh. Stosunkowo dobre wyniki uzyskiwane są dla wszystkih rozważanyh miar i jedynie metoda oparta na regule Fishera wykazuje mniejszą praktyzną przydatność. Wykresy pokazująe odwzorowanie błędu klasyfikaji za pomoą wartośi miary pokazują jednak, że uzyskane dopasowanie nie jest idealne i istnieje możliwość dalszej poprawy oszaowania położenia minimum błędu. Najgorsza sytuaja występuje w przypadku jądra sigmoidalnego, dla którego jedynie miara FSMerr oraz w kilku zadaniah również oba warianty dopasowania jądro-klasa prowadzą do poszukiwania optimum w zakresie ujemnyh wartośi parametru. Uzyskiwane odwzorowania są jednak dalekie od idealnyh i w efekie prowadzą do wyników klasyfikaji najsłabszyh w porównaniu z innymi jądrami, mimo że wykresy błędów wskazują na możliwość uzyskania znaznie lepszyh rezultatów. Wyniki dla jądra sigmoidalnego pokazują, że zastosowanie przyjętej metodologii optymalizaja parametru z wykorzystaniem miar jakośi, a następnie budowę klasyfikatora nie sprawdza się w przypadku tego jądra. Żadna z omawianyh miar jakośi nie jest w stanie poprawnie oenić jądra, zego przyzyny można jednak upatrywać w fakie, że jądro sigmoidalne nie zawsze jest nieujemnie nieokreślone. Sytuaja taka nie ma miejsa w przypadku pozostałyh rozważanyh przekształeń jądrowyh, jednak, jak wynika z przeprowadzonyh badań, poszzególne wskaźniki poprawnie oeniają tylko niektóre z rodzajów jąder. Miara FSMerr bardzo dobrze radzi sobie z oeną jądra wielomianowego, ałkowiie jednak zawodzi w przypadku jądra gaussowskiego. Obie wersje dopasowania jądro-klasa, mają w wielu przypadkah problem z wartośiowaniem parametru wielomianów. Wskaźnik fisherowski dla wszystkih rozważanyh jąder prowadzi zarówno do modeli o najwyższej jakośi jak i takih, dla któryh błąd jest wielokrotnie wyższy od równoważnyh dla pozostałyh miar. Wyraźną wadą omawianyh w niniejszym rozdziale miar jest zatem brak uniwersalnośi przy oenie różnyh jąder. Wzajemna analiza wartośi poszzególnyh miar jakośi i błędów klasyfikaji dla odpowiadająyh im modeli pozwoliła również na oenę przydatnośi omawianyh wskaźników przy 93
94 wyborze typu stosowanego przekształenia jądrowego. Wprawdzie w przypadku niektóryh par przekształeń rozważane miary jakośi w ponad połowie zadań klasyfikaji poprawnie wskazują jądro, którego użyie daje w efekie model o lepszej jakośi, jednak w zdeydowanej większośi przypadków omawiane wskaźniki wykazują niską przydatność do oeny porównawzej typu stosowanego jądra.
95 5. Alternatywne metody oeny jądra Wyniki klasyfikaji uzyskane w poprzednim rozdziale pokazują, że wykorzystanie właśiwej miary jakośi jądra jako funkji elu do optymalizaji parametrów przekształenia stosowanego w algorytmie SVM pozwala uzyskać bardzo dobre wyniki klasyfikaji. Z drugiej jednak strony, z analizy przebiegów zmiennośi miar i błędu klasyfikaji w funkji parametrów przekształenia jądrowego widać, że miary jakośi wykorzystywane obenie w dziedzinie metod jądrowyh nie zapewniają uzyskania klasyfikatora o minimalnej wartośi błędu. Wynika stąd potrzeba poszukiwania alternatywnyh metod oeny, które dokładniej odzwieriedlałyby jakość jądra w kontekśie klasyfikaji Miary jakośi jądra Analiza właśiwośi omówionyh w poprzednim rozdziale miar jakośi jądra pozwala na wskazanie ih słabyh stron i daje wskazówki dotyząe projektowania alternatywnyh podejść. Warto zwłaszza zwróić uwagę na trudnośi w oenie jąder dla zbiorów danyh z silnie nierównomiernymi rozkładami klas, a także na trudne do spełnienia założenie dotyząe identyznyh maierzy kowarianji, jakimi harakteryzują się rozkłady obserwaji w obu klasah, o jest istotne zwłaszza w przypadku miar opartyh na regule Fishera. W dalszej zęśi rozdziału przedstawione zostaną propozyje miar jakośi, któryh konstrukja będzie miała na elu uwolnienie się od słabośi, jakimi harakteryzują się stosowane do tej pory metody oeny jądra. Zaproponowane miary opierają się na porównaniu dwóh grup wartośi jądra: wyznazonyh na podstawie obserwaji należąyh do tej samy klasy oraz należąyh do klas przeiwnyh. Miary te nie przetwarzają ałej maierzy jądrowej, a jedynie jedną z maierzy trójkątnyh z wyłązeniem przekątnej, dzięki zemu oena przekształenia jądrowego jest szybsza oraz wyeliminowane jest dwukrotne uwzględnianie tyh samyh wartośi jądra. W dalszej zęśi punktu przedstawione zostaną trzy zaproponowane miary jakośi jądra. W przypadku każdej z nih podana zostanie definija oraz podstawowe właśiwośi. Następnie, wykorzystują podejśie użyte w [47], sprawdzona zostanie intuija stojąą za wykorzy- 95
96 staniem każdego z zaproponowanyh wskaźników jako miary jakośi jądra. Przeanalizowane zostaną przypadki dwóh skrajnyh przekształeń: idealnego jądra oraz jądra o niskiej jakośi. W przypadku jądra idealnego obserwaje należąe do poszzególnyh klas rzutowane są do tyh samyh punktów w przestrzeni H i wartość znormalizowanego jądra wynosi K i j = 1 dla y i = y j. W przypadku gdy wektory odpowiadająe poszzególnym klasom są w przestrzeni H ortogonalne, otrzymujemy K i j = 0 dla y i y j. W ogólnym przypadku, gdy wektory reprezentująe poszzególne klasy nie są wzajemnie ortogonalne, K i j = p dla y i y j, gdzie p [0,1). Podobnie jak w [47], za przykład jądra o niskiej jakośi posłuży przekształenie, które również rzutuje obserwaje do dwóh punktów w przestrzeni H, tym razem jednak do każdego z nih trafia połowa przypadków z każdej z klas. W maierzy K połowa komórek ma wię wartość 1 dla obserwaji zrzutowanyh do tego samego punktu w przestrzeni H, pozostałe zaś przyjmują wartość p Miara α miara korelayjna Pierwsza z zaproponowanyh miar jakośi jądra oparta jest na współzynniku korelaji Pearsona. Wartość statystyki wyznazana jest pomiędzy znormalizowanymi wartośiami jądra, a wartośiami funkji etykiet klas dla odpowiadająyh obserwaji. Funkja s(y i,y j ), opisująa zgodność etykiet klas obserwaji, zdefiniowana jest następująo: 0 jeśli y i y j, s(y i,y j ) = 1 jeśli y i = y j. (5.1) Funkja s definiuje maierz podobieństwa S o wymiarah n n, której poszzególne komórki przyjmują wartośi S i j = s(y i,y j ). Korzystają z maierzy jądrowej K oraz maierzy podobieństwa S miarę α(k, y) można zdefiniować następująo: α(k, y) = n 1 i=1 n 1 i=1 n j=i+1 n (K i j K)(S i j S) j=i+1 (K i j K) 2 n 1 i=1, (5.2) n (S i j S) 2 j=i+1 gdzie K i S oznazają średnie po maierzah trójkątnyh z wyłązeniem głównyh przekątnyh: K = n 1 n 2 n(n 1) K i j (5.3) i=1 j=i+1 96
97 oraz S = n 1 n 2 n(n 1) S i j. (5.4) i=1 j=i+1 Definija (5.2) pozwala na porównywanie wzajemnego podobieństwa przykładów oraz ih etykiet duża odległość pomiędzy obserwajami powinna implikować różnię pomiędzy wartośiami ih etykiet (podobna konepja, znana jako wskaźnik Γ, stosowana jest do oeny jakośi grupowania [32]). Miara α może przyjmować wartośi z zakresu [ 1, 1]. W przeiwieństwie do tradyyjnej interpretaji współzynnika korelaji, w przypadku miary α wartośi ujemne i bliskie zeru oznazają słabe dopasowanie jądra do rozkładu klas, zaś wzrost wartośi miary α świadzy o oraz lepszym dopasowaniu. Obserwaja 1. Dla idealnego jądra, które odpowiada rzutowaniu obserwaji należąyh do poszzególnyh klas do tyh samyh puntów w przestrzeni H, miara α przyjmuje wartość maksymalną. W przypadku gdy obserwaje należąe do poszzególnyh klas rzutowane są do tyh samyh puntów w przestrzeni H, a wektory w tej przestrzeni, odpowiadająe poszzególnym klasom, są do siebie ortogonalne, wartośi jądra k(x i,x j ) dla poszzególnyh par obserwaji są identyzne z odpowiadająymi im wartośiami funkji s(y i,y j ). Wówzas K i j = S i j dla i, j = 1,...,n oraz K = S, skąd wynika α(k, y) = n 1 i=1 n j=i+1 n 1 i=1 n j=i+1 (S i j S) 2 (S i j S) 2 n 1 i=1 = 1. (5.5) n (S i j S) 2 j=i+1 W ogólniejszym przypadku, w którym wektory w przestrzeni H nie są wzajemnie ortogonalne, dla K i j = p, gdzie i, j takie, że y i y j oraz p [0,1) otrzymujemy: n 1 n i=1 j=i+1 ( (K i j K)(S i j S) = n 1 n 2 p n(n 1) + 2(p 1)n )( 1n 2 2n1 n 2 n(n 1) n(n 1) n(n 1) ( 1 n(n 1) + 2(p 1)n )( 1n 2 1 n(n 1) 2n 1n 2 n(n 1) n(n 1) + n(n 1) 2n 1n 2 2 n 1 i=1 n j=i+1 (K i j K) 2 = n 1 n 2 ( (p 1)(n(n 1) 2n1 n 2 ) n(n 1) ) 2 + n(n 1) 2n 1n 2 2 ) + ), (5.6) ( 2(p 1)n ) 2 1n 2 (5.7) n(n 1) 97
98 oraz n 1 i=1 n j=i+1 (S i j S) 2 = n 1 n 2 ( 2n1 n 2 n(n 1) n(n 1) ) 2 + n(n 1) 2n 1n 2 gdzie n = n 1 + n 2. Podstawiają powyższe wzory do (5.2) otrzymujemy 2 ( ) 2n1 n 2 2, (5.8) n(n 1) α(k, y) = 1 p = 1. (5.9) 1 p Jak widać, w przypadku gdy wszystkie obserwaje z poszzególnyh klas rzutowane są do tyh samyh punktów w przestrzeni H, położenie tyh punktów nie wpływa na wartość miary α, która niezależnie od wartośi p [0,1) jest maksymalna. Obserwaja 2. Pogorszenie jakośi idealnego jądra, odpowiadająego rzutowaniu obserwaji należąyh do poszzególnyh klas do tyh samyh puntów w przestrzeni H, poprzez przeniesienie dowolnej pojedynzej obserwaji do punktu reprezentująego w przestrzeni H klasę przeiwną, powoduje spadek wartośi miary α. Potwierdzeniem dla powyższej obserwaji są wyniki eksperymentu numeryznego, polegająego na wyznazeniu wartośi miary α dla idealnego jądra oraz jądra, w którym jedna z obserwaji rzutowana jest do punktu reprezentująego w przestrzeni H klasę przeiwną. Na rysunku 5.1 przedstawiony został wykres poziomiowy różniy α(k 0, y) α(k, y), gdzie K 0 oznaza jądro idealne, zaś K jądro pogorszone zgodnie z powyższym opisem. W przeprowadzonym eksperymenie uwzględnione zostały zmiennośi parametru p oraz rozkładu liznośi klas w zbiorze danyh (reprezentowanego na rysunku przez stosunek lizby obserwaji jednej z klas do rozmiaru zbioru danyh), ponieważ wielkośi te wpływają na wartość miary α. Jak widać na wykresie, różnia α(k 0, y) α(k, y) jest dodatnia, niezależnie od wartośi parametru p i rozkładu liznośi klas. Świadzy to o poprawnym zahowaniu miary α, która osiąga dla jądra o maksymalnej jakośi właśiwe ekstremum lokalne. Obserwaja 3. Dla jądra o niskiej jakośi, które odpowiada rzutowaniu obserwaji należąyh do poszzególnyh klas do dwóh punktów w przestrzeni H w taki sposób, że do każdego z punktów trafia połowa przypadków z każdej z klas, miara α przyjmuje wartośi ujemne. W maierzy K połowa komórek ma wartość 1 dla obserwaji zrzutowanyh do tego samego punktu w przestrzeni H, pozostałe zaś przyjmują wartość p. Znają lizbę poszzególnyh wartośi przyjmowanyh przez komórki maierzy K i S można wyznazyć wartość wskaźnika α(k, y) = p 1 2n 1 n 2 p 1 (n 2)(n (5.10) n2 2 n). 98
99 n 1 n p Rysunek 5.1: Zmiany wartośi miary α po pogorszeniu jakośi jądra w funkji parametru p (oś pozioma) i stosunku lizby obserwaji jednej z klas do rozmiaru zbioru danyh (oś pionowa) Z normalizaji maierzy jądrowej wynika ogranizenie na wartośi p, tzn. p [0,1), o implikuje α(k, y) < Miara β testowanie równośi średnih Miara β oparta jest na statystye testu t-studenta równośi średnih wartośi jądra przy założeniu nierównośi warianji dwóh prób. Próby te reprezentowane są przez wartośi jądra dla obserwaji należąyh do tej samej klasy oraz wartośi jądra dla punktów z przeiwnyh klas. Nieh k W będzie zbiorem zawierająym wartośi górnyh podmaierzy trójkątnyh maierzy K 11 i K 22, jak dla zdefiniowanej wześniej dekompozyji maierzy jądrowej (3.1), podobnie zbiór k B nieh reprezentuje maierz K 12 : k W ={K i j i < j y i = y j }, k B ={K i j i < j y i y j }, (5.11) k WB ={k W k B }, 99
100 gdzie n W = k W, n B = k B, n WB = n W + n B oraz y i oznaza etykietę klasy i-tego przykładu. Miara β(k, y) zdefiniowana jest wówzas jako: k W k B β(k, y) =, (5.12) σ 2 W n W + σ2 B n B gdzie k x i σ 2 x oznazają średnią oraz warianję wyznazone na podstawie odpowiednih wektorów. Zgodnie z intuiją jaka kryje się za miarą β, ozekuje się, że odległość pomiędzy przykładami z tej samej klasy jest znaznie mniejsza niż względna odległość przykładów z różnyh klas. W takim przypadku średnia wartość odległośi wewnątrzklasowej powinna istotnie różnić się od średniej odległośi międzyklasowej. Zastosowanie testu do takiego przypadku oznaza zatem wysoką wartość statystyki testowej. Kiedy przykłady poszzególnyh klas tworzą zwarte i wzajemnie odległe grupy w przestrzeni eh H, wówzas wartość statystyki, a o za tym idzie wartość miary β, jest wysoka. Ponieważ zarówno liznik jak i mianownik w definiji (5.12) są nieujemne, miara β może przyjmować wartośi z zakresu [0, ). Obserwaja 4. Dla idealnego jądra, które odpowiada rzutowaniu obserwaji należąyh do poszzególnyh klas do tyh samyh puntów w przestrzeni H, wartość miary β nie jest ogranizona od góry. Dla idealnego jądra, dla którego K i j = 1 gdy y i = y j oraz K i j = p gdy y i y j, tzn. w sytuaji gdy obserwaje rzutowane są w zależnośi od przynależnośi do klasy do jednego z dwóh punktów w przestrzeni H, wartośi obu warianji w mianowniku (5.12) wynoszą 0. Rozluźniają nieo wymaganie dotyząe rzutowania obserwaji danej klasy do jednego punktu i wymagają jedynie, aby znajdowały się one w bliskim sąsiedztwie, takim że σ 2 B,σ2 W 0, otrzymujemy β. Należy pamiętać również, że w takim przypadku kw k B 1 p, jednak dla przekształenia jądrowego bliskiego idealnemu zahodzi p < 1. Obserwaja 5. Pogorszenie jakośi idealnego jądra, odpowiadająego rzutowaniu obserwaji należąyh do poszzególnyh klas do tyh samyh puntów w przestrzeni H, poprzez przeniesienie dowolnej pojedynzej obserwaji do punktu reprezentująego w przestrzeni H klasę przeiwną, powoduje spadek wartośi miary β. W efekie pogorszenia jakośi jądra średnie występująe w lizniku wynoszą k W = k W0 (1 p)(n 1 1) (5.13) 100
101 oraz k B = k B0 + n 2 (1 p), (5.14) gdzie k W0 i k B0 oznazają średnie dla jądra idealnego. Wartość liznika maleje zatem niezależnie od wartośi p [0,1). Warianje występująe w mianowniku (5.12) wynoszą odpowiednio oraz σ 2 W = 2 n n2 2 n 2 σ 2 B = [( n n 2 2 n 2n ) (1 ) 2 kw + (n1 + 1) ( ] ) 2 p k W 2 (5.15) 1 ( ) 2 ( ) ] 2 [(n 1 1)n 2 p kb + n2 1 kb. (5.16) n 1 n 2 1 Warianje (5.15) i (5.16) są dodatnie, zaś dla przypadku idealnego jądra σw0 2 = σ2 B0 = 0, wobe zego pogorszenie jakośi jądra prowadzi do zwiększenia wartośi mianownika miary β, a o za tym idzie obserwować można spadek wartośi miary β. Dla omawianego wskaźnika przeprowadzony został również eksperyment numeryzny, który stanowi dodatkowe potwierdzenie dla powyższej obserwaji. Jego wyniki przedstawione zostały na rysunku 5.2. Analiza teoretyzna oraz wyniki eksperymentu potwierdzają, że miara β osiąga dla jądra o maksymalnej jakośi właśiwe ekstremum lokalne n 1 n p 0 Rysunek 5.2: Zmiany wartośi miary β po pogorszeniu jakośi jądra w funkji parametru p (oś pozioma) i stosunku lizby obserwaji jednej z klas do rozmiaru zbioru danyh (oś pionowa) 101
102 Obserwaja 6. Dla jądra o niskiej jakośi, które odpowiada rzutowaniu obserwaji należąyh do poszzególnyh klas do dwóh punktów w przestrzeni H w taki sposób, że do każdego z punktów trafia połowa przypadków z każdej z klas, miara β przyjmuje wartość minimalną. Znają lizbę poszzególnyh wartośi przyjmowanyh przez elementy zbiorów k W i k B otrzymujemy następująe średnie: oraz k W = p (5.17) k B = (p + 1)(n2 1 + n2 2 ) 2n 2(n n2 2 ) 2n. (5.18) Przy n 1,n 2 wartość średnia k B p+1 2 = k W. W efekie, wartośi miary β(k, y) 0. Zrównanie się średnih wartośi dla obu zbiorów występuje także przy p = 1, zyli w sytuaji gdy wszystkie obserwaje rzutowane są do jednego punktu w przestrzeni H, jednak w tym przypadku również obie warianje w mianowniku (5.12) wynoszą 0. Warto także zauważyć, że ze wzrostem ałkowitej lizby obserwaji n, wpływ nierównomiernośi rozkładu lizby obserwaji w poszzególnyh klasah na wartość miary β jest oraz mniejszy Miara γ testowanie warianji Miary jakośi jądra zaprezentowane w rozdziale 3 oraz przedstawione dotąd w niniejszym punkie obiążone są w niejawny sposób założeniem o konkretnej postai rozkładu, z którego pohodzą dane. Miara γ(k, y) zbudowana jest na podstawie testu Browna Forsythe a, którego zadaniem jest oena równośi warianji w próbah bez sztywnego założenia o normalnośi rozkładu. Adaptują statystykę F tego testu [41] do problemu dwóh klas, korzystają przy tym z wektorów (5.11), otrzymujemy następująą postać miary: γ(k, y) = (n 2) n W (Z W Z WB ) 2 + n B (Z B Z WB ) 2 n W i=1 (Z i Z W ) 2 + n B i=1 (Z i Z B ) 2, (5.19) gdzie zmienne transformowane Z X tworzone są poprzez odjęie mediany odpowiedniego wektora (5.11) od wszystkih jego wartośi. Wartośi średnie Z W, Z B oraz Z WB wyznazane są na podstawie odpowiednih zmiennyh transformowanyh. W teśie Browna Forsythe a odpowiednio wysokie wartośi statystyki F dają podstawę do odrzuenia hipotezy o równośi warianji. Zatem w przypadku miary γ(k, y) ozekiwanym zahowaniem jest przypisywanie wyższyh wartośi jądrom harakteryzująym się niską warianją wewnątrzklasową i wysoką warianją międzyklasową. To z kolei oznaza formowanie 102
103 w przestrzeni H zwartyh i wzajemnie odległyh grup odpowiadająyh poszzególnym klasom. Również w przypadku miary γ, o ile lizba przykładów n jest większa od 2, zarówno liznik jak i mianownik są nieujemne, w związku z zym miara γ(k, y) może przyjmować wartośi z zakresu [0, ). Obserwaja 7. Dla idealnego jądra, które odpowiada rzutowaniu obserwaji należąyh do poszzególnyh klas do tyh samyh puntów w przestrzeni H, wartość miary γ nie jest ogranizona od góry. Dla idealnego jądra otrzymujemy dla sum występująyh w mianowniku (5.19) n W (Z i Z W ) 2 = 0 oraz i=1 n B (Z i Z B ) 2 = 0, i=1 niezależnie od wartośi p [0, 1), a wię również od wzajemnego położenia punktów harakteryzująyh obie klasy w przestrzeni H. Ponieważ wyrażenie w lizniku definiji (5.19) jest dla takiego jądra zawsze dodatnie, to ostateznie γ(k, y). Obserwaja 8. Pogorszenie jakośi idealnego jądra, odpowiadająego rzutowaniu obserwaji należąyh do poszzególnyh klas do tyh samyh puntów w przestrzeni H, poprzez przeniesienie dowolnej pojedynzej obserwaji do punktu reprezentująego w przestrzeni H klasę przeiwną, powoduje spadek wartośi miary γ. Dla pogorszonego jądra otrzymujemy dla sum występująyh w mianowniku (5.19) n W (Z i Z W ) 2 0 oraz i=1 n B (Z i Z B ) 2 0, i=1 a zatem mianownik przyjmuje wartość dodatnią, o z kolei oznaza spadek wartośi miary γ w stosunku do idealnego jądra. Powyższa obserwaja, podobnie jak dla poprzednio wprowadzonyh miar jakośi jądra, potwierdzona została również eksperymentalnie. Na rysunku 5.3 przedstawiony został wykres poziomiowy różniy γ(k 0, y) γ(k, y), gdzie K 0 oznaza jądro idealne, zaś K jądro pogorszone. Eksperyment numeryzny, wykonany ponownie dla różnyh wartośi p i stosunku liznośi jednej z klas do rozmiaru ałego zbioru danyh, pokazuje, że różnia wartośi miary γ jest dodatnia w ałym zakresie, a zatem wskaźnik ten osiąga dla jądra o maksymalnej jakośi właśiwe ekstremum lokalne. Obserwaja 9. Dla jądra o niskiej jakośi, które odpowiada rzutowaniu obserwaji należąyh do poszzególnyh klas do dwóh punktów w przestrzeni H w taki sposób, że do każdego z punktów trafia połowa przypadków z każdej z klas, miara γ przyjmuje wartość minimalną. 103
104 n 1 n p Rysunek 5.3: Zmiany wartośi miary γ po pogorszeniu jakośi jądra w funkji parametru p (oś pozioma) i stosunku lizby obserwaji jednej z klas do rozmiaru zbioru danyh (oś pionowa) Dla przypadku jądra o niskiej jakośi otrzymujemy następująe wartośi dla średnih występująyh w lizniku definiji (5.19): Z W = p + 1 2, (5.20) Z B = (p + 1)(n2 1 + n2 2 ) 2n 2(n n2 2 ) 2n (5.21) oraz Z WB = (p + 1)(n 1 + n 2 ) 2. (5.22) 2(n 1 + n 2 ) 2 Wraz ze wzrostem lizby obserwaji z obu klas wartośi poszzególnyh średnih zbliżają się do siebie, a o za tym idzie γ(k, y) 0. Podobnie jak miało to miejse dla miary β, zerowanie się liznika można uzyskać dla p = 1, prowadzi to jednak do sytuaji, w której także mianownik (5.19) jest równy zeru. Również dla wskaźnika γ prawdziwa jest obserwaja, zgodnie z którą wpływ nierównomiernośi rozkładu lizby obserwaji w obu klasah zmniejsza się wraz ze wzrostem ałkowitej lizby obserwaji w rozważanej próbe danyh. Podobnie jak dla wskaźników α i β, miara γ poprawnie oenia jądra o skrajnej jakośi, przypisują wysoką wartość idealnemu przekształeniu oraz najniższą możliwą wartość jądru o niskiej jakośi. Potwierdza to potenjalną przydatność zaproponowanej miary do oeny jakośi jądra. 104
105 Zaproponowane w tym rozdziale miary harakteryzują się złożonośią O ( n 2). W przypadku miary γ koniezny jest jednak dodatkowy krok związany z wyznazeniem mediany. Krok ten również obarzony jest kwadratową złożonośią. Warto również pamiętać, że w przypadku zaproponowanyh wskaźników oblizenia ogranizone są jedynie do n(n 1) 2 elementów maierzy jądrowej, o istotnie wpływa na stałe związane ze złożonośią oblizeniową Zastosowanie miar jakośi jądra w proesie optymalizaji W elu porównania znanyh z literatury oraz zaproponowanyh miar jakośi jądra, wykonane zostały eksperymenty analogizne do przeprowadzonyh w poprzednim rozdziale, przy zym jako funkje elu w optymalizaji zastosowano zaproponowane w niniejszym rozdziale miary. Metodyka eksperymentów była identyzna z przedstawioną w poprzednim rozdziale, dodatkowo wykonane zostały jednak testy pozwalająe oenić istotność różniy średnih wartośi błędów klasyfikaji pomiędzy standardowymi i alternatywnymi miarami jakośi Wyniki klasyfikaji na podstawie zoptymalizowanyh jąder W kolejnyh punktah przedstawione zostały wyniki optymalizaji i klasyfikaji. W elu zapewnienia zgodnośi warunków eksperymentu, wartośi startowe optymalizowanyh parametrów są identyzne z użytymi podzas badania miar jakośi jądra znanyh z literatury, zahowany został także podział danyh podzas wszystkih powtórzeń walidaji krzyżowej. Jądro gaussowskie W tabeli 5.1 przedstawiono wyniki klasyfikaji z użyiem jądra gaussowskiego optymalizowanego z wykorzystaniem jako funkji elu miar zaproponowanyh w niniejszym rozdziale. Minimalne wartośi błędów dla każdego z zadań klasyfikaji zostały wyróżnione pogrubieniem. Dodatkowo kursywą oznazone są wszystkie wyniki nie gorsze od najlepszego spośród uzyskanyh podzas stosowania miar rozważanyh w poprzednim rozdziale. Wyniki uzyskane podzas stosowania miar α i β są bardzo zbliżone, z wyraźną różnią jedynie w przypadku zadań binarnyh dla danyh Balane-Sale. Poza tym zbiorem oraz zadaniem Opel Saab na danyh Vehile miary te uzyskują wyniki lepsze bądź porównywalne do uzyskiwanyh przez najlepsze z miar standardowyh (por. tabela 4.1). W zdeydowanej większośi przypadków modele o najniższym błędzie wygenerowane zostały na podstawie jądra optymalizowanego z wykorzystaniem miary γ. Wskaźnik ten dał wyniki wyraźnie słabsze od uzyskanyh 105
106 Tabela 5.1: Błąd klasyfikaji dla jądra gaussowskiego Błąd Błąd zrównoważony α β γ α β γ Breast Caner 3.23 ± ± ± ± ± ±1.89 Pima Diabetes ± ± ± ± ± ±4.83 Ionosphere 5.36 ± ± ± ± ± ±4.99 Liver ± ± ± ± ± ±9.39 Balane-Sale (B R) ± ± ± ± ± ±21.99 Balane-Sale (L B) ± ± ± ± ± ±21.99 Balane-Sale (L R) 1.39 ± ± ± ± ± ±1.99 Vehile (Bus Van) 1.50 ± ± ± ± ± ±1.63 Vehile (Opel Bus) 1.77 ± ± ± ± ± ±1.51 Vehile (Opel Saab) ± ± ± ± ± ±11.91 Vehile (Opel Van) 4.13 ± ± ± ± ± ±2.98 Vehile (Saab Bus) 1.70 ± ± ± ± ± ±1.75 Vehile (Saab Van) 3.42 ± ± ± ± ± ±2.70 przy pomoy najlepszyh miar standardowyh jedynie w przypadku zadań B R i L B dla zbioru Balane-Sale oraz Opel-Saab dla danyh Vehile, w szzególnośi biorą pod uwagę błąd zrównoważony. W pozostałyh przypadkah miara γ pozwala dla każdego z rozważanyh zadań uzyskać parametry jądra skutkująe modelem o wysokiej jakośi, w odróżnieniu od pozostałyh miar, dla któryh zęść zadań okazywała się zdeydowanie zbyt trudna. Tabela 5.2: Porównanie błędów dla jądra gaussowskiego Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr α β γ KTA KTA or Fisher FSMerr α β γ KTA 2/10/1 8/3/2 8/5/0 2/7/4 2/8/3 1/10/2 2/10/1 9/3/1 8/5/0 2/8/3 2/9/2 2/10/1 KTA or 1/10/2 7/5/1 7/4/2 2/8/3 0/11/2 1/8/4 1/10/2 7/4/2 7/6/0 1/9/3 0/9/4 2/8/3 Fisher 2/3/8 1/5/7 6/3/4 1/6/6 1/4/8 2/4/7 1/3/9 2/4/7 7/4/2 1/5/7 1/4/8 1/5/7 FSMerr 0/5/8 2/4/7 4/3/6 2/3/8 1/4/8 1/4/8 0/5/8 0/6/7 2/4/7 0/5/8 0/4/9 1/3/9 α 4/7/2 3/8/2 6/6/1 8/3/2 0/11/2 3/7/3 3/8/2 3/9/1 7/5/1 8/5/0 0/11/2 3/7/3 β 3/8/2 2/11/0 8/4/1 8/4/1 2/11/0 1/9/3 2/9/2 4/9/0 8/4/1 9/4/0 2/11/0 1/11/1 γ 2/10/1 4/8/1 7/4/2 8/4/1 3/7/3 3/9/1 1/10/2 3/8/2 7/5/1 9/3/1 3/7/3 1/11/1 Eksperymenty dla miar standardowyh i alternatywnyh wykonane zostały w identyznyh warunkah. Dla każdego z 50 powtórzeń proesu optymalizaji i klasyfikaji podział na zbiór trenująy i testowy oraz wylosowana wartość pozątkowa parametru były identyzne dla wszystkih miar. Dzięki temu dla każdego z rozważanyh zadań klasyfikaji możliwe było bezpośrednie porównanie średnih wartośi błędu pomiędzy poszzególnymi miarami za pomoą testu Wiloxona dla par obserwaji. W tabeli 5.2 każda z komórek zawiera trzy lizby, które kolejno 106
107 oznazają, w ilu porównaniah błąd klasyfikaji uzyskany przy zastosowaniu miary z określonego wiersza był istotnie niższy, nie był istotnie różny, był istotnie wyższy od wskaźnika z danej kolumny. Istotność dla testu przyjęto na poziomie Tabela 5.3: Optymalne wartośi parametrów dla jądra gaussowskiego α β γ Breast Caner 2.84e+00±1.93e e+00±3.73e e+00±7.44e+00 Pima Diabetes 1.92e+00±8.71e e+00±8.67e e+00±1.23e+01 Ionosphere 3.10e+00±1.13e e+00±1.23e e+00±2.00e+01 Liver 6.18e-02±3.91e e-02±5.57e e-01±5.95e-02 Balane-Sale (B R) 4.25e+03±6.22e e+00±4.37e e-02±3.44e-02 Balane-Sale (L B) 3.98e+03±4.19e e+00±4.28e e-02±3.45e-02 Balane-Sale (L R) 2.04e+00±9.84e e+00±3.44e e+00±9.77e+00 Vehile (Bus Van) 1.37e+00±8.63e e+00±8.58e e+00±5.16e+00 Vehile (Opel Bus) 1.68e+00±7.88e e+00±7.88e e+00±7.34e+00 Vehile (Opel Saab) 1.23e+00±2.88e e-01±2.99e e+00±1.90e+00 Vehile (Opel Van) 2.56e+00±1.05e e+00±1.05e e+00±1.50e+01 Vehile (Saab Bus) 1.67e+00±7.54e e+00±7.55e e+00±5.69e+00 Vehile (Saab Van) 2.57e+00±9.91e e+00±9.88e e+00±1.35e+01 Tabela 5.4: Wartośi miar jakośi dla jądra gaussowskiego α β γ Breast Caner 7.63e-01 ±6.00e e+02 ±7.16e e+05 ±5.97e+03 Pima Diabetes 1.85e-01 ±7.00e e+01 ±3.81e e+03 ±5.61e+02 Ionosphere 3.38e-01 ±8.00e e+01 ±2.69e e+03 ±4.64e+02 Liver 1.80e-02 ±5.00e e+00 ±1.14e e+01 ±6.48e+00 Balane-Sale (B R) 1.38e-01 ±8.00e e+01 ±1.62e e+02 ±3.18e+02 Balane-Sale (L B) 1.38e-01 ±1.20e e+01 ±2.41e e+02 ±1.92e+02 Balane-Sale (L R) 3.30e-01 ±7.00e e+02 ±4.06e e+04 ±5.43e+02 Vehile (Bus Van) 1.97e-01 ±3.00e e+01 ±1.01e e+03 ±1.17e+02 Vehile (Opel Bus) 2.33e-01 ±5.00e e+01 ±1.44e e+03 ±2.39e+02 Vehile (Opel Saab) 1.00e-02 ±2.00e e+00 ±5.27e e+00 ±2.81e+00 Vehile (Opel Van) 2.81e-01 ±9.00e e+01 ±2.52e e+03 ±3.16e+02 Vehile (Saab Bus) 2.18e-01 ±6.00e e+01 ±1.81e e+03 ±2.68e+02 Vehile (Saab Van) 2.62e-01 ±1.00e e+01 ±2.91e e+03 ±3.45e+02 Zastosowanie miar α, β i γ prowadzi do uzyskania modeli o podobnej jakośi do uzyskanyh za pomoą obu wariantów KTA w przypadku większośi zadań klasyfikaji binarnej (od 7 do 11). Jednoześnie, w każdym porównaniu miar, modele uzyskane miarami α, β i γ zęśiej 107
108 dają niższy błąd. Zaproponowane miary, podobnie jak oba warianty KTA, w większośi zadań generują klasyfikatory lepsze niż uzyskane miarą fisherowską i metodą FSMerr. Miara α ustępuje wskaźnikowi β w dwóh zadaniah, jednoześnie dają tyle samo gorszyh i lepszyh modeli o γ. Ogranizają się do błędów zrównoważonyh, można mówić o zbliżonej jakośi wszystkih miar alternatywnyh. W tabeli 5.3 przedstawione zostały optymalne wartośi parametru jądra gaussowskiego uzyskane w zasie optymalizaji za pomoą rozważanyh w niniejszym rozdziale miar. Uzyskane wartośi wskazują w większośi przypadków, że wykorzystane metody nie wykazują tendenji do preferowania skrajnyh wartośi parametru. Jedynie w przypadku zadań B R i L B ze zbioru Balane-Sale oraz danyh Liver zastosowanie miar α i γ skutkowało wynikami odpowiadająymi krańom przedziału dopuszzalnyh wartośi parametru. α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.4: Udział wektorów podpierająyh dla jądra gaussowskiego Wartośi miar odpowiadająe optymalnym parametrom przedstawiono w tabeli 5.4. Porów- 108
109 nują wartośi miary α z wartośiami uzyskanyh błędów widać, że dla przypadków słabej klasyfikaji są one wyraźnie niższe niż dla zadań, w któryh jakość klasyfikaji jest wysoka. W przypadku miar β i γ, któryh wartośi z definiji nie są ogranizone od góry, bezwzględne określenie jakośi uzyskanego jądra jest utrudnione. Porównanie wartośi tyh miar dla zadań o różnyh błędah klasyfikaji pozwala jednak na wnioskowanie, w któryh przypadkah można od uzyskanego klasyfikatora ozekiwać wyższej jakośi. α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.5: Lizba oblizeń funkji elu dla jądra gaussowskiego Na rysunku 5.4 przedstawione zostały wykresy pudełkowe udziału wektorów podpierająyh w zbiorze trenująym. Podobnie jak w przypadku dopasowania jądro-klasa, modele uzyskane przy wykorzystaniu miar α i β harakteryzują się dużą lizbą wektorów podpierająyh jedynie dla danyh Liver i klasyfikaji Opel Saab ze zbioru Vehile, dla któryh zaobserwować można również relatywnie wysoki błąd klasyfikaji. Dla tyh zadań oraz problemów B R i L B ze zbioru Balane-Sale widać w przypadku miary γ dużą rozpiętość udziału wektorów podpiera- 109
110 jąyh. W połązeniu z wysoką wartośią odhylenia standardowego błędu na tyh zadaniah w przypadku wskaźnika γ sugerować to może, że miara ta jest w stanie dawać zdeydowanie lepsze jądra przy odpowiednim wyborze punktu startowego. Lizba oblizeń funkji elu niezbędnyh do uzyskania przez poszzególne miary optymalnyh wartośi parametrów zaprezentowana została na wykresah pudełkowyh na rysunku 5.5. Najszybszą zbieżność obserwuje się dla miary α, dla której typowa lizba oblizeń funkji elu jest nieo mniejsza od uzyskiwanej przy zastosowaniu dopasowania jądro-klasa. Podobnie jak w przypadku KTA, dla niektóryh zadań mediana przekraza wartość 10. Kilka iteraji więej potrzebują do znalezienia optimum miary β i γ, przy zym, w przypadku tej drugiej, mediana lizby oblizeń funkji nie przekraza wartośi 10. Tabela 5.5: Błąd klasyfikaji wielowartośiowej dla jądra gaussowskiego α β γ Balane-Sale ±7.44 (11.82%) ±6.87 (7.14%) 9.72 ±0.65 (0.79%) Vehile ±0.85 (0.95%) ±0.98 (0.92%) ±1.39 (1.00%) Wyniki dla klasyfikaji wielowartośiowej, podobnie jak w przypadku zadania binarnego, wskazują na wyraźnie wyższą jakość modeli uzyskanyh podzas optymalizaji z wykorzystaniem miary γ jako funkji elu. Minimalne wartośi błędów dla poszzególnyh zadań klasyfikaji przedstawione w tabeli 5.5 oznazone zostały pogrubioną zionką. Błędy nie większe niż najniższy błąd dla miar standardowyh zostały dodatkowo oznazone kursywą. Dla danyh Balane-Sale miarom α i β odpowiadają modele o jakośi lepszej jedynie od klasyfikatora uzyskanego przy użyiu metody FSMerr. Błąd dla miary γ jest gorszy o 1 proent od najlepszego wyniku uzyskanego z wykorzystaniem wskaźnika KTA. Na danyh Vehile miara γ prowadzi do uzyskania klasyfikatora o błędzie niższym o 7 proent od najlepszej z miar standardowyh. Miary α i β generują modele nieo gorsze niż miara γ, nadal są one jednak wyraźnie lepsze od miary KTA or dająej model o najniższym błędzie spośród miar standardowyh. Jądro wielomianowe (d=2) W niniejszym punkie zaprezentowane zostały wyniki eksperymentów przeprowadzonyh z wykorzystaniem zaproponowanyh miar jakośi przy optymalizaji parametru jądra wielomianowego o stopniu d = 2. Przedstawione w tabeli 5.6 średnie wartośi błędów klasyfikaji odpowiadająe poszzególnym miarom jakośi są w większośi przypadków zbliżone do siebie oraz do wartośi błędów jakie uzyskane zostały za pomoą wskaźników standardowyh (por. tabe- 110
111 la 4.5). Spośród zaproponowanyh miar jakośi najlepiej pod względem błędu wypada miara γ, która najzęśiej pozwala na wygenerowanie jąder dająyh w efekie modele o najwyższej jakośi. Jedynie na zbiorah Breast i Ionosphere można mówić w jej przypadku o nieo słabszyh wynikah. Obserwują jednak wartośi błędu zrównoważonego dla dwóh pierwszyh zadań ze zbioru Balane-Sale, są one dla miary γ wyraźnie wyższe jądra w słabszym stopniu uwzględniają mało lizną kategorię B. W ogólnośi wię, wskaźnik γ daje najlepsze wyniki w podobnej lizbie zadań o miary α i β. Tabela 5.6: Błąd klasyfikaji dla jądra wielomianowego (d = 2) Błąd Błąd zrównoważony α β γ α β γ Breast Caner 3.07 ± ± ± ± ± ±2.06 Pima Diabetes ± ± ± ± ± ±7.41 Ionosphere 5.58 ± ± ± ± ± ±4.23 Liver ± ± ± ± ± ±11.39 Balane-Sale (B R) 6.98 ± ± ± ± ± ±8.04 Balane-Sale (L B) 6.92 ± ± ± ± ± ±6.98 Balane-Sale (L R) 1.36 ± ± ± ± ± ±0.99 Vehile (Bus Van) 2.35 ± ± ± ± ± ±1.76 Vehile (Opel Bus) 1.63 ± ± ± ± ± ±2.03 Vehile (Opel Saab) ± ± ± ± ± ±6.51 Vehile (Opel Van) 4.28 ± ± ± ± ± ±3.02 Vehile (Saab Bus) 1.38 ± ± ± ± ± ±1.53 Vehile (Saab Van) 4.38 ± ± ± ± ± ±2.92 Tabela 5.7: Porównanie błędów dla jądra wielomianowego (d = 2) Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr α β γ KTA KTA or Fisher FSMerr α β γ KTA 0/11/2 3/7/3 1/10/2 1/10/2 1/10/2 2/8/3 0/11/2 5/5/3 1/10/2 1/10/2 1/10/2 2/8/3 KTA or 2/11/0 4/8/1 1/12/0 1/12/0 1/12/0 2/10/1 2/11/0 6/6/1 1/12/0 1/12/0 1/12/0 2/11/0 Fisher 3/7/3 1/8/4 0/9/4 1/10/2 1/10/2 1/7/5 3/5/5 1/6/6 1/9/3 1/8/4 1/8/4 1/7/5 FSMerr 2/10/1 0/12/1 4/9/0 4/8/1 3/9/1 1/12/0 2/10/1 0/12/1 3/9/1 2/11/0 1/12/0 0/13/0 α 2/10/1 0/12/1 2/10/1 1/8/4 0/13/0 1/9/3 2/10/1 0/12/1 4/8/1 0/11/2 0/13/0 1/11/1 β 2/10/1 0/12/1 2/10/1 1/9/3 0/13/0 1/9/3 2/10/1 0/12/1 4/8/1 0/12/1 0/13/0 1/11/1 γ 3/8/2 1/10/2 5/7/1 0/12/1 3/9/1 3/9/1 3/8/2 0/11/2 5/7/1 0/13/0 1/11/1 1/11/1 Biorą pod uwagę wartośi błędów dla wszystkih miar, porównanie wypada na korzyść metod FSMerr i KTA or oraz zaproponowanyh miar β i γ. Mimo pojedynzyh dobryh wyników, najgorsze modele generowane są podzas stosowania metody opartej na regule Fishera. Choć porównują wartośi błędów z tabeli 4.5 i 5.6 trudno mówić o wyraźnej wyższośi miar 111
112 standardowyh lub alternatywnyh warto zauważyć, że zaproponowane w pray wskaźniki są bardziej stabilne jeśli hodzi o jakość generowanyh modeli dają one dobre rezultaty praktyznie dla wszystkih zadań klasyfikaji, podzas gdy obie wersje dopasowania oraz wskaźnik FSMerr prowadzą niekiedy do rezultatów wyraźnie odbiegająyh od najlepszyh. Tabela 5.8: Optymalne wartośi parametrów dla jądra wielomianowego (d = 2) α β γ Breast Caner 8.66e+00 ±2.17e e+00 ±1.26e e+00 ±8.69e-02 Pima Diabetes 7.99e+00 ±6.32e e+00 ±5.50e e+00 ±4.94e-02 Ionosphere 2.86e+00 ±5.40e e+00 ±4.87e e+01 ±1.37e+01 Liver 4.41e-01 ±1.17e e-01 ±1.17e e-01 ±3.22e-01 Balane-Sale (B R) 1.00e+03 ±4.06e e+03 ±0.00e e+02 ±4.97e+02 Balane-Sale (L B) 1.00e+03 ±3.73e e+03 ±0.00e e+02 ±4.97e+02 Balane-Sale (L R) 3.98e+00 ±6.88e e+00 ±6.95e e+00 ±3.82e-02 Vehile (Bus Van) 3.02e+00 ±5.56e e+00 ±5.56e e+00 ±2.54e-01 Vehile (Opel Bus) 5.53e+00 ±2.77e e+00 ±2.77e e+00 ±2.04e+00 Vehile (Opel Saab) 3.31e-01 ±6.55e e-01 ±6.68e e+00 ±7.00e-01 Vehile (Opel Van) 8.68e+00 ±4.71e e+00 ±4.76e e+00 ±1.60e-01 Vehile (Saab Bus) 5.28e+00 ±3.67e e+00 ±3.68e e+00 ±4.27e+00 Vehile (Saab Van) 8.44e+00 ±5.66e e+00 ±5.70e e+00 ±2.36e-01 Tabela 5.9: Wartośi miar jakośi dla jądra wielomianowego (d = 2) α β γ Breast Caner 8.37e-01 ±6.00e e+02 ±1.73e e+05 ±3.64e+03 Pima Diabetes 1.89e-01 ±6.00e e+01 ±2.96e e+03 ±3.15e+02 Ionosphere 3.47e-01 ±6.00e e+01 ±1.82e e+03 ±1.48e+03 Liver 2.00e-02 ±3.00e e+00 ±6.76e e+01 ±5.80e+00 Balane-Sale (B R) 1.37e-01 ±8.00e e+01 ±1.69e e+01 ±6.95e+01 Balane-Sale (L B) 1.37e-01 ±1.00e e+01 ±1.89e e+01 ±7.14e+01 Balane-Sale (L R) 3.58e-01 ±7.00e e+02 ±3.17e e+04 ±5.91e+02 Vehile (Bus Van) 1.67e-01 ±4.00e e+01 ±1.13e e+03 ±2.05e+02 Vehile (Opel Bus) 1.83e-01 ±7.00e e+01 ±2.05e e+03 ±2.71e+02 Vehile (Opel Saab) 7.00e-03 ±2.00e e+00 ±5.42e e+00 ±3.54e+00 Vehile (Opel Van) 3.17e-01 ±8.00e e+01 ±2.55e e+03 ±3.20e+02 Vehile (Saab Bus) 1.82e-01 ±1.00e e+01 ±2.99e e+03 ±4.00e+02 Vehile (Saab Van) 3.06e-01 ±9.00e e+01 ±2.73e e+03 ±3.46e+02 Analiza wyników testu Wiloxona (tabela 5.7), porównująego średnie wartośi błędów klasyfikaji dla poszzególnyh miar, pozwala zauważyć dwa wyróżniająe się wskaźniki FSMerr 112
113 α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.6: Udział wektorów podpierająyh dla jądra wielomianowego (d = 2) oraz γ. Oba z nih są wyraźnie lepsze od metody fisherowskiej i miar α i β, w pojedynzyh przypadkah ustępują dopasowaniu jądro-klasa. Metoda fisherowska daje wyniki gorsze zęśiej niż wszystkie inne miary. Optymalne wartośi parametru jądra wielomianowego, uzyskane podzas optymalizaji za pomoą zaproponowanyh miar, przedstawione są w tabeli 5.8. Podobnie jak w przypadku metod standardowyh zauważyć można wysoką stabilność rozwiązań. Zebrane w tabeli wartośi wskazują jedynie na zbieganie dla zadań B R i L B ze zbioru Balane-Sale miar α i β w okolie górnej graniy przedziału dopuszzalnyh wartośi. Pośród miar standardowyh taką właśiwośią harakteryzowała się jedynie metoda oparta na regule Fishera. Wartośi miar odpowiadająe optymalnym wartośiom parametru dla jądra wielomianowego drugiego stopnia zestawione zostały w tabeli 5.9. Analiza wartośi poszzególnyh wskaźników pozwala zauważyć w przypadku każdego z nih wyraźne różnie pomiędzy poszzegól- 113
114 α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.7: Lizba oblizeń funkji elu dla jądra wielomianowego (d = 2) nymi zadaniami klasyfikaji oraz korelaję z jakośią modeli uzyskiwanyh za pomoą jąder o parametrah, któryh oeny znajdują się w rozważanej tabeli. Obserwaja ta świadzy o pożądanyh właśiwośiah zaproponowanyh w pray miar, pozwalająyh na relatywną oenę jąder. Porównanie kierunków zmian wartośi błędów i oen pomiędzy rozważanym jądrem wielomianowym a jądrem gaussowskim zęśiowo potwierdza tę właśiwość w przypadku miary γ, dla wskaźników α i β pokazuje jednak, że lizba zadań dla któryh były one poprawne jest mniejsza niż dla miary KTA. Złożoność uzyskanyh modeli, mierzona udziałem wektorów podpierająyh w ałym zbiorze trenująym, przedstawiona na rysunku 5.6, nie odbiega od wyników obserwowanyh dla miar standardowyh. W większośi przypadków złożoność ta jest bliska dolnemu ogranizeniu, wynikająemu z wartośi parametru ν algorytmu SVM. Podobnie jak w obserwowanyh dotąd przypadkah, w zadaniah dla któryh obserwowany był wyższy błąd klasyfikaji, udział 114
115 wektorów podpierająyh jest wyraźnie wyższy, ze względu na bardziej złożoną postać funkji deyzyjnej w pierwotnej przestrzeni atrybutów. Rozkład lizby oblizeń funkji elu reprezentowanyh przez miary alternatywne, niezbędnyh do odnalezienia optymalnego rozwiązania, przedstawiony został na wykresah pudełkowyh na rysunku 5.7. O ile w przypadku miar α i β mediana lizby oblizeń funkji nie przekraza wartośi 20, o tyle dla miary γ zawiera się ona dla większośi przypadków w przedziale Jest to wynik kilkukrotnie wyższy również od uzyskiwanego dla miar standardowyh (odpowiadająe wartośi mieszzą się przeważnie w przedziale 10 20), stanowiąy enę jaką należy zapłaić za wysoką jakość modeli uzyskiwanyh przy stosowaniu wskaźnika γ. Tabela 5.10: Błąd klasyfikaji wielowartośiowej dla jądra wielomianowego (d = 2) α β γ Balane-Sale 9.30 ±0.55 (1.65%) 8.35 ±0.79 (1.02%) 8.36 ±0.85 (0.91%) Vehile ±0.95 (0.69%) ±1.04 (0.81%) ±0.84 (0.88%) Wyniki klasyfikaji dla danyh o wielu kategoriah przedstawione zostały w tabeli W przypadku wielowartośiowym potwierdzają one obserwaje dla zadań binarnyh zastosowanie miar alternatywnyh daje podobne rezultaty do tyh jakie uzyskać można optymalizują jądro wielomianowe o stopniu d = 2 za pomoą miar standardowyh. Podobnie jak dla jądra gaussowskiego, w przypadku wielomianu drugiego stopnia wyróżnić można miarę γ. Najlepsze rezultaty i stabilna jakość wymagają jednak zdeydowanie dłuższej optymalizaji. Miary α i β dają w ogólnym przypadku wyniki nie odbiegająe od uzyskiwanyh miarami standardowymi, jednak nie są w stanie poprawnie oenić parametrów dla 2 zadań ze zbioru Balane-Sale, o zyni je relatywnie słabszymi w przypadku wielomianu drugiego stopnia. Jądro wielomianowe (d=3) Wyniki przedstawione w niniejszym punkie uzyskano przy wykorzystaniu alternatywnyh miar jakośi do optymalizaji parametru jądra wielomianowego o stopniu d = 3. Obserwaja średnih wartośi błędu wskazuje, że stosowanie poszzególnyh miar alternatywnyh prowadzi w większośi przypadków do uzyskania modeli o zbliżonej jakośi (zdeydowana różnia widozna jest jedynie dla zadania L R ze zbioru Balane-Sale). Oena jakośi modeli na podstawie wartośi błędu zrównoważonego, bardziej zułego na nierównomierność rozkładu klas, prowadzi jednak do wniosku, że klasyfikatory oparte na jądrze optymalizowanym z użyiem 115
116 miary γ harakteryzują się niższą jakośią. W szzególnośi modele dla zbioru Balane Sale uzyskiwane na podstawie miary γ harakteryzują się wyraźnie słabszą zdolnośią do generalizaji, a w efekie większą lizbą pomyłek podzas ewaluaji klasyfikatora. Tabela 5.11: Błąd klasyfikaji dla jądra wielomianowego (d = 3) Błąd Błąd zrównoważony α β γ α β γ Breast Caner 2.83 ± ± ± ± ± ±1.90 Pima Diabetes ± ± ± ± ± ±5.05 Ionosphere 4.84 ± ± ± ± ± ±5.53 Liver ± ± ± ± ± ±8.66 Balane-Sale (B R) 6.07 ± ± ± ± ± ±8.19 Balane-Sale (L B) 6.58 ± ± ± ± ± ±8.00 Balane-Sale (L R) 5.48 ± ± ± ± ± ±1.46 Vehile (Bus Van) 1.93 ± ± ± ± ± ±1.84 Vehile (Opel Bus) 1.81 ± ± ± ± ± ±1.95 Vehile (Opel Saab) ± ± ± ± ± ±6.91 Vehile (Opel Van) 4.00 ± ± ± ± ± ±2.79 Vehile (Saab Bus) 1.39 ± ± ± ± ± ±1.88 Vehile (Saab Van) 3.30 ± ± ± ± ± ±3.86 Miary α i β dają w odpowiednio 6 i 5 zadaniah klasyfikaji modele o najniższe wartośi błędu spośród modeli zbudowanyh na podstawie wszystkih rozważanyh w pray miar jakośi. W pozostałyh nie ustępują jakośią najlepszym spośród modeli, poza wspomnianymi zadaniami ze zbioru Balane Sale. Nie można tego powiedzieć o wynikah miary γ. Wartośi błędu dla danyh Ionosphere, dwóh zestawów klas ze zbioru Balane Sale oraz klasyfikaji Opel Saab dla danyh Vehile są wyraźnie wyższe od uzyskiwanyh przez modele wygenerowane na podstawie innyh miar. Tabela 5.12: Porównanie błędów dla jądra wielomianowego (d = 3) Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr α β γ KTA KTA or Fisher FSMerr α β γ KTA 1/11/1 8/5/0 1/7/5 1/10/2 1/9/3 4/6/3 1/12/0 8/5/0 1/8/4 0/11/2 0/10/3 4/6/3 KTA or 1/11/1 7/6/0 1/6/6 2/8/3 2/7/4 4/5/4 0/12/1 6/7/0 1/6/6 0/9/4 0/9/4 3/6/4 Fisher 0/5/8 0/6/7 1/3/9 0/5/8 0/5/8 1/5/7 0/5/8 0/7/6 1/3/9 0/5/8 0/5/8 1/5/7 FSMerr 5/7/1 6/6/1 9/3/1 3/8/2 3/8/2 3/10/0 4/8/1 6/6/1 9/3/1 2/9/2 2/10/1 4/9/0 α 2/10/1 3/8/2 8/5/0 2/8/3 0/13/0 3/9/1 2/11/0 4/9/0 8/5/0 2/9/2 0/13/0 4/8/1 β 3/9/1 4/7/2 8/5/0 2/8/3 0/13/0 3/9/1 3/10/0 4/9/0 8/5/0 1/10/2 0/13/0 4/8/1 γ 3/6/4 4/5/4 7/5/1 0/10/3 1/9/3 1/9/3 3/6/4 4/6/3 7/5/1 0/9/4 1/8/4 1/8/4 116
117 Analiza porównania średnih wartośi błędu wykonanego za pomoą testu Wiloxona i zamieszzonego w tabeli 5.12 pokazuje, że miary α, β oraz FSMerr dają zęśiej lepsze rezultaty niż obie wersje KTA, metoda fisherowska i wskaźnik γ. W porównaniu między sobą te trzy najlepsze metody wypadają niemal identyznie jeśli hodzi o lizbę przypadków istotnie lepiej i gorzej klasyfikowanyh. Wskaźnik γ wyraźnie wyróżnia się jedynie na tle miary fisherowskiej, będąej jednak najgorszym spośród wszystkih porównywanyh wskaźników. Tabela 5.13: Optymalne wartośi dla jądra wielomianowego (d = 3) α β γ Breast Caner 2.88e-01 ±2.04e e+00 ±5.66e e+00 ±5.17e-02 Pima Diabetes 1.12e+01 ±6.95e e+01 ±6.19e e+00 ±1.72e-01 Ionosphere 1.38e+01 ±9.52e e+01 ±7.61e e+01 ±5.30e+00 Liver 4.54e-01 ±1.61e e-01 ±1.67e e-01 ±7.76e-02 Balane-Sale (B R) 1.00e+03 ±4.74e e+03 ±0.00e e+02 ±4.41e+02 Balane-Sale (L B) 1.00e+03 ±3.50e e+03 ±0.00e e+02 ±3.86e+02 Balane-Sale (L R) 3.55e-04 ±1.47e e-04 ±1.00e e+00 ±3.03e-02 Vehile (Bus Van) 1.45e+00 ±1.00e e+00 ±1.01e e+01 ±7.03e-01 Vehile (Opel Bus) 7.68e+00 ±2.21e e+00 ±2.04e e+01 ±8.00e+00 Vehile (Opel Saab) 2.43e+00 ±1.26e e+00 ±9.60e e-01 ±3.66e+00 Vehile (Opel Van) 2.52e-04 ±1.78e e-04 ±1.78e e+00 ±3.28e-01 Vehile (Saab Bus) 7.13e+00 ±8.99e e+00 ±8.99e e+01 ±5.71e+00 Vehile (Saab Van) 1.67e-03 ±1.18e e-01 ±1.02e e+00 ±3.22e-01 Tabela 5.14: Wartośi miar jakośi dla jądra wielomianowego (d = 3) α β γ Breast Caner 7.87e-01 ±7.00e e+02 ±3.71e e+05 ±4.53e+03 Pima Diabetes 1.89e-01 ±7.00e e+01 ±3.57e e+03 ±4.10e+02 Ionosphere 3.34e-01 ±7.00e e+01 ±2.14e e+03 ±4.82e+02 Liver 2.00e-02 ±3.00e e+00 ±6.65e e+01 ±8.44e+00 Balane-Sale (B R) 1.37e-01 ±1.00e e+01 ±1.87e e+02 ±6.95e+01 Balane-Sale (L B) 1.37e-01 ±1.00e e+01 ±2.11e e+02 ±6.32e+01 Balane-Sale (L R) 3.55e-01 ±6.00e e+02 ±2.52e e+04 ±4.52e+02 Vehile (Bus Van) 2.63e-01 ±5.00e e+01 ±1.50e e+03 ±1.71e+02 Vehile (Opel Bus) 1.87e-01 ±7.00e e+01 ±1.95e e+03 ±2.64e+02 Vehile (Opel Saab) 7.00e-03 ±1.00e e+00 ±4.02e e+00 ±3.39e+00 Vehile (Opel Van) 3.16e-01 ±1.10e e+01 ±3.25e e+03 ±3.83e+02 Vehile (Saab Bus) 1.85e-01 ±8.00e e+01 ±2.37e e+03 ±3.02e+02 Vehile (Saab Van) 3.05e-01 ±1.00e e+01 ±3.10e e+03 ±3.86e
118 α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.8: Udział wektorów podpierająyh dla jądra wielomianowego (d = 3) Podobnie jak dla wielomianu drugiego stopnia, również w obenie rozważanym przypadku optymalne wartośi, do któryh zbieżna była optymalizaja wykorzystująa alternatywne miary jakośi, są stosunkowo stabilne. Wartośi przedstawione w tabeli 5.13 pokazują również, że wykorzystanie miar α i β, w dwóh przypadkah o nierównomiernym rozkładzie klas dla zbioru Balane Sale, prowadzi do poszukiwania optimum w okoliah górnej graniy przedziału dopuszzalnyh wartośi. Na podstawie tabeli 5.14 zawierająej wartośi miar odpowiadająe optymalnym wartośiom parametrów widać, podobnie jak dla wielomianu drugiego stopnia, że zaproponowane miary w odpowiedni sposób wartośiują oeniane jądra. Przekształenia, które uzyskały niższą oenę, stanowiły podstawę do budowy modeli harakteryzująyh się wyższymi wartośiami błędów. Porównanie korelaji kierunków zmian wartośi błędów i wartośi miar jakośi pomiędzy poszzególnymi jądrami wskazuje na podobną pod tym względem harakterystykę miar α i β 118
119 oraz metod opartyh na regule Fishera. Wskaźnik γ, podobnie jak oba warianty dopasowania jądro-klasa, zdeydowanie lepiej dyskryminuje poszzególne jądra, w większośi przypadków pozwalają na przewidywanie względnej wartośi błędu na podstawie wartośi wskaźnika. α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.9: Lizba oblizeń funkji elu dla jądra wielomianowego (d = 3) Na rysunku 5.8 przedstawione zostały wykresy pudełkowe udziału wektorów podpierająyh w zbiorze trenująym dla modeli wygenerowanyh na podstawie jądra wielomianowego trzeiego stopnia optymalizowanego zaproponowanymi miarami jakośi. Podobnie jak w przypadku miar standardowyh, udział ten jest nieo większy niż dla jądra wielomianowego o stopniu d = 2, nieznaznie przekrazająy minimum wynikająe z wartośi parametru ν. Także i w tym przypadku modele dla zadań Diabetes, Ionosphere i Liver oraz jednego z zadań dla zbioru Vehile harakteryzują się medianą udziału przekrazająą wartość 0.4. Rozkład udziału wektorów podpierająyh dla zaproponowanyh miar jakośi jest niemal identyzny z obserwowanym w przypadku wskaźników analizowanyh w poprzednim rozdziale. 119
120 Lizba oblizeń funkji elu, przedstawiona na wykresah z rysunku 5.9, jest również zbliżona do obserwowanej dla jądra wielomianowego drugiego stopnia. W przypadku miar α i β mediana rzadko przekraza wartość 20, podobnie jak dla miar standardowyh, natomiast użyie miary γ dla większośi zadań wymagało w ponad połowie uruhomień proesu optymalizaji przeszło 40 iteraji. Tabela 5.15: Błąd klasyfikaji wielowartośiowej dla jądra wielomianowego (d = 3) α β γ Balane-Sale ±1.61 (2.01%) 16.7 ±1.71 (2.07%) 6.95 ±0.8 (0.9%) Vehile ±0.81 (1.45%) ±0.93 (1.51%) ±0.82 (0.96%) Wyniki klasyfikaji wielowartośiowej wskazują na zdeydowaną wyższość miary γ pośród alternatywnyh metod oeny dla obu rozważanyh zbiorów. Wyniki te są niewiele gorsze od uzyskanyh za pomoą miary FSMerr i wyraźnie lepsze od rezultatów pozostałyh miar standardowyh. Wskaźniki α i β dla zbioru danyh Vehile dają modele o błędzie niewiele większym niż miary FSMerr i γ, jednak dla zbioru Balane Sale modele dla tyh wskaźników harakteryzują się błędem ponad dwukrotnie większym od pozostałyh metod. W przypadku wielomianu trzeiego stopnia obserwować można bardzo dobre wyniki uzyskiwane podzas stosowania miar α i β, zbliżone do uzyskiwanyh dla wskaźnika FSMerr i jednoześnie wyraźnie lepsze niż dla pozostałyh miar. Wskaźnik γ daje istotnie słabsze wyniki dla 4 zadań binarnyh, jednak nie są to różnie tak duże jak można było wielokrotnie obserwować w przypadku miar fisherowskiej i FSMerr. Jądro sigmoidalne Podobnie jak w przypadku standardowyh miar jakośi, ostatnie badanie dotyzyło jądra sigmoidalnego. Jak zauważono w poprzednim rozdziale jego zastosowanie w przypadku analizowanyh zadań klasyfikaji jest najmniejsze ze względu na relatywnie niską jakość klasyfikaji. W tabeli 5.16 przedstawione zostały średnie wartośi błędów klasyfikaji dla miar jakośi zaproponowanyh w niniejszym rozdziale. Podobnie jak w przypadku metod przedstawionyh w rozdziale poprzednim, jakość uzyskanyh modeli jest, poza zbiorem Breast oraz pojedynzymi zadaniami dla danyh Balane-Sale i Vehile, wyraźnie niższa od wygenerowanyh na podstawie pozostałyh rozważanyh jąder. Błędy odpowiadająe miarom α i β są zbliżone lub niższe od uzyskiwane podzas stosowania obu wariantów dopasowania jądro-klasa oraz miary fishe- 120
121 Tabela 5.16: Błąd klasyfikaji dla jądra sigmoidalnego Błąd Błąd zrównoważony α β γ α β γ Breast Caner 3.02± ± ± ± ± ±16.35 Pima Diabetes 65.96± ± ± ± ± ±7.56 Ionosphere 8.72± ± ± ± ± ±16.90 Liver 58.27± ± ± ± ± ±9.64 Balane-Sale (B R) 54.60± ± ± ± ± ±15.21 Balane-Sale (L B) 66.82± ± ± ± ± ±14.43 Balane-Sale (L R) 6.24± ± ± ± ± ±24.33 Vehile (Bus Van) 27.73± ± ± ± ± ±25.65 Vehile (Opel Bus) 51.58± ± ± ± ± ±15.04 Vehile (Opel Saab) 59.42± ± ± ± ± ±7.83 Vehile (Opel Van) 9.59± ± ± ± ± ±22.00 Vehile (Saab Bus) 45.14± ± ± ± ± ±17.40 Vehile (Saab Van) 7.62± ± ± ± ± ±21.19 rowskiej. Wskaźnik γ daje w efekie tyle samo modeli lepszyh o gorszyh od uzyskiwanyh miarami KTA i KTA or. Tabela 5.17: Porównanie błędów dla jądra sigmoidalnego Błąd Błąd zrównoważony KTA KTA or Fisher FSMerr α β γ KTA KTA or Fisher FSMerr α β γ KTA 2/10/1 6/4/3 1/3/9 2/6/5 1/6/6 4/5/4 2/10/1 6/4/3 1/3/9 2/6/5 1/7/5 3/6/4 KTA or 1/10/2 6/3/4 1/3/9 3/5/5 2/5/6 3/6/4 1/10/2 6/3/4 1/3/9 2/6/5 1/7/5 3/7/3 Fisher 3/4/6 4/3/6 1/1/11 2/5/6 1/6/6 1/6/6 3/4/6 4/3/6 2/1/10 2/5/6 2/4/7 1/5/7 FSMerr 9/3/1 9/3/1 11/1/1 7/6/0 6/7/0 9/3/1 9/3/1 9/3/1 10/1/2 7/6/0 6/7/0 9/3/1 α 5/6/2 5/5/3 6/5/2 0/6/7 1/11/1 4/5/4 5/6/2 5/6/2 6/5/2 0/6/7 0/13/0 4/4/5 β 6/6/1 6/5/2 6/6/1 0/7/6 1/11/1 2/7/4 5/7/1 5/7/1 7/4/2 0/7/6 0/13/0 3/6/4 γ 4/5/4 4/6/3 6/6/1 1/3/9 4/5/4 4/7/2 4/6/3 3/7/3 7/5/1 1/3/9 5/4/4 4/6/3 Wyniki klasyfikaji odpowiadająe poszzególnym miarom zostały ponownie porównane za pomoą testu Wiloxona. Wyniki przedstawione w tabeli 5.17 pokazują, że spośród wszystkih miar najlepiej w porównaniu wypada wskaźnik FSMerr, który ustępuje poszzególnym miarom jedynie w pojedynzyh zadaniah, prowadzą do modeli istotnie lepszyh w ponad połowie porównań. Na tym tle najsłabsze wyniki uzyskuje miara fisherowska, gorsza od każdej z miar w o najmniej 6 zadaniah binarnyh. Analiza średnih optymalnyh wartośi parametru jądra sigmoidalnego zamieszzonyh w tabeli 5.18 prowadzi do wniosku, że w większośi przypadków wartośi parametru prowa- 121
122 dząe do minimalnego błędu nie zostały poprawnie odnalezione. Świadzy o tym zbieżność optymalizaji do dodatnih lub małyh ujemnyh wartośi parametru (por. rysunki ). Tabela 5.18: Optymalne wartośi parametrów dla jądra sigmoidalnego α β γ Breast Caner 1.66e-01±1.49e e+00±3.10e e+00±4.05e+00 Pima Diabetes 4.46e-01±3.26e e-01±2.91e e+00±3.31e+00 Ionosphere -1.49e+00±2.81e e+00±4.44e e+00±4.53e+00 Liver -9.53e-01±1.30e e-01±7.55e e-01±2.20e+00 Balane-Sale (B R) 2.84e+00±1.04e e-01±6.43e e+00±6.52e+00 Balane-Sale (L B) 3.29e+00±2.71e e-01±5.87e e+00±6.23e+00 Balane-Sale (L R) -3.82e-02±7.96e e-02±7.98e e+00±8.72e+00 Vehile (Bus Van) -2.26e-01±8.38e e-01±2.24e e+00±5.20e+00 Vehile (Opel Bus) -3.27e-01±4.68e e-01±4.68e e+00±6.68e+00 Vehile (Opel Saab) 4.86e-01±3.83e e-01±6.36e e-01±3.42e+00 Vehile (Opel Van) -4.25e-01±3.94e e-01±3.99e e+00±5.04e+00 Vehile (Saab Bus) -3.85e-01±6.12e e-01±6.11e e+00±6.12e+00 Vehile (Saab Van) -4.24e-01±4.52e e-01±4.59e e+00±4.90e+00 Tabela 5.19: Wartośi miar jakośi dla jądra sigmoidalnego α β γ Breast Caner 8.34e-01±5.00e e+02±1.20e e+04±3.58e+04 Pima Diabetes 1.45e-01±6.00e e+01±2.93e e+03±8.13e+02 Ionosphere 1.62e-01±8.00e e+01±3.13e e+03±3.85e+02 Liver 1.90e-02±3.00e e+00±7.17e e+01±7.75e+00 Balane-Sale (B R) 7.30e-02±5.00e e+01±3.09e e+02±7.70e+01 Balane-Sale (L B) 7.30e-02±4.00e e+01±3.06e e+02±6.45e+01 Balane-Sale (L R) 3.68e-01±7.00e e+02±3.11e e+03±7.26e+02 Vehile (Bus Van) 1.75e-01±7.00e e+01±3.46e e+03±3.62e+02 Vehile (Opel Bus) 1.07e-01±9.00e e+01±2.45e e+02±2.23e+02 Vehile (Opel Saab) 3.00e-03±1.00e e-01±2.86e e+00±7.09e-01 Vehile (Opel Van) 2.95e-01±9.00e e+01±2.54e e+03±1.51e+03 Vehile (Saab Bus) 1.10e-01±7.00e e+01±2.07e e+02±2.60e+02 Vehile (Saab Van) 2.88e-01±9.00e e+01±2.92e e+03±1.54e+03 Zamieszzone w tabeli 5.19 wartośi miary α odpowiadająe optymalnym wartośiom parametru jądra sigmoidalnego pokazują, że miara ta stosunkowo nisko oenia uzyskane przekształenia. Jedynie w przypadku danyh Breast Caner, dla któryh uzyskany model klasyfikuje z małym błędem, wartość miary jest bliska maksimum. Miary β i γ, w porównaniu z odpowiadająymi wynikami dla poprzednio rozważanyh jąder, wykazują niższe wartośi, o świadzy 122
123 o występowaniu w przypadku tyh wskaźników pożądanej właśiwośi pozwalająej na wartośiowanie nie tylko jąder jednego rodzaju, ale także przekształeń różnego typu. W istoie, obserwaja kierunków zmian wartośi błędów i miar pokazuje, że porównanie wartośi miar dla jądra sigmoidalnego i pozostałyh jąder umożliwia prawie bezbłędne określenie kierunku zmiany błędu. Miary standardowe dają przy takim porównaniu zdeydowanie słabsze wyniki. α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.10: Udział wektorów podpierająyh dla jądra sigmoidalnego Na rysunku 5.10 przedstawione zostały wykresy pudełkowe udziału wektorów podpierająyh w modelah wygenerowanyh na podstawie jąder o parametrah optymalizowanyh z wykorzystaniem alternatywnyh miar jakośi jako funkji elu. Dla wszystkih wskaźników lizba wektorów podpierająyh osyluje w okoliy dolnej graniy wyznazonej przez parametr ν. Niewielki rozrzut świadzy również o stabilnośi wyników uzyskanyh podzas optymalizaji. Podobnie jak w przypadku miar standardowyh, zaproponowane miary prowadzą do uzyskania 123
124 w większośi przypadków modeli o niewielkiej złożonośi, rozumianej jako udział wektorów podpierająyh w ałym zbiorze trenująym. α Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) β Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) γ Breast Diabetes Ionosphere Liver Balane (B R) Balane (L B) Balane (L R) V (Bus Van) V (Opel Bus) V (Opel Saab) V (Opel Van) V (Saab=Bus) V (Saab Van) Rysunek 5.11: Lizba oblizeń funkji elu dla jądra sigmoidalnego Porównanie lizby iteraji algorytmu optymalizaji niezbędnyh do uzyskania końowego rozwiązania wypada na korzyść miar α i β. Analiza wykresów pudełkowyh z rysunku 5.11 pozwala zauważyć, że w przypadku tyh wskaźników lizba oblizeń funkji elu w przeważająej zęśi przypadków nie przekraza 15, o jest wynikiem podobnym do uzyskiwanego w przypadku miar KTA, KTA or i FSMerr. Miara γ harakteryzuje się wolniejszą zbieżnośią, z medianą w przedziale dla poszzególnyh zadań oraz liznymi przypadkami, w któryh proes optymalizaji trwał kilkadziesiąt iteraji. W tabeli 5.20 przedstawiono wyniki klasyfikaji wielowartośiowej. Podobnie jak w przypadku miar standardowyh, wyraźny jest wysoki błąd klasyfikaji przy zastosowaniu jądra sigmoidalnego. Wyniki uzyskane miarami α i β są zbliżone do odpowiadająyh dla wskaźników 124
125 Tabela 5.20: Błąd klasyfikaji wielowartośiowej dla jądra sigmoidalnego α β γ Balane-Sale 69.31±2.35 (43.67%) 68.03±3.90 (48.33%) 58.25±5.39 (15.97%) Vehile 83.08±1.98 (29.57%) 83.49±1.73 (30.62%) 62.95±2.65 (38.52%) KTA i KTA or. Zastosowanie miary γ prowadzi do najniższyh błędów spośród miar alternatywnyh, a także niższyh od najlepszego wśród miar standardowyh wskaźnika FSMerr. Warto zauważyć, że hoć w wielu przypadkah ponad 29% odpowiedzi była losowana, to w przypadku wskaźnika γ udział losowyh odpowiedzi na zbiorze Balane-Sale ogranizony był do niespełna 16%. Obserwują wyniki uzyskane zarówno dla miar standardowyh jak i alternatywnyh warto jeszze raz podkreślić, że zastosowanie jądra sigmoidalnego w przypadku analizowanyh w pray zadań klasyfikaji przynosi bardzo słabe rezultaty. Przedstawione wyniki należy razej potraktować jako uzupełnienie zestawu rezultatów badań eksperymentalnyh, niż podstawę do wyiągania wniosków odnośnie porównania metod standardowyh i alternatywnyh Porównanie zmiennośi miar jakośi jądra i błędu wynikowego klasyfikatora Podobnie jak w poprzednim rozdziale, przedstawienie wyników eksperymentalnyh zakońzone zostanie prezentają harakterystyznyh dla poszzególnyh miar jakośi przebiegów zmian ih wartośi wraz z odpowiadająymi im zmianami błędu klasyfikaji. Podobnie jak dla miar standardowyh, na wykresah linią przerywaną oznazona została wartość uśredniona po 10 przebiegah, natomiast wypełniona wstęga odpowiada obszarowi wartośi średniej uzupełnionej o odhylenie standardowe. Każdy z wykresów składa się z dwóh zęśi na górnej wykreślony został błąd klasyfikaji, zaś na dolnej przebieg zmiennośi miary w funkji parametru jądra. Pionową linią oznazono minimum średniej wartośi błędu. Na rysunku 5.12a przedstawiony został przebieg zmiennośi miary α dla zadania Saab Van ze zbioru danyh Vehile w funkji parametru σ jądra gaussowskiego. Maksimum tego wskaźnika wypada nieo poniżej wartośi σ związanej z minimum błędu, o jest harakterystyzne dla większośi przypadków z użyiem jądra gaussowskiego. Jedynie dla zadań ze zbioru Balane-Sale, w któryh występuje kategoria B, wskaźnik α jest monotoniznie rosnąy, przez o maksimum miary występuje w górnej graniy przedziału dopuszzalnyh wartośi parametru σ i minimum błędu nie jest poprawnie odwzorowywane (por. tabela 5.3). W przypadku jądra wielomianowego drugiego stopnia (rysunek 5.12b) miara α posiada wy- 125
126 Błąd klasyfikaji (%) Błąd = σ=5 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 α Błąd klasyfikaji (%) Błąd = 0 =2 α e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Vehile: Saab Van) (b) Jądro wielomianowe d = 2 (Vehile: Opel Bus) Błąd klasyfikaji (%) Błąd = =40 Błąd klasyfikaji (%) e 05 1e 03 1e 01 1e+01 1e α Błąd = = 6 α e 05 1e 03 1e 01 1e+01 1e () Jądro wielomianowe d = 3 (Vehile: Opel Van) Rysunek 5.12: Błąd klasyfikaji i wartośi miary α (d) Jądro sigmoidalne (Vehile: Opel Bus) raźne maksimum w okoliah minimalnyh wartośi błędu. Sytuaja ta występuje dla większośi analizowanyh w pray zestawów zadań klasyfikaji binarnej. Dla zadań obejmująyh kategorię B ze zbioru Balane-Sale zaobserwować można sytuaję podobną jak dla jądra gaussowskiego, gdzie wartość α rośnie monotoniznie. Dla klasyfikaji Opel-Saab ze zbioru Vehile maksimum miary jest mało wyraźne, mimo tego wskaźnik α poprawnie wskazuje wartość parametru odpowiadająą jądru dająemu model o niskiej wartośi błędu klasyfikaji. Na rysunku 5.12 przedstawiony został wykres wartośi miary α i błędu klasyfikaji dla jądra 126
127 wielomianowego o stopniu d = 3. Obrazuje on jeden z dwóh przypadków (zadania L R dla danyh Balane-Sale oraz Opel Van ze zbioru Vehile), w któryh wskaźnik α posiada globalne maksimum oraz dodatkowo lokalne maksimum w dolnym brzegu przedziału wartośi dopuszzalnyh parametru. W przedstawionym przypadku maksimum globalne nie jest poprawnie lokalizowane i optymalizaja zbiega do optimum lokalnego (por. tabela 5.13). Dla zadań B R i L B ze zbioru Balane-Sale miara α, podobnie jak dla wielomianu drugiego stopnia, jest monotoniznie rosnąą funkją parametru. W pozostałyh przypadkah odwzorowanie minimum błędu jest relatywnie dokładne, o skutkuje niskimi wartośiami błędów dla odpowiadająyh klasyfikatorów. W przypadku jądra sigmoidalnego (rysunek 5.12d) przedstawiono typową dla miary α sytuaję, w której wskaźnik ten ma maksimum w okoliy niskih wartośi parametru. Optimum to położone jest jednak, podobnie jak dla wszystkih rozważanyh miar jakośi, na tyle daleko wartośi odpowiadająej minimum błędu, że rezultaty uzyskiwane podzas klasyfikaji harakteryzują się niską jakośią. Analogizne przebiegi zmiennośi dla miary β przedstawione zostały na rysunku Na wykresah 5.13a widać interesująą sytuaję, w której dla dużyh wartośi parametru σ można mówić o odpornośi miary na wahania jakośi związane z losowym podziałem danyh. Wprawdzie obszar niskih wartośi błędu jest bardzo szeroki, jednak miara β jest w stanie wskazać wartość parametru zbliżoną do optymalnej w bardzo dokładny sposób. W ogólnym przypadku zastosowanie miary β daje dobre rezultaty, z optimami błędu oraz miary położonymi blisko siebie. W przypadku jądra wielomianowego o stopniu d = 2, przedstawionego na rysunku 5.13b, wykresy wskazują na zgodność położenia minimum błędu i odpowiadająego mu maksimum miary podobną do obserwowanej w przypadku miary α. Położenia optimów nie są na ogół w pełni zgodne, jednak szerokość obszaru niskih wartośi błędu pozwala na wskazanie wartośi parametru dająej w efekie modele o wysokiej jakośi. Jedynie w przypadku zadań B R i L B ze zbioru Balane-Sale wskaźnik β monotoniznie rośnie wraz ze zwiększaniem wartośi parametru, w efekie zego modele optymalizowane z jego wykorzystaniem harakteryzują się wysokimi błędami klasyfikaji. Przebiegi zmiennośi miary β dla wielomianu trzeiego stopnia są zbliżone do odpowiadająyh im przebiegów wskaźnika α. Charakteryzują się w większośi przypadków wyraźnym pojedynzym maksimum w okoliah wartośi parametru odpowiadająej minimalnemu błę- 127
128 Błąd klasyfikaji (%) Błąd = 4 σ=3 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 β Błąd klasyfikaji (%) Błąd = 0 =1 β e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Ionosphere) σ 1e 05 1e 03 1e 01 1e+01 1e+03 (b) Jądro wielomianowe d = 2 (Balane-Sale: L R) Błąd klasyfikaji (%) Błąd = 0 =20 Błąd klasyfikaji (%) 1e 05 1e 03 1e 01 1e+01 1e β Błąd = = 7 β e 05 1e 03 1e 01 1e+01 1e+03 () Jądro wielomianowe d = 3 (Balane-Sale: L R) Rysunek 5.13: Błąd klasyfikaji i wartośi miary β (d) Jądro sigmoidalne (Vehile: Bus Van) dowi. Przedstawiony na rysunku 5.13 wykres miary β pokazuje jeden z dwóh przypadków, kiedy sytuaja ta nie ma miejsa. Dla zadań Opel Van ze zbioru Vehile oraz L R dla danyh Balane-Sale wskaźnik β, opróz maksimum odpowiadająego niskim wartośiom błędu, posiada dodatkowe optimum położone w pobliżu dolnego ogranizenia przedziału wartośi dopuszzalnyh, które w przypadku przeprowadzonyh eksperymentów powodowało zbieżność optymalizaji do zakresu niskih wartośi parametru (por. tabela 5.13). Dodatkowo, dla zadań 128
129 ze zbioru Balane-Sale, w któryh klasyfikowano przykłady z kategorii B, miara β przyjmowała postać monotoniznie rosnąej funkji parametru. Błąd klasyfikaji (%) Błąd = σ=0.6 1e 03 1e 01 1e+01 1e+03 σ 1e 05 1e 03 1e 01 1e+01 1e+03 γ Błąd klasyfikaji (%) Błąd = =20 γ e 03 1e 01 1e+01 1e+03 (a) Jądro gaussowskie (Liver) σ 1e 05 1e 03 1e 01 1e+01 1e+03 (b) Jądro wielomianowe d = 2 (Balane-Sale: B R) Błąd klasyfikaji (%) Błąd = =5 Błąd klasyfikaji (%) 1e 05 1e 03 1e 01 1e+01 1e γ Błąd = = 7 γ e 05 1e 03 1e 01 1e+01 1e+03 () Jądro wielomianowe d = 3 (Ionosphere) Rysunek 5.14: Błąd klasyfikaji i wartośi miary γ (d) Jądro sigmoidalne (Vehile: Bus Van) Dla jądra sigmoidalnego zaobserwować można ponownie sytuaję, w której optymalne wartośi miary leżą w zakresie niskih wartośi parametru, przy zym wskaźnik jest jednomodalną funkją tego parametru o wyraźnie ukształtowanym maksimum. W pojedynzyh przypadkah miara β dla jądra sigmoidalnego posiada dodatkowe lokalne maksimum, tak jak w przypadku przedstawionego na wykresie 5.13d zadania Bus Van ze zbioru Vehile. 129
130 Rysunek 5.14 przedstawia przebiegi zmiennośi miary γ. W przypadku jądra gaussowskiego (5.14a) zaobserwować można sytuaję, w której opróz wyraźnego maksimum globalnego wskaźnik γ posiada lokalne optimum. Zjawisko to zaobserwować można dla danyh Liver oraz zadania Opel-Saab ze zbioru Vehile. W pozostałyh przypadkah, w tym również dla danyh Balane-Sale, miara γ harakteryzuje się wyraźnym pojedynzym maksimum. Niemal identyzne przebiegi zmiennośi miary γ obserwować można w przypadku obu jąder wielomianowyh (rysunki 5.14b i 5.14). Opróz wyraźnego optimum globalnego w przypadku niektóryh zadań zauważyć można dodatkowe lokalne maksimum. W przypadku zadań B R i L B ze zbioru Balane-Sale lokalne maksimum znajduje się w okoliah górnej graniy przedziału wartośi dopuszzalnyh. Porównują przebieg 5.14b z optymalnymi wartośiami parametru z tabel 5.8 i 5.13 widać, że maksimum to w niektóryh przypadkah zatrzymywało proes optymalizaji. Analiza przebiegów dla jądra sigmoidalnego (5.14d) prowadzi do wniosku, że w przypadku miary γ kluzowym dla optymalizaji jest odpowiedni punkt startowy. Wskaźnik ten w większośi przypadków posiada dwa optima, po jednym dla ujemnyh i dodatnih wartośi parametru. Warto jednak zauważyć, że żadne z tyh maksimów nie odwzorowuje wystarzająo dokładnie minimum błędu Wnioski Spośród zaproponowanyh w niniejszym rozdziale miar jakośi jądra trudno jednoznaznie wskazać wyróżniająy się wskaźnik. Dla jądra gaussowskiego miary α i β dają nieo zęśiej lepsze wyniki niż miara γ. W przypadku stosowania wielomianu drugiego stopnia w elu rzutowania obserwaji do przestrzeni eh miara γ uzyskuje nieo lepsze wyniki spośród zaproponowanyh miar. Poszukiwanie parametrów jądra wielomianowego o stopniu d = 3 przy pomoy wskaźników α i β daje bardzo zbliżone wyniki, w kilku przypadkah lepsze od uzyskiwanyh z użyiem miary γ. Ta ostatnia jednak wykazuje się najzęśiej największą dynamiką pozwalająą lepiej uwzględniać niewielkie zmiany położenia obserwaji w przestrzeni eh H, powodująe zmianę modelu oraz wartośi błędu. Wyniki dla przekształenia sigmoidalnego ponownie wypadają lepiej na korzyść wskaźników α i β, hoć w przypadku tego przekształenia należy bardzo ostrożnie podhodzić do wniosków, ze względu na wyraźnie niższą jakość modeli budowanyh na podstawie tego jądra. Warto również zwróić uwagę na wyraźne podobieństwo wyników uzyskiwanyh za pomoą 130
131 miar α i β w przypadku większośi zadań binarnyh. Podobne optymalne wartośi wynikająe ze stosowania tyh wskaźników są skutkiem podobieństwa wielkośi rozważanyh we wzorah (5.2) i (5.12). W obu przypadkah analizowane są stosunki odhyłek od średnih do warianji, o powoduje, że przy rozważanyh zakresah optymalizowanyh parametrów kształty przebiegów obu miar są podobne, z maksimami najzęśiej występująymi dla tej samej wartośi parametru. Wynik porównania zaproponowanyh alternatywnyh i standardowyh miar jakośi jądra przedstawionyh w poprzednim rozdziale zależy w dużej mierze od rozważanego jądra. Dla przekształenia opartego na funkji gaussowskiej najlepsze rezultaty uzyskują miary KTA oraz wskaźniki α i β. Dla jądra wielomianowego drugiego stopnia najlepsze wyniki uzyskane zostały podzas stosowania do optymalizaji parametrów miary FSMerr i γ, zaś w przypadku przekształenia wielomianowego o stopniu d = 3 wskaźniki FSMerr oraz α i β. Miara FSMerr prowadzi również do najlepszyh modeli dla jądra sigmoidalnego. Warto zwróić uwagę na fakt, że wszystkie alternatywne miary, nawet jeśli nie dają rezultatów najlepszyh spośród wszystkih miar dla danego zadania, to pozwalają utrzymać jakość wynikająyh z ih stosowania modeli na wysokim poziomie. Takiej stabilnośi na przestrzeni rozważanyh przekształeń jądrowyh nie wykazują standardowe metody oeny. Wskaźnik FSMerr nie ma praktyznego zastosowania dla jądra gaussowskiego, zaś poszzególnym wariantom dopasowania jądro-klasa w przypadku przekształenia wielomianowego zdarzają się dość spore pomyłki podzas poszukiwania optymalnej wartośi parametru Podsumowanie Przedstawione w poprzednim rozdziale wyniki eksperymentów pokazują, że stosowane obenie w dziedzinie metod jądrowyh miary jakośi pozwalają niekiedy na jedynie zgrubną optymalizaję parametrów przekształenia jądrowego w zadaniu klasyfikaji. Zaproponowane alternatywne metody oeny jądra pozwalają w wielu przypadkah na dokładniejsze zbliżenie się w rejon optymalnej wartośi parametru jądra. Choć zasami również niedokładne, zaproponowane wskaźniki sprawdzają się w praktye jako funkja elu. Uzyskiwane za ih pomoą jądra dają w wielu eksperymentah wyniki lepsze od najlepszego uzyskanego z użyiem standardowyh miar jakośi. Dodatkowo harakteryzują się stabilną jakośią pomiędzy poszzególnymi rodzajami przekształeń jądrowyh.
132 6. Klasyfikaja danyh radiolokayjnyh Weryfikaja stosowalnośi metod oeny jądra przedstawiona w poprzednih dwóh rozdziałah przeprowadzona została na danyh wykorzystywanyh w dziedzinie systemów uząyh się do porównywania działania algorytmów klasyfikaji. Zbiory te mają zęsto akademiki harakter, a wybór konkretnyh zadań klasyfikaji naehowany może być subiektywnym spojrzeniem na wybór reprezentatywnyh problemów. Aby zweryfikować zaobserwowane właśiwośi rozważanyh miar jakośi oraz praktyzną użytezność zastosowanej metodologii wykonany został dodatkowy eksperyment na rzezywistyh danyh radiolokayjnyh zarejestrowanyh w warunkah polowyh Dane radiolokayjne Wykorzystane w eksperymentah dane zostały udostępnione dzięki uprzejmośi prof. dr. hab. inż. Marka Nałęza z Instytutu Systemów Elektroniznyh Politehniki Warszawskiej. Dane zostały zarejestrowane przez radar impulsowy praująy w paśmie S (w zakresie zęstotliwośi 2 4 GHz). W dużym uproszzeniu, zasada działania radaru impulsowego polega na pomiarze zasu po jakim sygnał wysłany przez nadajnik radaru powraa do odbiornika po odbiiu od napotkanego obiektu. Pomiar zasu pozwala, przy znanyh parametrah wysyłanego sygnału, wyznazyć odległość obiektu, od którego fala została odbita. Dodatkowo radar rejestruje mo odebranego sygnału, o pozwala na rozróżnianie niektóryh harakterystyznyh kształtów i elementów rejestrowanyh obiektów. Pojedynzy ykl wysyłania sygnału i odebrania jego eha nazywa się sondowaniem [48]. Wykorzystany radar harakteryzuje się niską rozdzielzośią (wąskim pasmem odbiornika). Analizowane w pray dane pohodzą z radaru wyposażonego w obraaną antenę, w związku z zym kolejne sondowania wykonywane są przy kolejnyh położeniah anteny. Zapisywane są jedynie dane pohodząe z ogranizonego zakresu azymutalnego odpowiadająego 190 sondowaniom. Zasięgowi radaru odpowiada 870 komórek odległośiowyh. Po lewej stronie rysunków 132
133 Rysunek 6.1: Mapa amplitudy oraz widmo amplitudowe fragmentu komórki odległośiowej z widoznym obiektem; powyżej: samolot Cessna, poniżej: samolot Jak przedstawione są nagrania z pojedynzyh obrotów anteny, na któryh zarejestrowano różne obiekty, widozne na nagraniah jako wyraźnie jaśniejsze poziome paski. Zarejestrowany sygnał zespolony, składająy się z dwóh składowyh kwadraturowej i synfazowej, zostaje poddany filtraji TES (tłumienie eh stałyh). Przed wykonaniem klasyfikaji koniezne jest kilka dodatkowyh kroków etapu przygotowania danyh. Pierwszym z nih jest detekja obiektu (określenie komórki odległośiowej i maksimum moy sygnału w tej komóre). Na potrzeby niniejszej pray wykonana została półautomatyzna detekja połązona z wyborem 64 sondowań w taki sposób, że sondowanie o maksymalnej moy znajduje się w środku. Dla tak wybranej próbki danyh wyznazona została następnie transformata Fouriera, a jej znormalizowane widmo stanowi lizbowy opis wektora wejśiowego dla klasyfikatora, składająy się z 64 atrybutów o wartośiah rzezywistyh. Po prawej stronie rysunków przedstawiono amplitudy widma moy sygnałów odbityh od różnyh obiektów widoznyh na nagraniah po lewej stronie. Zbiór danyh wykorzystany w eksperymentah składał się z 2036 obrazów na któryh zarejestrowano 5 obiektów - samoloty śmigłowe Cessna (372 obserwaje) i Jak-12 (362), śmigłowe 133
134 Rysunek 6.2: Mapa amplitudy oraz widmo amplitudowe fragmentu komórki odległośiowej z widoznym obiektem; powyżej: śmigłowie Mi-2, poniżej: śmigłowie Mi-8 Rysunek 6.3: Mapa amplitudy oraz widmo amplitudowe fragmentu komórki odległośiowej z widoznym obiektem; samolot odrzutowy Mig-29 Mi-2 (446) i Mi-8 (442) oraz samolot odrzutowy Mig-29 (414). Dane podzielone zostały na zestaw 10 zadań binarnyh w ramah shematu każdy z każdym. Na rysunkah przedstawione zostały wartośi błędów w funkjah parametrów jądra gaussowskiego, jąder wielomianowyh drugiego i trzeiego stopnia oraz jądra sigmoidalnego. 134
FUNKCJA KWADRATOWA. Poziom podstawowy
FUNKCJA KWADRATOWA Poziom podstawowy Zadanie ( pkt) Wykres funkji y = ax + bx+ przehodzi przez punkty: A = (, ), B= (, ), C = (,) a) Wyznaz współzynniki a, b, (6 pkt) b) Zapisz wzór funkji w postai kanoniznej
Bardziej szczegółowoProgramowanie liniowe
Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.
Bardziej szczegółowoSVM: Maszyny Wektorów Podpieraja cych
SVM 1 / 24 SVM: Maszyny Wektorów Podpieraja cych Nguyen Hung Son Outline SVM 2 / 24 1 Wprowadzenie 2 Brak liniowej separowalności danych Nieznaczna nieseparowalność Zmiana przetrzeń atrybutów 3 Implementacja
Bardziej szczegółowoKrzywe stożkowe. 1 Powinowactwo prostokątne. 2 Elipsa. Niech l będzie ustaloną prostą i k ustaloną liczbą dodatnią.
Krzywe stożkowe 1 Powinowatwo prostokątne Nieh l będzie ustaloną prostą i k ustaloną lizbą dodatnią. Definija 1.1. Powinowatwem prostokątnym o osi l i stosunku k nazywamy przekształenie płaszzyzny, które
Bardziej szczegółowoOPRACOWANIE WYNIKÓW POMIARU
OPRACOWANIE WYNIKÓW POMIARU 1. CEL ĆWICZENIA Celem ćwizenia jest poznanie podstawowyh zagadnień związanyh z opraowaniem wyników pomiaru.. WPROWADZENIE.1. Wstęp Umiejętność właśiwego opraowania wyników
Bardziej szczegółowoProgramowanie ilorazowe #1
Programowanie ilorazowe #1 Problem programowania ilorazowego (PI) jest przykłaem problemu programowania matematyznego nieliniowego, który można skuteznie zlinearyzować, tzn. zapisać (i rozwiązać) jako
Bardziej szczegółowoProgramowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Bardziej szczegółowoAproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Bardziej szczegółowo7. Maszyny wektorów podpierajacych SVMs
Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang.
Bardziej szczegółowoMechanika relatywistyczna
Mehanika relatywistyzna Konepja eteru Eter kosmizny miał być speyfiznym ośrodkiem, wypełniająym ałą przestrzeń, który miał być nośnikiem fal świetlnyh (później w ogóle pola elektromagnetyznego). W XIX
Bardziej szczegółowoW ostatnim wykładzie doszliśmy do tego, że problem znalezienia klasyfikatora optymalnego pod względem marginesów można wyrazić w następujący sposób:
Spis treści 1 Maszyny Wektorów Wspierających 2 1.1 SVM w formaliźmie Lagranga 1.2 Przejście do pstaci dualnej 1.2.1 Wyznaczenie parametrów modelu: 1.2.2 Klasyfikacja: 2 Funkcje jądrowe 2.1 Mapowanie do
Bardziej szczegółowoWYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
Bardziej szczegółowo4. WYZNACZANIE PARAMETRÓW HYDRAULICZNYCH STUDNI
4. WYZNACZANIE PARAMETRÓW HYDRAULICZNYCH STUDNI Na wielkość depresji zwieriadła wody w pompowanej studni wpływ mają zjawiska hydraulizne wywołane przepływem laminarnym, występująym w ujętej warstwie wodonośnej
Bardziej szczegółowoZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 3(89)/2012
ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 3(89)/2012 Jarosław Zalewski 1 PORÓWNANIE NIEKTÓRYCH WSKAŹNIKÓW WYPADKÓW DROGOWYCH W POLSCE I WYBRANYCH KRAJACH EUROPEJSKICH 1. Wstęp W artykule poruszono wybrane problemy
Bardziej szczegółowo5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Bardziej szczegółowoWstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych
Wstęp do przetwarzania języka naturalnego Wykład 11 Wojciech Czarnecki 8 stycznia 2014 Section 1 Przypomnienie Wektoryzacja tfidf Przypomnienie document x y z Antony and Cleopatra 5.25 1.21 1.51 Julius
Bardziej szczegółowoWprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Bardziej szczegółowoWyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Bardziej szczegółowoNOŚNOŚĆ FUNDAMENTU BEZPOŚREDNIEGO WEDŁUG EUROKODU 7
Geotehnizne zagadnienia realizaji budowli drogowyh projekt, dr inż. Ireneusz Dyka Kierunek studiów: Budownitwo, studia I stopnia Rok IV, sem.vii 19 NOŚNOŚĆ FUNDAMENTU BEZPOŚREDNIEGO WEDŁUG EUROKODU 7 Według
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoUCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow
UCZENIE MASZYNOWE III - SVM mgr inż. Adam Kupryjanow Plan wykładu Wprowadzenie LSVM dane separowalne liniowo SVM dane nieseparowalne liniowo Nieliniowy SVM Kernel trick Przykłady zastosowań Historia 1992
Bardziej szczegółowoDocument: Exercise*02*-*manual /11/ :31---page1of8 INSTRUKCJA DO ĆWICZENIA NR 2
Document: Exercise*02*-*manual ---2014/11/12 ---8:31---page1of8 PRZEDMIOT TEMAT KATEDRA MECHANIKI STOSOWANEJ Wydział Mechaniczny POLITECHNIKA LUBELSKA INSTRUKCJA DO ĆWICZENIA NR 2 Wybrane zagadnienia z
Bardziej szczegółowoWielokryteriowa optymalizacja liniowa (WPL)
arek isyński BO UŁ 007 - Wielokryteriowa optymaliaja liniowa (WPL) -. Wielokryteriowa optymaliaja liniowa (WPL) Zadaniem WPL naywamy następująe adanie optymaliaji liniowej: a a m L O L L O L L a a n n
Bardziej szczegółowoRozwiązaniem jest zbiór (, ] (5, )
FUNKCJE WYMIERNE Definicja Miech L() i M() będą niezerowymi wielomianami i niech D { R : M( ) 0 } Funkcję (*) D F : D R określoną wzorem F( ) L( ) M( ) nazywamy funkcją wymierną Funkcja wymierna, to iloraz
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowo2... Pˆ - teoretyczna wielkość produkcji (wynikająca z modelu). X X,..., b b,...,
Główne zynniki produkji w teorii ekonoii: praa żywa (oznazenia: L, ), praa uprzediotowiona (kapitał) (oznazenia: K, ), zieia (zwłaszza w rolnitwie). Funkja produkji Cobba-Douglasa: b b b P ˆ b... k 0 k
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowow analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoINTERPOLACJA I APROKSYMACJA FUNKCJI
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Wprowadzenie Na czym polega interpolacja? Interpolacja polega
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoData Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.
GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -
Bardziej szczegółowoCMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:
CMAES Covariance Matrix Adaptation Evolution Strategy Opracowanie: Lidia Wojciechowska W algorytmie CMAES, podobnie jak w algorytmie EDA, adaptowany jest rozkład prawdopodobieństwa generacji punktów, opisany
Bardziej szczegółowoElementy Modelowania Matematycznego
Elementy Modelowania Matematycznego Wykład 6 Metoda simpleks Spis treści Wstęp Zadanie programowania liniowego Wstęp Omówimy algorytm simpleksowy, inaczej metodę simpleks(ów). Jest to stosowana w matematyce
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowoVI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Bardziej szczegółowoKonstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun
Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy
Bardziej szczegółowoWykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
Bardziej szczegółowoWybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Bardziej szczegółowoAproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1
Założenie: f(x) funkcja którą aproksymujemy X jest przestrzenią liniową Aproksymacja liniowa funkcji f(x) polega na wyznaczeniu współczynników a 0,a 1,a 2,...,a m funkcji: Gdzie: - są funkcjami bazowymi
Bardziej szczegółowoRAPORT Z BADANIA JAKOŚCI KSZTAŁCENIA NA UAM STUDENTÓW STUDIÓW STACJONARNYCH WYNIKI POSZCZEGÓLNYCH WYDZIAŁÓW Z KOMENTARZAMI WYDZIAŁ HISTORYCZNY
RAPORT Z BADANIA JAKOŚCI KSZTAŁCENIA NA UAM przeprowadzonego wśród STUDENTÓW STUDIÓW STACJONARNYCH w roku akademikim 2011/2012 CZĘŚĆ III WYNIKI POSZCZEGÓLNYCH WYDZIAŁÓW Z KOMENTARZAMI WYDZIAŁ HISTORYCZNY
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoUkłady równań i nierówności liniowych
Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +
Bardziej szczegółowoUKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych
Bardziej szczegółowoMetody numeryczne Wykład 4
Metody numeryczne Wykład 4 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Metody skończone rozwiązywania
Bardziej szczegółowoZagadnienia brzegowe dla równań eliptycznych
Temat 7 Zagadnienia brzegowe dla równań eliptycznych Rozważmy płaski obszar R 2 ograniczony krzywą. la równania Laplace a (Poissona) stawia się trzy podstawowe zagadnienia brzegowe. Zagadnienie irichleta
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoWprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Bardziej szczegółowoOptymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Bardziej szczegółowoAnaliza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoMODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ
Jarosław MAŃKOWSKI * Andrzej ŻABICKI * Piotr ŻACH * MODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ 1. WSTĘP W analizach MES dużych konstrukcji wykonywanych na skalę
Bardziej szczegółowoPropensity score matching (PSM)
Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoPorównywanie populacji
3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej
Bardziej szczegółowoA Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoINSTRUKCJA DO ĆWICZENIA NR 1
L01 ---2014/10/17 ---10:52---page1---#1 KATEDRA MECHANIKI STOSOWANEJ Wydział Mechaniczny POLITECHNIKA LUBELSKA INSTRUKCJA DO ĆWICZENIA NR 1 PRZEDMIOT TEMAT Wybrane zagadnienia z optymalizacji elementów
Bardziej szczegółowo1 Wartości własne oraz wektory własne macierzy
Rozwiązania zadania umieszczonego na końcu poniższych notatek proszę przynieść na kartkach Proszę o staranne i formalne uzasadnienie odpowiedzi Za zadanie można uzyskać do 6 punktów (jeżeli przyniesione
Bardziej szczegółowoMetoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych
inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule
Bardziej szczegółowoOptymalizacja. Przeszukiwanie lokalne
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Bardziej szczegółowoJądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Bardziej szczegółowoWprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Bardziej szczegółowoRozwiązywanie równań nieliniowych
Rozwiązywanie równań nieliniowych Marcin Orchel 1 Wstęp Przykłady wyznaczania miejsc zerowych funkcji f : f(ξ) = 0. Wyszukiwanie miejsc zerowych wielomianu n-tego stopnia. Wymiar tej przestrzeni wektorowej
Bardziej szczegółowoFunkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.
Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki
Bardziej szczegółowoMikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 9 Mikołaj Czajkowski Wiktor Budziński Wielomianowy model logitowy Uogólnienie modelu binarnego Wybór pomiędzy 2 lub większą liczbą alternatyw Np. wybór środka transportu, głos w wyborach,
Bardziej szczegółowoKlasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie
Bardziej szczegółowoModel odpowiedzi i schemat oceniania do arkusza I
Model odpowiedzi i schemat oceniania do arkusza I Zadanie 1 (4 pkt) n Odczytanie i zapisanie danych z wykresu: 100, 105, 100, 10, 101. n Obliczenie mediany: Mediana jest równa 101. n Obliczenie średniej
Bardziej szczegółowoWydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Bardziej szczegółowoUkłady równań liniowych
Układy równań liniowych Niech K będzie ciałem. Niech n, m N. Równanie liniowe nad ciałem K z niewiadomymi (lub zmiennymi) x 1, x 2,..., x n K definiujemy jako formę zdaniową zmiennej (x 1,..., x n ) K
Bardziej szczegółowoCO TO SĄ BAZY GRÖBNERA?
CO TO SĄ BAZY GRÖBNERA? Wykład habilitacyjny, Toruń UMK, 5 czerwca 1995 roku Andrzej Nowicki W. Gröbner, 1899-1980, Austria. B. Buchberger, Austria. H. Hironaka, Japonia (medal Fieldsa). Bazy, o których
Bardziej szczegółowo166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Bardziej szczegółowoDOPASOWYWANIE KRZYWYCH
DOPASOWYWANIE KRZYWYCH Maciej Patan Uniwersytet Zielonogórski Motywacje Przykład 1. Dane o przyroście światowej populacji są aktualizowane co każde 10 lat, celem szacowania średniego przyrostu rocznego.
Bardziej szczegółowoElementy Modelowania Matematycznego
Elementy Modelowania Matematycznego Wykład 8 Programowanie nieliniowe Spis treści Programowanie nieliniowe Zadanie programowania nieliniowego Zadanie programowania nieliniowego jest identyczne jak dla
Bardziej szczegółowoSkładowe odpowiedzi czasowej. Wyznaczanie macierzy podstawowej
Składowe odpowiedzi zasowej. Wyznazanie maierzy podstawowej Analizowany układ przedstawia rys.. q (t A q 2, q 2 przepływy laminarne: h(t q 2 (t q 2 h, q 2 2 h 2 ( Przykładowe dane: A, 2, 2 2 (2 h2(t q
Bardziej szczegółowoGeometria analityczna
Geometria analityczna Paweł Mleczko Teoria Informacja (o prostej). postać ogólna prostej: Ax + By + C = 0, A + B 0, postać kanoniczna (kierunkowa) prostej: y = ax + b. Współczynnik a nazywamy współczynnikiem
Bardziej szczegółowoSzukanie rozwiązań funkcji uwikłanych (równań nieliniowych)
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości
Bardziej szczegółowoNatalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
Bardziej szczegółowokomputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoRÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Bardziej szczegółowomgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Bardziej szczegółowoMetody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne
Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur
Bardziej szczegółowoPytanie 2 Belkę przedstawioną na rysunku, obciążono momentem skupionym M = 3 [knm] w punkcie C. Odległości wynoszą a=2 [m], b=1 [m].
Pytanie 1 Belkę przedstawioną na rysunku, obiążono siłą P = 3 [kn]. Odległośi wynoszą a= [m], b=1 [m]. A a Reakje podpór dla belki wynoszą: A) R A = [kn], R B =1 [kn] B) R A =1 [kn], R B = [kn] C) RA=
Bardziej szczegółowoPROGRAMOWANIE KWADRATOWE
PROGRAMOWANIE KWADRATOWE Programowanie kwadratowe Zadanie programowania kwadratowego: Funkcja celu lub/i co najmniej jedno z ograniczeń jest funkcją kwadratową. 2 Programowanie kwadratowe Nie ma uniwersalnej
Bardziej szczegółowoCałka nieoznaczona, podstawowe wiadomości
Całka nieoznaczona, podstawowe wiadomości Funkcją pierwotną funkcji w przedziale nazywamy funkcję taką, że dla każdego punktu z tego przedziału zachodzi Różnica dwóch funkcji pierwotnych w przedziale danej
Bardziej szczegółowoWstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami
Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami Przykład 1. Napisz program, który dla podanej liczby n wypisze jej rozkład na czynniki pierwsze. Oblicz asymptotyczną złożoność
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
Bardziej szczegółowo1 Metody rozwiązywania równań nieliniowych. Postawienie problemu
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie
Bardziej szczegółowo9. Funkcje trygonometryczne. Elementy geometrii: twierdzenie
9. Funkcje trygonometryczne. Elementy geometrii: twierdzenie Pitagorasa i twierdzenie cosinusów, twierdzenie o kącie wpisanym i środkowym, okrąg wpisany i opisany na wielokącie, wielokąty foremne (c.d).
Bardziej szczegółowoAlgorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed
Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Zakres pracy Przegląd stanu wiedzy w dziedzinie biometrii, ze szczególnym naciskiem
Bardziej szczegółowoLXIV Olimpiada Matematyczna
LXIV Olimpiada Matematyzna Rozwiązania zadań konkursowyh zawodów stopnia drugiego 22 lutego 203 r. (pierwszy dzień zawodów) Zadanie. Dane są lizby ałkowite b i oraz trójmian f(x) = x 2 +bx+. Udowodnić,
Bardziej szczegółowoElementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Bardziej szczegółowo