Instytut Podstaw Informatyki Polskiej Akademii Nauk Marek Grochowski Sztuczne sieci neuronowe oparte na metodach wyszukiwania interesuj cych projekcji Praca doktorska pod kierunkiem prof. Wªodzisªawa Ducha Katedra Informatyki Stosowanej Wydziaª Fizyki Astronomii i Informatyki Stosowanej Uniwersytet Mikoªaja Kopernika Toru«, 2012 r.
Streszczenie Rozwi zywanie zªo»onych problemów klasykacyjnych, gdzie mamy do czynienia z wielowymiarowymi danymi o strukturze logicznej, posiadaj cymi nielokalne relacje i wielomodalne rozkªady, jest wci» bardzo du»ym wyzwaniem, z którym cz sto nie radz sobie powszechnie stosowane maszyny ucz ce. Z drugiej strony, bez odpowiednich strategii doboru zªo»ono±ci modelu, ªatwo przeoczy nawet proste rozwi zanie problemu, je»eli takie istnieje. Uzasadnione wydaje si wi c poszukiwanie nowych typów maszyn ucz cych o mo»liwo±ciach adaptacyjnych obejmuj cych wysoce nieseparowalne problemy i generuj cych mo»liwie najprostsze rozwi zania (ze wzgl du na ilo± parametrów jak i szybko± ich znajdowania). Zªo»ony problem klasykacyjny mo»na upro±ci przy pomocy odpowiednich transformacji danych wej±ciowych. Analizowane w pracy metody wyszukiwania interesuj cych projekcji (ang. Projection Pursuit) pozwalaj wykrywa istotne struktury w wielowymiarowych danych, redukuj c problem do przestrzeni okre±lonej przez kilka interesuj cych rzutów. Budowanie modelu dyskryminacyjnego w takiej przestrzeni ma wówczas wi ksze szanse powodzenia. W pracy przeanalizowano wykorzystanie metod poszukiwania interesuj cych projekcji do uczenia konstruktywistycznych sieci neuronowych w zastosowaniu do klasykacji zªo»onych i trudno separowanych danych. Architektury konstruktywistyczne, eksploruj ce przestrze«rozwi za«, poczynaj c od najprostszego modelu, w kierunku coraz bardziej zªo»onych i wyranowanych struktur, dopasowuj zªo-»ono± modelu do trudno±ci zadania. Wa»n cz ±ci pracy jest próba charakteryzacji problemów klasykacyjnych ze wzgl du na ich zªo»ono±, ze szczególnym uwzgl dnieniem danych o strukturze logicznej. Zaprezentowano w niej nowe indeksy projekcyjne, ich wykorzystanie do treningu konstruktywistycznych sieci oraz przedstawiono porównanie ich mo»liwo±ci z podobnymi istniej cymi algorytmami i powszechnie stosowanymi metodami.
Abstract Learning complex multidimensional classication problems with inherent logic structure, non-local relations, and multi-modal class distributions is still a great challenge where standard machine learning methods fail. On the other hand, without appropriate strategies for model complexity selection, even simple solutions may be easily missed. Therefore, there is a strong need for the development of new machine learning algorithms capable of handling such highly non-separable problems leading to the simplest possible solution (with respect to number of parameters and speed of learning). Complex classication problems can be simplied by proper transformations of the input space. This work focuses on projection pursuit methods which are able to discover important structures in multidimensional data, and which can reduce the dimensionality of the problem to a space dened by only few interesting projections. Then, searching for optimal discrimination rule in the transformed space is much more likely to succeed. In this thesis the projection pursuit method is used for training of a constructive neural networks applied to classication task of complex non-separable data. Constructive architectures, by exploring the space of possible solutions, starting from the simplest model and proceeding to more complex and sophisticated structures, are able to t model complexity to given data. An important part of this work is to characterize classication problems due to their complexity, especially for data with inherent logic. New projection indices have been proposed in this work and comparison with similar methods have been presented.
Spis tre±ci 1 Wst p 8 2 Poszukiwanie najlepszego modelu 11 2.1 Problem klasykacji wzorców..................... 11 2.2 Wybrane klasykatory......................... 12 2.2.1 Liniowa dyskryminacja (LDA)................. 13 2.2.2 Naiwny klasykator bayesowski (NBC)............ 13 2.2.3 Metoda najbli»szych s siadów (knn)............. 14 2.2.4 Drzewa decyzyjne........................ 15 2.2.5 Sztuczne sieci neuronowe (MLP, RBF)............ 15 2.2.6 Metody prototypowe (LVQ).................. 17 2.2.7 Maszyna wektorów wspieraj cych (SVM)........... 17 2.3 Wybór modelu............................. 18 2.3.1 Obci»enie i wariancja modelu................. 21 2.3.2 Dobór zªo»ono±ci modelu.................... 21 2.3.3 No free lunch.......................... 25 2.4 Zªo»ono± danych a zªo»ono± modelu................. 26 2.4.1 Proste problemy klasykacyjne................ 27 2.4.2 Problemy boolowskie i problemy trudno separowalne.... 29 2.4.3 Funkcje boolowskie a generalizacja.............. 32 2.4.4 Problemy o skomplikowanych granicach decyzyjnych..... 34 2.4.5 k-separowalno±......................... 35 2.4.6 Separowalno± funkcji boolowskich.............. 36 2.5 Eksploracja danych poprzez transformacje.............. 37 2.5.1 Po±rednie cele uczenia..................... 38 2.5.2 k-separowalno± jako cel uczenia................ 39 2.6 Podsumowanie............................. 40 3 Poszukiwanie interesuj cych projekcji 41 3.1 Indeks Friedmana-Tukey'a....................... 43 3.2 Analiza skªadowych gªównych (PCA)................. 44 3.3 Dyskryminacyjne indeksy projekcyjne................. 45 3.4 Dyskryminacja Fishera (FDA)..................... 45
SPIS TRE CI 4 3.5 Strategie szukania sekwencji kierunków................ 46 3.6 k-separowalno± indeksem projekcyjnym............... 47 3.6.1 3-separowalno±......................... 47 3.6.2 k-separowalno± a metody prototypowe............ 50 3.7 Indeks QPC............................... 52 3.7.1 Eksploracja danych za pomoc projekcji maksymalizuj cych indeks QPC........................... 55 3.7.2 Redukcja kosztu obliczeniowego indeksu QPC........ 59 3.7.3 Indeks QPC oparty na prototypach (FastQPC)....... 60 3.8 Podsumowanie............................. 68 4 Sztuczne sieci neuronowe poszukuj ce interesuj cych rzutów 69 4.1 Algorytmy konstruktywistyczne.................... 70 4.2 Sekwencyjne algorytmy konstruktywistyczne............. 70 4.2.1 Ogólna sekwencyjne metoda konstruktywistyczna...... 71 4.2.2 Algorytm nieregularnego podziaªu (IPA)........... 74 4.2.3 Algorytm Carve......................... 76 4.2.4 Algorytm zamiany etykiet (TSA)............... 77 4.2.5 Algorytm plamy oleju (OSA)................. 78 4.2.6 Uczenie sekwencj funkcji okienkowych (SWL)........ 80 4.3 Sie konstruktywistyczna z uczeniem 3-separowalno±ci (C3S).... 82 4.3.1 Sie C3S a schemat GSCM................... 89 4.3.2 Porównanie algorytmów sekwencyjnych............ 91 4.4 Sie QPC-NN.............................. 105 4.5 Wektorowa kwantyzacja z wi zami (clvq).............. 112 4.5.1 Generalizacja i zªo»ono± sieci clvq............. 117 4.5.2 Wizualizacja aktywacji warstwy ukrytej............ 120 4.6 Podsumowanie............................. 122 5 Zako«czenie 123 A Prace stanowi ce podstaw doktoratu 125 B Zaimplementowane oprogramowanie 126 B.1 Pakiet K-Search............................ 126 B.2 Pakiet QPC Toolbox.......................... 127 C Zbiory danych 128 D Algorytm uczenia perceptronu reguª termiczn 132 E Grupowanie Hamminga 133
Spis rysunków 2.1 Proste rozwi zanie ratingu kredytowego................ 28 2.2 Rzut parzysto±ci dziesi ciowymiarowej na diagonal hiperkostki.. 32 2.3 k-separowalno± problemu parzysto±ci................. 35 3.1 Sie MLP realizuj ca 3-separowalno±................. 48 3.2 Przykªady funkcji okienkowych..................... 50 3.3 Sie realizuj ca rozwi zanie k-separowalne............... 52 3.4 Przykªady funkcji G(x)......................... 54 3.5 Wizualizacja zbioru Wine....................... 56 3.6 Wizualizacja zbioru Monk's 1..................... 57 3.7 Wizualizacja problemu parzysto±ci................... 58 3.8 Wizualizacja problemu koncentrycznych pier±cieni.......... 59 3.9 Porównanie projekcji QPC oraz FastQPC............... 65 4.1 Podziaª przestrzeni hiperpªaszczyznami przy u»yciu ogólnej konstruktywistycznej metody sekwencyjnej (GSCM)........... 72 4.2 Architektura sieci C3S.......................... 83 4.3 Rozrost sieci konstruktywistycznej C3S................. 86 4.4 Zale»no± warto±ci bª du sieci, liczby cykli uczenia oraz liczby neuronów od wspóªczynnika kary i nagrody................ 88 4.5 Wpªyw wymiaru problemu logicznego na ±redni poprawno± oraz ±rednia liczb neuronów ukrytych sieci C3S.............. 90 4.6 Zale»no± zªo»ono±ci sieci od wymiarowo±ci problemu boolowskiego dla problemu parzysto±ci........................ 94 4.7 Zale»no± zªo»ono±ci sieci od wymiarowo±ci problemu boolowskiego dla losowej funkcji........................... 95 4.8 Rozkªad g sto±ci klas wzdªu» kierunku uzyskanego z sieci C3S... 100 4.9 Przebieg funkcji Q x (w) dla przykªadowych problemów....... 106 4.10 Dwuwymiarowa funkcja bicentralna (4.29) z centrum t = 0 i zasi giem r = 2................................ 109 4.11 Architektura sieci clvq......................... 113 4.12 Obraz danych w warstwie ukrytej sieci QPC-LVQ.......... 121
Spis tabel 2.1 Separowalno± problemów boolowskich................ 29 2.2 Klasykacja problemu parzysto±ci................... 30 2.3 Klasykacja problemu symetrii lustrzanej............... 34 2.4 Zale»no± zªo»ono±ci sieci C3S od k-separowalno±ci problemu.... 37 3.1 Porównanie szybko±ci QPC i FastQPC................ 63 3.2 Porównanie poprawno±ci klasykacji po transformacji QPC i FastQPC 67 4.1 Sekwencyjne algorytmy konstruktywistyczne............. 92 4.2 Poprawno± klasykacji sieci konstruktywistycznych wytrenowanych dla problemu Monks.......................... 97 4.3 Liczba neuronów ukrytych wygenerowanych sekwencyjnymi algorytmami konstruktywistycznymi dla problemu Monks.......... 98 4.4 Czas uczenia sekwencyjnych algorytmów konstruktywistycznych dla problemu Monks............................ 99 4.5 Poprawno± klasykacji sieci konstruktywistycznych w te±cie kroswalidacyjnym.............................. 101 4.6 rednia liczba neuronów utworzonych w warstwie ukrytej sekwencyjnymi algorytmami konstruktywistycznymi podczas testu kroswalidacyjnego................................ 102 4.7 redni czas CPU treningu sieci konstruktywistycznych algorytmami sekwencyjnymi w te±cie kroswalidacyjnym............... 103 4.8 Porównanie poprawno±ci klasykacji sieci QPCNN z innymi klasy- katorami................................ 111 4.9 Porównanie poprawno±ci klasykacji metod QPC-LVQ i PCA-LVQ z innymi klasykatorami........................ 119
Skróty ERM GSCM knn LDA LVQ MAP MDL MLP NBC OSA PP RBF SRM SWL SVM TPLR VC minimalizacja ryzyka empirycznego (ang. Empirical Risk Minimization) ogólna sekwencyjna metoda konstruktywistyczna (ang. General Sequential Constructive Method ) metoda klasykacji k najbli»szych s siadów (ang. k Nearest Neighbours) liniowa dyskryminacja (ang. Linear Dyscryminant Analysis) metoda adaptacyjnej kwantyzacji wektorowej (ang. Learning Vector Quantization) zasada maksymalnego prawdopodobie«stwa posteriorycznego (ang. Maximum A Posteriori Probability) zasada minimalnej dªugo±ci opisu modelu (ang. Minimum Description Length) wielowarstwowa sie jednokierunkowa (ang. Multi-Layer Perceptron) naiwny klasykator Bayes'a (ang. Naive Bayes Classier ) metoda plamy oleju (ang. Oil Spot Algorithm ) metoda poszukiwania interesuj cych rzutów (po±cig projekcji) (ang. Projection Pursuit) sie neuronowa z radialnymi funkcjami transferu (ang. Radial-Basis Function) minimalizacja ryzyka strukturalnego (ang. Structural Risk Minimization) algorytm uczenie sekwencjami funkcji okienkowych (ang. Sequential Window Learning ) maszyna wektorów wspieraj cych (ang. Suport Vector Maschine) algorytm uczenia perceptronu reguª termiczn (ang. Thermal Perceptron Learning Rule) teoria (wymiar) Vapnika-Chervonenkisa
ROZDZIAŠ 1 Wst p Dynamiczny post p technologiczny sprawiª,»e obecno± komputerów staªa si powszechna. Wzrost dost pnej mocy obliczeniowej pozwala na efektywne rozwi zywanie coraz bardziej zªo»onych problemów. Jednak rozwój ten wi»e si tak»e z lawinowym wzrostem informacji gromadzonych w bazach danych oraz coraz wi kszymi wyzwaniami zwi zanymi z ich analiz. Przyczynia si to do zwi kszenia zainteresowania metodami inteligentnego przetwarzania danych, które pozwalaj znale¹ satysfakcjonuj ce rozwi zanie trudnych problemów analizy danych. Nic wi c dziwnego,»e metody inteligencji obliczeniowej (ang. Computational Intelligence) w ostatnich latach znajduj coraz szersze zastosowanie w przemy±le, medycynie, nauce i biznesie. Jednym z podstawowych zada«eksploracji danych jest klasykacja wzorców. Istnieje wiele algorytmów klasykacyjnych, charakteryzuj cych si ró»nymi strategiami poszukiwania rozwi za«i ró»nymi typami mo»liwych do reprezentacji odwzorowa«. Pomimo dynamicznego rozwoju tej dziedziny w ostatnich dziesi cioleciach nadal bardzo du»ym wyzwaniem pozostaj zªo»one problemy klasykacyjne spotykane m. in. przy analizie j zyka naturalnego, w danych bioinformatycznych i medycznych. Z tymi problemami nie s w stanie poradzi sobie powszechnie u»ywane metody. Z jednej strony wyzwaniem jest tu bardzo du»a obj to± baz danych, wymuszaj ca stosowanie algorytmów o niskiej zªo»ono±ci obliczeniowej, z drugiej - dane takie bardzo cz sto posiadaj zªo»on struktur, w której wyst puj nielokalne relacje pomi dzy wzorcami, wielomodalne i skomplikowane rozkªady klas. Nawet w przypadku znalezienia satysfakcjonuj cego rozwi zania wynikowy model jest cz stokro zbyt zªo»ony, co utrudnia interpretacj danych i prowadzi do rozwi - za«o sªabej generalizacji. Z drugiej strony nawet je±li istnieje proste rozwi zanie problemu to bez odpowiednich strategii meta-uczenia, przeszukuj cych przestrze«modeli w celu znalezienia najbardziej optymalnej konguracji, powszechnie stosowane metody nie s w stanie go znale¹. Uzasadnione wydaje si wi c poszukiwanie nowych typów maszyn ucz cych o mo»liwo±ciach adaptacyjnych obejmuj cych trudne i wysoce nieseparowalne problemy oraz generuj cych mo»liwie najprostsze (ze wzgl du na liczb parametrów, ªatwo±ci interpretacji jak i szybko±ci ich znajdo-
ROZDZIAŠ 1. WST P 9 wania) rozwi zania, gwarantuj ce wysoki poziom generalizacji i niewielk zªo»ono± obliczeniow. Trudne problemy klasykacyjne, których rozwi zywanie wymaga cz sto stosowania wyranowanych technik, mog by zazwyczaj z powodzeniem przetransformowane do prostszej postaci. Odpowiednia transformacja lub sekwencja transformacji przestrzeni wej±ciowej powinna prowadzi do utworzenia cech charakteryzuj cych si lepszymi wªa±ciwo±ciami separuj cymi. Budowanie modelu dyskryminacyjnego w otrzymanej przestrzeni staje si przez to prostsze. Nowa przestrze«zazwyczaj posiada znacz co mniejszy wymiar ni» przestrze«pocz tkowa, co owocuje zmniejszeniem kosztu obliczeniowego zwi zanego z treningiem klasykatora. Wa»n klas takich transformacji, analizowan w pracy, s statystyczne metody wyszukiwania interesuj cych projekcji (ang. Projection Pursuit), które pozwalaj wykrywa istotne struktury w wielowymiarowych danych, redukuj c wymiarowo± problemu do kilku interesuj cych rzutów i niweluj c wpªyw nieistotnych oraz redundantnych cech. Wa»nym aspektem zwi zanym z uczeniem maszynowym jest dobór odpowiedniego modelu do przedstawionego problemu. Niewªa±ciwy dobór maszyny ucz cej, strategii uczenia lub liczby parametrów powoduje pomijanie najprostszych rozwi - za«, generuj c bardzo zªo»one modele o sªabej generalizacji. W zwi zku z tym coraz powszechniejsze staje si stosowanie wyranowanych metod meta-uczenia przeszukuj cych przestrze«mo»liwych modeli w celu dopasowania najlepszego z nich do danego problemu. W praktyce metody te, niestety, wymagaj wci» bardzo du»ego nakªadu czasu obliczeniowego, co w wielu przypadkach uniemo»liwia ich zastosowanie w przypadku bardzo du»ych zbiorów danych. Dobrym kompromisem pomi dzy czasem po±wi conym na poszukiwanie rozwi zania a zªo»ono±ci ostatecznego modelu wydaj si by odpowiednie architektury konstruktywistyczne, które dzi ki wªa±ciwej strategi wzrostu s w stanie dopasowa swoj zªo»ono± do zªo»ono±ci przedstawionego problemu. Schemat skªadania sekwencji transformacji, bazuj cy na metodach poszukiwania interesuj cych projekcji, w naturalny sposób mo»e zosta zaaplikowany do budowy takich ontogenicznych modeli klasykuj cych, które w inteligentny sposób eksploruj przestrze«rozwi za«od najbardziej ogólnych do coraz bardziej szczegóªowych, dopasowuj c swoj zªo»ono± do zªo»ono±ci postawionego problemu. Rozdziaª 2 porusza problem zªo»ono±ci problemów klasykacyjnych oraz poszukiwania najlepszego klasykatora. Proces uczenia potraktowany jest tu jako proces poszukiwania ci gu transformacji rozbijaj cych problem gªówny na prostsze do rozwi zania podproblemy. Jednym z celów po±rednich, do którego mo»e d»y klasykator, jest rozwi zanie k-separowalne. Indeks k-separowalno±ci znajduje szczególne zastosowanie przy charakteryzacji zªo»ono±ci problemów boolowskich. Du»a cz ± rozdziaªu 2 dotyczy analizy problemów zwi zanych z trudnymi problemami o naturze logicznej, przedstawione zostaªy stosowane rozwi zania sztucznych sieci neuronowych stworzonych do rozwi zywania wybranych problemów o zªo»onej strukturze logicznej.
ROZDZIAŠ 1. WST P 10 Kolejnym poruszanym w pracy aspektem jest poszukiwanie nowych indeksów sªu» cych do znajdowania interesuj cych rzutów w zastosowaniu do klasykacji wzorców. W rozdziale 3 zaprezentowane zostaªy indeksy projekcyjne stosowane w transformacjach problemów klasykacyjnych. Zaprezentowany zostaª nowy indeks QPC (podrozdziaª 3.7) oraz jego przybli»ona wersja oparta o prototypy (podrozdziaª 3.7.3). W ostatniej cz ±ci (rozdziaª 4) zaprezentowane zostaªy algorytmy konstruktywistycznych sieci neuronowych bazuj ce na ró»nych strategiach skªadania transformacji z unikatowych sekwencji projekcji. W±ród wielu istniej cych architektur konstruktywistycznych wyró»ni nale»y kilka algorytmów sekwencyjnych stworzonych z my±l o rozwi zywaniu problemów logicznych (zob. 4.2). Charakterystyczny sposób konstruowania tych sieci pozwala zaliczy te algorytmy do klasy modeli bazuj cych na metodach poszukiwania interesuj cych projekcji, gdzie ka»dy kolejny neuron warstwy ukrytej realizuje unikatow transformacj liniow. Zaprezentowane te» zostaªy nowe sieci oparte o indeks QPC, które s zdolne do wykrywania zarówno lokalnych jak i nielokalnych relacji w danych. Sieci QPC-LVQ i PCA-LVQ (podrozdziaª 4.5) eksploruj przestrze«rozwi za«, poczynaj c od rozwi za«liniowo separowalnych poprzez k-separowalno±, a» po przypadki, które nazwa mo»na rozlu¹nion k-separowalno±ci.
ROZDZIAŠ 2 Poszukiwanie najlepszego modelu klasykacyjnego Problem uczenia maszynowego to problem poszukiwania modelu opisuj cego dane. Ucz cy si algorytm, maj c do dyspozycji zestaw obserwacji zawarty w zbiorze treningowym, d»y do uzyskania jak najlepszego (ze wzgl du na pewna okre±lon miar jako±ci rozwi zania zdeniowan przez typ problemu) odwzorowania istotnych relacji wystarczaj cych do rozwi zania postawionego problemu. Podstawowym wymaganiem stawianym modelowi uzyskanemu w wyniku procesu uczenia jest generalizacja, czyli zdolno± modelu do tworzenia uogólnionych relacji, które s poprawne tak»e dla nie zaprezentowanych w procesie uczenia obserwacji. Odwzorowania realizowane przez modele danych zale» od typu problemu uczenia maszynowego. Typowymi zadaniami uczenia maszynowego s : klasykacja, aproksymacja, analiza skupie«(czyli klasteryzacja), indukcja reguª, selekcja cech, itd. W przypadku klasykacji szukanym modelem jest relacja pomi dzy zmiennymi opisuj cymi obiekty a etykiet klasy a miar jako±ci tego odwzorowania jest poprawno± klasykacji. 2.1 Problem klasykacji wzorców Klasykacja wzorców jest problemem uczenia z nadzorem 1, w którym dla ka»dego obiektu treningowego x X dostarczona jest oczekiwana odpowied¹ modelu y Y, gdzie X i Y to odpowiednio przestrze«wej±ciowa i wyj±ciowa. Odpowiedzi klasykatora jest najcz ±ciej pojedyncza warto± nominalna y i a przestrze«wyj- ±ciowa Y jest sko«czonym, c elementowym zbiorem etykiet klas, do których nale» 1 Niekiedy w literaturze spotka mo»na zarówno klasykacj z nadzorem jak i bez nadzoru. W tym drugim przypadku chodzi o analiz skupie«, czyli klasteryzacj. W niniejszej pracy przyjmujemy,»e problem klasykacji jest zawsze zadaniem nadzorowanym.
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 12 obiekty, przy czym 2 c n, gdzie n jest liczb obiektów ze zbioru treningowego 2. Zbiór treningowy D przybiera posta : D = {(x 1, y 1 ), (x 2, y 2 ),..., (x n, y n )} X Y (2.1) gdzie X = {x 1,..., x n } jest zbiorem danych wej±ciowych, za± Y zbiorem danych wyj±ciowych (etykiet klas). Ka»dy obiekt x i nale»y do jednej z klas ω(x i ) = y i. Klasykator realizuje odwzorowanie na wyj±ciu dostarcza warto±ci dyskretne, jedn z c etykiet f : X Y (2.2) f(x i ) = y i, y i {ω 1,..., ω c } (2.3) Odwzorowanie (2.3), zwane reguª klasykacyjn lub dyskryminacyjn, dzieli przestrze«wej±ciow X na wykluczaj ce si regiony przynale»no±ci do poszczególnych klas. S siaduj ce z sob regiony s oddzielone granicami (pªaszczyznami) decyzyjnymi. Obiekty przestrzeni wej±ciowej typowo opisane s zestawem cech 3 o warto±ciach numerycznych (ci gªych, dyskretnych czy binarnych) lub symbolicznych. Warto±ci symboliczne, w odró»nieniu od warto±ci ci gªych i dyskretnych, nie maj zdeniowanego porz dku, jednak dla wygody bardzo cz sto koduje si ich warto±ci za pomoc liczb caªkowitych. Dane wej±ciowe X w takiej postaci mo»na przedstawi w postaci tabelarycznej. Obiekt x i jest wówczas wektorem w przestrzeni d-wymiarowej, gdzie d jest liczb cech opisuj cych obiekt. Wi kszo± maszyn ucz - cych oczekuje na wej±ciu wyª cznie jednego typu cech (np. ci gªych, binarnych, symbolicznych), dlatego w praktyce dane zawieraj ce mieszane typy cech poddaje si odpowiednim transformacjom przed treningiem algorytmu. Na przykªad, ka»d cech symboliczn mo»na zamieni na ci g cech o warto±ciach binarnych. W niniejszej pracy zakªadany,»e ka»dy obiekt reprezentowany jest wektorem okre±lonym w d-wymiarowej przestrzeni liczb rzeczywistych x R d, gdzie d jest liczb cach opisuj cych obiekt. 2.2 Wybrane klasykatory Istnieje wiele algorytmów uczenia maszynowego sªu» cych do klasykacji. W±ród najwa»niejszych wymieni nale»y sztuczne sieci neuronowe, maszyny wektorów 2 Problem klasykacji mo»e by wieloetykietowy, tzn. odpowiedzi klasykatora jest wówczas wi cej ni» jedna etykieta klasy, np. w analizie tekstu dokumenty mog by klasykowane do kilku kategorii tematycznych. Dodatkowo, niektóre klasykatory wraz z etykietami zwracaj warto± prawdopodobie«stwa lub innej miary okre±laj cej pewno± modelu zwi zan z przypisaniem obiektu do kolejnych klas. Tego typu modele wykraczaj jednak poza zakres tematyczny rozprawy. 3 W statystyce odpowiednikiem cechy jest zmienna niezale»na. Poj cia cecha, atrybut i zmienna w niniejszej pracy s sobie równowa»ne.
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 13 wspieraj cych SVM, metod najbli»szych s siadów knn, drzewa decyzyjne i modele probabilistyczne lub prototypowe. Poni»ej znajduje si krótki przegl d najpopularniejszych i najwa»niejszych algorytmów, do których znale¹ mo»na odniesienia w dalszej cz ±ci rozprawy. Szczegóªow analiz wymienionych metod klasykacyjnych mo»na odnale¹ w bogatej literaturze dotycz cej uczenia maszynowego, analizy danych i klasykacji wzorców, m. in. w [87, 13, 21, 69, 14, 55, 81]. 2.2.1 Liniowa dyskryminacja (LDA) Jedna z prostszych metod dyskryminacji problemów dwuklasowych polega na okre- ±leniu linowej kombinacji g(x) = wx + w 0 (2.4) gdzie w jest wektorem wag natomiast w 0 jest skalarem okre±laj cym warto± progow. Wielowymiarowa pªaszczyzna, okre±lona przez równanie g(x) = 0, dzieli przestrze«wej±ciow na dwa regiony. W zale»no±ci od tego po której stronie tej hierpªaszczyzny znajduj si klasykowane wektory przypisujemy je do odpowiednich klas. Takie podej±cie nazywamy liniow dyskryminacja (ang. Linear Discriminant Analysis, LDA) a trening klasykatora polega na poszukiwaniu kierunku w oraz warto±ci progu w 0 zapewniaj cego najlepsz separacj. Dla problemów liniowo separowalnych zwykle istnieje wi cej ni» jedna hiperpªaszczyzna rozdzielaj ca dwie klasy. Wówczas najlepsz generalizacj powinna zapewnia pªaszczyzna z najwi kszym marginesem, gdzie marginesem nazywamy nieujemn warto± b, dla której hiperpªaszczyzna separuj ca speªnia warunek dla wszystkich x i ze zbioru treningowego. g(x i ) b (2.5) 2.2.2 Naiwny klasykator bayesowski (NBC) Probabilistyczny model klasykacyjny zgodnie z reguª Bayes'a zdeniowany jest jako P (ω i D) = P (ω i)p (D ω i ) (2.6) P (D) gdzie ω i oznacza i-t etykiet klasy. W naiwnym podej±ciu zakªadamy niezale»no± wszystkich cech, czyli P (x i ω, x j ) = P (x i ω). Wówczas prawdopodobie«stwo warunkowe P (ω D), zwane prawdopodobie«stwem a posteriori, dane jest wyra»eniem P (ω i x 1,..., x d ) = λp (ω i ) d j=1 P (x j ω i ) (2.7) gdzie λ jest wspóªczynnikiem normalizuj cym. Parametry modelu estymujemy ze zbioru treningowego. Prawdopodobie«stwo P (ω i ) = n ωi /n okre±la stosunek liczby
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 14 przypadków z klasy ω i do wszystkich przypadków zbioru treningowego. G sto± rozkªadu przypadków P (x i ω) przybli»amy rozkªadem normalnym dla ka»dej z klas P (x = v ω i ) = ( 1 exp (v µ i) 2 ) 2πσi 2 2σi 2 (2.8) gdzie µ i i σ i stanowi odpowiednio warto± przeci tn i odchylenie standardowe wektorów z i-tej klasy. Klasykacja podejmowana jest zgodnie z zasad maksymalnego prawdopodobie«stwa posteriorycznego MAP (ang. Maximum A Posteriori Probability) arg max ω P (ω) d i=1 P (x i ω) (2.9) W bardziej zªo»onych przypadkach estymacji rozkªadu g sto±ci dokonuje si za pomoc kombinacji rozkªadów Gaussa, jednak wi»e si to ze zwi kszeniem kosztu obliczeniowego maszyny ucz cej. 2.2.3 Metoda najbli»szych s siadów (knn) Metoda k najbli»szych s siadów (ang. k Nearest Neighbors, knn ) dokonuje klasy- kacji przypadku x, bazuj c na jego podobie«stwie do przypadków zawartych w zbiorze treningowym. Funkcj podobie«stwa d(x, x ) najcz ±ciej jest odlegªo± pomi dzy x i x w pewnej wybranej metryce, np. odlegªo± euklidesowa. Klasykacja knn polega na przydzieleniu wektorowi x etykiety wyst puj cej najcz ±ciej w±ród k najbli»szych s siadów klasykowanego przypadku. W ka»dym punkcie przestrzeni cech okre±li mo»emy prawdopodobie«stwo tego,»e wektor x nale»y do klasy ω i P (ω i x) = k i (2.10) k gdzie k i jest liczb wektorów z s siedztwa x o etykiecie ω i natomiast k jest liczb branych pod uwag s siadów. Klasykacja polega wi c na wyborze klasy, dla której to prawdopodobie«stwo jest najwi ksze. Zdeniowanie modelu sprowadza si do wyboru metryki i liczby s siadów k. Gªówn klas metryk dla d-wymiarowych danych jest metryka Minkowskiego: ( d ) 1 α D(x, y) = x i y i α i=1 (2.11) Dla α = 2 otrzymujemy najcz ±ciej stosowan metryk euklidesow, dla α = 1 metryk Manhattan. Liczb s siadów zazwyczaj wybieramy nieparzyst, aby zminimalizowa ryzyko wyst pienia sytuacji remisowych. Wybór liczby s siadów mo»na zautomatyzowa, przeprowadzaj c seri testów dla ró»nych warto±ci k na zbiorze walidacyjnym i wybieraj c t warto±, dla której liczba pomyªek popeªnionych przy klasykacji zbioru treningowego byªa najmniejsza. knn wymaga przechowywania w
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 15 pami ci wszystkich wektorów treningowych. Za ka»dym razem, gdy klasykujemy pojedynczy przypadek, musimy dokona przeszukania caªego zbioru treningowego, st d zªo»ono± obliczeniowa klasykacji pojedynczego wektora wynosi O(dn). 2.2.4 Drzewa decyzyjne Drzewa decyzyjne zbudowane s z w zªów realizuj cych testy na cechach wektorów w ten sposób,»e ka»dy z takich testów dzieli przypadki na grupy, próbuj c odseparowa z jak najwi ksza dokªadno±ci wektory nale» ce do ró»nych klas. W zªy tworz drzewiast struktur hierarchiczn, ka»dy kolejny test dzieli przypadki na coraz mniejsze grupy, a» do momentu caªkowitego rozseparowania wzorców z ró»nych klas. Ko«cowe odgaª zienia (li±cie drzewa) skojarzone s z poszczególnymi etykietami klas. cie»ka od korzenia do li±cia deniuje reguª klasykacyjn dla pewnego zbioru obiektów klasykowanych w tym»e li±ciu. Budowanie drzewa (uczenie modelu) polega na poszukiwaniu najlepszego mo»liwego podziaªu zbioru danych zgodnie z pewnym kryterium oceniaj cym przydatno± danego podziaªu (w najprostszym przypadku mo»e to by bª d klasykacji dla danego podziaªu). Rozro±ni te drzewa przycina si w celu unikni cia przeuczenia gdy» sytuacja w której ka»dy li± zawiera pojedynczy przypadek nie zapewnia dobrej generalizacji. Klasykacja wzorca polega na pod»aniu od korzenia drzewa do odpowiedniego li±cia zgodnie przesªankami speªnianymi (b d¹ nie) w poszczególnych w zªach. 2.2.5 Sztuczne sieci neuronowe (MLP, RBF) Biologiczne sieci neuronowe staªy si inspiracj do powstania matematycznych modeli przetwarzaj cych informacje nazywanych sztucznymi sieciami neuronowymi. Podstawowym elementem takiej sieci jest neuron, który realizuje pewn funkcj transferu. Pobudzenie neuronu, czyli siªa sygnaªu powstaªego na jego wyj±ciu, zale»y od sygnaªów docieraj cych na wej±cia neuronu. Sygnaªy te s wzmacniane lub osªabiane za pomoc wag przypisanych do ka»dego wej±cia neuronu. Realizowane jest to za pomoc funkcji aktywacji neuronu, która najcz ±ciej przybiera form iloczynu skalarnego w T x (np. sie MLP) lub funkcji odlegªo±ci x w (np. sie RBF), gdzie w jest wektorem wag neuronu. Nast pnie, dla danej aktywacji, ustalana jest warto± sygnaªu na wyj±ciu neuronu za pomoc pewnej funkcji wyj±ciowej. Sieci zªo»one z wielu poª czonych ze sob neuronów potra realizowa bardzo skomplikowane odwzorowania, przez co znajduj szerokie zastosowanie w systemach klasykuj cych, aproksymuj cych i steruj cych. Dobór architektury sieci neuronowej jest ±ci±le zwi zany z problemem, jaki chcemy za jej pomoc rozwi za. Sie MLP Do klasykacji obiektów wykorzystywane s zwykle jednokierunkowe wielowarstwowe sieci neuronowe (ang. Multilayer Perceptron, MLP ), czyli sieci w których sygnaª
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 16 propagowany jest przez kolejne warstwy zawieraj ce grupy neuronów, od warstwy wej±ciowej, poprzez warstwy ukryte do wyj±cia sieci, bez sprz»e«zwrotnych. Wej- ±cia ka»dego neuronu w danej warstwie poª czone s ze wszystkimi wyj±ciami neuronów z warstwy poprzedzaj cej, a ka»de poª czenie mo»e wzmacnia lub osªabia sygnaª poprzez przypisan mu warto± wagi poª czenia. W przypadku klasykacji warstwa wyj±ciowa najcz ±ciej zawiera liczb neuronów równ liczbie etykiet. Ka»de wyj±cie jest skojarzone wówczas z jedn etykiet a klasykacja odbywa si poprzez wybranie neuronu o najwy»szej warto±ci wyj±ciowej, otrzymanej w momencie prezentacji klasykowanego wektora. Sie MLP z jedn warstw ukryta realizuje odwzorowanie o i (x) = f i ( w T i u(x) + w i0 ) (2.12) gdzie o i jest odpowiedzi i-tego neuronu wyj±ciowego, a skªadowe wektora u to warto±ci sygnaªów z wyj± w zªów z warstwy ukrytej u k (x) = f k (w T k x + w k0 ) (2.13) Uczenie sieci polega na odpowiedniej adaptacji warto±ci wag poª cze«pomi dzy wej±ciem sieci a warstw ukryt w i, w i0 oraz pomi dzy warstw ukryt a warstw wyj±ciow w i, w io zgodnie z pewna reguª uczenia. Istotny jest te» odpowiedni dobór funkcji wyj±ciowej neuronu f(x). Najcz ±ciej wykorzystywanymi funkcjami wyj±ciowymi w sieciach MLP s funkcje sigmoidalne, takie jak funkcja logistyczna σ(x) = 1 1 + e βx (2.14) i funkcja tangens hiperboliczny. Sztuczne sieci neuronowe MLP z jedn warstw ukryt s zdolne do odwzorowania dowolnej funkcji ci gªej, z kolei sie posiadaj ca dwie warstwy ukryte jest uniwersalnym aproksymatorem, czyli teoretycznie jest w stanie odwzorowa dowoln funkcj z dowoln dokªadno±ci [21, 64]. Sie RBF Interesuj c klas modeli neuronowych stanowi sieci z radialnymi funkcjami transferu. Sieci RBF (ang. Radial Basis Function) realizuj odwzorowanie f(x; w) = i w i G(x; t i, σ) (2.15) gdzie funkcja G jest funkcj radialn zlokalizowan w centrum t i i posiadaj c rozmycie σ. Najcz ±ciej wykorzystuje si tu funkcj Gaussa G(x; t, σ) = 1 σ (x t) 2 2π e 2σ 2 (2.16) O sile sygnaªu wyj±ciowego neuronu decyduje odlegªo± x od poªo»enia centrum t funkcji radialnej.
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 17 2.2.6 Metody prototypowe (LVQ) Metoda adaptacyjnej kwantyzacji wektorowej (ang. Learning Vector Quantization, LVQ) jest klasykatorem wydaj cym werdykt na podstawie podobie«stwa do pewnego zbioru prototypów [53]. Ka»dy prototyp t i skojarzony jest z klas ω(t i ). Dla danego zbioru prototypów {(t 1, ω(t 1 )),..., (t k, ω(t k ))} klasykacja polega na przypisaniu wektorowi x etykiety odpowiadaj cej najbli»ej poªo»onemu prototypowi. Metoda ta mo»e by przedstawiona jako sie neuronowa z jedn warstw, w której warto±ci wag poª cze«odpowiadaj wspóªrz dnym poªo»enia prototypów t i. Trening oraz klasykacja przebiega na zasadzie konkurencji prototypów, zgodnie z reguª zwyci zca bierze wszystko (ang. Winner Takes All, WTA). W czasie treningu modykuje si poªo»enia prototypów w nast puj cy sposób: dla danego wektora x ze zbioru treningowego znajd¹ najbli»szy (zwyci ski) prototyp i zmodykuj jego poªo»enie zgodnie ze wzorem gdzie t = t + t = t + αδ(ω(x), ω(t))(x t) (2.17) δ(ω(x), ω(t)) = { +1 dla ω(x) = ω(t) 1 dla ω(x) ω(t) Odpowiada to przyci ganiu prototypów do skupisk wektorów w których dominuje klasa zwi zana z przyci ganymi prototypami oraz równoczesnemu odpychaniu prototypów od grup wektorów z innymi etykietami. Po zako«czeniu treningu prototypy dziel przestrze«wej±ciow na regiony wpªywów odpowiadaj ce komórkom diagramu Voronoi. Klasykacja wzorca x dokonywana jest reguª najbli»szego s - siada f(x) = ω(t k ) gdzie k = arg min x t j (2.18) j 2.2.7 Maszyna wektorów wspieraj cych (SVM) Maszyna wektorów wspieraj cych (ang. Support Vector Machine, SVM ) poszukuje hiperpªaszczyzny separuj cej dwie klasy z jak najwi kszym marginesem. Jednak w odró»nieniu od klasycznych metod liniowej dyskryminacji (zob. 2.2.1) konstrukcja pªaszczyzny separuj cej odbywa si w pewnej wy»ej wymiarowej przestrzeni w stosunku do przestrzeni wej±ciowej [21, 82, 92]. W sytuacji gdy dane nie s liniowo separowalne transformuje si wektory z przestrzeni cech x i, za pomoc nieliniowej transformacji φ(x i ), do przestrzeni, w której liniowe metody mog by z zastosowane. Poszukiwana funkcja decyzyjna jest postaci g(x) = w T φ(x) + w 0 (2.19) gdzie wektory przypisywane s do dwóch klas w zale»no±ci od znaku g(x). Mo»na wykaza,»e poszukiwanie rozwi zania maksymalizuj cego margines sprowadza si
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 18 do maksymalizacji funkcji Lagrange'a n L(α) = α i 1 i=1 2 n i,j=1 α i α j y i y j φ T (x i )φ(x j ) (2.20) gdzie y i = ±1 to etykiety klas a wspóªczynniki α i to mno»niki Lagrange'a speªniaj ce warunek n i=1 y i α i = 0 0 α i C i = 1,..., n (2.21) dla pewnego wspóªczynnika regularyzacji C. Rozwi zaniem jest kierunek w dany wyra»eniem w = n i=0 α i y i φ(x i ) (2.22) Wektory x i dla których α i 0 nazywamy wektorami wspieraj cymi (ang. Support Vectors, SV ). Funkcja dyskryminacyjna (2.19) przybiera posta g(x) = n i=1 α i K(x, x i ) + w 0 (2.23) gdzie iloczyn skalarny φ T (x)φ(x ) zast piony zostaª funkcj j drow K(x, x ). W praktyce nie musimy zna postaci φ a konguracja maszyny sprowadza si do wyboru funkcji j drowej K oraz parametru regularyzacyjnego C. Najcz ±ciej wykorzystywan funkcj j drow jest funkcja Gaussa (2.16). 2.3 Wybór modelu Wybór najodpowiedniejszego klasykatora uzale»niony jest od wielu czynników zwi zanych z natur problemu ale cz sto te» zale»y od preferencji eksperymentatora. Spo±ród najwa»niejszych wªasno±ci, na jakie zwraca si uwag, wybieraj c model klasykacyjny, wymieni nale»y: Generalizacja. Najbardziej po» dana wªasno± klasykatora. Algorytm ucz - cy powinien by zdolny wyabstrahowa na podstawie danych treningowych ogólne reguªy opisuj ce relacje obiekt-klasa, tak aby byªa ona speªniona równie» dla nowych, niezaprezentowanych w trakcie treningu obserwacji. Zªo»ono± obliczeniowa treningu. Bardzo cz sto gªównym wymaganiem wobec algorytmu jest szybko± dziaªania. Zbyt du»a zªo»ono± obliczeniowa treningu dyskwalikuje algorytmy w wielu zastosowaniach, gdy mamy do czynienia z du» liczb wektorów lub du» liczb cech. W wielu wypadkach mo»na obej± to wymaganie, stosuj c ró»nego rodzaju techniki redukcji rozmiarów danych, np. metody selekcji cech i selekcji wektorów. Cz sto eksperymentator jest zmuszony zgodzi si na metod o gorszej generalizacji, jednak gwarantuj c zako«czenie treningu w okre±lonym czasie.
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 19 Koszt czasu klasykacji. Szybko± podejmowania decycji jest szczególnie istotnym kryterium w przypadku klasykatorów dziaªaj cych w systemach czasu rzeczywistego. Mo»emy godzi si w takich wypadkach na nawet spory koszt czasowy treningu, je»eli jest on wykonywany jednokrotnie. Tak zwane algorytmy leniwe (ang. lazy learning), jak knn, praktycznie nie ponosz kosztu obliczeniowego w czasie treningu, za to wymagaj czasu przy klasykacji wektora testowego, nie nadaj si wi c zwykle do pracy w czasie rzeczywistym. Zªo»ono± pami ciowa. Zale»nie od dost pnych zasobów pami ciowych eksperymentator mo»e preferowa algorytmy o niskich wymaganiach dotycz cych pami ci. Przykªadowo, metoda knn wymaga zapami tania caªego zbioru treningowego lub macierzy odlegªo±ci pomi dzy wszystkimi parami wektorów. Analogicznie SVM wymaga wyznaczenia macierzy z warto±ciami funkcji j drowych dla ka»dej pary wektorów, co dla zbiorów od du»ej liczbie obiektów mo»e mie kluczowe znaczenie. Liczba parametrów adaptacyjnych. Liczba parametrów wpªywa zarówno na koszt pami ciowy (np. w przypadku sieci neuronowych potrzebujemy przechowa wszystkie warto±ci wag poª cze«) jak i przede wszystkim na koszt obliczeniowy algorytmu. Zbyt du»a liczba stopni swobody maszyny ucz cej szybko mo»e doprowadzi do przeuczenia, równie» zwi ksza si szansa utkni cia w lokalnych minimach. Reprezentacja wiedzy. Wiele algorytmów uczenia maszynowego uznawana jest za tzw. czarne skrzynki, w których warto±ci parametrów modelu, nawet je»eli s dost pne, to nie posiadaj zadniej warto±ci poznawczej dla eksperymentatora, nie nios czytelnej informacji o relacjach opisuj cych problem. Sztuczne sieci neuronowe realizuj ce nieliniowe transformacje zdeniowane warto±ciami wag i odpowiedni kombinacj funkcji transferu s takim wªa±nie modelem. Podobnie jest w przypadku klasykatora SVM, który dokonuje separacji w wysoko wymiarowej przestrzeni, do której rzutowany jest pierwotny problem. Czªowiek preferuje reprezentacj wiedzy w postaci reguª i symboli, podobie«stwa do pewnych prototypów czy obiektów typowych, zatem istotn cech modelu jest z pewno±ci mo»liwo± gracznego przestawienia zdobytej w czasie treningu wiedzy w postaci map, diagramów lub innych typów wizualizacji. Literatura dotycz ca uczenia maszynowego jest bogata w ró»nego rodzaju strategie wyboru najlepszego modelu opisuj cego dane. Dotyczy to zarówno wyboru typu klasykatora oraz samej konguracji ju» wybranej maszyny oraz procesu jej trenowania. Na przykªad, decyduj c si na sie MLP nale»y dokona wyboru odpowiedniej architektury (liczby warstw, liczby neuronów w warstwach, rodzaju funkcji aktywacji i funkcji wyj±ciowych neuronów, sposobu reprezentacji wyj±, struktury poª cze«) oraz metody optymalizacji, a tak»e sposobu inicjalizacji warto±ci wag.
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 20 Ka»dy z tych elementów wpªywa na jako± otrzymanego modelu i mo»e mie kluczowe znaczenie dla powodzenia uczenia. Najbardziej rozpowszechniona metoda doboru modelu polega na zdeniowaniu odpowiedniej funkcji bª du lub kosztu stanowi cej miar dopasowania modelu do danych. Dobieraj c model, d»ymy do minimalizacji tej funkcji. Najwa»niejsz cech klasykatora powinna by poprawno± klasykacji dlatego wi kszo± metod klasykacyjnych d»y do minimalizacji oczekiwanego ryzyka danego wzorem: R[f] = l(x, y, f(x))dp (x, y) (2.24) gdzie P (x, y) jest g sto±ci rozkªadu danych, a funkcja l() jest funkcj straty, która w przypadku klasykacji najcz ±ciej jest postaci l(x, y, f(x)) = { 1 dla f(x) = y 0 dla f(x) y (2.25) Niekiedy istnieje mo»liwo± wyznaczenia ryzyka teoretycznie, rozpatruj c asymptotyczne wªasno±ci modelu. Jednak najcz ±ciej w realnych zastosowaniach jest to niewykonalne gdy» nie znamy rozkªadu danych. Wówczas stosuje si ró»nego rodzaju techniki walidacji modelu na podstawie losowych próbek, np. za pomoc kroswalidacji. Poniewa» w praktyce nie znamy rozkªadu P (x, y), caªk ze wzoru (2.24) przybli»a si sum liczon dla pewnej próbki treningowej. Przybli»enie to nazywamy ryzykiem empirycznym R emp [f] = 1 n n i=1 l(x i, y i, f(x i )) (2.26) Uczenie sieci neuronowych jest problemem regresyjnym, st d funkcj straty najcz ±ciej deniuje si w postaci funkcji kwadratowej l(x, y, f(x)) = (f(x) y) 2 (2.27) wówczas ryzyko empiryczne (2.26) odpowiada bª dowi ±rednio-kwadratowemu MSE. Niestety, minimalizacja ryzyka empirycznego nie gwarantuje generalizacji klasykatora. Ryzyko empiryczne wyznaczone dla obiektów, które nie braªy udziaªu w uczeniu maszyny ucz cej, mo»e by znacznie wi ksze od ryzyka empirycznego uzyskanego w czasie uczenia dla obiektów ze zbioru treningowego, nawet uwzgl dniaj c fakt,»e obie próbki posiadaj zbli»ony rozkªad 4. Zwi zane jest to z problemem przeuczenia, który wyst puje, gdy model zbyt gª boko dopasowaª swoj reprezentacj do próby zawartej w zbiorze treningowym, tworz c zbyt zªo»one i specyczne rozwi zanie. 4 Poszukuj c modelu opisuj cego dane, zawsze musimy zaªo»y,»e zbiór treningowy jest reprezentatywny i zawiera informacje wystarczaj ce do odkrycia reguªy opisuj cej dany problem, a próbki w obu przypadkach pochodz z pewnego nieznanego ale jednakowego rozkªadu
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 21 2.3.1 Obci»enie i wariancja modelu Dopasowanie modelu do danych mierzone jest za pomoc pewnej funkcji bª du, za± sam zbiór treningowy jest prób losow z pewnego nieznanego zazwyczaj rozkªadu. Dlatego bª d modelu mo»e przejawia si w dwóch aspektach: w obci»eniu i w wariancji. Obci»enie zwi zane jest z mo»liwo±ci dopasowania modelu do prawdziwej, opisuj cej dane, relacji. Wysokie obci»enie oznacza niezdolno± do dopasowania, co jest zwi zane zazwyczaj z faktem zbyt maªej zªo»ono±ci modelu w stosunku do danych, co wi»e si ze zbyt du»ym uogólnieniem. Wariancja zwi zana jest z powtarzalno±ci dopasowania, czyli ze zmienno±ci generowanego rozwi zania wynikaj - c z losowo±ci próbek w zbiorze treningowym. Zazwyczaj du»a warto± wariancji zwi zana jest z przeuczeniem modelu, czyli zbyt du»ym dopasowaniem modelu do konkretnych przypadków ze zbioru treningowego. Proces uczenia i selekcji modeli mo»e d»y do zmniejszenia wpªywu obci»enia i wariancji, jednak pomi dzy tymi warto±ciami istnieje zale»no± sprawiaj ca, i» zmniejszenie jednej z nich wi»e si zazwyczaj ze wzrostem drugiej. Modele o zbyt du»ej liczbie parametrów adaptacyjnych maj tendencj do mniejszego obci»enia i wi kszej wariancji, inaczej ni» proste modele. W przypadku regresji bª d ±rednio-kwadratowy mo»emy rozbi na dwa czªony które mo»emy powi za odpowiednio z wariancj i obci»eniem E[(f(x, y) y) 2 ] = (E[f(x, y) y]) 2 + E[(f(x, y) E[f(x, y)]) 2 ] }{{}}{{} obci»enie wariancja (2.28) Estymowany bª d jest tu liniowo zale»ny od kwadratu obci»enia i od wariancji. W przypadku klasykacji sytuacja jest trudniejsza, poniewa» pojedynczy bª d klasykacji jest warto±ci dyskretn, przez co funkcja ±rednio-kwadratowa nie jest dobr miar bª du klasykacji. Mo»na jednak wykaza [21],»e w przypadku klasykacji zale»no± bª du od wariancji i obci»enia jest mocno nieliniowa, za± wariancja ma dominuj cy wpªyw na bª d modelu i dlatego preferowane powinny by modele d» ce do wyeliminowania wariancji, nawet kosztem wi kszego obci»enia [21]. Wynika st d,»e proste modele powinny by preferowane. 2.3.2 Dobór zªo»ono±ci modelu Uwzgl dnienie zªo»ono±ci modelu przy poszukiwaniu najlepszego rozwi zania mo»e by zrealizowane na wiele sposobów. Ogólna tendencja spotykanych w literaturze strategi utrzymana jest w duchu zasady brzytwy Ockhama, która w zastosowaniu do metod klasykacji wzorców stwierdza,»e je»eli mamy dwa modele o porównywalnej poprawno±ci, to powinni±my wybra ten mniej zªo»ony. Bardziej ogólna teoria usprawiedliwiaj ca wybór prostych modeli znana jest pod nazw kryterium minimalnego opisu (ang. Minimum Description Lenght, MDL) [78]. Mo»na wykaza,»e jest ono blisko zwi zane z poszukiwaniem modelu za pomoc uczenia bayesowskiego, które polega na estymacji maksymalnego prawdopodobie«stwa posteriorycznego (ang. Maximum A Posteriori Probability, MAP ) [60]. Jedn z podstawowych teorii uczenia maszynowego dotycz cych doboru zªo»ono±ci modeli sformowaª Vapnik
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 22 i Chervonenkis, d»y si w niej do minimalizacji ryzyka strukturalnego modelu (ang. Structural Risk Minimalization, SRM ) [90]. Wspomniane metody stosowane s przy dokonywaniu wyboru pomi dzy dowolnymi modelami klasykacyjnymi, w tym do doboru zªo»ono±ci sztucznych sieci neuronowych [100], jednak w praktycznych zastosowaniach wyznaczanie warto±ci kosztu zwi zanego ze zªo»ono±ci za pomoc tych metod jest trudne i kosztowne obliczeniowo. Wymagane jest zazwyczaj wygenerowanie szeregu modeli, które nast pnie s oceniane odpowiedni funkcj kosztu. Jej warto± jest najcz ±ciej estymowania za pomoc metod walidacyjnych wymagaj cych wielokrotnego losowania próbek i powtórze«testów. Znacznie prostsze i cz ±ciej stosowane jest podej±cie, które ocen zªo»ono±ci modelu posiada wbudowan w proces uczenia sieci neuronowej. Mo»emy wyró»ni tu dwa gªówne podej±cia. Pierwszym jest zastosowanie odpowiedniej regularyzacji polegaj cej na dodaniu kary za zbyt zªo»one rozwi zanie do funkcji bª du, co pozwala ograniczy liczb parametrów potrzebnych do opisu danych, np. minimalizuj c wpªyw niepotrzebnych wag w sieci neuronowej. Drugie podej±cie uwzgl dnia mo»liwo±ci zmiany struktury sieci neuronowej, pozwalaj c na rozrost lub kurczenie si architektury, usuwanie niepotrzebnych poª cze«pomi dzy w zªami i doboru typów transformacji realizowanych przez neurony [46]. Najbardziej interesuj ce wydaj si tu modele konstruktywistyczne, które zaczynaj uczenie od poszukiwania najprostszego rozwi zania, a nast pnie, w miar potrzeb, zwi kszaj swoj zªo»ono±, dopasowuj c si do zªo»ono±ci danych. Regularyzacja Regularyzacja polega na dodaniu do funkcji bª du (ryzyka empirycznego) pewnej kary zwi zanej ze zªo»ono±ci modelu R[f] = R emp [f] + λω(f) (2.29) Czªon regularyzacyjny wymusza na modelu klasykacyjnym preferowanie prostszych rozwi za«, o bardziej gªadkich powierzchniach decyzyjnych. W przypadku sieci neuronowych stosuje si minimalizacj caªki liczonej po drugiej pochodnej funkcji realizowanej przez sie [91] Ω(w) = f (x; w) 2 dx (2.30) W najprostszej formie regularyzacja mo»e zach ca do zachowywania maªych warto±ci w. Tak funkcj speªnia czªon regularyzacyjny w postaci Ω(w) = 1 2 w 2 (2.31) Kryterium minimalnego opisu (MDL) Zasada minimalnego opisu jest kluczowym zagadnieniem uczenia maszynowego i teorii informacji, które uzasadnia preferowanie prostych modeli. Najlepszy model
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 23 wedªug tego kryterium to taki, który oferuje najkrótszy poprawny opis danych w sensie kodowania informacji. Niech K(A) oznacza dªugo± zapisu obiektu A za pomoc pewnego j zyka K, wówczas dla danego zbioru treningowego D najlepszy model f to taki, który speªnia wyra»enie: arg min f [K(f) + K f (D)] (2.32) gdzie K f (D) oznacza dªugo± zapisu danych D wyra»onego za pomoc modelu (hipotezy) f. Wyra»enie K(f) odpowiada zªo»ono±ci algorytmicznej modelu, któr w przypadku drzew decyzyjnych mo»na powi za z liczb w zªów, a w przypadku sieci neuronowych - z liczb neuronów. Odpowiednio, zªo»ono± opisu danych K f (D) mo»e by powi zana z entropi danych w li±ciach drzewa decyzyjnego lub na wyj±ciach sieci. Dowodzi si,»e klasykatory oparte o zasad MDL asymptotycznie wraz ze wzrostem rozmiaru danych zmierzaj do prawdziwego modelu [21]. Niestety, w zastosowaniach praktycznych u»ycie kryterium MDL sprawia wiele problemów, gªównie ze wzgl du na trudno±ci zwi zane z wyznaczeniem dokªadnej warto±ci zªo»ono±ci algorytmicznej klasykatorów. Maksymalizacja prawdopodobie«stwa posteriorycznego (MAP) W podej±ciu probabilistycznym poszukiwanie modelu f opisuj cego najlepiej dane D odbywa si poprzez okre±lenie prawdopodobie«stwa a posteriori P (f D) zgodnie z reguª Bayesa: P (f)p (D f) P (f D) = (2.33) P (D) Poniewa» nasza wiedza a priori na temat problemu jest zazwyczaj niewielka, ka»demu modelowi przypisujemy takie samo prawdopodobie«stwo P (f). Wówczas maksymalizacja prawdopodobie«stwa P (f D) sprowadza si do poszukiwania modelu o najwy»szym prawdopodobie«stwie P (D f). Kryterium MAP poszukiwania najlepszego modelu mo»na zapisa w nast puj cej postaci arg max[p (f)p (D f)] = arg min[ log 2 P (f) log 2 P (D f)] (2.34) f f Zgodnie z zasad optymalnego kodowania Shanona [85] zakodowanie wiadomo±ci A wymaga log 2 P (A) bitów, st d wynika równowa»no± kryterium maksymalizacji prawdopodobie«stwa (2.34) z kryterium minimalnego opisu (2.32), gdzie log 2 P (f) zwi zane jest dªugo±ci opisu modelu f, za± log 2 P (D f) z dªugo±ci opisu danych D za pomoc modelu f. W przypadku sieci neuronowych okre±lenie prawdopodobie«stwa P (D f) zazwyczaj jest trudnym zadaniem, wymaga znajomo±ci rozkªadu g sto±ci wag po- ª cze«. Zazwyczaj zakªadany jest rozkªad gaussowski, jednak taki rozkªad w rzeczywistych zastosowaniach spotyka si rzadko. Zªy dobór tych prawdopodobie«stw wpªywa mocno na jako± generalizacji [100].
ROZDZIAŠ 2. POSZUKIWANIE NAJLEPSZEGO MODELU 24 Minimalizacja ryzyka strukturalnego (SRM) Kryterium SRM minimalizacji ryzyka strukturalnego [90] okre±la górny kres bª du predykcji modelu w zale»no±ci od klasy zªo»ono±ci (struktury) maszyny ucz cej poprzez dodanie do funkcji bª du (ryzyka empirycznego) czªonu odpowiedzialnego za koszt zwi zany z wymiarem Vapnika-Chervonenkisa (VC) modelu. Wymiar VC okre±la miar mo»liwo±ci dyskryminacyjnych klasykatorów zdeniowan jako najwi ksza liczba punktów, jakie algorytm jest zdolny bezbª dnie odseparowa. Bardziej dokªadnie, wymiar VC modelu klasykacyjnego f realizuj cego dyskryminacj na dwie klasy jest to najwi ksza liczba h punktów z 1, z 2,..., z h, które mo»na rozdzieli na wszystkie 2 h sposobów za pomoc f. Przykªadowo, perceptron w przestrzeni dwuwymiarowej posiada wymiar VC równy 3. Wymiar VC mo»na traktowa jako miar zªo»ono±ci funkcji odwzorowuj cej relacj problemu klasykacyjnego. Zazwyczaj istnieje silna relacja mi dzy liczb wolnych parametrów modelu a wymiarem VC. Niech S k oznacza klas funkcji o wymiarze VC równym k. Wówczas dla danego problemu klasykacyjnego D = {(x i, y i )} n i=1 mo»emy wybra zbiór klas funkcji (hipotez) o rosn cej zªo»ono±ci S 1 S 2... S k.... Przykªadowo mo»e to by sie neuronowa MLP o coraz wi kszej liczbie neuronów ukrytych. Zasada SRM sugeruje wybór takiego modelu f k spo±ród struktury S k, dla którego caªkowity koszt predykcji (bª d generalizacji) jest najmniejszy. Koszt predykcji dla danego modelu f h o wymiarze VC równym h wytrenowanym na zbiorze zawieraj cym n obserwacji ograniczony jest nast puj cym wyra»eniem ( ) h R[f h ] R emp [f h ] + Ω (2.35) n Funkcjonaª Ω okre±la przedziaª ufno±ci dla bª du generalizacji, który z prawdopodobie«stwem 1 η wynosi ( ) h h ( log ( ) ) ( ) 2n h + 1 log η 4 Ω (2.36) n n Dla danego zbioru ucz cego oraz zestawu modeli okre±lamy ich wymiar VC, a nast pnie przedziaª ufno±ci Ω. Modele trenowane w celu osi gni cia najmniejszego kosztu empirycznego s nast pnie umieszczane w rankingu, którego kolejno± zale»y od górnej granicy bª du (2.35). Wybieramy pierwszy o najmniejszym koszcie predykcyjnym. Zasada ta pozwala uzyska kompromis pomi dzy zªo»ono±ci a poprawno±ci klasykacji modelu. Gªównym mankamentem tej metody jest trudno± zwi zana z wyznaczeniem wymiaru VC klasykatorów. Modele ontogeniczne Modele ontogeniczne w procesie uczenia potra zwi ksza i zmniejsza swoj zªo-»ono±, dopasowuj c swoj architektur do postawionego problemu. Mo»na wyrówna tu dwa gªówne podej±cia: modele konstruktywistyczne i destruktywistyczne. Istniej te» modele w peªni ontogeniczne (przykªadem jest sie IncNet [46]),