promotor: prof. Wªodzisªaw Duch Katedra Informatyki Stosowanej Wydziaª Fizyki Astronomii i Informatyki Stosowanej Uniwersytet Mikoªaja Kopernika w Toruniu 26 marca 2013, ZISWD PP, Pozna«
Plan prezentacji Plan Ogólna idea Stan obecny Ogólna idea Konstrukcja nowych, u»ytecznych cech
Ogólna idea Plan Ogólna idea Stan obecny Problem klasykacji istotno± i zastosowania. Cz sto zbyt zªo»one modele (generalizacja, interpretacja). Czarne skrzynki. Remedium - jawnie okre±lona przestrze«cech + prosty klasykator. Czasami odkrywanie wiedzy z danych bardzo trudne lub niemo»liwe (brak optymalnego rozwi zania w po» danym czasie). Cz sto wystarczy pewien próg dokªadno±ci. Wa»ny wpªyw na proces odkrywania wiedzy maj transformacje (konstruowanie modelu decyzyjnego staje si prostsze). Twierdzenie Covera (prawd. liniowej separacji ro±nie z wymiarowo±ci ). Przekle«stwo wymiarowo±ci (komplikacja modelu). Umiej tne rozszerzanie i kurczenie przestrzeni cech.
Stan obecny Plan Ogólna idea Stan obecny Ograniczenia metod CI Ka»dy system posiada pewn specyk, która czyni go dobrym jedynie dla pewnej klasy problemów (no free lunch). Drzewa i systemy reguªowe dobre gdy prosta i logiczna struktura (ostre granice decyzji); zªe tam gdzie najlepsze rozwi zanie daje liniowa dyskryminacja. SVM wraz z ró»nymi funkcjami j drowymi dobre, gdy wymagana jest zªo»ona topologia, ale pomija proste rozwi zania. Nie dziaªa dobrze dla zªo»onych funkcji Boolowskich lub gdy wymagane s ostre granice.
Zasada dziaªania ULM ULM Mapowanie SVMowe Informacje wst pne ULM bazuje na systematycznym generowaniu i selekcji cech. Hierarchia cech powinna by ustalona (rodzaj granic decyzji). Rosn ca komplikacja granic decyzji i modeli. Cel: najprostsze, dobre modele dla wszystkich rodzajów zada«. Sukces le»y w mo»liwo±ciach transformacji, które wydobywaj u»yteczne cechy i radz sobie z rozmaitymi problemami.
ULM ULM Mapowanie SVMowe ULM to poª czenie ró»nych transformacji danych w pewn struktur, która systematycznie zwi ksza swoj zªo»ono±. Sukces poszukiwania najlepszego zestawienia transformacji le»y w zdolno±ciach transformacji do wydobycia u»ytecznych informacji. Generowanie cech powinno przebiega od najbardziej ogólnych, daj c prawie liniow granic decyzji, a» po bardziej szczegóªowe, daj ce mocn nieliniowo± jedynie w pobli»u granicy. Systematyczna eksploracja cech o rosn cej zªo»ono±ci umo»liwia odkrywanie prostych modeli, które bardziej wyszukane systemy uczenia mog pomin.
ULM Mapowanie SVMowe ULM 1 Wst pne przetwarzanie danych: obsªuga warto±ci brakuj cych, obsªuga warto±ci odstaj cych, standaryzacja. 2 Generowanie nowych cech: dane oryginalne, n skªadników gªównych (PCA), rzuty (i ich przedziaªy) na kierunki wyznaczone przez centra klas, rzuty (i ich przedziaªy) na kierunki wyznaczone przez centra n skupisk, rzuty na n przypadkowych kierunków, cechy uzyskane za pomoc analizy dyskryminacyjnej Fishera (FDA), mapowanie SVMowe, n cech pochodz cych ze skalowania wielowymiarowego (MDS), przedziaªy (czyste skupiska) wyodr bnione z n przypadkowych kierunków (arpm), przedziaªy wyodr bnione z n przypadkowych kierunków z zapewnieniem maksymalnego marginesu,
ULM ULM Mapowanie SVMowe gaussowskie cechy j drowe o ró»nej dyspersji, lokalnie optymalne gaussowskie cechy j drowe (LOK), n cech wyodr bnionych z drzewa decyzyji. 3 Selekcja atrybutów: wspóªczynnik korelacji, informacja wzajemna, wspóªczynnik Fishera, wrapper. 4 Klasykacja w nowej przestrzeni cech: gªosowanie wi kszo±ciowe (WTA), dyskryminacja liniowa (LDA), klasykator Naiwnego Bayesa (NB), uproszczona sie MLP (K2MLP), drzewo decyzji (C4.5), metoda k najbli»szych s siadów (knn), maszyny wektorów wspieraj cych (SVM).
ULM ULM Mapowanie SVMowe
ULM wyniki ULM Mapowanie SVMowe Dane SSV knn NB SVM(L) SVM(G) ULM Breast-cancer 76.9 ± 5.4 73.6 ± 7.1 73.8 ± 7.9 73.2 ± 6.1 75.6 ± 5.3 76.9 ± 6.4 Breast-w 95.8 ± 2.2 96.5 ± 2.2 96.2 ± 2.3 96.6 ± 2.0 96.7 ± 1.8 97.2 ± 2.3 Credit-a 85.6 ± 4.4 83.0 ± 4.3 77.0 ± 4.5 86.3 ± 2.8 86.2 ± 29 86.4 ± 3.3 Credit-g 70.2 ± 3.4 73.5 ± 3.2 75.2 ± 3.8 73.9 ± 4.6 74.7 ± 4.0 76.1 ± 4.7 Diabetes 73.5 ± 4.8 74.9 ± 4.8 75.3 ± 4.3 76.8 ± 4.9 76.4 ± 4.2 77.1 ± 4.0 Heart-c 78.7 ± 6.9 82.9 ± 6.3 82.4 ± 6.7 82.6 ± 6.3 80.6 ± 7.9 84.0 ± 5.9 Heart-statlog 80.8 ± 7.7 83.5 ± 6.2 83.9 ± 7.3 83.4 ± 7.1 83.4 ± 6.5 84.5 ± 7.0 Hepatitis 83.6 ± 11.7 85.6 ± 11.3 91.2 ± 9.1 83.2 ± 11.5 84.8 ± 11.9 89.6 ± 10.7 Ionosphere 87.2 ± 5.2 86.3 ± 4.9 84.2 ± 6.1 87.7 ± 4.6 94.6 ± 3.6 94.4 ± 3.9 Liver-disorders 67.4 ± 6.9 63.9 ± 7.4 56.2 ± 7.9 68.4 ± 7.3 70.3 ± 7.9 72.2 ± 6.9 Vote 96.9 ± 3.8 92.7 ± 5.5 91.9 ± 4.9 96.1 ± 3.8 96.8 ± 3.1 96.9 ± 3.4
ULM Mapowanie SVMowe Redukcja wymiarowo±ci i wizualizacja Wiele problemów w uczeniu maszynowym nie mo»e zosta rozwi zanych bez redukcji wymiarowo±ci lub analizy struktury danych (wizualizacja), która pomaga w wyborze odpowiedniego algorytmu klasykuj cego. Niektóre kosztowne obliczeniowo algorytmy wymagaj redukcji wymiarowo±ci po to, aby poradzi sobie z du»ymi zbiorami danych. Wiedza uzyskana dzi ki eksploracji danych, w poª czeniu z odpowiednimi transformacjami, umo»liwiaj zbudowanie najprostszych modeli danych.
ULM Mapowanie SVMowe Mapowanie SVMowe Wizualizacja 1D SVML tworzy hiperpªaszczyzn, która zapewnia du»y margines. Liniowa funkcja dyskryminacyjna jest okre±lona przez: g(x) = w x + w 0 Wektor w do hiperpªaszczyzny dyskryminuj cej, wyznacza kierunek, na który s rzutowane wektory wej±ciowe. Wizualizacja 2D Pierwszy rzut powinien da g(x) < 0 dla wektorów z pierwszej klasy oraz g(x) > 0 dla drugiej (dla danych liniowo separowalnych). Kolejny kierunek mo»e zosta znaleziony w przestrzeni do w.
ULM Mapowanie SVMowe Mapowanie SVMowe zbiór Parity8
ULM Mapowanie SVMowe Mapowanie SVMowe zbiór Heart-c MDS PCA FDA SVM
ULM Mapowanie SVMowe Wyniki klasykacji SVML w zredukowanej przestrzeni Liczba cech Parity8 Heart-c Breast-w Leukemia PCA 1 41.8±6.2 55.6±8.3 65.0±6.0 65.2±15.6 PCA 2 41.7±5.3 55.6±8.3 65.0±6.0 77.6±19.1 MDS 1 39.7±5.8 60.3±9.3 97.0±2.0 60.2±18.1 MDS 2 38.2±5.4 68.6±9.0 96.7±2.1 94.5± 8.4 FDA 1 40.3±6.5 85.0±6.6 97.2±1.9 75.6±15.4 FDA 2 38.7±7.1 85.2±6.3 97.1±2.0 81.8±14.1 SVM 1 41.9±6.5 84.8±6.5 97.3±1.8 97.2± 5.7 SVM 2 41.8±6.2 84.8±6.5 97.3±1.8 97.2± 5.7 wszystkie 31.4±4.8 83.9±6.3 96.6±2.0 95.4± 7.8
arpm arpm SFM LOK Rzut na przypadkowy kierunek z i = w i x mo»e nie by zbyt u»yteczny, jednak»e w pewnych przedziaªach warto±ci z i mo»e znajdowa si wystarczaj co du»e, czyste skupisko rzutowanych przypadków. Skupiska zawieraj ce przypadki treningowe z klasy c mog by odseparowane od pozostaªych przypadków rzutowanych na wymiar z i za pomoc przedziaªów [min, max] (powstaj cechy binarne h i (x) {0, 1}). Jako nowe cechy dodawane s tylko takie skupiska, które zawieraj wektory nie zawarte wi cej ni» β razy w innych skupiskach. Skupiska nie powinny by zbyt maªe, zawieraj c przynajmniej η cz ± wszystkich wektorów.
arpm algorytm arpm SFM LOK
arpm arpm SFM LOK
arpm SFM LOK arpm zbiór Heart
arpm ile potrzeba skupisk? arpm SFM LOK
arpm wyniki arpm SFM LOK Dane C4.5 knn MLP SVM arpm Parity8 31.6 ± 1.3 (1) 100 ± 0 (17) 94.1 ± 2.1 (17) 32.4 ± 4.4 (230) 99.2 ± 1.6 (12) Parity10 40.4 ± 1.6 (1) 100 ± 0 (21) 89.2 ± 12.3 (21) 39.1 ± 6.5 (920) 99.5 ± 0.9 (12) Leukemia 82.6 ± 8.3 (5) 97.2 ± 1.6 (2) 95.8 ± 3.6 (52) 98.7 ± 3.9 (15) 96.1 ± 8.6 (19) Heart 77.8 ± 2.1 (33) 81.8 ± 6.6 (45) 79.5 ± 1.3 (8) 81.5 ± 1.3 (94) 78.3 ± 4.2 (43) Wisconsin 94.7 ± 2.0 (21) 97.0 ± 1.7 (5) 94.2 ± 0.2 (6) 96.3 ± 2.1 (49) 97.9 ± 1.6 (30) Liver 65.8 ± 2.2 (51) 62.0 ± 1.1 (44) 67.5 ± 3.1 (5) 69.2 ± 10.3 (236) 61.1 ± 5.1 (47)
arpm SFM LOK arpm z maksymalizacj marginesu Uwaga skupiona na maksymalizacji marginesu klasykacji. Nowe cechy akceptowane je»eli zwi kszaj dokªadno± klasykacji tych przypadków, które znajduj si po zªej stronie albo w pobli»u granicy. Dwa rodzaje cech: rzuty na losowe kierunki i Gaussowskie cechy j drowe. Nowa cecha powstaªa przez rzut na losowy kierunek powinna zawiera pewn minimaln liczb η wektorów treningowych. Do wygenerowania cech j drowych u»yto 5 warto±ci dyspersji: σ = {2 5 ; 2 2 ; 2 1 ; 2 4 ; 2 7 }. Aby zapewni wielorozdzielczo±, najpierw tworzone s cechy z du» σ, oferuj ce gªadkie granice decyzji, nast pnie u»ywana jest znacznie mniejsza warto±, aby utworzy cechy bardziej lokalne.
arpm SFM LOK arpm z maksymalizacj marginesu Zwi kszanie przestrzeni cech powinno odsuwa wektory dalej od granicy decyzji. Przesuwa si powinny (w odpowiednim kierunku) tylko te wektory, które s po zªej stronie lub znajduj si blisko granicy. Ko«cowa decyzja LDA lub WTA, sumuj c aktywno± skupisk z poszczególnych klas. Rzuty z dodanymi przedziaªami powinny zosta zsumowane, daj c caªkowit aktywacj A(c x) dla ka»dej klasy. Mo»na okre±li prawdopodobie«stwo klasykacji p(c x) przez podzielenie tych warto±ci przez caªkowit sum aktywacji dla wszystkich klas. Wykre±laj c A(c x) kontra A( c x) dla ka»dego wektora mo»na pokaza jak daleko dany wektor znajduje si od granicy decyzji. Dla WTA A(c x) A( c x) okre±la odlegªo± od granicy decyzji.
arpm SFM LOK arpm z maksymalizacj marginesu Okre±lenie poziomu zaufania klasykacji (rozumianego jako odlegªo± od granicy decyzji) wektora x c przy pomocy funkcji logistycznej: G(x) = 1/(1 + exp( (A(c x) A( c x)))) daje warto±ci okoªo 1, je»eli x jest po dobrej stronie i daleko od granicy, oraz zmierza do zera, je»eli znajduje si po zªej stronie. Caªkowity poziom zaufania modelu mo»e by wyznaczony przez sum po wszystkich wektorach i powinien wynosi n dla doskonaªej separacji. Ko«cowy wpªyw dodania nowej cechy f na caªkowity poziom zaufania jest równy: U(F, f ) = (G(x; F + f ) G(x; F )) x Je»eli U(F, f ) > α, wówczas nowa cecha zostaje zaakceptowana, przyczyniaj c si do zwi kszenia marginesu. Pocz tkowa przestrze«f jest tworzona przy pomocy cech oryginalnych.
arpm SFM LOK arpm z maksymalizacj marginesu algorytm
arpm SFM LOK arpm z maksymalizacj marginesu wyniki Dane NB knn SSV SVM(L) SVM(G) arpm-no arpm-w arpm-l Appendicitis 83.1 ± 10.2 87.0 ± 10.6 87.9 ± 7.4 85.1 ± 6.0 85.9 ± 6.4 82.6 ± 9.3 87.7 ± 8.1 88.0 ± 6.7 Diabetes 68.1 ± 2.3 75.2 ± 4.1 73.7 ± 3.8 76.4 ±4.7 75.7 ± 5.9 67.7 ± 4.2 61.2 ± 5.7 76.7 ± 4.4 Glass 68.6 ± 9.0 69.7 ± 7.4 69.7 ± 9.4 40.2 ±9.6 63.2 ± 7.7 65.0 ± 9.9 60.3 ± 8.5 68.9 ± 8.3 Heart-c 76.5 ± 8.6 82.8 ± 6.7 74.7 ± 8.7 83.2 ±6.2 83.5 ± 5.3 78.3 ± 4.2 80.1 ± 7.5 83.1 ± 4.7 Liver-disorders 58.6 ± 3.8 62.6 ± 8.5 68.9 ± 9.7 68.4 ±5.9 69.0 ± 8.4 61.1 ± 5.1 67.5 ± 5.5 72.7 ± 7.9 Wine 98.3 ± 2.6 94.9 ± 4.1 89.4 ± 8.8 96.0 ± 5.9 97.8 ± 3.9 68.6 ± 7.8 94.3 ± 5.8 97.7 ± 4.0 Parity8 28.9 ± 4.6 100 ± 0 49.2 ± 1.0 34.1 ±11.7 15.6 ± 22.7 99.2 ± 1.6 100 ± 0 34.7 ± 3.8 Parity10 38.1 ± 3.3 100 ± 0 49.8 ± 0.3 44.1 ±5.0 45.6 ± 4.3 99.5 ± 0.9 100 ± 0 40.3 ± 2.7
arpm SFM LOK arpm bez maksymalizacji marginesu zbiór Heart
arpm SFM LOK arpm z maksymalizacj marginesu zbiór Heart
SFM arpm SFM LOK Dla ka»dego wektora x mo»na uzyska nie tylko m cech wej±ciowych, ale tak»e n cech j drowych k i = k(x, x i ) zdeniowanych dla ka»dego x trn W przestrzeni cech j drowych mo»liwe jest bezpo±rednie u»ycie dyskryminacji liniowej bez caªej maszynerii SVM-owej. Porównano rezultaty SVM z Gaussowsk funkcj j drow (u»ywaj cym programowania kwadratowego) z bezpo±rednim liniowym rozwi zaniem w przestrzeni opartej o cechy j drowe.
SVM vs SFM arpm SFM LOK Dane SVML SVMG SFM(K) Appendicitis 87.6±10.3 86.7±9.4 86.8±11.0 Credit-a 85.5±4.3 85.6±6.4 84.2±5.6 Diabetes 76.9±4.5 76.2±6.1 77.6±3.1 Heart-c 82.5±6.4 82.8±5.1 81.2±5.2 Hepatitis 82.7±9.8 82.7±8.4 82.7±6.6 Ionosphere 89.5±3.8 94.6±4.4 94.6±4.5 Leukemia 98.6±4.5 84.6±12.1 87.5±8.1 Parity8 33.4±5.9 12.1±5.9 11±4.3 Sonar 75.5±6.9 86.6±5.8 88.0±6.4
SFM arpm SFM LOK Niekiedy u»ycie cech j drowych jest przesad czasem separacja mo»liwa przy u»yciu oryginalnych cech, których nie ma w przestrzeni j drowej. Je±li dane (dla ka»dej z klas) maj rozkªad gaussowski, wówczas najlepszy kierunek separuj cy to w = m 1 m 2 Dodaj c rzut na ten kierunek jako now cech r(x) = w x umo»liwiamy znalezienie prostego rozwi zania za pomoc liniowej dyskryminacji. SFM to trzy rodzaje cech wsparcia: rzuty na przypadkowe kierunki, ograniczone rzuty (arpm), cechy j drowe (ró»ne).
SFM arpm SFM LOK Liczba generowanych cech ro±nie liniowo z liczb x trn Selekcja oparta o MI Aby zaakceptowa now cech f (spo±ród cech typu Z, H, K ): S siedztwo nie powinno by zbyt maªe, lokalne cechy powinny zawiera przynajmniej η wektorów. W lokalnym s siedztwie zysk informacyjny cechy f nie powinien by zbyt maªy MI (f, y) > α Powinna mo»liwie najlepiej odseparowywa przypadki nale» ce do ró»nych klas, a wi c jej maksimum prawdopodobie«stwa max p(c f ) > β c
arpm SFM LOK Wpªyw parametru α = 0.005 na wybór wektorów wsparcia
arpm SFM LOK Wpªyw parametru α = 0.05 na wybór wektorów wsparcia
arpm SFM LOK Wpªyw parametru α = 0.1 na wybór wektorów wsparcia
SFM algorytm arpm SFM LOK
SFM wyniki arpm SFM LOK Dane K H K+H Z+H K+H+Z Appendicitis 86.8±11.0 89.8±7.9 89.8±7.9 89.8±7.9 89.8±7.9 Diabetes 77.6±3.1 76.7±4.3 79.7±4.3 79.2±4.5 77.9±3.3 Heart-c 81.2±5.2 84.8±5.1 80.6±6.8 83.8±6.6 78.9±6.7 Hepatitis 82.7±6.6 83.9±5.3 83.9±5.3 83.9±5.3 83.9±5.3 Ionosphere 94.6±4.5 93.1±6.8 94.6±4.5 93.0±3.4 94.6±4.5 Parity8 11±4.3 99.2±1.6 97.6±2.0 99.2±2.5 96.5±3.4 Sonar 83.6±12.6 66.8±9.2 82.3±5.4 73.1±11 87.5±7.6
LOK arpm SFM LOK LOK opiera si na generacji optymalnych Gaussowskich cech j drowych. Dla ka»dego wektora treningowego liczona jest odlegªo± od pozostaªych punktów (lub tworzona jest tymczasowa j drowa cecha Gaussowska). Dla ka»dej takiej cechy przeanalizowany zostaje rozkªad p(k i c) w celu znalezienia czystych skupisk w pewnym przedziale i iab = [k ia, k ib ] Prowadzi to do utworzenia cech h iab (x), pod warunkiem»e zawiera ona co najmniej η wektorów treningowych. Czyste skupiska s znajdywane zarówno w lokalnym s siedztwie SV w przedziale [a, b], (a = 0), lub je±li SV jest otoczony przez wektory z innej klasy, mog si one znale¹ nieco dalej (wówczas a wyniesie 0 < a < b). Ponadto dla ka»dego wektora k i, dla którego znaleziono p(k i c) = p(k i c), tworzy si now, j drow cech gaussowsk h i (x; b) = exp( x i x 2 /b) LOK do znalezienia rozwi zania w nowej przestrzeni u»ywa WTA lub LDA.
LOK tworzenie nowych cech arpm SFM LOK
LOK tworzenie nowych cech arpm SFM LOK
LOK wyniki arpm SFM LOK Dane SVML SVMG LOKWTA LOKLDA Arrhythmia 50.92±17.31 43.36±21.47 42.00±24.19 39.10±12.98 Autos 54.48±13.75 74.29±12.58 58.69±11.03 74.36±10.40 Balance-scale 84.47±3.17 89.83±2.09 90.71±2.38 96.46±2.62 Breast-cancer 73.27±6.10 75.67±5.35 76.58±6.37 75.09±1.99 Breast-w 96.60±2.07 96.77±1.84 96.93±1.62 97.21±2.13 Car 67.99±2.61 98.90±0.90 84.72±3.44 93.57±1.81 Cmc 19.14±2.14 34.09±3.67 48.54±2.52 51.06±4.30 Credit-a 86.36±2.86 86.21±2.90 82.67±4.01 84.70±4.91 Credit-g 73.95±4.69 74.72±4.03 73.10±2.38 72.70±3.86 Cylinder-bands 74.58±5.23 76.89±7.57 74.32±6.41 80.11±7.53 Dermatology 94.01±3.54 94.49±3.88 87.97±5.64 94.71±3.02 Diabetes 76.88±4.94 76.41±4.22 74.88±3.88 76.95±4.47 Ecoli 78.48±5.90 84.17±5.82 82.47±3.66 85.66±5.40 Glass 42.61±10.05 62.43±8.70 64.96±7.72 71.08±8.13 Haberman 72.54±1.96 72.91±5.93 76.46±4.34 73.53±0.72 Heart-c 82.62±6.36 80.67±7.96 81.07±7.56 81.04±5.17 Heart-statlog 83.48±7.17 83.40±6.56 81.48±8.73 83.33±7.46 Hepatitis 83.25±11.54 84.87±11.98 89.88±10.14 84.05±4.40 Ionosphere 87.72±4.63 94.61±3.68 85.18±6.28 95.16±2.72 Iris 72.20±7.59 94.86±5.75 94.67±6.89 93.33±5.46 Kr-vs-kp 96.03±0.86 99.35±0.42 83.73±2.58 98.25±0.45 Liver-disorders 68.46±7.36 70.30±7.90 57.40±5.72 69.72±6.57 Lymph 81.26±9.79 83.61±9.82 76.96±13.07 80.52±7.91 Sonar 73.71±9.62 86.42±7.65 86.57±7.01 86.52±8.39 Vote 96.12±3.85 96.89±3.11 92.57±7.52 93.95±4.18 Vowel 23.73±3.13 98.05±1.90 92.49±3.37 97.58±1.52 Zoo 91.61±6.67 93.27±7.53 88.47±5.35 94.07±6.97
ULM skupia si w gªównej mierze na generowaniu transformacji, tworzeniu nowych cech, uczeniu si z innych modeli poprzez transfer wiedzy oraz znajdywaniu optymalnych klasykatorów dziaªaj cych w takiej przestrzeni. Inspiracja procesy neurobiologiczne odpowiedzialne za uczenie si. Obiekty mog mie ró»norodn i skomplikowan struktur, a ró»ne kategorie mog by identykowane w ró»nych przestrzeniach cech. Systematyczne poszukiwanie modeli opartych na cechach nowego rodzaju umo»liwia odkrycie prostych modeli, które bardziej zaawansowane systemy uczenia pomijaj.
Cechy oparte na funkcjach j drowych stanowi atrakcyjn alternatyw dla popularnie stosowanego algorytmu SVM (wielorozdzielczo± ). Zaprezentowanych zostaªo kilka nowych metod konstruowania cech. Mieszanie ró»nych funkcji j drowych i u»ywanie ró»nych typów cech zapewnia znacznie wi ksz elastyczno± tworzenia granic decyzji. Systemy, które aktywnie próbkuj dane wydaj si by znacznie bardziej elastyczne ni» klasykatory pracuj ce w niezmiennych przestrzeniach wej±ciowych.
Dzi kuj za uwag!
Plan prezentacji Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody rankingowe selekcji cech u»yte do selekcji prototypów Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody selekcji cech u»yte do selekcji wektorów Selekcja wektorów (prototypów) jest efektywn metod zmniejszenia kosztu obliczeniowego procesu klasykacji. Zostaªa opracowana dla knn, ale mo»na jej u»y z innymi klasykatorami. PS polega na selekcji lub konstrukcji nowych wektorów w oparciu o oryginalny zestaw przypadków (n n ). PS eliminuje wektory które s redundantne, odstaj ce lub nieistotne.
Metody selekcji cech Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne FS skªada si z dwóch etapów: strategii szukania i oceny jako±ci cech. Strategia szukania jest odpowiedzialna za kolejno± sprawdzania jako±ci podzbiorów cech. Zªo»ono± obliczeniowa zarówno strategii szukania jak i oceny jako±ci cech powinna by jak najmniejsza aby poradzi sobie z du»ymi zbiorami danych. Ranking cech bazuje na ocenie ka»dej cechy niezale»nie, powstaje zatem indeks zale»no±ci cecha-klasa H(f i, y). Indeksy s sortowane malej co i wybierane jest m najlepszych cech.
Indeksy FS u»yte w eksperymentach Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Wspóªczynnik korelacji: R CC (x j, y) = Informacja wzajemna: n i =1 (x i,j x j )(y i y) n i =1 (x i,j x j ) 2 n i =1 (y i y) 2 R MI (x j, y) = x c p(x j = x, y = c) log p(x j =x,y=c) p(x j =x)p(y=c) Wspóªczynnik zmian: Sortuj c rosn co warto±ci cechy f mo»na policzy ile razy warto± zmiennej y (klasy) ulegnie zmianie. Je»eli korelacja pomi dzy warto±ciami cechy i etykietami klas jest idealna, wówczas warto± indeksu wynosi ilo± klas minus jeden. Je±li nie ma»adnej korelacji, wówczas ka»de zwi kszenie warto±ci cechy f mo»e powodowa zmian y. Warto± indeksu jest znormalizowana i zawiera si w przedziale [0, 1].
Redukcja redundancji Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody rankingowe nie eliminuj redundancji w sposób automatyczny. Redukcja redundancji jest istotna przy redukcji liczby prototypów. Battiti zaproponowaª poª czenie indeksu cecha-klasa H(f, y) z indeksem cecha-cecha H(f, f ). Zatem algorytm wybiera te cechy, które maksymalizuj ró»nic pomi dzy H(f, y) i wszystkimi H(f, f ). f aktualnie wybrane cechy
RBIS Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Policzona zostaje macierz odlegªo±ci dla danych treningowych. Ka»da kolumna oceniana jest jak normalna cecha (wykonywany jest ranking wektorów przy u»yciu kryterium sªu» cego do rankingu cech). Ranking wykonywany jest dla ka»dej klasy oddzielnie. Wybrane zostaje N i najlepszych przypadków z ka»dej klasy, zachowuj c proporcje wyst puj ce w oryginalnym zbiorze. RBIS+ bierze dodatkowo pod uwag redukcj redundancji: H (d i ) = H(d i, y) βh(d i, d j,j i )
RBIS Ionosphere Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Sonar Vehicle Car
RBIS+ Ionosphere Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Sonar Vehicle Car
RBIS vs RBIS+ Ionosphere Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Sonar Vehicle Car
Problemy trywialne i nietrywialne Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Wiele wyszukanych algorytmów ML jest testowanych na trywialnych problemach, na których proste i szybkie metody daj = wyniki. Niektóre problemy benchmarkowe nie s trywialne, posiadaj skomplikowane granice decyzji i wymagaj takich technik jak: wielorozdzielczo±, metod opartych na kernelach, gª bokiego uczenia, transferu wiedzy czy komitetów lokalnie kompetentnych klasykatorów. Znaczna wi kszo± zbiorów w bazie UCI jest bardzo prosta. Porównano kilka metod o zªo»ono±ci obliczeniowej O(nd). Pokazano,»e takie algorytmy cz sto oferuj tak samo dobre rezultaty jak inne, bardziej wyszukane (a przez to znacznie wolniejsze) metody. Takie zestawienie powinno by dobrym punktem odniesienia, poniewa» je±li kto± opracuje jaki± nowy algorytm, który nie b dzie statystycznie istotnie lepszy ni» wszystkie zaprezentowane metody, oznacza to b dzie,»e jest on maªo interesuj cy.
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody o maªej zªo»ono±ci obliczeniowej Klasykatory o zªo»ono±ci O(nd): Klasykator wi kszo±ciowy (MC) Metoda najbli»szego prototypu (1NP) Kwantyzacja wektorów ucz cych (LVQ) Klasykator maksymalnego prawdopodobie«stwa (MLC) Klasykator Naiwnego Bayesa (NB) Uproszczona sie MLP (K2MLP)
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody o maªej zªo»ono±ci obliczeniowej Klasykator wi kszo±ciowy Klasykator wi kszo±ciowy przypisuje wszystkie wektory do najliczniejszej klasy w zbiorze ucz cym. Wyniki uzyskiwane przez MC cz sto u»ywa si do okre±lania tzw. dokªadno±ci bazowej. Przy k-krotnym CV wyst puje niewielka wariancja, je»eli liczba przypadków w ka»dej klasie nie jest podzielna bez reszty przez k. Metoda najbli»szego prototypu 1NP oparta jest na pojedynczym prototypie wektora R k dla ka»dej klasy k = 1... K, wyliczanym jako ±rednia dla danej klasy. Zamiast odlegªo±ci Euklidesowej, mo»na u»y miary Mahalanobisa, ale powoduje to wzrost zªo»ono±ci obliczeniowej.
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody o maªej zªo»ono±ci obliczeniowej Kwantyzacja wektorów ucz cych W LVQ ka»da klasa jest reprezentowana przez zestaw wektorów koduj cych (referencyjnych), a przestrze«cech zostaje podzielona na regiony z przypisanymi do nich klasami. Wektory koduj ce nie staraj si przybli»y prawdziwego rozkªadu g sto±ci klas, lecz s umiejscawiane w taki sposób, aby jak najlepiej opisa granice pomi dzy klasami. Dwa tryby pracy: wsadowy i ci gªy. W trybie ci gªym po prezentacji pojedynczego wektora treningowego nast puje modykacja poªo»enia najbli»szego wektora koduj cego zgodnie z formuª : p i (z + 1) = p i (z) α(z)(x j p i (z)) p i (z + 1) = p i (z) + α(z)(x j p i (z)) i = arg min a=1...l ( x j p α ) i najbli»szy wektor koduj cy do j-tego wektora trenuj cego x.
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody o maªej zªo»ono±ci obliczeniowej Klasykator maksymalnego prawdopodobie«stwa MLC bazuje na zaªo»eniu gaussowskich rozkªadów w danych i obliczaniu maksimum prawdopodobie«stwa. Dla ka»dego wymiaru i = 1... d i klasy k = 1... K obliczana jest dyspersja σi k, a nast pnie estymuje si prawdopodobie«stwo przynale»no±ci do ka»dej z klas: P(x C k ) = g(x C k ) K i =1 g(x C k ) g(x C k ) = ( d i=1 G (r k ) i x i ) 2 2(σ k i )2 G funkcja Gaussa, C k klasa dla której obliczane jest prawdopodobie«stwo klasykacji, ri k i ta wspóªrz dna centrum k tej klasy, rozmycie w i tym wymiarze dla wektorów klasy k tej. σ k i
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody o maªej zªo»ono±ci obliczeniowej Klasykator Naiwnego Bayesa Podstaw dziaªania tego algorytmu jest twierdzenie Bayesa: p(c x) = p(c)p(x c) p(x) NB zakªada,»e cechy s niezale»ne, a klasykacja przypadków opiera si na prawdopodobie«stwie ich przynale»no±ci do poszczególnych klas. Wyznaczenie klasy, dla której prawdopodobie«stwo jest najwi ksze: NBC (x ) = arg max c c p(c) m i=1 p(x i c) Stosuje si go dla danych dyskretnych, ale zakªadaj c normalno± rozkªadu ka»dej z cech dla ka»dej klasy, mo»na oszacowa prawdop. cech z warto±ciami ci gªymi: p(x i c) = G(x, µ C i, σ C i ) G g sto± rozkªadu normalnego, µ C i warto± ±rednia i-tej cechy dla klasy C, σ C i odchylenie standardowe i-tej cechy dla klasy C.
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Metody o maªej zªo»ono±ci obliczeniowej Uproszczona sie MLP W K2MLP u»ywane s neurony z sigmoidaln funkcj transferu, a ich ilo± równa jest liczbie par klas K(K 1)/2. Ko«cowa decyzja jest dokonywana przy u»yciu WTA. Liczba epok w ka»dym przypadku byªa równa 30, a wspóªczynnik uczenia wynosiª 0.1.
Analiza zbiorów z UCI Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Dane Trywialne MC 1NP MLC LVQ NB K2MLP SVML SVMG Arrhythmia + 29.4±7.8 44.0±27.4 29.7±14.7 63.6±17.4 10.1±9.8 58.0±16.6 50.9±17.3 43.3±21.4 Autos + 28.1±3.1 56.8±10.3 62.2±11.9 30.2±10.1 63.3±10.2 70.4±10.3 54.4±13.7 74.2±12.5 Balance-scale + 45.3±0.5 74.6±6.1 50.6±5.7 87.6±2.1 90.8±1.4 88.6±3.5 84.4±3.1 89.8±2.0 Breast-cancer + 70.7±1.1 72.8±7.9 64.8±8.1 72.3±4.6 73.8±7.9 69.5±7.9 73.2±6.1 75.6±5.3 Breast-w + 65.0±0.8 96.4±2.2 94.4±2.6 95.8±2.2 96.2±2.3 96.7±2.1 96.6±2.0 96.7±1.8 Car + 70.0±0.1 73.2±2.9 84.0±2.5 73.5±3.6 86.4±1.7 91.1±2.5 67.9±2.6 98.9±0.9 Cmc + 42.7±0.2 46.0±3.5 47.8±3.6 22.6±0.3 49.6±3.9 48.8±3.4 19.1±2.1 34.0±3.6 Credit-a + 54.6±0.7 86.4±3.5 83.0±3.8 86.4±4.8 77.0±4.5 84.6±3.2 86.3±2.8 86.2±2.9 Credit-g + 70.0±0.0 71.9±4.0 68.2±4.4 70.9±2.0 75.2±3.8 70.6±4.9 73.9±4.6 74.7±4.0 Cylinder-bands + 64.2±1.1 68.9±8.4 38.6±7.0 64.4±4.2 74.0±7.5 71.3±8.3 74.5±5.2 76.8±7.5 Dermatology + 31.0±0.9 96.8±3.1 88.4±4.5 91.3±3.7 90.1±4.5 94.8±3.8 94.0±3.5 94.4±3.8 Diabetes + 65.1±0.5 72.7±4.8 68.6±4.6 75.0±4.5 75.3±4.3 73.8±5.0 76.8±4.9 76.4±4.2 Ecoli + 42.5±1.5 81.3±5.7 77.1±12.0 78.5±9.3 70.7±20.4 83.5±6.0 78.4±5.9 84.1±5.8 Glass + 35.5±3.1 49.0±9.8 48.0±6.2 34.8±4.3 43.1±8.8 59.3±10.4 42.6±10.0 62.4±8.7 Haberman + 73.5±1.8 66.2±9.1 53.7±8.9 72.7±3.0 75.1±5.2 72.5±7.8 72.5±1.9 72.9±5.9 Heart-c + 54.0±0.9 82.6±7.2 80.7±6.8 83.4±6.7 82.4±6.7 82.4±6.9 82.6±6.3 80.6±7.9 Heart-statlog + 55.5±0.0 83.5±6.7 83.3±7.9 83.8±6.5 83.9±7.3 82.2±7.9 83.4±7.1 83.4±6.5 Hepatitis + 83.7±5.7 82.5±13.0 90.3±10.1 83.7±5.7 91.2±9.1 84.0±12.3 83.2±11.5 84.8±11.9 Ionosphere 64.1±1.4 81.1±6.4 59.2±6.2 83.7±5.3 84.2±6.1 86.4±5.4 87.7±4.6 94.6±3.6 Iris + 33.3±0.0 85.8±8.6 94.6±5.4 85.6±8.5 95.4±5.4 95.6±4.7 72.2±7.5 94.8±5.7 Kr-vs-kp 52.2±0.1 85.7±1.5 84.5±1.5 60.2±14.3 88.0±1.3 92.4±1.8 96.0±0.8 99.3±0.4 Liver-disorders 57.9±1.6 57.6±8.1 65.1±7.9 57.8±3.4 56.2±7.9 62.6±8.2 68.4±7.3 70.3±7.9 Lymph + 54.7±4.5 86.4±8.6 78.7±9.3 82.4±9.3 81.1±8.9 82.6±9.2 81.2±9.7 83.6±9.8 Sonar 53.3±2.2 69.6±7.4 70.6±5.9 71.6±7.4 69.0±8.6 76.7±8.0 73.7±9.6 86.4±7.6 Vote + 53.4±2.2 89.8±5.4 94.7±4.3 89.6±5.2 91.9±4.9 95.2±4.0 96.1±3.8 96.8±3.1 Vowel 9.0±0.0 45.9±4.5 36.5±3.9 9.0±0.0 66.5±4.7 79.8±3.7 23.7±3.1 98.0±1.9 Zoo + 40.6±3.1 91.5±6.9 86.3±8.5 83.4±7.1 86.8±8.5 83.2±8.4 91.6±6.6 93.2±7.5 + = 12 40 83 57 33 45 41 37 57 50 36 49 65 37 33 71 40 24
Granice decyzji Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Klasykator dzieli przestrze«cech na obszary decyzyjne w taki sposób, aby wszystkim punktom znajduj cym si w danym obszarze odpowiadaªa taka sama decyzja (przypisywana zostawaªa ta sama klasa). Granice pomi dzy tymi obszarami to granice decyzji. Ksztaªty granic zale» od danych trn jak i od u»ytego klasykatora. Zbiory: 10000 przypadków, 10% wektorów do uczenia, a wizualizacja na peªnym zbiorze. Dla metod SVML i SVMG przyj to C = 1 i σ = 1.
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji dla ró»nych klasykatorów 1NN NB C4.5 LDA SVML SVMG
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji SVMG dla ró»nych warto±ci sigma
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Ksztaªt granic decyzji SVMG dla ró»nych warto±ci sigma 2 4 2 3 2 1 2 1 2 2 2 3
Zastosowania praktyczne Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Zrealizowane zastosowania praktyczne: Optymalizacja procesu wytopu stali (ISE). Prognozowanie zmian zaciskania korytarzy przy±cianowych w kopalniach górniczych. Prognozowanie potencjaªu nansowego aptek.
Plan Metody FS u»yte do PS Problemy trywialne i nietrywialne Granice decyzji Zastosowania praktyczne Dzi kuj za uwag!