Analza danych Dane trenngowe testowe. Algorytm k najblższych sąsadów. Jakub Wróblewsk jakubw@pjwstk.edu.pl http://zajeca.jakubw.pl/ OGÓLNY SCHEMAT Mamy dany zbór danych podzelony na klasy decyzyjne, oraz pewen algorytm klasyfkujący. Problem: zbadać skuteczność algorytmu na tych danych. Kryterum skutecznośc: lczba (procent) prawdłowo rozpoznanych obektów testowych, neborących udzału w trenngu. Dane trenngowe (znana decyzja) o o2 o3 2.3 AAC -5 6.87 AAA -2.2 BBB budowa modelu Skąd wząć dane testowe? Dane testowe (znana decyzja) Klasyfkator o o2 o3 25. BBA - 5.8 BBB -2 7.6 BAB -4 lczymy prawdłowe odpowedz klasyfkatora
WYBÓR PRÓBKI TESTOWEJ - Testowane algorytmu wykonujemy, gdy chcemy porównać jego wynk z nnym, ale równeż podczas optymalzacj parametrów samego algorytmu, np. w celu wyboru właścwej opcj. - Welkość próbk testowej ne pownna być zbyt mała, jeśl np. chcemy uzyskać dokładność,%, próbka pownna meć ponad obektów. Technk statystyczne pomagają nam oszacować welkość próbk do porównań na danym pozome stotnośc. - Możemy podzelć dane na część trenngową (zwykle ok. 7%) testową. Dane używane do testowana ne mogą być użyte do trenowana klasyfkatora. - Nektóre dane referencyjne mają z góry zdefnowaną część testową. Obektów z tej częśc możemy użyć tylko raz, do określena końcowej jakośc naszego klasyfkatora. SCHEMAT CV-n Zbór trenngowy Losowy podzał (CV-5) Konstruowane klasyfkatora Testowane Cross-valdaton (CV-n, waldacja krzyżowa) Zbór trenngowy dzelmy losowo na n częśc. W n kolejnych fazach testu każda z n częśc pełn rolę próbk testowej, a pozostałe - próbk trenngowej. Wynk klasyfkacj są sumowane. 2
METODA LEAVE-ONE-OUT Zbór trenngowy jest wykorzystywany w całośc jako zbór testowy: - Dla każdego obektu o konstruujemy klasyfkator wykorzystujący wszystke obekty z wyjątkem o. - Obekt o klasyfkujemy zapamętujemy wynk. - Po przetestowanu wszystkch obektów sumujemy wynk. Metoda równoważna CV-n dla n równego lczbe obektów w zborze. Metoda zwykle bardzo wolna, jednak można ją stosować w sytuacjach, gdy trenng klasyfkatora jest czynnoścą bardzo prostą (np. nawny klasyfkator bayesowsk - wystarczy tak zmodyfkować prawdopodobeństwa, by omnąć obekt o). KLASYFIKACJA OPARTA NA ODLEGŁOŚCI Załóżmy, że analzowany zbór danych zawera obekty opsane wektoram lczb (cech) rzeczywstych: x= x, K, Będzemy zakładać, że obekty podobne z punktu wdzena wszystkch cech mają tę samą decyzję. Podobeństwo obektów określa odległość w przestrzen R m, czyl metryka: x m Metryka eukldesowa: ρ m ( x, y) = ( ) = x y 2 Metryka mejska (Manhattan): ρ m ( x, y) = = x y 3
ESTYMACJA ROZKŁADU DECYZJI Problem klasyfkacj można sprowadzć do pytana: jaka jest najbardzej prawdopodobna decyzja w pewnym punkce x* przestrzen? Metoda: - ustalamy pewne otoczene punktu x*, - konstruujemy hstogram decyzj, - wyberamy najwększą wartość hstogramu. 3 zelone 2 czerwone ALGORTYM k-nn Ustalamy wartość k (najlepej lczbę neparzystą, zwykle ok. 5-5). Dla każdego obektu testowego o*: - wyznaczamy odległośćρ(o*,x) pomędzy o* każdym obektem trenngowym x, - znajdujemy k obektów trenngowych najblższych o*, - wśród wartośc decyzj odpowadających tym obektom wykonujemy głosowane, - najczęścej występującą wartość decyzj przypsujemy obektow o*. 4
UWAGI TECHNICZNE - Parametr k możemy dobrać eksperymentalne. Lcząc na próbce testowej wynk dla pewnego k, otrzymujemy przy okazj wynk dla wszystkch wartośc mnejszych. - Czas uczena (w wersj podstawowej algorytmu) jest bardzo krótk, gdyż nauka polega na zapamętanu całej próbk trenngowej. Łatwo stosować metodę leave-one-out. - Klasyfkacja nowych przypadków jest dosyć powolna. Sposoby na przyspeszene: - selekcja obektów wybór pewnego podzboru dającego zblżone wynk klasyfkacj - podzał zboru obektów na podzbory przeszukwane tylko nektórych z nch. PRZYKŁAD k= k=3 5
MODYFIKACJA METRYKI Wadą algorytmu k-nn jest jednakowe (często neuprawnone) traktowane wszystkch wymarów. Np. jeśl wśród cech będzemy mel wek pacjenta temperaturę cała, wówczas różnca mędzy róweśnkam z temperaturą 37 C 4 C jest dla algorytmu dagnozującego mnejsza, nż mędzy 45- latkem a 5-latkem o jednakowej temperaturze. Sposób radzena sobe z tym problemem polega na wprowadzenu dodatkowych wag zwązanych z wymaram: ρ m ( x, y) = w( x y ) = 2 Przykład: w = ( max( x ) mn( x )) 2 6