Artfcal Intellgence Krzysztof Ślot, 2008 Statystyczne metody rzetwarzana danych Klasyfkacja mnmalnoodległoścowa Krzysztof Ślot Instytut Informatyk Stosowanej Poltechnka Łódzka
Artfcal Intellgence Krzysztof Ślot, 2008 Etay rocedury rozoznawana Wrowadzene Przetwarzane wstęne, obejmuje ekstrakcję obektu z tla Projektowane systemu rozoznawana Klasyfkacja, wykorzystująca wybrane cechy zbudowane modele klas Przygotowane danych Projektowane systemu Określ rerezentację loścową obektów Określ sosób modelowana klas Określene strateg klasyfkacj Zebrane etyketowane rzykładów Określene zborów: trenngowego testowego Przedmot wykładu Oblcz cechy renuj klasyfkator Klasyfkuj Imlementacja
Artfcal Intellgence Krzysztof Ślot, 2008 Klasyfkacja danych Przysane róbce etykety klasy Próbka jest rerezentowana rzez wektor cech (w odowednej rzestrzen cech Modele klas muszą być zbudowane w oarcu o rzykłady (defncje klas są neznane Przykłady mogą ne osadać etykety klasy (klasyfkacja nenadzorowana Dane, C C, C... C wyznacz: : C Podstawa klasyfkacj Maksymalzacja odbeństwa mędzy róbką a klasą (mnmalzacja różncy Posadane określonych właścwośc Stratega ostęowana Zbuduj loścowe modele klas oceń rzynależność róbk
Artfcal Intellgence Krzysztof Ślot, 2008 Stratege klasyfkacj Klasyfkacja danych Ocena odobeństwa: Klasyfkacja mnmalnoodległoścowa Klasyfkacja robablstyczna Posadane określonych właścwośc Klasyfkacja rzy użycu owerzchn decyzyjnych Etay budowy klasyfkatora renng Budowa model klas estymacja ch arametrów (zbór trenngowy estowane Ocena skutecznośc klasyfkacj rzy użycu róbek zboru testowego Proces klasyfkacj (rozoznawana Wyznaczane rzynależnośc neznanej róbk dokonywane rzy użycu zbudowanego klasyfkatora
Artfcal Intellgence Krzysztof Ślot, 2008 Podstawy Klasyfkacja mnmalno-odległoścowa Próbk są unktam w rzestrzen metrycznej Podobeństwo ocenane rzez określane odległośc mędzy róbką klasą Zwycęża klasa najblższa Stratege klasyfkacj mnmalnoodległoścowej Metoda najblższego sąsada (Nearest-Neghbor - NN Metoda najblższej średnej (Nearest-Mean - NM Klasyfkacja k-nn Rerezentacja welomodalna / metoda najblższego modu Problemy budowy klasyfkatora Postać modelu klasy trenng modelu Defncja odległośc mędzy róbką a klasą Zasada wyboru zwycęskej klasy
Artfcal Intellgence Krzysztof Ślot, 2008 Klasyfkacja NN Defncja komonentów metody Model (rototy klasy: zaamętane wszystke róbk zboru trenngowego (brak rocedury uczena klasyfkatora Odległość róbk od klasy: najmnejsza z odległośc mędzy róbką a elementam klasy k = arg j mn d(,c, d(,c = mn d(,c j C A d(,c B d(,c B < d(,c B C B d(,c A C B
Artfcal Intellgence Krzysztof Ślot, 2008 Klasyfkacja NN Właścwośc Prostota koncecyjna Brak rocedury uczena klasyfkatora Kosztowny oblczenowo roces klasyfkacj Wymagana duża amęć do składowana model klas Wrażlwość na złe rzykłady (neuchronne obecne w dużych zborach C A d(,c B CB d(,c A d (, C d (, C B A C A
Artfcal Intellgence Krzysztof Ślot, 2008 Klasyfkacja NM Defncja komonentów metody Model klasy: odstawowe właścwośc statystyczne zboru róbek średna, macerz kowarancj (rosty trenng Odległość róbk od klasy: odległość róbk do wartośc średnej/ odległość Machalobobsa (wyrażona w jednostkach odchylena k = arg d(, C = d(, M d(,, = mn M M 1 N N j= 1 j C A M A d(,m A d(, M d(, M C B d(,m B A C B MB B Odległość uwzględnająca rozrzuty (Machalonobsa d(, C d(, μ, Σ d(, C ( μ Σ 1 ( μ
Artfcal Intellgence Krzysztof Ślot, 2008 y 1 2 Właścwośc Prosty trenng Szybka klasyfkacja Mała wrażlwość na błędne rzykłady (efekt uśrednena Małe zasoby wymagane do zaamętana model klas Nejawne założene Gaussowskego modelu klasy: klasyfkacja lnowa d 1 1 1 1 1 1 2, ( d d 2 2 2 2 2 2 2, ( d NM klasyfkator lnowy 0 C 0 ( 2, (, ( 2 2 1 1 1 2 2 1 d d Klasyfkacja NM
Artfcal Intellgence Krzysztof Ślot, 2008 Klasyfkacja NM Rozkłady welomodalne Rozkład jednomodalny: roblemy trywalne Rzeczywste roblemy rozoznawana: welomodalna rerezentacja klasy NM błędna klasyfkacja M A C A C A M B C B d (, M d(, M C B A A
Artfcal Intellgence Krzysztof Ślot, 2008 Metoda k-nn Defncja komonentów metody Model klasy : zaamętane wszystke róbk zboru trenngowego (brak rocedury uczena klasyfkatora Odległość róbk od klasy: klasa najlcznej rerezentowana wśród k- zwycęzców (k-najblższych róbek Parametr modelu: k wartość otymalna arametru mus być określona w faze trenngu r r C A C A C B C B r : k 1 C A r : k 3 C B
Artfcal Intellgence Krzysztof Ślot, 2008 Metoda k-nn Właścwośc Prosty trenng (wybór k dającego najleszą skuteczność rozoznawana na zborze trenngowym Arbtralne kształty owerzchn searujących klasy: możlwość rozwązana roblemów searowalnych nelnowo (trudnych Mała wrażlwość na błędne rzykłady (tym mnejsza m wększe k Złożoność oblczenowa Duża zajętość amęc rzez modele klas Przyśeszane metody k-nn Motywacja rac: duża skuteczność metody Sosób realzacj: ndeksowane róbek odowedne zawężane zboru testowanych kandydatów Metody: gruowane róbek, drzewa k-wymarowe
Artfcal Intellgence Krzysztof Ślot, 2008 Gruowane Metoda k-nn Zgrubna kwantyzacja rzestrzen cech (hersześcany Etyketa róbk: ndeks hersześcanu Krok 1 klasyfkacj: określ ndeks hersześcanu zawerającego srawdzaną róbkę Oblczaj odległośc tylko do rototyów zawartych wewnątrz znalezonego hersześcanu jego sąsadów 0 1 2 0 1 2 0 1 2 0 1 2
Artfcal Intellgence Krzysztof Ślot, 2008 Drzewa k-wymarowe Metoda k-nn Zgrubna kwantyzacja rzestrzen cech (adatacyjna Określane herłaszczyzn dzelących zbory na równe częśc (głębokość rocedury odzału: k Przysywane rototyom etyket obszarów Srawdzane odległośc tylko dla róbek z obszarów rzyległych LUL LUP RUL RUR L R LUL LUP RUL RUR U D U D L R L R L R L R LDL LDR RDL RDR LDL LDR RDL RDR Właścwośc Efektywność oblczenowa
Artfcal Intellgence Krzysztof Ślot, 2008 Welomodalna rerezentacja klas Defncja komonentów metody Model klasy: odstawowe właścwośc statystyczne modów klasy Odległość róbk od klasy: odległość do najblższego modu Odległość ownna uwzględnać rozrzuty: macerz kowarancj Prototy klasy: zbór modów rerezentowanych rzez arametry statystyczne k arg mn j j 1 d(, M, M C, j 1... m N N j1 j
Artfcal Intellgence Krzysztof Ślot, 2008 renng klasyfkatora Welomodalna rerezentacja klas Określene modów dla każdej z klas Lczba modów zwykle neznana z góry (mus być odkryta rzez rocedurę Algorytm k-średnch Iteracyjne owtarzane dwóch faz: Przysane róbk do modu (kandydata Reestymacja ołożeń modów Do uzyskana zbeżnośc Kryterum: średna odległość róbek od modów Powtarzane rocesu dla kolejnych wartośc k, wybór k otymalnego Przykład Założene: k=2, oczątkowe arametry modów m1=(0,1 m2 = (1,0 Próbk trenngowe: (0,2, (1,1, (2,0,(3,5,(4,4,(5,3
Artfcal Intellgence Krzysztof Ślot, 2008 Metoda k-średnch określana modów k=3 k=4 k=5 Kryterum k=6 k=7 Otymalna wartość k Właścwośc Umarkowane złożony trenng Arbtralne owerzchne decyzyjne rozwązywane trudnych roblemów Mała wrażlwość na złe rzykłady, szybka klasyfkacja, małe zasoby
Artfcal Intellgence Krzysztof Ślot, 2008 Cechy Meszanny model Gaussowskch (GMM Rozwnęce k-nm (można traktować w kategorach robablstycznych Lesze modelowane modów (orócz wartośc średnej nformacje o rozrzuce Mody są rerezentowane funkcjam Gaussa renng: Algorytm EM (Eectaton Mamzaton Analogczny do algorytmu k-średnch: dwe narzemenne fazy Faza 1: wyznaczene arametrów Gaussody (wektora średnego macerzy kowarancj, Faza 2: onowne etyketowane róbek (odstawa: orównane odległośc Machalonobsa Właścwośc metody Jedna z najskutecznejszych obecne metod klasyfkacj