Grupowane Wprowadzene Metody herarchczne Modele meszane (mxture models) Metoda Expectaton-maxmzaton (EM) Metody namneszych kwadratów Krytera akośc grupowana Algorytm k-średnch Zastosowana Statstcal Pattern Recognton, Chapter
Wprowadzene 2 Grupowane: podzał zboru danych pomarowych na rozłączne zwarte grupy x 2 x 2 Grupowane x x Statstcal Pattern Recognton, Chapter
3 Grupa pownna zawerać obekty podobne do sebe Obekty należące do różnych grup pownny być od sebe znacząco różnć Przestrzeń rozwązań (lczba możlwych podzałów n obektów na g grup) est zbyt duża, nawet dla procedur typu branch and bound. Lczba podzałów n obektów na g grup est równa! g ( ) g g Przykładowo, dla n, g5 rozwązań est 67 g dla n6, g2, rozwązań est 6 x 7 n Statstcal Pattern Recognton, Chapter
4 Korzyśc redukca cągu uczącego (np. przez zastąpene grupy e reprezentantem) upraszcza procedury rozpoznawana uzyskane naturalne struktury danych ułatwa m.n. dobór postac model Statstcal Pattern Recognton, Chapter
Metody herarchczne 5 Drzewo herarchczne dendrogram zaweraący zagneżdżone grupy Na nawyższym pozome wszystke obekty należą do edne grupy Na nanższym pozome każdy obekt stanow osobną grupę 2 3 5 6 4 6. 4. 2.. odległość mędzy klastram Statstcal Pattern Recognton, Chapter
6 Na os ponowe odkładana est odległość pomędzy połączonym grupam Obcęce drzewa w określonym mescu dae podzał na g rozłącznych grup Krawędze drzewa są uporządkowane tak, aby sę ne przecnały Statstcal Pattern Recognton, Chapter
7 Algorytmy aglomeracyne (agglomeratve algorthms) rozpoczynaą od tylu grup, le est obektów w każdym kroku łączone są dwe nabardze podobne grupy warunek stopu: wszystke obekty należą do edne grupy Algorytmy deglomeracyne (dvsve algorthms) rozpoczynaą od edne grupy obemuące wszystke obekty w każdym kroku dzelą grupę na dwe, nabardze od sebe odległe warunek stopu: każdy obekt stanow osobną grupę rzadko stosowane ze względu na złożoność oblczenową Statstcal Pattern Recognton, Chapter
8 Ultrametryka Na podstawe dendrogramu można określć nową macerz nepodobeństwa mędzy obektam, w które odległość mędzy obektam, est odległoścą pomędzy ch grupam Odległość lczona na te wysokośc dendrogramu, na które grupy są połączone poedynczą śceżką Procedurę poszukwana dendrogramu można rozpatrywać ako transformacę macerzy nepodobeństwa, która zawera odległośc d, w macerz zaweraącą odległośc dˆ, które spełnaą nerówność ultrametryk: dˆ, max, k ( dˆ, dˆ ) k k Statstcal Pattern Recognton, Chapter
9 Algorytm Sngle-lnk Przyporządkowue dwa obekty o ndeksach m do edne grupy na pozome d, eżel stnee łańcuch obektów pośrednch,, 2,, m-, m Stosuąc podeśce aglomeracyne oraz przymuąc marę spełnaący k,, m d k, + k d odległośc mędzy grupam A B ako odległość mędzy ch nablższym sąsadam: d AB mn d A, B otrzymuemy następuącą sekwencę macerzy nepodobeństwa: Statstcal Pattern Recognton, Chapter
Macerz początkowa 2 3 4 4 3 24 2 22 3 7 4 5 6 5 6 2 8 3 9 6 8 8.5 Nablższe grupy to (3) (5), węc łączone są w poedynczą grupę (3,5) Należy przelczyć odległośc: d, 3,5 mn d3, d5 ( ) { } 2 Macerz w kolenym kroku 2 ( 3,5) 2 ( 3,5) 4 6 4 2 24 8 22 6 8.5 4 8 6 d ( 3,5) mn{ d23, d25} 2, d d 6 ( ) 8. 5 ( 3,5) 6 4,, 3,5 Statstcal Pattern Recognton, Chapter
2 ( 3,5) 4 6 2 4 ( 3,5) 2 4 24 22 6 6 8 8.5 8 Nablższe grupy to () (2), węc łączone są w poedynczą grupę (,2) Należy przelczyć odległośc: d (,2), d d d d ( 3,5) mn{ 3, 23, 5, 25} Macerz nepodobeństwa w kolenym kroku: (, 2) (3,5) 4 6 (, 2) (3,5) 4 22 6 6 8 8.5 8 Końcowy wynk (, 2,6) ( 3, 4,5) (, 2,6) 8.5 ( 3, 4,5) { d, } 22 d(,2),4 mn 4 d24 d { d, } 8 mn 6 d26 (,2),6 Nablższe grupy to (4) (3,5). Po ch połączenu otrzymuemy macerz: (, 2) ( 3, 4,5) 6 (, 2) ( 3, 4,5) 6 8 8.5 Statstcal Pattern Recognton, Chapter
2 W rezultace otrzymuemy dendrogram 8. 6. 4. 2. 2 6 4 5 3. Statstcal Pattern Recognton, Chapter
3 Algorytm Sngle-lnk łączy koleno grupy, które leżą blsko sebe Może to spowodować łączene odrębnych grup, eżel pomędzy nm znadą sę przypadkem akeś nelczne obekty: x 2 x Statstcal Pattern Recognton, Chapter
Można zrealzować algorytm Sngle-lnk korzystaąc z mnmalnego drzewa rozpnaącego (mnmum spannng tree) Drzewo rozpnaące: stnee połączene (za pomocą edne lub welu krawędz) mędzy każdą parą werzchołków oraz ne występuą cykle Mnmalne drzewo rozpnaące: dodatkowo suma długośc wszystkch krawędz est mnmalna 4 x 2 6 3 4 4 2 5 2 6 2 4 6 8 2 x x 2 6 4 3 4 2 5 2 6 2 4 6 8 2 x Usunęce z mnmalnego drzewa rozpnaącego wszystkch krawędz dłuższych nż h dae grupowane na pozome h Statstcal Pattern Recognton, Chapter
5 Algorytm Complete-lnk Różnca mędzy algorytmem Complete-lng a Sngle-lnk polega na stosowanu nne mary odległośc. W algorytme Complete-lnk odległośc mędzy grupam A B wyznaczana est ako odległość mędzy ch nabardze odległym obektam: d AB max d A, B Statstcal Pattern Recognton, Chapter
Dla danych z poprzednego zadana perwszy krok procedury dae następuący wynk: 6 2 3 4 5 6 2 4 3 3 4 24 22 7 5 2 3 6 6 8 9 8 8.5 Sngle-lnk 2 ( 3,5) 4 6 2 4 ( 3,5) 2 4 24 22 6 6 8 8.5 8 2 ( 3,5) 4 6 2 4 ( 3,5) 3 4 24 22 7 6 8 9 8 Statstcal Pattern Recognton, Chapter
Dendrogramy: 7 dendrogram algorytmu Sngle-lnk dendrogram algorytmu Complete-lnk 8. 2. 6. 5. 4.. 2. 5. 2 6 4 5 3. 2 6 4 3 5. Statstcal Pattern Recognton, Chapter
8 Algorytm Sngle-lnk wykrywa odzolowane grupy Dendrogram wygenerowany przez algorytm Sngle-lnk, po przecęcu na pozome h, dae grupy odzolowane od sebe przynamne o odległość h Algorytm Complete-lnk wykrywa zwarte grupy Statstcal Pattern Recognton, Chapter
Inne metody 9 Centrod dstance : odległość mędzy grupam est zdefnowana ako odległość pomędzy średnm w grupach Uwaga: przy łączenu grupy bardzo lczne z grupą maącą newele obektów, średna z całośc leży blsko średne z bardze lcznego klastra Medan dstance : odległość mędzy grupam est zdefnowana ako odległość pomędzy medanam w grupach Group average lnk : odległość mędzy dwema grupam est zdefnowana ako średna wartość nepodobeństw mędzy wszystkm param obektów z różnych grup: d AB n n d A, B Statstcal Pattern Recognton, Chapter
Modele meszane 2 (mxture models) Każda grupa opsana est nnym rozkładem prawdopodobeństwa Model meszany est sumą rozkładów poszczególnych grup lczba grup 3 Statstcal Pattern Recognton, Chapter
2 Meszanna welowymarowych rozkładów Gaussa naczęśce stosowana w grupowanu Poedynczy rozkład Gaussa Meszanna dwóch rozkładów Gaussa Statstcal Pattern Recognton, Chapter
22 Model meszany g p x) p ( x; ) ( π θ π współczynnk określaące udzał rozkładu -te grupy w modelu meszanym, przy czym, π π g p( x; θ ) welowymarowy rozkład prawdopodobeństwa, zależny od wektora parametrów θ Estymować należy trzy zestawy parametrów: π, θ, g - lczba grup Statstcal Pattern Recognton, Chapter
Meszanna rozkładów Gaussa g ( x; μ, ) p( x) π Σ p 23 gdze p T ( x; μ, Σ ) exp ( x μ ) Σ ( x μ ) (2π ) p 2 2 Σ 2 Estymaca parametrów metoda maksymalne warygodnośc metoda Expectaton-Maxmzaton (EM) Grupowane przypsane obektów do grup na podstawe estymowanych prawdopodobeństw a posteror przynależnośc do grup Obekt x należy do grupy, eżel ( x ; θ ) p( x; θ ),,, g π p π, Chapter Statstcal Pattern Recognton
24 Metoda Expectaton-Maxmzaton (EM) W modelu meszanym postac przymuemy rozkład Gaussa x;, zatem θ { μ ; Σ } Dla n-elementowe próby X{x, x 2,, x n } konstruuemy funkcę warygodnośc o postac: g ( x; ) p( x) π θ p n g L Ψ) p( θ ) p ( x ) ( π θ gdze { π, π ; θ, } Ψ,, g θ g est zborem parametrów Statstcal Pattern Recognton, Chapter
25 Dla ogólnego przypadku ne est możlwe rozwązane układu Funkcę warygodnośc L maksymalzue sę z wykorzystanem ogólne klasy procedur teracynych, znanych ako EM ( expectaton maxmzaton ). Zostały one wprowadzone w kontekśce estymac brakuących danych W kontekśce zadana grupowana brakuącym danym są numery klas (grup) L Ψ Statstcal Pattern Recognton, Chapter
26 Dany est zestaw n nekompletnych danych pomarowych: y x z,,, n, gdze z est wektorem zaweraącym brakuące wartośc oraz {y, y 2,, y n } Y Dla danego wektora x można zaproponować wele różnych wektorów y. Jedne mogą być bardze, druge mne prawdopodobne. W zadanu grupowana z użycem model meszanych wektor z [ z z ] g T wskazue numer grupy, t. z eżel x należy do -te grupy, w przecwnym przypadku z Statstcal Pattern Recognton, Chapter
27 Ogólna postać procedury EM Maksymalzowana będze funkca warygodnośc Funkcę p( X Ψ) p( Y Ψ) Funkcę ( X Ψ) L ( Ψ ) p można wyznaczyć na podstawe funkc, które postać est znana p( Y Ψ) uzyskuemy przez scałkowane po wszystkch zborach Y, które mogą być uzupełnenem zboru X: ( X, Ψ) g( x, z ) L( Ψ) p Ψ dz n Statstcal Pattern Recognton, Chapter
Ogólna postać procedury EM 28 Począwszy od pewnego początkowego rozwązana generowana est sekwenca oszacowań parametrów Procedura polega na naprzemennych wykonywanu dwóch kroków: { Ψ (m) } () Ψ Ψ ) E-step: wyznaczene wartośc kryterum akośc tzn. Q Q ( ) [ ( ( )) ] ( m, ) E log, ( m Ψ Ψ g Y Ψ X Ψ ) ( m) ( m) ( Ψ, Ψ ) log( g( x, z Ψ) ) p( Z X, Ψ ) ( m+) 2) M-step: znalezene Ψ maksymalzuącego Q dz dz ( m) Ψ ( Ψ, Ψ ) n W kolenych teracach zachodz L ( m+ ) ( m) ( Ψ ) L( Ψ ) Statstcal Pattern Recognton, Chapter
29 Q Q ( m+ ) ( Ψ, Ψ ) ( m) ( Ψ, Ψ ) log ( L( Ψ) ) (m) ( +) Ψ m Ψ ( m+2) Ψ Statstcal Pattern Recognton, Chapter
Algorytm EM dla meszanny rozkładów Gaussa Oznaczmy ) E-step: 2) M-step: 3, Chapter Statstcal Pattern Recognton [ ] ) (, E m z w Ψ x ( ) ( ) k m k m k m m p p w ) ( ) ( ) ( ) ( θ x θ x π π n w n πˆ n w n ˆ ˆ x μ π ( )( ) n T w n ˆ ˆ ˆ ˆ μ x μ x Σ π
Algorytm EM dla meszanny rozkładów Gaussa 3 Statstcal Pattern Recognton, Chapter
Metody namneszych kwadratów 32 Podzał na grupy uzyskwany est w drodze maksymalzac zadanego kryterum akośc grupowana Kryterum akośc uwzględna macerze rozproszeń wewnątrz grup mędzy grupam Statstcal Pattern Recognton, Chapter
33 Średne kowarance Dana est n-elementowa próba x, x 2,, x n Średna z próby Macerz kowaranc z próby Σˆ n ( x m) ( x m) n m n n x T Lczba obektów w -te grupe n z Średna w -te grupe n, gdze z dla x grupa w przec.przyp m n n z x Statstcal Pattern Recognton, Chapter
34 Macerze rozproszena (scatter matrces) Macerz rozproszena wewnątrz grup (pooled wthn-group scatter matrx) S W z n ( x m )( x m ) Macerz rozproszena mędzy grupam g n T (between-group scatter matrx) S B Σˆ S W g n n ( m m)( m m) T Statstcal Pattern Recognton, Chapter
Krytera akośc grupowana Ślad macerzy S W Tr g n g 2 n n ( SW ) z x m S 35 gdze S to suma kwadratów odchyleń od średne w -te grupe. Mnmalzaca kryterum Tr(S W ) oznacza mnmalzacę całkowte sumy kwadratów odchyleń od średne wewnątrz grup. Iloraz S Σˆ Jest to kryterum nezmenncze ze względu na neosoblwe (nonsngular) transformace lnowe (czyl take, które maą odwrotność). Dla dane próby mnmalzaca kryterum równoważna podzałow mnmalzuącemu Σˆ W ne zależy od podzału na grupy. S W S W Σˆ est, poneważ macerz Statstcal Pattern Recognton, Chapter
36 Krytera akośc grupowana Kryterum Maksymalzaca tego kryterum prowadz go grup o kształce hperelpsodalnym (ogólnesze od grup hpersferycznych). Odpowada to przyęcu metryk Mahalanobsa w mesce Eukldesowe. Jest to kryterum nezmenncze ze względu na neosoblwe transformace. Kryterum Tr Tr ( S ) WS B ( ˆ ) Σ S W Mnmalzaca kryterum kwadratowego dla danych unormowanych w tak sposób, że macerz rozproszena est macerzą ednostkową Statstcal Pattern Recognton, Chapter
37 Algorytm k-średnch (k-means) Algorytm znadue rozwązane suboptymalne Mnmalzaca kryterum Tr(S W ) przez podzał danych na k grup Wykonywane są naprzemenne dwe procedury obekty przydzelane są do grupy, które środek leży nablże (odległość Eukldesowa) dla wykonanego przydzału wyznaczane są nowe średne grup Warunek stopu: w kolenych teracach ne udae sę zmneszyć wartośc kryterum akośc Statstcal Pattern Recognton, Chapter
) ) 38 x 2 x 2 x x 2) 3) x 2 x 2 x x Statstcal Pattern Recognton, Chapter
x 2 4) 5) x 2 39 x x 6) 7) x 2 x 2 x x Statstcal Pattern Recognton, Chapter
4 Algorytm k-średnch est szczególnym przypadkem algorytmu Expectaton-Maxmzaton Statstcal Pattern Recognton, Chapter
4 Rozmyty algorytm k-średnch (Fuzzy k-means) Przynależność obektów do grup określona est za pomocą funkc przynależnośc, którą reprezentue zestaw parametrów μ (, 2,, n;, 2,, g) μ stopeń przynależnośc -tego obektu do -te grupy Mnmalzowane est kryterum akośc: J r n g r 2 µ r x µ x m, gdze m, n r µ m est centrodą -te grupy oraz r est stopnem rozmyca grup (dla r μ przymue wyłączne wartośc, co sprowadza algorytm do zwykłego algorytmu k-średnch) n Statstcal Pattern Recognton, Chapter
42 ) Ustal wartość r, wyberz początkowe wartośc μ 2) Wyznacz centra m grup 3) Oblcz odległośc d x m 4) Wyznacz wartośc funkc przynależnośc Jeżel d l dla pewnego l to μ l Jeżel to μ l W pozostałych przypadkach µ g k 2 r ( d d ) 5) Jeżel ne zachodz warunek stopu, przedź do kroku 2) k Pattern Classfcaton, Chapter 6
Zastosowana 43 Segmentaca obrazów Rozpoznawane psma odręcznego (edna ltera może być psana na różne sposoby każdemu sposobow odpowada w przestrzen cech pewna grupa) Grupowane ksążek dokumentów Eksploraca danych w sec www Odnadywane struktur w dużych bazach danych Podzał pacentów na grupy Grupowane genów na podstawe danych o ch ekspres Pattern Classfcaton, Chapter 6