Grupowanie. Wprowadzenie. Metody hierarchiczne. Modele mieszane (mixture models) Metody najmniejszych kwadratów. Zastosowania

Podobne dokumenty
Pattern Classification

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Sztuczne sieci neuronowe

ZASTOSOWANIE METOD GRUPOWANIA W ANALIZIE SIECI SPOŁECZNOŚCIOWYCH

Problem plecakowy (KNAPSACK PROBLEM).

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Podstawy teorii falek (Wavelets)

11/22/2014. Jeśli stała c jest równa zero to takie gry nazywamy grami o sumie zerowej.

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

1. Wstęp. 2. Macierz admitancyjna.

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. LINIOWE METODY KLASYFIKACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zaawansowane metody numeryczne

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO


Weryfikacja hipotez dla wielu populacji

65120/ / / /200

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy rozkroju materiałowego, zagadnienia dualne

-Macierz gęstości: stany czyste i mieszane (przykłady) -równanie ruchu dla macierzy gęstości -granica klasyczna rozkładów kwantowych

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Badania operacyjne w logistyce i zarządzaniu produkcją

u u u( x) u, x METODA RÓŻNIC SKOŃCZONYCH, METODA ELEMENTÓW BRZEGOWYCH i METODA ELEMENTÓW SKOŃCZONYCH

n liczba zmiennych decyzyjnych c współczynniki funkcji celu a współczynniki przy zmienych decyzyjnych w warunkach

Ćwiczenie 10. Metody eksploracji danych

RÓWNOWAGA STACKELBERGA W GRACH SEKWENCYJNYCH

Sortowanie szybkie Quick Sort

Grupowanie dokumentów XML ze względu na ich strukturę, z wykorzystaniem XQuery

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Programowanie Równoległe i Rozproszone

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Laboratorium ochrony danych

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Planowanie eksperymentu pomiarowego I

ZASTOSOWANIE KLASYCZNEGO ALGORYTMU GENETYCZNEGO DO ROZWIĄZANIA ZBILANSOWANEGO ZAGADNIENIA TRANSPORTOWEGO

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne

WikiWS For Business Sharks

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Kwantowa natura promieniowania elektromagnetycznego

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Prawdopodobieństwo i statystyka r.

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

SZTUCZNA INTELIGENCJA

Plan wykładu. Sztuczne sieci neuronowe. Neuronu dyskretny. Neuron dyskretny (perceptron prosty)

Modelowanie i obliczenia techniczne. Metody numeryczne w modelowaniu: Optymalizacja

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

7. Wykład VII: Warunki Kuhna-Tuckera

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Prawdopodobieństwo i statystyka r.

EKONOMETRIA I Spotkanie 1, dn

Klasyfikatory liniowe Linear classifiers

Natalia Nehrebecka. Zajęcia 3

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Natalia Nehrebecka. Wykład 2

Dobór zmiennych objaśniających

Oligopol dynamiczny. Rozpatrzmy model sekwencyjnej konkurencji ilościowej jako gra jednokrotna z pełną i doskonalej informacją

(M2) Dynamika 1. ŚRODEK MASY. T. Środek ciężkości i środek masy

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

XLI OLIMPIADA FIZYCZNA ETAP WSTĘPNY Zadanie teoretyczne

ZAGADNIENIE TRANSPORTOWE

Natalia Nehrebecka. Zajęcia 4

Wykład 1 Zagadnienie brzegowe liniowej teorii sprężystości. Metody rozwiązywania, metody wytrzymałości materiałów. Zestawienie wzorów i określeń.

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Kodowanie informacji. Instytut Informatyki UWr Studia wieczorowe. Wykład nr 2: rozszerzone i dynamiczne Huffmana

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Prawdziwa ortofotomapa

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wyznaczanie współczynnika sztywności zastępczej układu sprężyn

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Regulamin promocji 14 wiosna

Zarządzanie ryzykiem w przedsiębiorstwie i jego wpływ na analizę opłacalności przedsięwzięć inwestycyjnych

Proces decyzyjny: 1. Sformułuj jasno problem decyzyjny. 2. Wylicz wszystkie możliwe decyzje. 3. Zidentyfikuj wszystkie możliwe stany natury.

Regulamin promocji upalne lato

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

( ) L 1. θ θ = M. Przybycień Rachunek prawdopodobieństwa i statystyka. = θ. min

SZTUCZNA INTELIGENCJA

[, ] [, ] [, ] ~ [23, 2;163,3] 19,023 2,7

Wielokategorialne systemy uczące się i ich zastosowanie w bioinformatyce. Rafał Grodzicki

Beata Szymańska Wojciech Topolski Marcin Tomasik KWANTYZACJA WEKTOROWA

Metody analizy obwodów

Funkcja wiarogodności

Zadanie na wykonanie Projektu Zespołowego

Matematyka finansowa r. Komisja Egzaminacyjna dla Aktuariuszy. LXVIII Egzamin dla Aktuariuszy z 29 września 2014 r.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Transkrypt:

Grupowane Wprowadzene Metody herarchczne Modele meszane (mxture models) Metoda Expectaton-maxmzaton (EM) Metody namneszych kwadratów Krytera akośc grupowana Algorytm k-średnch Zastosowana Statstcal Pattern Recognton, Chapter

Wprowadzene 2 Grupowane: podzał zboru danych pomarowych na rozłączne zwarte grupy x 2 x 2 Grupowane x x Statstcal Pattern Recognton, Chapter

3 Grupa pownna zawerać obekty podobne do sebe Obekty należące do różnych grup pownny być od sebe znacząco różnć Przestrzeń rozwązań (lczba możlwych podzałów n obektów na g grup) est zbyt duża, nawet dla procedur typu branch and bound. Lczba podzałów n obektów na g grup est równa! g ( ) g g Przykładowo, dla n, g5 rozwązań est 67 g dla n6, g2, rozwązań est 6 x 7 n Statstcal Pattern Recognton, Chapter

4 Korzyśc redukca cągu uczącego (np. przez zastąpene grupy e reprezentantem) upraszcza procedury rozpoznawana uzyskane naturalne struktury danych ułatwa m.n. dobór postac model Statstcal Pattern Recognton, Chapter

Metody herarchczne 5 Drzewo herarchczne dendrogram zaweraący zagneżdżone grupy Na nawyższym pozome wszystke obekty należą do edne grupy Na nanższym pozome każdy obekt stanow osobną grupę 2 3 5 6 4 6. 4. 2.. odległość mędzy klastram Statstcal Pattern Recognton, Chapter

6 Na os ponowe odkładana est odległość pomędzy połączonym grupam Obcęce drzewa w określonym mescu dae podzał na g rozłącznych grup Krawędze drzewa są uporządkowane tak, aby sę ne przecnały Statstcal Pattern Recognton, Chapter

7 Algorytmy aglomeracyne (agglomeratve algorthms) rozpoczynaą od tylu grup, le est obektów w każdym kroku łączone są dwe nabardze podobne grupy warunek stopu: wszystke obekty należą do edne grupy Algorytmy deglomeracyne (dvsve algorthms) rozpoczynaą od edne grupy obemuące wszystke obekty w każdym kroku dzelą grupę na dwe, nabardze od sebe odległe warunek stopu: każdy obekt stanow osobną grupę rzadko stosowane ze względu na złożoność oblczenową Statstcal Pattern Recognton, Chapter

8 Ultrametryka Na podstawe dendrogramu można określć nową macerz nepodobeństwa mędzy obektam, w które odległość mędzy obektam, est odległoścą pomędzy ch grupam Odległość lczona na te wysokośc dendrogramu, na które grupy są połączone poedynczą śceżką Procedurę poszukwana dendrogramu można rozpatrywać ako transformacę macerzy nepodobeństwa, która zawera odległośc d, w macerz zaweraącą odległośc dˆ, które spełnaą nerówność ultrametryk: dˆ, max, k ( dˆ, dˆ ) k k Statstcal Pattern Recognton, Chapter

9 Algorytm Sngle-lnk Przyporządkowue dwa obekty o ndeksach m do edne grupy na pozome d, eżel stnee łańcuch obektów pośrednch,, 2,, m-, m Stosuąc podeśce aglomeracyne oraz przymuąc marę spełnaący k,, m d k, + k d odległośc mędzy grupam A B ako odległość mędzy ch nablższym sąsadam: d AB mn d A, B otrzymuemy następuącą sekwencę macerzy nepodobeństwa: Statstcal Pattern Recognton, Chapter

Macerz początkowa 2 3 4 4 3 24 2 22 3 7 4 5 6 5 6 2 8 3 9 6 8 8.5 Nablższe grupy to (3) (5), węc łączone są w poedynczą grupę (3,5) Należy przelczyć odległośc: d, 3,5 mn d3, d5 ( ) { } 2 Macerz w kolenym kroku 2 ( 3,5) 2 ( 3,5) 4 6 4 2 24 8 22 6 8.5 4 8 6 d ( 3,5) mn{ d23, d25} 2, d d 6 ( ) 8. 5 ( 3,5) 6 4,, 3,5 Statstcal Pattern Recognton, Chapter

2 ( 3,5) 4 6 2 4 ( 3,5) 2 4 24 22 6 6 8 8.5 8 Nablższe grupy to () (2), węc łączone są w poedynczą grupę (,2) Należy przelczyć odległośc: d (,2), d d d d ( 3,5) mn{ 3, 23, 5, 25} Macerz nepodobeństwa w kolenym kroku: (, 2) (3,5) 4 6 (, 2) (3,5) 4 22 6 6 8 8.5 8 Końcowy wynk (, 2,6) ( 3, 4,5) (, 2,6) 8.5 ( 3, 4,5) { d, } 22 d(,2),4 mn 4 d24 d { d, } 8 mn 6 d26 (,2),6 Nablższe grupy to (4) (3,5). Po ch połączenu otrzymuemy macerz: (, 2) ( 3, 4,5) 6 (, 2) ( 3, 4,5) 6 8 8.5 Statstcal Pattern Recognton, Chapter

2 W rezultace otrzymuemy dendrogram 8. 6. 4. 2. 2 6 4 5 3. Statstcal Pattern Recognton, Chapter

3 Algorytm Sngle-lnk łączy koleno grupy, które leżą blsko sebe Może to spowodować łączene odrębnych grup, eżel pomędzy nm znadą sę przypadkem akeś nelczne obekty: x 2 x Statstcal Pattern Recognton, Chapter

Można zrealzować algorytm Sngle-lnk korzystaąc z mnmalnego drzewa rozpnaącego (mnmum spannng tree) Drzewo rozpnaące: stnee połączene (za pomocą edne lub welu krawędz) mędzy każdą parą werzchołków oraz ne występuą cykle Mnmalne drzewo rozpnaące: dodatkowo suma długośc wszystkch krawędz est mnmalna 4 x 2 6 3 4 4 2 5 2 6 2 4 6 8 2 x x 2 6 4 3 4 2 5 2 6 2 4 6 8 2 x Usunęce z mnmalnego drzewa rozpnaącego wszystkch krawędz dłuższych nż h dae grupowane na pozome h Statstcal Pattern Recognton, Chapter

5 Algorytm Complete-lnk Różnca mędzy algorytmem Complete-lng a Sngle-lnk polega na stosowanu nne mary odległośc. W algorytme Complete-lnk odległośc mędzy grupam A B wyznaczana est ako odległość mędzy ch nabardze odległym obektam: d AB max d A, B Statstcal Pattern Recognton, Chapter

Dla danych z poprzednego zadana perwszy krok procedury dae następuący wynk: 6 2 3 4 5 6 2 4 3 3 4 24 22 7 5 2 3 6 6 8 9 8 8.5 Sngle-lnk 2 ( 3,5) 4 6 2 4 ( 3,5) 2 4 24 22 6 6 8 8.5 8 2 ( 3,5) 4 6 2 4 ( 3,5) 3 4 24 22 7 6 8 9 8 Statstcal Pattern Recognton, Chapter

Dendrogramy: 7 dendrogram algorytmu Sngle-lnk dendrogram algorytmu Complete-lnk 8. 2. 6. 5. 4.. 2. 5. 2 6 4 5 3. 2 6 4 3 5. Statstcal Pattern Recognton, Chapter

8 Algorytm Sngle-lnk wykrywa odzolowane grupy Dendrogram wygenerowany przez algorytm Sngle-lnk, po przecęcu na pozome h, dae grupy odzolowane od sebe przynamne o odległość h Algorytm Complete-lnk wykrywa zwarte grupy Statstcal Pattern Recognton, Chapter

Inne metody 9 Centrod dstance : odległość mędzy grupam est zdefnowana ako odległość pomędzy średnm w grupach Uwaga: przy łączenu grupy bardzo lczne z grupą maącą newele obektów, średna z całośc leży blsko średne z bardze lcznego klastra Medan dstance : odległość mędzy grupam est zdefnowana ako odległość pomędzy medanam w grupach Group average lnk : odległość mędzy dwema grupam est zdefnowana ako średna wartość nepodobeństw mędzy wszystkm param obektów z różnych grup: d AB n n d A, B Statstcal Pattern Recognton, Chapter

Modele meszane 2 (mxture models) Każda grupa opsana est nnym rozkładem prawdopodobeństwa Model meszany est sumą rozkładów poszczególnych grup lczba grup 3 Statstcal Pattern Recognton, Chapter

2 Meszanna welowymarowych rozkładów Gaussa naczęśce stosowana w grupowanu Poedynczy rozkład Gaussa Meszanna dwóch rozkładów Gaussa Statstcal Pattern Recognton, Chapter

22 Model meszany g p x) p ( x; ) ( π θ π współczynnk określaące udzał rozkładu -te grupy w modelu meszanym, przy czym, π π g p( x; θ ) welowymarowy rozkład prawdopodobeństwa, zależny od wektora parametrów θ Estymować należy trzy zestawy parametrów: π, θ, g - lczba grup Statstcal Pattern Recognton, Chapter

Meszanna rozkładów Gaussa g ( x; μ, ) p( x) π Σ p 23 gdze p T ( x; μ, Σ ) exp ( x μ ) Σ ( x μ ) (2π ) p 2 2 Σ 2 Estymaca parametrów metoda maksymalne warygodnośc metoda Expectaton-Maxmzaton (EM) Grupowane przypsane obektów do grup na podstawe estymowanych prawdopodobeństw a posteror przynależnośc do grup Obekt x należy do grupy, eżel ( x ; θ ) p( x; θ ),,, g π p π, Chapter Statstcal Pattern Recognton

24 Metoda Expectaton-Maxmzaton (EM) W modelu meszanym postac przymuemy rozkład Gaussa x;, zatem θ { μ ; Σ } Dla n-elementowe próby X{x, x 2,, x n } konstruuemy funkcę warygodnośc o postac: g ( x; ) p( x) π θ p n g L Ψ) p( θ ) p ( x ) ( π θ gdze { π, π ; θ, } Ψ,, g θ g est zborem parametrów Statstcal Pattern Recognton, Chapter

25 Dla ogólnego przypadku ne est możlwe rozwązane układu Funkcę warygodnośc L maksymalzue sę z wykorzystanem ogólne klasy procedur teracynych, znanych ako EM ( expectaton maxmzaton ). Zostały one wprowadzone w kontekśce estymac brakuących danych W kontekśce zadana grupowana brakuącym danym są numery klas (grup) L Ψ Statstcal Pattern Recognton, Chapter

26 Dany est zestaw n nekompletnych danych pomarowych: y x z,,, n, gdze z est wektorem zaweraącym brakuące wartośc oraz {y, y 2,, y n } Y Dla danego wektora x można zaproponować wele różnych wektorów y. Jedne mogą być bardze, druge mne prawdopodobne. W zadanu grupowana z użycem model meszanych wektor z [ z z ] g T wskazue numer grupy, t. z eżel x należy do -te grupy, w przecwnym przypadku z Statstcal Pattern Recognton, Chapter

27 Ogólna postać procedury EM Maksymalzowana będze funkca warygodnośc Funkcę p( X Ψ) p( Y Ψ) Funkcę ( X Ψ) L ( Ψ ) p można wyznaczyć na podstawe funkc, które postać est znana p( Y Ψ) uzyskuemy przez scałkowane po wszystkch zborach Y, które mogą być uzupełnenem zboru X: ( X, Ψ) g( x, z ) L( Ψ) p Ψ dz n Statstcal Pattern Recognton, Chapter

Ogólna postać procedury EM 28 Począwszy od pewnego początkowego rozwązana generowana est sekwenca oszacowań parametrów Procedura polega na naprzemennych wykonywanu dwóch kroków: { Ψ (m) } () Ψ Ψ ) E-step: wyznaczene wartośc kryterum akośc tzn. Q Q ( ) [ ( ( )) ] ( m, ) E log, ( m Ψ Ψ g Y Ψ X Ψ ) ( m) ( m) ( Ψ, Ψ ) log( g( x, z Ψ) ) p( Z X, Ψ ) ( m+) 2) M-step: znalezene Ψ maksymalzuącego Q dz dz ( m) Ψ ( Ψ, Ψ ) n W kolenych teracach zachodz L ( m+ ) ( m) ( Ψ ) L( Ψ ) Statstcal Pattern Recognton, Chapter

29 Q Q ( m+ ) ( Ψ, Ψ ) ( m) ( Ψ, Ψ ) log ( L( Ψ) ) (m) ( +) Ψ m Ψ ( m+2) Ψ Statstcal Pattern Recognton, Chapter

Algorytm EM dla meszanny rozkładów Gaussa Oznaczmy ) E-step: 2) M-step: 3, Chapter Statstcal Pattern Recognton [ ] ) (, E m z w Ψ x ( ) ( ) k m k m k m m p p w ) ( ) ( ) ( ) ( θ x θ x π π n w n πˆ n w n ˆ ˆ x μ π ( )( ) n T w n ˆ ˆ ˆ ˆ μ x μ x Σ π

Algorytm EM dla meszanny rozkładów Gaussa 3 Statstcal Pattern Recognton, Chapter

Metody namneszych kwadratów 32 Podzał na grupy uzyskwany est w drodze maksymalzac zadanego kryterum akośc grupowana Kryterum akośc uwzględna macerze rozproszeń wewnątrz grup mędzy grupam Statstcal Pattern Recognton, Chapter

33 Średne kowarance Dana est n-elementowa próba x, x 2,, x n Średna z próby Macerz kowaranc z próby Σˆ n ( x m) ( x m) n m n n x T Lczba obektów w -te grupe n z Średna w -te grupe n, gdze z dla x grupa w przec.przyp m n n z x Statstcal Pattern Recognton, Chapter

34 Macerze rozproszena (scatter matrces) Macerz rozproszena wewnątrz grup (pooled wthn-group scatter matrx) S W z n ( x m )( x m ) Macerz rozproszena mędzy grupam g n T (between-group scatter matrx) S B Σˆ S W g n n ( m m)( m m) T Statstcal Pattern Recognton, Chapter

Krytera akośc grupowana Ślad macerzy S W Tr g n g 2 n n ( SW ) z x m S 35 gdze S to suma kwadratów odchyleń od średne w -te grupe. Mnmalzaca kryterum Tr(S W ) oznacza mnmalzacę całkowte sumy kwadratów odchyleń od średne wewnątrz grup. Iloraz S Σˆ Jest to kryterum nezmenncze ze względu na neosoblwe (nonsngular) transformace lnowe (czyl take, które maą odwrotność). Dla dane próby mnmalzaca kryterum równoważna podzałow mnmalzuącemu Σˆ W ne zależy od podzału na grupy. S W S W Σˆ est, poneważ macerz Statstcal Pattern Recognton, Chapter

36 Krytera akośc grupowana Kryterum Maksymalzaca tego kryterum prowadz go grup o kształce hperelpsodalnym (ogólnesze od grup hpersferycznych). Odpowada to przyęcu metryk Mahalanobsa w mesce Eukldesowe. Jest to kryterum nezmenncze ze względu na neosoblwe transformace. Kryterum Tr Tr ( S ) WS B ( ˆ ) Σ S W Mnmalzaca kryterum kwadratowego dla danych unormowanych w tak sposób, że macerz rozproszena est macerzą ednostkową Statstcal Pattern Recognton, Chapter

37 Algorytm k-średnch (k-means) Algorytm znadue rozwązane suboptymalne Mnmalzaca kryterum Tr(S W ) przez podzał danych na k grup Wykonywane są naprzemenne dwe procedury obekty przydzelane są do grupy, które środek leży nablże (odległość Eukldesowa) dla wykonanego przydzału wyznaczane są nowe średne grup Warunek stopu: w kolenych teracach ne udae sę zmneszyć wartośc kryterum akośc Statstcal Pattern Recognton, Chapter

) ) 38 x 2 x 2 x x 2) 3) x 2 x 2 x x Statstcal Pattern Recognton, Chapter

x 2 4) 5) x 2 39 x x 6) 7) x 2 x 2 x x Statstcal Pattern Recognton, Chapter

4 Algorytm k-średnch est szczególnym przypadkem algorytmu Expectaton-Maxmzaton Statstcal Pattern Recognton, Chapter

4 Rozmyty algorytm k-średnch (Fuzzy k-means) Przynależność obektów do grup określona est za pomocą funkc przynależnośc, którą reprezentue zestaw parametrów μ (, 2,, n;, 2,, g) μ stopeń przynależnośc -tego obektu do -te grupy Mnmalzowane est kryterum akośc: J r n g r 2 µ r x µ x m, gdze m, n r µ m est centrodą -te grupy oraz r est stopnem rozmyca grup (dla r μ przymue wyłączne wartośc, co sprowadza algorytm do zwykłego algorytmu k-średnch) n Statstcal Pattern Recognton, Chapter

42 ) Ustal wartość r, wyberz początkowe wartośc μ 2) Wyznacz centra m grup 3) Oblcz odległośc d x m 4) Wyznacz wartośc funkc przynależnośc Jeżel d l dla pewnego l to μ l Jeżel to μ l W pozostałych przypadkach µ g k 2 r ( d d ) 5) Jeżel ne zachodz warunek stopu, przedź do kroku 2) k Pattern Classfcaton, Chapter 6

Zastosowana 43 Segmentaca obrazów Rozpoznawane psma odręcznego (edna ltera może być psana na różne sposoby każdemu sposobow odpowada w przestrzen cech pewna grupa) Grupowane ksążek dokumentów Eksploraca danych w sec www Odnadywane struktur w dużych bazach danych Podzał pacentów na grupy Grupowane genów na podstawe danych o ch ekspres Pattern Classfcaton, Chapter 6