Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Podobne dokumenty
7. Maszyny wektorów podpierajacych SVMs

9. Praktyczna ocena jakości klasyfikacji

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

5. Analiza dyskryminacyjna: FLD, LDA, QDA

10. Redukcja wymiaru - metoda PCA

CLUSTERING. Metody grupowania danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Hierarchiczna analiza skupień

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Elementy statystyki wielowymiarowej

Analiza skupień. Idea

Co to jest grupowanie

CLUSTERING METODY GRUPOWANIA DANYCH

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Techniki grupowania danych w środowisku Matlab

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Analiza skupień (Cluster analysis)

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów

2. Empiryczna wersja klasyfikatora bayesowskiego

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

Czym jest analiza skupień?

4.3 Grupowanie według podobieństwa

Analiza skupień. Idea

Analiza skupień (Cluster Analysis)

Poznań, 14 grudnia Case Study 2 Analiza skupień

Analiza skupień. Idea

Pattern Classification

SZTUCZNA INTELIGENCJA

Widzenie komputerowe (computer vision)

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

1 Wieloczynnikowa analiza wariancji ciag ¾ dalszy

Zagadnienie klasyfikacji (dyskryminacji)

Analiza skupień. Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 28 maja 2012

Bioinformatyka Laboratorium, 30h. Michał Bereta

Przykładowa analiza danych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Przestrzeń algorytmów klastrowania

Klasteryzacja danych

Metoda największej wiarygodności

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

1. Grupowanie Algorytmy grupowania:

Analiza danych. TEMATYKA PRZEDMIOTU

Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Monitorowanie i Diagnostyka w Systemach Sterowania

SPOTKANIE 2: Wprowadzenie cz. I

Klasteryzacja i klasyfikacja danych spektrometrycznych

Algorytmy heurystyczne w UCB dla DVRP

PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI

Podstawy grupowania danych w programie RapidMiner Michał Bereta

KARTA PRZEDMIOTU. 17. Efekty kształcenia:

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

STATYSTYKA I DOŚWIADCZALNICTWO

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Wrocław University of Technology. Wprowadzenie cz. I. Adam Gonczarek. Rozpoznawanie Obrazów, Lato 2015/2016

Technologie Mowy Bartosz Ziółko

2017 r. STOPA BEZROBOCIA r. STOPA BEZROBOCIA

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Analiza skupień. Waldemar Wołyński, Tomasz Górecki. Wydział Matematyki i Informatyki UAM Poznań. 6 marca 2013

ALGORYTM KLASTERYZACJI W ZASTOSOWANIU DO PROBLEMU TRASOWANIA POJAZDÓW

46 Olimpiada Biologiczna

Zastosowanie hierarchicznej metody aglomeracyjnej do grupowania państw OECD ze względu na efektywność wykorzystania energii

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

ep do obliczeniowej biologii molekularnej (J. Tiuryn, wykĺady nr. 12 i 13; 25 stycznia 2006) 8 Konstrukcja drzew filogenetycznych

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Algorytmy klasyfikacji

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści

System transakcyjny oparty na średnich ruchomych. ś h = gdzie, C cena danego okresu, n liczba okresów uwzględnianych przy kalkulacji.

Uczenie sieci radialnych (RBF)

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Jądrowe klasyfikatory liniowe

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Analiza stanów gry na potrzeby UCT w DVRP

ZASTOSOWANIE ANALIZY SKUPIEŃ W PORÓWNAWCZYCH BADANIACH ZDOLNOŚCI RETENCYJNYCH EKOSYSTEMÓW LEŚNYCH

Lekcja 5: Sieć Kohonena i sieć ART

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,


Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Supervised Hierarchical Clustering with Exponential Linkage. Nishant Yadav

Przybliżone algorytmy analizy ekspresji genów.

Analiza głównych składowych- redukcja wymiaru, wykł. 12

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

c) Sprawdź, czy jest włączone narzędzie Image classification. Jeśli nie, to je włącz: Customize Toolbars Image Classification

Metody systemowe i decyzyjne w informatyce

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Analiza Skupień Cluster analysis

PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Drzewa decyzyjne i lasy losowe

Klasyfikacja województw Polski ze względu na strukturę wartości dodanej brutto w latach

Eksploracja danych - wykład II

Transkrypt:

Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1

1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja nienadzorowana (unsupervised classification). Idea działania - grupowanie obiektów podobnych. 2

2. Hierarchiczne metody klasteryzacji Polegają na automatycznym wiązaniu skupień. Do takich metod należą: metoda pojedynczego wiazania (ang. single linkage, SLINK), metoda pełnego wiazania (ang. complete linkage, CLINK), metoda wiazania średniego (ang. average linkage, UPGMA). Najczęściej stosuje się dwa podejścia do tworzenia klastrów: aglomeracyjne (ang. agglomerative) - za pomocą łączenia skupień wyodrębnionych w poprzednich krokach w większe skupienia, rozdzielajace (ang. divisive) - za pomocą podziału skupień na mniejsze skupienia. 3

3. Przykład klasteryzacji hierarchicznej Rysunek 1. Przykładowe dane: stopa bezrobocia według województw (listopad 2014r.). Źródło: GUS 4

4. Metoda wiazania średniego (UPGMA) Metoda średniego wiązania (ang. average linkage, lub unweighted pair-group method using arithmetic averages - w skrócie UPGMA) [2,3] opiera się na średniej mierze niepodobieństwa między parami obiektów pochodzących z różnych klastrów. Miarę niepodobieństwa ρ c między klastrami C 1 i C 2 wyliczamy na podstawie wzoru ρ c (C 1, C 2 ) = 1 N 1 N 2 ρ(x i, x j ), (1) i C 1 j C 2 gdzie N 1 i N 2 to odpowiednie liczności klastrów C 1 i C 2. Jest to najpopularniejsza metoda wyznaczania klastrów. 5

4 3.5 3 2.5 2 1.5 1 0.5 6 11 7 9 20 4 5 10 12 27 13 16 8 14 28 25 18 24 21 29 17 30 19 22 26 1 2 23 15 3 Rysunek 2. Drzewo binarne uzyskane metodą średniego wiązania. Na osi poziomej zaznaczone są numery obiektów. Źródło: opracowanie własne na podstawie danych [1] 6

5. Metoda pełnego wiazania (CLINK) Drugie podejście to metoda pełnego wiązania (ang. complete linkage) [2,3,4,5], która jest znana również jako metoda najdalszego sasiedztwa lub najdalszej odległości. Podział na klastry odbywa się wieloetapowo, w każdym kroku maksymalizowana jest miara niepodobieństwa ρ c ρ c (C 1, C 2 ) = max ρ(x i, x j ). (2) i C 1, j C 2 Skutkuje to silnym skupieniem obiektów wewnątrz klastrów. 7

7 6 5 4 3 2 1 7 12 11 8 10 24 9 1 3 23 2 6 20 15 4 5 13 14 18 16 29 17 28 21 26 19 22 25 30 27 Rysunek 3. Drzewo binarne uzyskane metodą pełnego wiązania. Źródło: opracowanie własne na podstawie danych [1] 8

6. Metoda pojedynczego wiazania (SLINK) Metoda pojedynczego wiązania (ang. single linkage) [2,3,4,5] jest zwana także metodą najbliższego sasiedztwa lub najbliższej odległości. W literaturze funkcjonuje również pod nazwą taksonomii wrocławskiej. Podział obiektów na klastry następuje wieloetapowo. W pierwszym kroku dokonujemy podziału wszystkich obiektów na dwa klastry C 1 i C 2 dzięki maksymalizacji miary niepodobieństwa między klastrami ρ c ρ c (C 1, C 2 ) = min ρ(x i, x j ). (3) i C 1, j C 2 9

W kolejnych krokach podziałowi na dwa nowe klastry ulegają obiekty zakwalifikowane w poprzednim kroku do wspólnego skupiska. Podział na podstawie miary ρ c można wykonywać aż do osiągnięcia klastrów składających się z pojedynczych obiektów. W praktyce nie jest konieczne dokonanie wszystkich możliwych kroków tej metody, a jedynie kilku początkowych. 10

1.6 1.4 1.2 1 0.8 0.6 0.4 14 22 9 13 27 3 10 5 7 12 26 18 21 6 8 16 25 30 29 19 20 4 11 17 24 28 1 15 23 2 Rysunek 4. Drzewo binarne uzyskane metodą pojedynczego wiązania. Źródło: opracowanie własne na podstawie danych [1] 11

7. Metoda k-średnich Podział obiektów na k klastrów, skupionych wokół centrów. W pierwszym kroku położenie centrów ustalone lub wybrane losowo. W kolejnych krokach położenia centrów klastrów są poprawiane. Rysunek 5. Klasteryzacja k-średnich. Źródło: [6] 12

Literatura [1] R.A. Fisher, The use of multiple measurements in axonomic problems, Annals of Eugenics, Vol. 7 (1936) pp. 179-188 [2] J. Koronacki, J. Ćwik, Statystyczne systemy uczace się, WNT, Warszawa (2005) [3] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczace się. Rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości. WNT, Warszawa (2008) [6] V. Lavrenko, Clustering 4: K-means algorithm, https://www.youtube.com/watch?v=_awzggnrcic 13