CLUSTERING. Metody grupowania danych



Podobne dokumenty
CLUSTERING METODY GRUPOWANIA DANYCH

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Elementy statystyki wielowymiarowej

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

4.3 Grupowanie według podobieństwa

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Techniki grupowania danych w środowisku Matlab

Wyszukiwanie informacji w internecie. Nguyen Hung Son

CLUSTERING II. Efektywne metody grupowania danych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Sieci Kohonena Grupowanie

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Przestrzeń algorytmów klastrowania

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasteryzacja danych

1. Grupowanie Algorytmy grupowania:

Tadeusz Pankowski

Algorytm grupowania danych typu kwantyzacji wektorów

Agnieszka Nowak Brzezińska Wykład III

Analiza Skupień Cluster analysis

Algorytmy klasyfikacji

Czym jest analiza skupień?

Agnieszka Nowak Brzezińska

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Algorytmy zrandomizowane

Hierarchiczna analiza skupień

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wykrywanie nietypowości w danych rzeczywistych

Agnieszka Nowak Brzezińska Wykład III

Metody probabilistyczne klasyfikatory bayesowskie

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Algorytmy zrandomizowane

Monitorowanie i Diagnostyka w Systemach Sterowania

Zagadnienie klasyfikacji (dyskryminacji)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Podstawy grupowania danych w programie RapidMiner Michał Bereta

TEORETYCZNE PODSTAWY INFORMATYKI

Wstęp do grupowania danych

Metoda największej wiarygodności

Kwantyzacja wektorowa. Kodowanie różnicowe.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Przykładowa analiza danych

Prawdopodobieństwo czerwonych = = 0.33

Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji

Metody klasyfikacji danych - część 1 p.1/24

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Elementy modelowania matematycznego

KLASYFIKACJA. Słownik języka polskiego

Analiza danych tekstowych i języka naturalnego

Uczenie nienadzorowane

PRZYSPIESZENIE KNN. Ulepszone metody indeksowania przestrzeni danych: R-drzewo, R*-drzewo, SS-drzewo, SR-drzewo.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Wymagania egzaminacyjne z matematyki. Klasa 3C. MATeMATyka. Nowa Era. Klasa 3

Co to jest grupowanie

Drzewa decyzyjne i lasy losowe

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Eksploracja danych w środowisku R

Klasteryzacja i klasyfikacja danych spektrometrycznych

Analiza skupień (Cluster analysis)

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Algorytm grupowania danych typu kwantyzacji wektorów

SZTUCZNA INTELIGENCJA

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Analiza skupień (Cluster Analysis)

Przybliżone algorytmy analizy ekspresji genów.

Seminarium IO. Zastosowanie wielorojowej metody PSO w Dynamic Vehicle Routing Problem. Michał Okulewicz

Poznań, 14 grudnia Case Study 2 Analiza skupień

Wrocław University of Technology. Wprowadzenie cz. I. Adam Gonczarek. Rozpoznawanie Obrazów, Lato 2015/2016

Mail: Pokój 214, II piętro

METODY INŻYNIERII WIEDZY

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wymagania kl. 3. Zakres podstawowy i rozszerzony

Algorytmy genetyczne w interpolacji wielomianowej

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Klasyfikacja metodą Bayesa

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

STATYSTYKA I DOŚWIADCZALNICTWO

ALGORYTMY GENETYCZNE ćwiczenia

voxele o wartości >0 to voxele stopy (kości, mięśnie, skóra), voxele o wartości > 70 to voxele kości.

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Indukowane Reguły Decyzyjne I. Wykład 8

Zadania domowe. Ćwiczenie 2. Rysowanie obiektów 2-D przy pomocy tworów pierwotnych biblioteki graficznej OpenGL

SPOTKANIE 2: Wprowadzenie cz. I

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Transkrypt:

CLUSTERING Metody grupowania danych

Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means clustering) Grupowanie hierarchiczne (hierarchical clustering) Probabilistyczne grupowanie (probability-based clustering)

Co to jest klastrowanie Klastrowanie (clustering): problem grupowania obiektów o podobnych właściwościach. Klaster: grupa (lub klasa) obiektów podobnych (powstająca w wyniku grupowania danych)

Clustering i Klasyfikacja Clustering = uczenie bez nadzoru Znaleźć naturalne skupienia dla zbioru obiektów nie etykietowanych Klasyfikacja=uczenie z nadzorem Uczenie metod przewidywania przynależności obiektów do klas decyzyjnych (dane etykietowane)

Dziedziny zastosowania Medycyna Grupowania chorób Grupowanie objaw u pacjentów np. paranoja, schizophrenia -> właściwa terapia Archeologia: taksonomie wydobytych narzędzi... Text Mining Grupowanie podobnych dokumentów -> lepsze wyniki wyszukiwań dokumentów

Opis klastrów d e d e a k g j h i f c b a k g j h i f c b 1 2 3 a 0.4 0.1 0.5 b 0.1 0.8 0.1 c 0.3 0.3 0.4 d 0.1 0.1 0.8 e 0.4 0.2 0.4 f 0.1 0.4 0.5 g 0.7 0.2 0.1 h 0.5 0.4 0.1 g a c i e d k b j f h

Problem grupowania (clustering) Dane są: liczba klastrów k funkcja odległości d określona na zbiorze obiektów P. funkcja oceny jakości klastrów F (objective function) Problem: Podzielić zbiór P na k klastrów tak aby funkcja F przyjmowała maksymalną wartość.

Klasyfikacja metody Unsupervised learning: grupowanie obiektów bez wiedzy o ich kategorii (klasach decyzyjnych). Metody klasyfikują się według postaci generowanych klastrów: Czy są one rozłączne czy nierozłączne Czy mają strukturę hierarchiczną czy płaską Czy są określone deterministycznie czy probabilistycznie.

Podstawowe metody clusteringu k-centroidów (k-mean): Klastry mają strukturę płaską są określone deterministycznie Grupowanie hierarchiczne: Klastry mają strukturę drzewiastą są określone deterministycznie Grupowanie w oparciu o prawdopodobieństwo: Klastry mają strukturę płaską są określone probabilistycznie

Miary odległości

Grupowanie hierarchiczne Przykład grupowania profili danych ekspresji RNA (Nugoli et al. BMC Cancer 2003 3:13)

Algorytm Cel: Budować drzewo klastrów dla zbioru n obiektów. Jakość klastra: suma odległości pomiędzy obiektami w klastrze. 1. Na najniższym poziomie drzewa: n liści. Każdy liść (zawierający 1 obiekt) jest klastrem 2. Repeat Znajdź najbliższą parę klastrów (parę poddrzew) Połącz te klastry (poddrzewa) w jeden większy until STOP

Przykład

Odległość między klastrami 1. Single linkage (nearest neighbor) 2. Complete linkage (furthest neighbor) 3. Unweighted pair-group average 4. Weighted pair-group average 5. Unweighted pair-group centroid 6. Weighted pair-group centroid (median).

Metoda k-centroidów (k-means, MacQueen, 1967) Dane: N punktów x 1, x 2 x N w przestrzeni R n Parametr k < N Szukane: k punktów c 1 c k (zwanych środkami lub centroidami) będących optymalnymi punktami ze względu na funkcję: F( c N 1,..., ck ) min d xi, j1,.., k i1 c j

Przykład: kwantyzacja wektorowa Mały 100x100 obraz kolorowy wymaga 10000*24 = 29.3 kb; (N=10000) Jeśli zdołamy reprezentować ten obraz używając jedynie k=32 kolorów => możemy kodować każdy punkt za pomocą 5 bitów => redukcja pamięci do 6.1 kb + 32*24 bitów na książkę kodową

Algorytm Znaleźć k środków tak, aby suma odległości punktów do najbliższego centroida była minimalna. Krok 1. Wybierz losowo dowolnych k centrum klastrów (centroidów) Krok 2. Przydziel każdy obiekt do najbliższego centroida. Krok 3. Wyznacz nowy układ centroidów Krok 4. Powtórz krok 2 dopóty, póki poprawa jakości będzie mała.

Metoda k centroidów (c.d.) Wyznaczanie nowego układu centroidów Idea: Nowy centroid jest środkiem ciężkości powstającego (w poprzednim przebiegu algorytmu) klastra. Współrzędne nowego centroida c: p1( xi )... pk ( xi ) c( xi ) gdzie k p 1,p 2,...,p k punkty należące do klastra. c(x i ), p 1 (x i ),..., p k (x i ) i-ta współrzędna.

Własciwości metody k - centroidów Jakości klastrów zależą od wyboru początkowego układu centroidów. Algorytm może trafić w lokalne minimum Aby unikać lokalne minimum: startować z różnymi układami losowo wybieranych centroidów.

Przykład k=3, Krok 1 Y Wybierz losowo 3 punkty jako początkowy zbiór środków. k 2 k 1 k 3 X

Przykład k=3, Krok 2 Y k 1 Przypisanie każdego z punktów do najbliższego środka k 2 k 3 X

Przykład k=3, Krok 3 Y k 1 k 1 Przesuwanie centroidów do środków klastrów. k 2 k 2 k 3 k 3 X

Przykład k=3, Krok 4 Znów przypisać punkty do najbliższych środków Y Pyt.: Które z tych punktów zmienia grupę? k 1 k 2 k 3 X

Przykład k=3, Krok 4a A: 3 zmiany Y k 1 k 2 k 3 X

Przykład k=3, Krok 4b re-compute cluster means Y k 2 k 1 k 3 X

Przykład k=3, Krok 5 k 1 Y Przesuwanie centroidów do środków nowych klastrów k 2 X k 3

Anomalie metody centroidów

Probabilistyczne grupowanie Obiekt należy do klastra z pewnym stopniem prawdopodobieństwa. Idea: Każdy klaster jest opisany jednym rozkładem prawdopodobieństwa. Założenie: Wszystkie rozkłady są rozkładami normalnymi. Rozkłady różnią się wartoścami oczekiwanymi () i odchyleniami standardowymi ().

Przykład: Trzy probabilistyczne klastry

Stopień należności obiektu do klastra Obiekt x należy do klastra A z prawdopodobieństwem: gdzie f(x; A ; A ) - rozkład normalny ] [ ). ; ; ( ] [ ] [ ]. [ ] [ x P p x f x P A P A x P x A P A A A 2 2 2 ) ( 2 1 ) ; ; ( x e x f

Algorytm EM EM Expection - Maximization Dana jest liczba klastrów k. Cel: Dla każdego atrybutu rzeczywistego znaleźć k układów parametrów ( i, i, p i ) dla i =1,..,k (opisów k klastrów). Dla uproszczenia opisu, niech k = 2 Algorytm jest opisany dla wybranego atrybutu.

Algorytm EM Idea: adoptować algorytm k centroidów. Krok 1. Wybierz losowo 2 układy parametrów ( A, A, p A ) i ( B, B, p B ); Krok 2. Oblicz oczekiwane stopnie przynależności obiektów do klastrów ( expectation step) Krok 3. Wyznacz nowe układy parametrów w celu maksymalizacji funkcji jakości likelihood ( maximization step); Krok 4. Powtórz krok 2 dopóty, póki poprawa jakości będzie mała.

Funkcja oceny jakości Funkcja dopasowania likelihood : dla dwóch klastrów A i B: i ( p. P[ x A] p. P[ x B]) A i B i

Wyznaczanie nowych parametrów Szuka się dwóch układów parametrów: ( A, A, p A ) i ( B, B, p B ) Jeśli w i jest stopniem przynależności i tego obiektu do klastra A to : n n n A w w w x w x w w x...... 2 1 2 2 1 1 n A n n A A A w w w x w x w x w... ) (... ) ( ) ( 2 1 2 2 2 2 2 1 1 2

Bibliografia Brian S. Everitt (1993). Cluster analysis. Oxford University Press Inc. Ian H. Witten, Eibe Frank (1999). Data Mining. Practical ML Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers.