Przestrzeń algorytmów klastrowania

Podobne dokumenty
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Elementy statystyki wielowymiarowej

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

CLUSTERING. Metody grupowania danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Globalne zależności w klastrowaniu hierarchicznym

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Algorytm grupowania danych typu kwantyzacji wektorów

Hierarchiczna analiza skupień

Regresyjne metody łączenia klasyfikatorów

Co to jest grupowanie

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

TEORETYCZNE PODSTAWY INFORMATYKI

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Eksploracja danych w środowisku R

Grafy Alberta-Barabasiego

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Analiza stanów gry na potrzeby UCT w DVRP

Wykrywanie nietypowości w danych rzeczywistych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Agnieszka Nowak Brzezińska Wykład III

Przykładowa analiza danych

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Agnieszka Nowak Brzezińska

Metody selekcji cech

Metoda największej wiarygodności

Techniki grupowania danych w środowisku Matlab

Zmienne zależne i niezależne

Uczenie ze wzmocnieniem

4.3 Grupowanie według podobieństwa

Sztuczna Inteligencja Projekt

Adrian Horzyk

Agnieszka Nowak Brzezińska Wykład III

Multiklasyfikatory z funkcją kompetencji

Algorytm grupowania danych typu kwantyzacji wektorów

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Zastosowania sieci neuronowych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek

SPOTKANIE 2: Wprowadzenie cz. I

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

10. Redukcja wymiaru - metoda PCA

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

1 Klasyfikator bayesowski

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody systemowe i decyzyjne w informatyce

Ruch drogowy a sztuczna inteligencja. Paweł Gora , LVI Szkoła Matematyki Poglądowej

Optymalizacja. Przeszukiwanie lokalne

Sieci Kohonena Grupowanie

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

CLUSTERING METODY GRUPOWANIA DANYCH

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

TEORETYCZNE PODSTAWY INFORMATYKI

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Klasteryzacja danych

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Zagadnienie klasyfikacji (dyskryminacji)

Wstęp do przetwarzania języka naturalnego

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Sztuczna Inteligencja Projekt

Wybrane podstawowe rodzaje algorytmów

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki


Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Symulacja ruchu pojazdów w mieście

Grupowanie danych. Wprowadzenie. Przykłady

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

ALGORYTM RANDOM FOREST

Seminarium IO. Zastosowanie wielorojowej metody PSO w Dynamic Vehicle Routing Problem. Michał Okulewicz

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

a) 7 b) 19 c) 21 d) 34

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

MEODY GRUPOWANIA DANYCH

Ćwiczenia nr 4. TEMATYKA: Rzutowanie

SPOTKANIE 9: Metody redukcji wymiarów

Optymalizacja reguł decyzyjnych względem pokrycia

tablica: dane_liczbowe

P(F=1) F P(C1 = 1 F = 1) P(C1 = 1 F = 0) P(C2 = 1 F = 1) P(C2 = 1 F = 0) P(R = 1 C2 = 1) P(R = 1 C2 = 0)

Zad. 3: Układ równań liniowych

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Monitorowanie i Diagnostyka w Systemach Sterowania

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Tematy projektów Edycja 2014

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Czym jest analiza skupień?

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I

Elementy modelowania matematycznego

Optymalizacja. Wybrane algorytmy

Transkrypt:

20 listopada 2008

Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty

Praca źródłowa Podstawowe pojęcia Przykłady algorytmów klastrowania Landscape of Clustering Algorithms Anil K. Jain, Alexander Topchy, Martin H.C. Law, and Joachim M. Buhmann * Michigan State University, East Lansing, USA * Institute of Computional Science, ETH Zentrum, Zurich, Switzerland

Co to jest klasteryzacja? Podstawowe pojęcia Przykłady algorytmów klastrowania Reprezentacja podziału na klastry Podział na klastry możemy reprezentować poprzez funkcję P X : X N, która przypisuje każdej obserwacji ze zbioru X liczbę naturalną oznaczającą numer klastru. Dla danego X przez P X oznaczamy przestrzeń podziałów zbioru X. Zadanie Z algorytmem klasteryzacji możemy utozsamiać funkcję celu F X : P X R, która dla danego zbioru obserwacji X, ocenia podział. Algorytmy klasteryzacji znajdują maksimum funkcji F X.

Reprezentacja danych Podstawowe pojęcia Przykłady algorytmów klastrowania Przykłady według cech Dane o obserwacjach są w macierzy X o wymiarach n na p, gdzie n to liczba przykładów, a p to liczba cech (atrybutów).

Reprezentacja danych II Podstawowe pojęcia Przykłady algorytmów klastrowania Macierz odległości Macierz o wymiarach n na n, gdzie n to liczność zbioru danych. Posiadamy jedynie dane o odległościach (mniej informacji).

Podstawowe pojęcia Przykłady algorytmów klastrowania Algorytmy klastrowania hierarchicznego Ogólny schemat działania algorytmów hierarchicznych: Inicjalizacja: każdy obiekt umieść w oddzielnym klastrze for(i in 1..(n-1)) Połącz 2 najbliższe klastry Odnów macierz odległości pomiędzy klastrami Podstawowe metody liczenia odległości pomiędzy klastrami: single-link: D k.ij = min(d k.i, D k.j ) complete-link: D k.ij = max(d k.i, D k.j ) average-link: D k.ij = n i n i +n j D k.i + n j n i +n j D k.j

Algorytm k-średnich Podstawowe pojęcia Przykłady algorytmów klastrowania Inicjalizacja: C-podział startowy repeat for(k in 1..K) m k = argmin m i C k X i m 2 = i C k X i n for(i in 1..N) until OK C(i) = argmin X i m k 2 k Uwaga! Środek nie musi należeć do zbioru obserwacji.

Podstawowe pojęcia Przykłady algorytmów klastrowania Jak klastrować algorytmy klastrowania? Porównywanie optymalizowanej funkcji celu Porównywanie wyników algorytmów

Odległość algorytmów klastrowania Odległość algorytmów klastrowania Odległość podziałów Założenie Odległość D(F 1, F 2 ) pomiędzy algorytmami klastrowania na zbiorze danych X można przybliżać jako odległość d(, ) pomiędzy podziałami P1 X oraz PX 2 zbioru X na klastry. Zgodnie z założeniem definiujemy: D X (F 1, F 2 ) = d(p X 1, P X 2 ) gdzie: P X i = argmax P X P X F i (P X )

Odległość podziałów Odległość algorytmów klastrowania Odległość podziałów Odległość dwóch podziałów zbioru X będziemy liczyć ze wzoru (jest to tak zwany Rand index): d(p X 1, P X 2 ) = a + b a + b + c + d = a ( + b n 2) gdzie: a- liczba par elementów X, które należą do tego samego klastra dla obu podziałów b- liczba par elementów X, które należą do różnych klastrów w podziale P X 1 oraz PX 2 c- liczba par elementów X, które należą do tego samego klastra w P X 1, ale do różnych w PX 2 d- liczba par elementów X, które należą do różnych klastrów w P X 1, ale do tego samego klastra w PX 2 n- liczba elementów X

Zbiory danych Dane wejściowe Eksperymenty Użyto rzeczywistych zbiorów danych pobranych z bazy UCI Machine Learning Repository. Atrybuty z NULL owymi wartościami zostały pominięte. Dermatology Galaxy Glass Heart Ionosphere Iris Letter recognition (A,B,C) Segmentation Texture Letter recognition (X,Y,Z) Wdbc Wine Tabela: Wykorzystane zestawy danych

Algorytmy Dane wejściowe Eksperymenty Zbadano 35 algorytmów klastrowania, numerowanych liczbami od 1..35. Niektóre z nich: Algorytm k-średnich (29) Algorytmy klastrowania hierarchicznego z użytymi metodami: SL(30), AL(5), CL(13) oraz Ward(35). Dwie wersje klastrowania spektralnego z dwoma różnymi parametrami odpowiedzialnymi za wpółczynniki skalowania

Algorytmy II Dane wejściowe Eksperymenty Algorytmy oparte na 7 funkcjach celu zaimplementowane w programie CLUTO: max I 1 = k S i i=1 n i (27) max I 2 = k i=1 Si (28) min E 1 = k Si R i (18) i=1 n i min G 1 = k Si R i i=1 (19) min E 2 = k i=1 n2 Si R i i (20) max H 1 = I1 E 1 (25) max H 2 = I2 E 1 (26) gdzie n i to rozmiar klastra C i oraz S i = sim(x, y), R i = sum(x, y) x,y C i j x C i,y C j

Algorytmy III Dane wejściowe Eksperymenty Rodzina algorytmów realizujących ideę algorytmu kameleonu, wykorzystujące 7 algorytmów opisanych na poprzednim slajdzie. Algorytm kameleon posiada 2 fazy: podziału i łączenia. Do fazy podziału wykorzystano algorytm k-średnich, do wygenerowania dużej liczby małych klastrów. W zależności od algorytmu użytego w fazie łączenia otrzymano 7 algorytmów (6-12).

Algorytmy IV Dane wejściowe Eksperymenty 4 algorytmy grafowe, dokonujące podziału poprzez procedurę odcięcia w grafie najbliższych sąsiadów. Algorytmy te używają 4 definicji odległości, które kształtują strukturę sąsiedztwa w grafie: współczynnik korelacji funkcja cosinus odległość euklidesową odległość Jaccarda (d AB = A B A B )

Opis eksperymentu 1 Dane wejściowe Eksperymenty 1 Wyznaczenie macierzy odległości 35x35 pomiędzy algorytmami uśrednionej z 12 macierzy dla różnych danych 2 Skalowanie Sammona (stress value=0.0587) 3 Dendogram algorytmów metodą complete-link Rysunek: Przykład skalowania wielowymiarowego

Wyniki eksperymentu 1 Dane wejściowe Eksperymenty Obserwacje: algorytm K-średnich(29) w centrum przestrzeni algorytmy typu kameleon blisko siebie (6-12) algorytmy spektralne blisko siebie (31-34)

Opis eksperymentu 2 Dane wejściowe Eksperymenty 1 Przygotowano 12 sztucznych zestawów danych zawierających po 3 klastry wygenerowane z 2-wymiarowych rozkładów normalnych 2 Kolejne zbiory danych różnią się poziomem separowalności klastrów 3 W wyniku zmiejszania się separowalności klastrów obserwowano przemieszczanie się algorytmów w przestrzeni

Wyniki eksperymentu 2 Dane wejściowe Eksperymenty Rysunek:, ścieżki odpowiadają zmianom położenia algorytmów w wyniku zmiejszania odległości pomiedzy trzema klastrami