Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Podobne dokumenty
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Grupowanie danych. Wprowadzenie. Przykłady

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza Skupień Cluster analysis

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Hierarchiczna analiza skupień

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

1. Grupowanie Algorytmy grupowania:

CLUSTERING. Metody grupowania danych

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Sieci Kohonena Grupowanie

Elementy statystyki wielowymiarowej

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Czym jest analiza skupień?

Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Taksonomia numeryczna co to jest?

Wstęp do grupowania danych

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do Techniki Cyfrowej... Teoria automatów

STATYSTYKA I DOŚWIADCZALNICTWO

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

TEORETYCZNE PODSTAWY INFORMATYKI

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Agnieszka Nowak Brzezińska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Projektowanie rozmieszczenia stanowisk roboczych

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

4.3 Grupowanie według podobieństwa

Diagnozowanie sieci komputerowej na podstawie opinii diagnostycznych o poszczególnych komputerach sieci

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1

Zadania laboratoryjne i projektowe - wersja β

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8] a[9] a[10]

Techniki grupowania danych w środowisku Matlab

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Sztuczna inteligencja : Algorytm KNN

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Analiza skupień. Idea

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

INFORMATYKA W SZKOLE. Podyplomowe Studia Pedagogiczne. Dr inż. Grażyna KRUPIŃSKA. D-10 pokój 227

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Język programowania zbiór reguł określających, które ciągi symboli tworzą program komputerowy oraz jakie obliczenia opisuje ten program.

1 Automaty niedeterministyczne

STATYSTYKA I DOŚWIADCZALNICTWO

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Agnieszka Nowak Brzezińska Wykład III

Bazy danych TERMINOLOGIA

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Systemy uczące się wykład 2

Obliczenia iteracyjne

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Skalowanie wielowymiarowe idea

Wykład 10 Skalowanie wielowymiarowe

ALGORYTMY. 1. Podstawowe definicje Schemat blokowy

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

SZTUCZNA INTELIGENCJA

miejsca przejścia, łuki i żetony

TEORIA GRAFÓW I SIECI

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytm grupowania danych typu kwantyzacji wektorów

Układy stochastyczne

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Sieci Petriego. Sieć Petriego

Algorytm grupowania danych typu kwantyzacji wektorów

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Kwantyzacja wektorowa. Kodowanie różnicowe.

Eksploracja danych - wykład II

Elementy modelowania matematycznego

1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie

Podstawy Programowania Obiektowego

Agnieszka Nowak Brzezińska Wykład III

ALGORYTMY. 1. Podstawowe definicje Schemat blokowy

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

Wykład z Technologii Informacyjnych. Piotr Mika

2. FUNKCJE. jeden i tylko jeden element y ze zbioru, to takie przyporządkowanie nazwiemy FUNKCJĄ, lub

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Systemy uczące się Lab 4

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Definicja pliku kratowego

Teoria układów logicznych

Zagadnienie klasyfikacji (dyskryminacji)

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Prawdopodobieństwo i statystyka

Transkrypt:

Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie obiektów w klasy (klastry, skupienia) obiektów o podobnych cechach Grupowanie: proces grupowania obiektów, rzeczywistych bądź abstrakcyjnych, w klasy, nazywane klastrami lub skupieniami, o podobnych cechach 1

Czym jest klaster? Istnieje wiele definicji: Zbiór obiektów, które są podobne Zbiór obiektów, takich, że odległość pomiędzy dwoma dowolnymi obiektami należącymi do klastra jest mniejsza aniżeli odległość pomiędzy dowolnym obiektem należącym do klastra i dowolnym obiektem nie należącym do tego klastra Spójny obszar przestrzeni wielowymiarowej, charakteryzujący się dużą gęstością występowania obiektów Zbiór dokumentów: Przykłady (1) Zbiór punktów w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada jednemu słowu z określonego słownika Współrzędne dokumentu w przestrzeni są zdefiniowane względną częstością występowania słów ze słownika. Klastry dokumentów odpowiadają grupom dokumentów dotyczących podobnej tematyk Przykłady (2) Zbiór sekwencji stron WWW: Pojedyncza sekwencja opisuje sekwencję dostępów do stron WWW danego serwera realizowaną w ramach jednej sesji przez użytkownika Klastry sekwencji odpowiadają grupom użytkowników danego serwera, którzy realizowali dostęp do tego serwera w podobny sposób 2

Składowe procesu grupowania (1) Składowe procesu grupowania (2) Proces grupowania: Reprezentacja obiektów (zawiera ekstrakcję/selekcję cech obiektów) Definicja miary podobieństwa pomiędzy obiektami (zależy od dziedziny zastosowań) Grupowanie obiektów (klastry) Znajdowanie charakterystyki klastrów Miary odległości (1) Dyskusja dotycząca podobieństwa, lub odległości, dwóch obiektów wymaga przyjęcia miary odległości pomiędzy dwoma obiektami x i y reprezentowanymi przez punkty w przestrzeni wielowymiarowej Klasyczne aksjomaty dla miary odległości 1. D(x, y) = 0 <-> x = y 2. D(x, y) = D(y, x) 3. D(x, y) D(x, z) + D(z, y) (nierówność trójkąta) 3

Miary odległości (2) Dana jest k-wymiarowa przestrzeń euklidesowa, odległość pomiędzy dwoma punktami x=[x1, x2,..., xk] oraz y=[y1, y2,..., yk] można zdefiniować: Odległość euklidesowa: Odległość Manhattan: Miary odległości (3) Odległość max z wymiarów: Odległość Minkowskiego: W przypadku, gdy obiekty nie poddają się transformacji do przestrzeni euklidesowej, proces grupowania wymaga zdefiniowania innych miar odległości (podobieństwa): sekwencja dostępów do stron WWW, sekwencje DNA, sekwencje zbiorów, zbiory atrybutów kategorycznych, dokumenty tekstowe, XML, grafy, itp.. Zmienne binarne (1) W jaki sposób obliczyć podobieństwo (lub niepodobieństwo) pomiędzy dwoma obiektami opisanymi zmiennymi binarnymi: Podejście: konstruujemy macierz niepodobieństwa q liczba zmiennych przyjmujących wartość 1 dla obu obiektów r... 1 dla obiektu i, i wartość 0 dla j s... 0 dla obiektu i, i wartość 1 dla j t... 0 dla obu obiektów p=q+r+s+t łączna liczba zmiennych 4

Zmienne binarne (2) Zmienne binarne symetryczne: Zmienną binarną nazywamy symetryczną jeżeli obie wartości tej zmiennej posiadają tą samą wagę (np. płeć) Niepodobieństwo pomiędzy obiektami i oraz j jest zdefiniowane następująco: Zmienne binarne (3) Zmienne binarne asymetryczne: zmienną binarną nazywamy asymetryczną jeżeli obie wartości tej zmiennej posiadają różne wagi (np. wynik badania EKG) Niepodobieństwo pomiędzy obiektami i oraz j jest zdefiniowane następująco: Zmienne binarne (4) Dana jest tablica zawierająca informacje o pacjentach 5

Zmienne kategoryczne Zmienna kategoryczna jest generalizacją zmiennej binarnej: może przyjmować więcej niż dwie wartości (np. dochód: wysoki, średni, niski) Niepodobieństwo (podobieństwo) pomiędzy obiektami i, j, opisanymi zmiennymi kategorycznymi, można zdefiniować następująco: gdzie p oznacza łączną liczbę zmiennych, m oznacza liczbę zmiennych,których wartość jest identyczna dla obu obiektów, n oznacza liczbę zmiennych, których wartość jest różna dla obu obiektów Metody grupowania - Typy metod Istnieje wiele różnych metod i algorytmów grupowania: Dla danych liczbowych i/lub danych symbolicznych Deterministyczne i probabilistyczne Rozłączne i przecinające się Hierarchiczne i płaskie Monoteiczny i politeiczny Przyrostowe i nieprzyrostowe Metody grupowania (1) Klasyfikacja metod 6

Metody grupowania (4) Dwa podstawowe podejścia do procesu grupowania obiektów: Metody hierarchiczne generują zagnieżdżoną sekwencję podziałów zbiorów obiektów w procesie grupowania Metody z iteracyjno-optymalizacyjne generują tylko jeden podział (partycję) zbioru obiektów w dowolnym momencie procesu grupowania Metody grupowania hierarchicznego (1) Obiekty A B C D E F G Metoda grupowania hierarchicznego polega na sekwencyjnym grupowaniu obiektów drzewo klastrów (tzw. dendrogram) Metody grupowania hierarchicznego (2) Podejście podziałowe (top-down): początkowo, wszystkie obiekty przypisujemy do jednego klastra; następnie, w kolejnych iteracjach, klaster jest dzielony na mniejsze klastry, które, z kolei, dzielone są na kolejne mniejsze klastry Podejście aglomeracyjne (bottom-up): początkowo, każdy obiekt stanowi osobny klaster, następnie, w kolejnych iteracjach, klastry są łączone w większe klastry 7

Metody grupowania hierarchicznego (2) Miary odległości (1) W obu podejściach, aglomeracyjnym i podziałowym, liczba klastrów jest ustalona z góry przez użytkownika i stanowi warunek stopu procesu grupowania: 4 podstawowe (najczęściej stosowane) miary odległości pomiędzy klastrami są zdefiniowane następująco, gdzie p p oznacza odległość pomiędzy dwoma obiektami (lub punktami), p i p, mi oznacza średnią wartość klastra Ci, ni oznacza liczbę obiektów należących do klastra Ci Minimalna odległość: Miary odległości (2) Maksymalna odległość: Odległość średnich: Średnia odległość: 8

Ogólny hierarchiczny aglomeracyjny algorytm grupowania Dane wejściowe: baza danych D obiektów (n- obiektów) Dane wyjściowe: dendrogram reprezentujący grupowanie obiektów 1) umieść każdy obiekt w osobnym klastrze; 2) skonstruuj macierz odległości pomiędzy klastrami; 3) Dla każdej wartości niepodobieństwa dk (dk może się zmieniać w kolejnych iteracjach) powtarzaj: Utwórz graf klastrów, w którym każda para klastrów, której wzajemna odległość jest mniejsza niż dk, jest połączona lukiem aż wszystkie klastry utworzą graf spójny Hierarchiczny aglomeracyjny algorytm grupowania Umieść każdy obiekt w osobnym klastrze. Skonstruuj macierz przyległości zawierającą odległości pomiędzy każdą parą klastrów Korzystając z macierzy przyległości znajdź najbliższą parę klastrów. Połącz znalezione klastry tworząc nowy klaster. Uaktualnij macierz przyległości po operacji połączenia Jeżeli wszystkie obiekty należą do jednego klastra, zakończ procedurę grupowania, w przeciwnym razie przejdź do kroku 2 Przykład (1) 9

Przykład (2) Przykład (3) Przykład (4) 10

Aglomeracyjny algorytm grupowania danych Rozdzielający algorytm grupowania danych 11