Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Podobne dokumenty
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Grupowanie danych. Wprowadzenie. Przykłady

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza Skupień Cluster analysis

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Hierarchiczna analiza skupień

1. Grupowanie Algorytmy grupowania:

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

CLUSTERING. Metody grupowania danych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Sieci Kohonena Grupowanie

Elementy statystyki wielowymiarowej

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2

Wykład 10 Skalowanie wielowymiarowe

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

Diagnozowanie sieci komputerowej na podstawie opinii diagnostycznych o poszczególnych komputerach sieci

TEORETYCZNE PODSTAWY INFORMATYKI

Czym jest analiza skupień?

Wstęp do grupowania danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Taksonomia numeryczna co to jest?

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Zad. 3: Układ równań liniowych

Agnieszka Nowak Brzezińska

Projektowanie rozmieszczenia stanowisk roboczych

Wstęp do Techniki Cyfrowej... Teoria automatów

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

4.3 Grupowanie według podobieństwa

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Kwantyzacja wektorowa. Kodowanie różnicowe.

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Zagadnienie klasyfikacji (dyskryminacji)

Algorytm grupowania danych typu kwantyzacji wektorów

Elementy modelowania matematycznego

Lekcja 5: Sieć Kohonena i sieć ART

0 + 0 = 0, = 1, = 1, = 0.

Algorytm grupowania danych typu kwantyzacji wektorów

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja danych - wykład II

Agnieszka Nowak Brzezińska Wykład III

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8] a[9] a[10]

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

Schemat programowania dynamicznego (ang. dynamic programming)

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

STATYSTYKA I DOŚWIADCZALNICTWO

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

SZTUCZNA INTELIGENCJA

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

miejsca przejścia, łuki i żetony

Obliczenia iteracyjne

Techniki grupowania danych w środowisku Matlab

Przestrzeń algorytmów klastrowania

Wykład z Technologii Informacyjnych. Piotr Mika

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Wyszukiwanie tekstów

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Sieci Petriego. Sieć Petriego

Układy stochastyczne

Agnieszka Nowak Brzezińska Wykład III

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Temat: Algorytm kompresji plików metodą Huffmana

Podstawy Programowania Obiektowego

Język programowania zbiór reguł określających, które ciągi symboli tworzą program komputerowy oraz jakie obliczenia opisuje ten program.

Wykład nr 3 Techniki Mikroprocesorowe. dr inż. Artur Cichowski

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

1 Automaty niedeterministyczne

Analiza skupień. Idea

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Teoria układów logicznych

Zadania laboratoryjne i projektowe - wersja β

Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1

Przybliżone algorytmy analizy ekspresji genów.

Kody blokowe Wykład 2, 10 III 2011

Wykład 16. P 2 (x 2, y 2 ) P 1 (x 1, y 1 ) OX. Odległość tych punktów wyraża się wzorem: P 1 P 2 = (x 1 x 2 ) 2 + (y 1 y 2 ) 2

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Definicja pliku kratowego

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Sztuczna inteligencja : Algorytm KNN

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Zmienne zależne i niezależne

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Transkrypt:

Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1

Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie obiektów w klasy (klastry, skupienia) obiektów o podobnych cechach Grupowanie proces grupowania obiektów, rzeczywistych bądź abstrakcyjnych, w klasy, nazywane klastrami lub skupieniami, o podobnych cechach Grupowanie (2)

Czym jest klaster? Istnieje wiele definicji Zbiór obiektów, które są podobne Zbiór obiektów, takich, że odległość pomiędzy dwoma dowolnymi obiektami należącymi do klastra jest mniejsza aniżeli odległość pomiędzy dowolnym obiektem należącym do klastra i dowolnym obiektem nie należącym do tego klastra Spójny obszar przestrzeni wielowymiarowej, charakteryzujący się dużą gęstością występowania obiektów Grupowanie (3)

Przykłady (1) Zbiór r dokumentów Zbiór punktów w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada jednemu słowu z określonego słownika Współrzędne dokumentu w przestrzeni są zdefiniowane względną częstością występowania słów ze słownika. Klastry dokumentów odpowiadają grupom dokumentów dotyczących podobnej tematyki Grupowanie (4)

Przykłady (2) Zbiór r sekwencji stron WWW Pojedyncza sekwencja opisuje sekwencję dostępów do stron WWW danego serwera realizowaną w ramach jednej sesji przez użytkownika Klastry sekwencji odpowiadają grupom użytkowników danego serwera, którzy realizowali dostęp do tego serwera w podobny sposób Grupowanie (5)

Składowe procesu grupowania (1) obiekt Ekstrakcja cech Reprezentacja obiektu Podobieństwo obiektów sprzężenie zwrotne grupowanie klastry Grupowanie (6)

Składowe procesu grupowania (2) Proces grupowania Reprezentacja obiektów (zawiera ekstrakcję/selekcję cech obiektów) Definicja miary podobieństwa pomiędzy obiektami (zależy od dziedziny zastosowań) Grupowanie obiektów (klastry) Znajdowanie charakterystyki klastrów Grupowanie (7)

Miary odległości (1) Dyskusja dotycząca podobieństwa, lub odległości, dwóch obiektów wymaga przyjęcia miary odległości pomiędzy dwoma obiektami x i y reprezentowanymi przez punkty w przestrzeni wielowymiarowej Klasyczne aksjomaty dla miary odległości 1. D(x, y) = 0 x = y 2. D(x, y) = D(y, x) 3. D(x, y) D(x, z) + D(z, y) (nierówność trójkąta) Grupowanie (8)

Miary odległości (2) Dana jest k-wymiarowa przestrzeń euklidesowa, odległość pomiędzy dwoma punktami x=[x 1, x 2,..., x k ] oraz y=[y 1, y 2,..., y k ] można zdefiniować następująco: Odległość euklidesowa: ( norma L 2 ") k ( xi i= 1 yi) 2 Odległość Manhattan: ( miara L 1 ") k i= 1 xi yi Grupowanie (9)

Miary odległości (3) Odległość max z wymiarów: ( norma L ") max k xi i = 1 yi Odległość Minkowskiego k ( ( xi i= 1 yi ) q ) 1/q W przypadku, gdy obiekty nie poddają się transformacji do przestrzeni euklidesowej, proces grupowania wymaga zdefiniowania innych miar odległości (podobieństwa): sekwencja dostępów do stron WWW, sekwencje DNA, sekwencje zbiorów, zbiory atrybutów kategorycznych, dokumenty tekstowe, XML, grafy, itp.. Grupowanie (10)

Inne miary odległości (1) Strony WWW: punkty w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada jednemu słowu z określonego słownika Idea: Podobieństwo (odległość) D(x, y) stron x i y zdefiniowane jako iloczyn skalarny wektorów reprezentujących strony x i y. Współrzędne dokumentu w przestrzeni są zdefiniowane jako względna częstość występowania słów ze słownika Np. przyjmijmy słownik składający się z 4 słów: x=[2,0,3,1] y=[5,3,2,0] x y=16 długość x= 14 długość y= 38 Grupowanie (11)

Inne miary odległości (2) Miara odległości D( x, y) = 1 xo y x y D(x,y)= 16 1 14 38 0.3 Załóżmy x=[a 1, a 2, a 3, a 4 ] i y=[2a 1, 2a 2, 2a 3, 2a 4 ] (strona y jest kopią x), wówczas D(x, y) = 0 Grupowanie (12)

Inne miary odległości (3) Sekwencje DNA, sekwencje dostępu do stron WWW: definicja odległości (podobieństwa) sekwencji symboli, powinna uwzględniać fakt, że sekwencje mogą mieć różną długość oraz różne symbole na tych samych pozycjach, np.: x= abcde y= bcdxye Miara odległości D( x, y) = x + y 2 LCS ( x, y) gdzie LCS oznacza najdłuższą wspólną podsekwencję (ang. longest common subsequence) (LCS(x,y) = bcde). Stąd, D(x, y) = 3 Grupowanie (13)

Zmienne binarne (1) W jaki sposób obliczyć podobieństwo (lub niepodobieństwo) pomiędzy dwoma obiektami opisanymi zmiennymi binarnymi: Podejście: konstruujemy macierz niepodobieństwa obiekt j 1 0 Sum obiekt i 1 0 Sum q s q+s r t r+t q+r s+t p q liczba zmiennych przyjmujących wartość 1 dla obu obiektów r... 1 dla obiektu i, i wartość 0 dla j s... 0 dla obiektu i, i wartość 1 dla j t... 0 dla obu obiektów p=q+r+s+t łączna liczba zmiennych Grupowanie (14)

Zmienne binarne (2) Zmienne binarne symetryczne Zmienną binarną nazywamy symetryczną jeżeli obie wartości tej zmiennej posiadają tą samą wagę (np. płeć). Niepodobieństwo pomiędzy obiektami i oraz j jest zdefiniowane następująco d ( i, j) = q r + r + + s s + t Grupowanie (15)

Zmienne binarne (3) Zmienne binarne asymetryczne zmienną binarną nazywamy asymetryczną jeżeli obie wartości tej zmiennej posiadają różne wagi (np. wynik badania EKG) Niepodobieństwo pomiędzy obiektami i oraz j jest zdefiniowane następująco: d ( i, j) = q r + + r s + s Grupowanie (16)

Zmienne binarne (4) Dana jest tablica zawierająca informacje o pacjentach imię ból gorączka katar test1 test2 test3 test4 Jack Y Y N P N N N Mary N Y N P N P N Jim Y Y Y N N N N........................ 2 2 (jack,mary) = = 0.5 d sym ( jack, mary) = = 0. 4 7 2 2 d asym ( jack, jim) = = 0.5 d sym ( jack, jim) = = 0. 29 4 7 4 4 d asym ( jim, mary) = = 0.8 d sym (jim,mary) = = 0. 57 5 7 dasym 29 Grupowanie (17)

Zmienne kategoryczne Zmienna kategoryczna jest generalizacją zmiennej binarnej: może przyjmować więcej niż dwie wartości (np. dochód: wysoki, średni, niski) Niepodobieństwo (podobieństwo) pomiędzy obiektami i, j, opisanymi zmiennymi kategorycznymi, można zdefiniować następująco: d(i, j) = p m p d(i, j) = p p n = d (i, j) = m p gdzie p oznacza łączną liczbę zmiennych, m oznacza liczbę zmiennych,których wartość jest identyczna dla obu obiektów, n oznacza liczbę zmiennych, których wartość jest różna dla obu obiektów Grupowanie (18)

Metody grupowania Typy metod Istnieje wiele różnych metod i algorytmów grupowania: Dla danych liczbowych i/lub danych symbolicznych Deterministyczne i probabilistyczne Rozłączne i przecinające się Hierarchiczne i płaskie Monoteiczny i politeiczny Przyrostowe i nieprzyrostowe Grupowanie (19)

Metody grupowania (1) Klasyfikacja metod hierarchical partitional single link complete link square error graph theoretic mixture resolving mode seeking k- means k-medoid EM Grupowanie (20)

Metody grupowania (4) Dwa podstawowe podejścia do procesu grupowania obiektów: Metody hierarchiczne generują zagnieżdżoną sekwencję podziałów zbiorów obiektów w procesie grupowania Metody z iteracyjno-optymalizacyjne optymalizacyjne generują tylko jeden podział (partycję) zbioru obiektów w dowolnym momencie procesu grupowania Grupowanie (21)

Metody grupowania hierarchicznego (1) F G A B C D E obiekty A B C D E F G dendrogram Metoda grupowania hierarchicznego polega na sekwencyjnym grupowaniu obiektów drzewo klastrów (tzw. dendrogram) Grupowanie (22)

Metody grupowania hierarchicznego (2) Podejście podziałowe owe (top-down): początkowo, wszystkie obiekty przypisujemy do jednego klastra; następnie, w kolejnych iteracjach, klaster jest dzielony na mniejsze klastry, które, z kolei, dzielone są na kolejne mniejsze klastry Podejście aglomeracyjne (bottom-up): początkowo, każdy obiekt stanowi osobny klaster, następnie, w kolejnych iteracjach, klastry są łączone w większe klastry Grupowanie (23)

Miary odległości (1) W obu podejściach, aglomeracyjnym i podziałowym, liczba klastrów jest ustalona z góry przez użytkownika i stanowi warunek stopu procesu grupowania 4 podstawowe (najczęściej stosowane) miary odległości pomiędzy klastrami są zdefiniowane następująco, gdzie p p oznacza odległość pomiędzy dwoma obiektami (lub punktami) p i p, m i oznacza średnią wartość klastra C i, i n i oznacza liczbę obiektów należących do klastra C i Grupowanie (24)

Miary odległości (2) Minimalna odległość ść: d min min ' ( C, C ) = p p i j p C, p i C j ' Maksymalna odległość ść: d max max ' ( C, C ) = p p i j p C, p i C j ' Grupowanie (25)

Miary odległości (3) Odległość średnich: d ( C C ) =, m m mean i j i j Średnia odległość ść: d ( C C ) = 1/ ( n n ) p p ave i, j i j p ' C p C i j ' Grupowanie (26)

Ogólny hierarchiczny aglomeracyjny algorytm grupowania Dane wejściowe: baza danych D obiektów (n- obiektów) Dane wyjściowe: dendrogram reprezentujący grupowanie obiektów 1) umieść każdy obiekt w osobnym klastrze; 2) skonstruuj macierz odległości pomiędzy klastrami; 3) Dla każdej wartości niepodobieństwa dk (dk może się zmieniać w kolejnych iteracjach) powtarzaj Utwórz graf klastrów, w którym każda para klastrów, której wzajemna odległość jest mniejsza niż dk, jest połączona lukiem aż wszystkie klastry utworzą graf spójny Grupowanie (27)

Hierarchiczny aglomeracyjny algorytm grupowania Umieść każdy obiekt w osobnym klastrze. Skonstruuj macierz przyległości zawierającą odległości pomiędzy każdą parą klastrów Korzystając z macierzy przyległości znajdź najbliższą parę klastrów. Połącz znalezione klastry tworząc nowy klaster. Uaktualnij macierz przyległości po operacji połączenia Jeżeli wszystkie obiekty należą do jednego klastra, zakończ procedurę grupowania, w przeciwnym razie przejdź do kroku 2 Grupowanie (28)