Monitorowanie i Diagnostyka w Systemach Sterowania

Podobne dokumenty
Klasteryzacja danych

CLUSTERING. Metody grupowania danych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Techniki grupowania danych w środowisku Matlab

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

dr inż. Michał Grochowski

Automatyka - zastosowania, metody i narzędzia, perspektywy

Hierarchiczna analiza skupień

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

4.3 Grupowanie według podobieństwa

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Algorytm grupowania danych typu kwantyzacji wektorów

Elementy statystyki wielowymiarowej

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

SZTUCZNA INTELIGENCJA

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytm grupowania danych typu kwantyzacji wektorów

TEORETYCZNE PODSTAWY INFORMATYKI

Przestrzeń algorytmów klastrowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Lekcja 5: Sieć Kohonena i sieć ART

Agnieszka Nowak Brzezińska

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Przykładowa analiza danych

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Wykład 10 Skalowanie wielowymiarowe

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

CLUSTERING METODY GRUPOWANIA DANYCH

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Metody systemowe i decyzyjne w informatyce

Metoda największej wiarygodności

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Widzenie komputerowe (computer vision)

Inteligentna analiza danych

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

Uczenie sieci radialnych (RBF)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Analiza korespondencji

Seminarium IO. Zastosowanie metody PSO w Dynamic Vehicle Routing Problem (kontynuacja) Michał Okulewicz

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Co to jest grupowanie

Komputerowa Analiza Danych Doświadczalnych

W poszukiwaniu sensu w świecie widzialnym

STATYSTYKA I DOŚWIADCZALNICTWO

Agnieszka Nowak Brzezińska Wykład III

Kwantyzacja wektorowa. Kodowanie różnicowe.

Reprezentacja rozmyta - zastosowania logiki rozmytej

Temat: ANFIS + TS w zadaniach. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści

STATYSTYKA I DOŚWIADCZALNICTWO

AUTOMATYKA INFORMATYKA

Seminarium IO. Zastosowanie wielorojowej metody PSO w Dynamic Vehicle Routing Problem. Michał Okulewicz

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

Macierze. Rozdział Działania na macierzach

Grupowanie danych. Wprowadzenie. Przykłady

Sieci Kohonena Grupowanie

Technologie i systemy oparte na logice rozmytej

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Analiza danych. TEMATYKA PRZEDMIOTU

1. Grupowanie Algorytmy grupowania:

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Elementy inteligencji obliczeniowej

Spacery losowe generowanie realizacji procesu losowego

Czym jest analiza skupień?

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Wykład wprowadzający

Agnieszka Nowak Brzezińska Wykład III

Teoretyczne podstawy informatyki

Systemy uczące się Lab 4

TEORETYCZNE PODSTAWY INFORMATYKI

TRANSFORMACJE I JAKOŚĆ DANYCH

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Systemy uczące się wykład 2

Pattern Classification

Zadania laboratoryjne i projektowe - wersja β

METODY INŻYNIERII WIEDZY

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Zagadnienie klasyfikacji (dyskryminacji)


Analiza Skupień Cluster analysis

10. Wstęp do Teorii Gier

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Programowanie Współbieżne. Algorytmy

Zagadnienia: równanie soczewki, ogniskowa soczewki, powiększenie, geometryczna konstrukcja obrazu, działanie prostych przyrządów optycznych.

Transkrypt:

Monitorowanie i Diagnostyka w Systemach Sterowania Katedra Inżynierii Systemów Sterowania Dr inż. Michał Grochowski

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Klasteryzacja danych na podstawie: Leszek Rutkowski. Metody i techniki sztucznej inteligencji. Wydawnictwo Naukowe PWN, Warszawa 2005; Matlab Statistics Toolbox User s Guide R2012a. The MathWorks, Inc. Opracował: dr inż. Michał Grochowski kiss.pg.mg@gmail.com michal.grochowski@pg.gda.pl Katedra Inżynierii Systemów Sterowania

Motywacja rozwój technologii cyfrowej (informacje z czujników pomiarowych, zdjęcia, bazy danych, digitalizacja zbiorów bibliotecznych, badania genetyczne, przeszukiwanie internetu, obróbka dźwięku i wideo etc ) kreuje coraz większe zbiory danych; szacuje się że w 2011 roku przetwarzanych było ok. 3*10 20 B danych; Youtube - ponad 800 mln miesięcznych użytkowników, którzy uploadują ponad godzinne materiały każdej sekundy (2013r.), co minutę przybywa ok 300g filmów (2015r); 40 000 zapytań w Google na sekundę (2015r) Dzienna ilość użytkowników Twittera 100 mln (2015); like na Facebooku 3 mld dziennie (2013r);

Motywacja 10 miliardów urządzeń jest podłączonych do internetu. Szacuje się że do 2020 będzie ich 50 mld i 100 trylionów do roku 2040 ( Internet of Things - IoT) ; National Oceanic and Atmospheric Administration (NOAA) aktualnie zbiera ponad 19 TB danych każdego roku (2013r). Zdajemy sobie sprawę z tego że to dopiero początek.

Wprowadzenie Celem klasteryzacji powinno być odnalezienie naturalnego grupowania wzorców, cech, obrazów, itp celem ich późniejszej łatwiejszej obróbki. 7 6 5 4 3 2 Klasteryzacja (grupowanie danych) jest jedną z metod nienadzorowanej analizy danych (w odróżnieniu od klasyfikacji). 1 5 4 3 2 4 5 6 7 8 Jej celem jest podział danych na klastry (grupy), tak aby każdy z nich zawierał możliwie podobne do siebie elementy (homogeniczność w grupach), a jednocześnie, poszczególne klastry powinny być jak najbardziej zróżnicowane pomiędzy sobą (heterogeniczność pomiędzy grupami).

Wprowadzenie Dane wejściowe Podobieństwo grup danych może być opisane na różne sposoby, w zależności od przyjętej miary. Grupy danych mogą być reprezentowane na różne sposoby, najczęściej poprzez centralny punkt w przestrzeni danych. Pożądane klastry W zależności od sposobu reprezentacji i przyjętej miary grupy mogą wyglądać zupełnie inaczej. W procesie grupowania danych nie posiadamy danych wzorcowych tak więc proces ten jest uczeniem bez nauczyciela. Jain, A.K. Data clustering: 50 years beyond K-means. Pattern Recognition Lett. (2009),

Wprowadzenie W zagadnieniach klasyfikacji często operujemy pojęciami: obiekty np. wina, kwiaty, pacjenci, samochody, klienci banków, użytkownicy portali społecznościowych, teksty, obrazy, dźwięki, geny cechy np. kolor, woń, smak; długość, kolor, długość płatków kwiatowych; wyniki badań medycznych, parametry samochodów; upodobania ludzkie, rodzaje wykonywanych operacji finansowych; wzorce graficzne; słowa kluczowe

Wprowadzenie Przyjmujemy, że dane podlegające grupowaniu zapisywane są w postaci macierzy X zawierającej M obiektów, składających się z numerycznych wartości opisujących obiekty (każda po N cech). Zakładając że grupy danych reprezentowane są przez ich środki, celem algorytmu grupowania danych jest uzyskanie c wektorów v i = [v i1,, v in ], i=1,, c będących reprezentantami poszczególnych grup w przestrzeni danych. W problemie grupowania 100 obiektów do 5ciu różnych grup, mamy możliwość podziału tych danych na 6.57 e 67 różnych sposobów!!!!!!! Celem jest zatem znalezienie efektywnego algorytmu grupowania danych pozwalającego na znalezienie optymalnego (suboptymalnego) podziału tych danych bez konieczności analizy wszystkich możliwych kombinacji.

Wprowadzenie Przy założeniu 1 mln obrazów i czasie porównywania pary obrazów ok. 10 ms., otrzymamy czas realizacji zapytania ok. 30 godzin; jednak aplikacje porównujące (wyszukujące) tekst działają znacznie szybciej: 10 miliardów dokumentów tekstowych jest przeszukiwana przez Google w ok. 0.1 sekundy!!! (a) a pair of similar images has 370 matching key points; (b) a pair of different images has 64 matching key points. The green lines show the matching key-points between the images (Lee et al., 2008). Jain, A.K. Data clustering: 50 years beyond K-means. Pattern Recognition Lett. (2009),

Metody klasteryzacji grupujące (ostre, rozmyte, posybilistyczne); hierarchiczne

Ostre i rozmyte podziały danych Ostre grupowanie danych Celem ostrego grupowania danych jest podział danych na c grup A i, tak aby: Interpretacja: A i A j A i c i1, A X, X i 1 i j 1 i (1) zbiór wszystkich grup zawiera wszystkie wektory danych, a każdy obiekt należy dokładnie do jednej grupy; (2) grupy danych są rozłączne; (3) żadna z grup nie jest pusta ani nie zawiera całego zbioru danych X. Aby podzielić dane na c grup, wygodnie jest przyjąć macierz podziału U o wymiarach cxm, zawierającą stopnie przynależności ᴜ ik k-tej danej do i-tej grupy k=1,, M; i=1,, c. c c (1) (2) (3)

Ostre i rozmyte podziały danych Ostre grupowanie danych Definicja: Niech X = [x 1,, x M ] będzie zbiorem skończonym i c, 2 c <M, liczbą całkowitą. Przestrzeń ostrego podziału danych zbioru X oznaczamy następująco: Z H c c x M U R {0,1}, i, k; 1, k; 0 M, i ik M ik i1 k 1 ik Powyższy podział zakłada, że obiekt należy wyłącznie do jednej grupy i nie istnieją puste grupy ani też grupy zawierające wszystkie obiekty.

Ostre i rozmyte podziały danych Nieostre grupowanie danych Wadą grupowania ostrego jest konieczność przydziału danych do którejś z grup, nawet jeśli intuicyjnie dane te do żadnej z grup nie powinny przynależeć. Istnieją dwie grupy metod nieostrego podziału danych: rozmyte (probabilistyczne); posybilistyczne. W obu metodach obiekty mogą należeć do dowolnej ilości grup z różnym stopniem przynależności do danej grupy (z zakresu [0-1]). W podziale rozmytym dodatkowo wymaga się aby suma stopni przynależności danego obiektu do każdej z c grup wynosiła 1.

Ostre i rozmyte podziały danych Rozmyte grupowanie danych Definicja: Niech X = [x 1,, x M ] będzie zbiorem skończonym i c, 2 c <M, liczbą całkowitą. Przestrzeń rozmytego podziału danych zbioru X oznaczamy następująco: Z F c c x M U R [0,1], i, k; 1, k; 0 M, i ik M ik i1 k 1 ik Powyższy podział zakłada, że obiekt może należeć jednocześnie do wszystkich grup, z pewnym stopniem przynależności. Dodatkowo suma wszystkich stopni przynależności musi być równa 1. Ponadto żadna z grup nie może być pusta ani nie zawierać całego zbioru danych X.

Ostre i rozmyte podziały danych Posybilistyczne grupowanie danych Definicja: Niech X = [x 1,, x M ] będzie zbiorem skończonym i c, 2 c <M, liczbą całkowitą. Przestrzeń posybilistycznego podziału danych zbioru X oznaczamy następująco: Z P c x M U R [0,1], i, k; k, i, 0; 0 M, i ik ik M k 1 ik

Ostre i rozmyte podziały danych 6 4 Ostre grupowanie danych Cluster 1 Cluster 2 2 0-2 -4-6 -6-4 -2 0 2 4 6 8

Ostre i rozmyte podziały danych 6 Nieostre grupowanie danych Cluster 1 Cluster 2 4 2 0-2 -4-6 -6-4 -2 0 2 4 6 8

Ostre i rozmyte podziały danych Nieostre grupowanie danych 1 0.9 Cluster 1 Score Cluster 2 Score 0.8 0.7 Cluster Membership Score 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 300 Point Ranking

Miary odległości Niezmiernie istotnym czynnikiem wpływającym na wynik podziału danych jest sposób obliczania odległości pomiędzy obiektami zbioru danych. W przypadku grupowania danych mierzymy odległości w przestrzeni cech. Najczęściej stosowaną miarą odległości jest miara euklidesowa, interpretowana jako geometryczna odległość między dwoma punktami w przestrzeni X. Rozważmy dwa punkty o współrzędnych x s =[x 1, x 2,, x m ] oraz x t =[x 1, x 2,, x m ] i policzmy odległości pomiędzy nimi zgodnie z normami: Euklidesowa; Euklidesowa ważona (odchyleniem standardowym); Manhattan (city block); Mahalanobis; Czebyszewa; Hamminga; Cosine.

Miary odległości Miara euklidesowa d n j1 ( x s x t 2 ) W zapisie wektorowym: d ( xs xt )( xs xt 1 )' 2 Miara Euklidesowa jest uogólnieniem metryki Minkowskiego dla r =2: d n j1 x sj x tj r 1 r Matlab D = pdist(x,'euclidean') gdzie: D zbiór danych

Miary odległości Miara Manhattan (city block) Miara Manhattan (city block) jest miarą przy r=1: d n j1 x sj x tj Wszystkie odległości według miary city block wynoszą 12, natomiast odległość Euklidesowa (zielona) wynosi: 6 2 8.48, i jest najkrótszą możliwa ścieżką. źródło: http://en.wikipedia.org/wiki/taxicab_geometry Matlab D = pdist(x, 'cityblock') gdzie: D zbiór danych

Miary odległości Miara Hamminga W przypadku zmiennych binarnych miara Manhattan staje się miarą Hamminga i określa liczbę bitów o którą różnią się dwa ciągi bitów. Ciągi te mogą reprezentować np. czarno-białe obrazy. Matlab D = pdist(x, hamming') gdzie: D zbiór danych

Miary odległości Miara Mehalanobisa Miary Minkowskiego są podatne na różnice w wielkości poszczególnych zmiennych (te większe dominują nad mniejszymi). Rozwiązaniem jest wprowadzenie wag (macierz A): Gdy macierz A: d ( xs xt ) A( xs xt 1 A 1 )' 2 przy czym jest macierzą diagonalną (nxn) odchyleń standardowych, otrzymujemy miarę Euklidesową ustandaryzowaną: Gdy macierz A: 1 A R przy czym R jest macierzą (nxn) kowariancji danych, otrzymujemy miarę Mehalanobisa. Matlab D = pdist(x,'mahalanobis') D = pdist(x,'seuclidean') gdzie: D zbiór danych

Algorytmy grupowania danych Algorytm HCM (Hard k-means) Algorytm HCM dzieli jednoznacznie dane X na c grup. W trakcie realizacji algorytmu obliczamy odległość pomiędzy każdym wektorem: i środkiem grupy: n xk R, k 1,, M v i, i 1,, c Środek grupy jest średnią położenia wszystkich obiektów należących do tej grupy. Przynależność do grupy opisujemy za pomocą macierzy: U [ ] ik Z H Elementami macierzy U są zera i jedynki określające przynależność obiektu x k do i-tej grupy. Inicjalizacja algorytmu polega na wyborze liczby grup c i ustaleniu początkowego położenia ich środków np. losowo.

Algorytmy grupowania danych V (0) R X, c, t 1 nxc, U (0) Z H Algorytm HCM (Hard K-Means) ( t) ik 1 0 gdy x k v ( t1) i v w przeciwnymwypadku x k ( t1) j, dla każ deg o j i Warunek stopu: U U ( t 1) ( t) lub: v ( t) i M k 1 M k 1 ( t) ik x ( t) ik k V V ( t 1) ( t) Algorytm może dać różne wyniki w zależności od początkowego położenia środków grup Warunek stopu STOP T N t=t+1

Algorytmy grupowania danych Algorytm FCM (Fuzzy C-Means), znany również jako Soft k-means Algorytm FCM pozwala przypisać te same obiekty do różnych grup z odpowiednimi stopniami przynależności. Wszystkie grupy maja ten sam kształt, zależny od przyjętej normy, bo algorytm nie ma możliwości dostosowywania macierzy A do istniejących danych. Algorytm minimalizuje kryterium: c M J ( X ; U, V ) ( ) U i1 k 1 U jest macierzą podziału zbioru X, natomiast V jest wektorem środków, które mają być określone w wyniku działania algorytmu. V [ v, v2 v ik [ ] m ik Z F n,, vc ], vi R, i 1,, c 1 x k i 2 A

Algorytmy grupowania danych V (0) R X, c,, m, t 1 nxc, U (0) Z F Algorytm FCM (Fuzzy C-Means) ( t) ik 1 2 c ( t1) m x v 1 k i, 1 i c, 1 k t j ( 1) xk v 1 j M Warunek stopu: U U ( t 1) ( t) lub: v ( t) i M ( t) m ik xk k 1, 1 M ( t) m ik k 1 i c V V ( t 1) ( t) Algorytm może dać różne wyniki w zależności od początkowego położenia środków grup Warunek stopu STOP T m N t=t+1 1 FCM HCM

Algorytmy grupowania danych Algorytm PCM (Possibilistic C-Means) Algorytm FCM zakłada że suma stopni przynależności danego obiektu do każdej z grup jest zawsze równa 1. Może to spowodować niepożądane przesunięcia środków w przypadku występowania pojedynczych przypadkowych danych (outliers). Rezygnacja z tego ograniczenia prowadzi do PCM. Algorytm minimalizuje kryterium: c M i1 k 1 ik i1 k i 2 A c M m J ( X ; U, V ) ( ) x v (1 ) i k 1 Drugi człon wymusza jak największe stopnie przynależności. i (>0) określa tzw. szerokość wynikowego rozkładu posybilistycznego. Niewłaściwa inicjalizacja algorytmu może spowodować że wszystkie stopnie przynależności będą sobie równe, więc najczęściej najpierw stosujemy FCM. ik m

Algorytmy grupowania danych Gaussian Mixture Models (GMM) Algorytm opisuje klastry poprzez modele opisane rozkładem Gaussa o odpowiedniej średniej i kowariancji Rozkład Gaussa N( x / x, ) (2 ) 1 d / 2 1/ 2 2 1 exp T 1 x x x

Algorytmy grupowania danych Gaussian Mixture Models (GMM) Algorytm opisuje klastry poprzez modele opisane rozkładem Gaussa o odpowiedniej średniej i kowariancji Model Gaussa Rozkład Gaussa N( x / x, ) (2 ) 1 d / 2 1/ 2 2 1 exp T 1 x x x

Algorytmy grupowania danych Gaussian Mixture Models (GMM) Superpozycja k lokalnych modeli Gaussa Superpozycja lokalnych modeli Gaussa K p( x) k N( x / x K k 1 k 1 normalizacja modelu: k, 1 0 1 k k ) α k można interpretować jako prawdopodobieństwo przynależności do danego modelu lokalnego: k p( x) K k 1 p( k) p( x / k)

Metody klasteryzacji Klasteryzacja hirarchiczna (hierarchical clustering)

Klasteryzacja hierarchiczna Klasteryzacja hierarchiczna jest metodą grupowania danych w różnej skali poprzez tworzenie drzewa klastrów zwanego dendrogramem. Drzewo nie jest zwyczajnym zbiorem klastrów a raczej wielopoziomową strukturą hierarchiczną, w której to klastry jednego poziomu tworzą (po połączeniu) klaster na poziomie wyższym. Dzięki temu możemy uzyskać odpowiedni do naszych potrzeb stopień klasteryzacji. 2.5 2 1.5 1 4 5 1 3 2

Klasteryzacja hierarchiczna Można wyróżnić dwa sposoby klasteryzacji hierarchicznej: klasteryzacja skupiająca zaczynamy od pojedynczych elementów stanowiących klastry, a następnie w kolejnych krokach łączymy klastry na kolejnych poziomach, aż do uzyskania jednej grupy skupiającej wszystkie obiekty; klasteryzacja dzieląca zakładamy że wszystkie dane należą do jednego klastra, a w kolejnych krokach dokonujemy podziału klastra na kolejne, aż do momentu gdy każdy z elementów będzie stanowił pojedynczy klaster. 2.5 2 1.5 1 4 5 1 3 2

Klasteryzacja hierarchiczna źródło: Lecture Notes: Applied Machine Learning. LASA Laboratory, EPFL CH-1015 Lausanne, Switzerland.

Klasteryzacja hierarchiczna źródło: Lecture Notes: Applied Machine Learning. LASA Laboratory, EPFL CH-1015 Lausanne, Switzerland.

Klasteryzacja hierarchiczna Algorytm klasteryzacji hierarchicznej przy użyciu Matlab Statistic Toolbox (skrajnie uproszczony!!): 1. Znajdź miary podobieństwa (odległości wedle przyjętej metryki) pomiędzy wszystkimi parami elementów danego zbioru danych. (Matlab: pdist wiele miar podobieństwa); 2. Zgrupuj dane w binarne, hierarchiczne drzewo klastrów (łączenie bliskich elementów/klastrów ) W tym kroku grupujemy bliskie elementy zbioru przy użyciu polecenia linkage. Polecenie to wykorzystuje miary podobieństwa obliczone w poprzednim kroku (pdist). Nowo powstałe grupy poddawane są kolejnym łączeniom (na podstawie miar podobieństwa) w kolejne, większe klastry aż do momentu gdy zostanie utworzone pełne drzewo. (Matlab: linkage); 3. Zdecyduj w którym miejscu potniesz drzewo na klastry. W tym kroku wykorzystując polecenie cluster, odcinamy gałęzie drzewa i przypisujemy elementy poniżej cięcia do jednego klastra. Funkcja cluster, umożliwia tworzenie klastrów poprzez detekcję naturalnego podziału danych oraz poprzez arbitralne narzucanie ilości klastrów. (Matlab: cluster);

Przykłady

Przykłady 2 klastry 200 400 600 800 1000 1200 1400 200 400 600 800 1000 1200

Przykłady 3 klastry 200 400 600 800 1000 1200 1400 200 400 600 800 1000 1200

Przykłady 5 klastrów 200 400 600 800 1000 1200 1400 200 400 600 800 1000 1200

Przykłady 10 klastrów 200 400 600 800 1000 1200 1400 200 400 600 800 1000 1200

Przykłady

Przykłady 2 klastry

Przykłady 3 klastry

Przykłady 5 klastrów

Przykłady 10 klastrów

Przykłady 50 klastrów

Przykłady 70 klastrów

Przykłady

Przykłady 2 klastry

Przykłady 3 klastry

Przykłady 10 klastrów

Przykłady 20 klastrów

Przykłady 50 klastrów

Przykłady 70 klastrów

Przykłady Rozmiar: 4096x4096!!!

Przykłady 2 klastry

Przykłady 3 klastry

Przykłady 10 klastrów

Przykłady 20 klastrów

Dziękuję za uwagę