Co to jest grupowanie

Podobne dokumenty
Algorytm grupowania danych typu kwantyzacji wektorów

Sztuczne sieci neuronowe (SNN)

Algorytm grupowania danych typu kwantyzacji wektorów

Uczenie sieci radialnych (RBF)

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Lekcja 5: Sieć Kohonena i sieć ART

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

Obliczenia inteligentne Zadanie 4

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Uczenie sieci typu MLP

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

wiedzy Sieci neuronowe

Monitorowanie i Diagnostyka w Systemach Sterowania

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

8. Neuron z ciągłą funkcją aktywacji.

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Systemy uczące się Lab 4

Wprowadzenie. SOM jest skrótem od Self Organizing Maps, czyli Samoorganizujące się mapy.

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Grupowanie VQ. Kwantyzacja wektorowa (VQ Vector Quantization) SOM Self-Organizing Maps. Wstępny podział na grupy. Walidacja grupowania

Optymalizacja ciągła

Asocjacyjna reprezentacja danych i wnioskowanie

Hierarchiczna analiza skupień

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Sieci Kohonena Grupowanie

Sztuczna inteligencja

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Zagadnienie klasyfikacji (dyskryminacji)

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Agnieszka Nowak Brzezińska Wykład III

Matematyka stosowana i metody numeryczne

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

METODY INŻYNIERII WIEDZY

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

METODY INŻYNIERII WIEDZY

Algorytmy zrandomizowane

Agnieszka Nowak Brzezińska

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Agnieszka Nowak Brzezińska Wykład III

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Spacery losowe generowanie realizacji procesu losowego

5. Rozwiązywanie układów równań liniowych

Metody Sztucznej Inteligencji II

Sieci neuronowe - projekt

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

ALGORYTM RANDOM FOREST

H-Adviser. Hybrydowy system wspomagania decyzji inwestycyjnych


SIECI REKURENCYJNE SIECI HOPFIELDA

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Skalowanie wielowymiarowe idea

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Zastosowania sieci neuronowych

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

SIECI RBF (RADIAL BASIS FUNCTIONS)

Sieć przesyłająca żetony CP (counter propagation)

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Sieci neuronowe w Statistica

Adrian Horzyk

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Rozwiązywanie układów równań liniowych

KADD Minimalizacja funkcji

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Wprowadzenie do badań operacyjnych - wykład 2 i 3

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Przykładowa analiza danych

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Projekt Sieci neuronowe

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Metody sztucznej inteligencji Zadanie 1: Perceptron Rosenblatt a w wersji nieliniowej

Wykład 5. Metoda eliminacji Gaussa

Podstawy Sztucznej Inteligencji (PSZT)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Rozpoznawanie obrazów

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Transkrypt:

Grupowanie danych

Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów

Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Grupowanie danych czyli uczenie nienadzorowane analiza skupień, klasteryzacja, grupowanie danych Ucząc model nie wiemy nic o tym czego czego mamy się nauczyć przykład: sieci samoorganizujące się Kochonena, Przykład: Czytając różne książki nie wiemy co się na ich podstawi nauczymy ale na pewno czegoś się nauczymy. Przykład: Mając dane dotyczące różnych kwiatów np. irysów (długości i szerokości kielicha oraz długości i szerokości płatka) chcemy się dowiedzieć iloma różnymi odmianami irysa dysponujemy

Co to jest grupowanie - przykłady Analiza dokumentów np.. www.clusty.com -> przykład Blachnik:

Podział metod grupowania danych Metody hierarchiczne Metody oparte o dekompozycję rozkładów prawdopodobieństwa Metody bazujące na minimalizacji skalarnego współczynnika jakości Metody oparte na teorii grafów,

Grupowanie chierarchiczne

Grupowanie chierarchiczne 30 x 1 20 20 10 x 2 10 x 1 20 x 2 x 1 25 25 10 x 2 x 1 x 2 x 3 x 4 5 x 3 x 4 x 3 x 4 x 3 x 4 avg(10,10) avg(30,20) x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4

Odległości pomiędzy skupiskami Minimum minimalna odległość pomiędzy elementami zbiorów x i x dmin ( i, j ) min x x' x Maksimum - x' j maksymalna odległość pomiędzy elementami zbiorów x i x d max (, ) j Norma różnicy wartości średnich d (, ) m m' m i i j j i max x i x' x x' x........... i d x...... j

Przykład 6 6 4 4 2 2 0-2 0-4 -2-6 -4-8 -6-4 -2 0 2 4 6-6 -6-4 -2 0 2 4 6 1.3 1.2 1.1 1 0.9 0.8 0.7 0.6 0.5 8 10 16 12 5 9 17 13 11 15 7 18 21 27 23 19 28 20 24 30 26 1 25 2 6 22 4 29 3 14

Metody oceny jakości grupowania Cophenetic correlation coefficien Z - wektor odległości drzewa (m-1)x3 Y - wektor odległości obiektów niezgrupowanych (m-1)m/2 x 1 Y ij odległość pomiędzy obiektami i oraz j w Y. Z ij odległość pomiędzy obiektami i oraz j w Z. y i z to odpowiednio wartości średnie Y i Z.

Grupowanie oparte o minimalizację skalarnego współczunnika jakości Algorytm K-średnich

Co to jest skalarny wsp. jakości Skalarny współczynnik jakości oznacza funkcję kosztu która informuje jak dobry jest dany podział na grupy. Najprostsza postać skalarnego współczynnika jakości to suma odległości środka centrum klastra w stosunku do wszystkich wektorów w danej grupie.

Przykład 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Oznaczenia K liczba wektorów, obiektów C liczba klasterów na które chcemy dokonać podziału x(k); k=1..k k-aty element z wektora obiektów X i ; i=1..c i-ty element wektora klastrów v i centrum klastra = centrum grupy (grupy wektorów)

Założenia grupowania Zbudować macierz podziału U=[u ik ],dim(u)=ck) Warunki: 1 o każdy element macierzy u ik należy do zbioru u ik {0,1} 2 o w każdej kolumnie suma elementów równa C jest 1 u ik i1 1 3 o suma w wierszach należy K - obrazów 1 1 1 1 1 0 0 1 0 0 1 0 0 1 0 0 1 2 3 C - Klastrów C - k K do przedziału uik 0, K k1

Algorytm k-średnich Wskaźnik jakości: J(U) K C k1i 1 2 u ik d ik gdzie: d x( k) v ik i v i zbiór (wektor) prototypów.

Algorytm k-średnich 1. Przyjmujemy macierz podziału U spełniającą trzy przedstawione uprzednio warunki K 2. Wyznacza się położenie prototypów: u 3. zwiększa się licznik iteracji z=z+1, 4. szukamy macierzy U tak, by wyznaczyć dla każdego elementu wektora danych x minimalną odległość od wzorców u 1 ik 1iC 1k K 0 x( k) v pozostaych 5. Sprawdzamy czy spełniony jest warunek U 1iC ik k 1 K 6. Jeśli różnica pomiędzy macierzami U w kolejnych iteracjach jest mniejsza od założonego to kończymy proces iteracji, jeśli nie to idź do 2 w min j U ( z) ( z 1) j v i x( k) v przypadkach i k 1 x( k) u ik

Przykład 6 4 2 0-2 -4-6 -8-6 -4-2 0 2 4 6 6 4 2 0-2 -4-6 -8-6 -4-2 0 2 4 6 6 4 2 0-2 -4-6 -8-6 -4-2 0 2 4 6 6 6 6 4 4 4 2 2 2 0 0 0-2 -2-2 -4-4 -4-6 -6-6 -8-6 -4-2 0 2 4 6-8 -6-4 -2 0 2 4 6-8 -6-4 -2 0 2 4 6

Algorytm VQ

Algorytm VQ Algorytm kwantyzacji wektorów (VQ = ang. vector quantization) Podobna zasada działania do k-średnich ale aktualizacji położenia wektora odbywa się po każdej prezentacji wektora uczącego W sieciach VQ centrum klastra nazywane jest również wektorem kodującycm, które w terminologii sieci neuronowych nazywane są również neuronami. W sieciach VQ wagi neuronów określają położenie neuronu w przestrzeni wejściowej (podobnie jak w algorytmie k-średnich)

Formuła aktualizacji Formuła aktualizacji położenia wektorów kodujących: v = v x v i i j i Gdzie: v i wektor kodujący podlegający aktualizacji (wektor kodujący nażący najbliżej wektora x j ) Współczynnik uczenia maleje z każdą iteracją programu x j j-ty wektory uczący

Algorytm VQ 1. Zainicjuj położenie wektorów kodujących 2. Iteracyjnie l-razy 1. Dla każdego wektora treningowego 1. Znajdź najbliższy wektor kodujący (dla danej metryki) 2. Dokonaj aktualizacji położenia (wag) neuronu zgodnie z zależnością (1) 2. Dokonaj aktualizacji wsp. wg. zależności (2)

Algorytm VQ Inicjalizacja wektorów kodujących: 1. Przez wybór wektorów kodujących spośród wektorów uczących w tym celu najlepiej jest wykorzystać istniejące już wektory danych i losowo wybrać ze zbioru danych wektory których położenie będzie inicjowało położenie neuronów 2. Poprzez w pełni losową inicjalizację zbadaj przestrzeń zmienności zmiennych wejściowych i wylosuj położenia wektorów kodujących 3. Poprzez PCA dokonaj redukcji wymiarowości korzystając z PCA, wyznacz w zredukowanej przestrzeni położenia wektorów kodujących i przetransformuj je do przestrzeni oryginalnej

Algorytm VQ a k-średnich Który lepszy? Algorytm k-średnich większa złożoność pamięciowa konieczność przechowywania macierzy przynależności. Dla dużych danych i dużej liczby klasterów jest to istotne ograniczenie Algorytm VQ mniejsza złożoność pamięciowa ale większa złożoność obliczeniowa każdy wektor treningowy powoduje konieczność aktualizacji położenia prototypu Aktualizacja położenia prototypu powoduje konieczność aktualizacji ponownego liczenia odległości. Czuły na kolejność prezentacji wzorców dlatego zalecane jest na wstępie losowe poukładanie wektorów. Z doświadczenia algorytm VQ jest lepszy od k- Średnich dzięki pozytywnemu wpływowi chaosu!!!

Sieci SOM

Sieci SOM SOM samoorganizujące mapy Kochonena Idea podobna do VQ z pewnymi dodatkami Dodatki to narzucenie wymogów sąsiedztwa na wektory kodujące Strategia typu WTM Winner Take Most, w sieciach VQ strategia WTA Winner Take All

Strategia WTM