S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Podobne dokumenty
Wprowadzenie. SOM jest skrótem od Self Organizing Maps, czyli Samoorganizujące się mapy.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Lekcja 5: Sieć Kohonena i sieć ART

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

Co to jest grupowanie

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Monitorowanie i Diagnostyka w Systemach Sterowania

Sieci Kohonena Grupowanie

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Systemy uczące się Lab 4

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Obliczenia inteligentne Zadanie 4

Elementy inteligencji obliczeniowej

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

2

Uczenie sieci radialnych (RBF)

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Asocjacyjna reprezentacja danych i wnioskowanie

Sztuczna inteligencja

Grupowanie VQ. Kwantyzacja wektorowa (VQ Vector Quantization) SOM Self-Organizing Maps. Wstępny podział na grupy. Walidacja grupowania

Zastosowania sieci neuronowych

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

Metody Sztucznej Inteligencji II

Temat: Sieci neuronowe oraz technologia CUDA

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Symulacyjna analiza efektywnoêci sieci neuronowych w klasyfikacji bezwzorcowej

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

8. Neuron z ciągłą funkcją aktywacji.

KLASYFIKACJA. Słownik języka polskiego

ZACHODNIOPOMORSKI UNIWERSYTET TECHNOLOGICZNY W SZCZECINIE

Przybliżone algorytmy analizy ekspresji genów.

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

wiedzy Sieci neuronowe

Sztuczne sieci neuronowe (SNN)

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Sieci neuronowe w Statistica

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Optymalizacja ciągła

Systemy uczące się wykład 2

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Podstawy Sztucznej Inteligencji (PSZT)

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Zastosowania sieci neuronowych

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

AUTOMATYKA INFORMATYKA

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Metody systemowe i decyzyjne w informatyce

Elementy kognitywistyki III: Modele i architektury poznawcze

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

Podstawy OpenCL część 2

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

Rozpoznawanie pisma ręcznego przy pomocy sieci neuronowej Kohonena

Grafika Komputerowa Wykład 6. Teksturowanie. mgr inż. Michał Chwesiuk 1/23

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Wstęp do sieci neuronowych, wykład 8 Samoorganizacja topologiczna, analiza składowych głównych.

Projekt Sieci neuronowe

Podstawy sztucznej inteligencji

Wykład 5: Uczenie przez współzawodnictwo


Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Sieć przesyłająca żetony CP (counter propagation)

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Uczenie sieci neuronowych i bayesowskich

Inteligentne systemy przeciw atakom sieciowym

Metody klasyfikacji danych - część 1 p.1/24

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

SZTUCZNA INTELIGENCJA

H-Adviser. Hybrydowy system wspomagania decyzji inwestycyjnych

PRÓBA ZASTOSOWANIA SIECI NEURONOWEJ TYPU SOM W BADANIU PRZESTRZENNEGO ZRÓŻNICOWANIA POWIATÓW W POLSCE.

FIZYKA klasa 1 Liceum Ogólnokształcącego (4 letniego)

3.1. Na dobry początek

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Prof. Stanisław Jankowski

Instrukcja realizacji ćwiczenia

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Adrian Horzyk

Transkrypt:

S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor

Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych. SOM znalazły zastosowania w licznych dziedzinach, m.in.: - Rozpoznawanie mowy - Kompresja obrazów - Zagadnienia sterowania i robotyki - Wyszukiwanie dokumentów - I inne

Mapę tworzy statyczna siatka komórek (sieć Kohonena jest najbardziej znanym modelem) Wizualizacja wielowymiarowych danych za pomocą dwuwymiarowej mapy w taki sposób, aby dokumenty bliskie sobie w przestrzeni dokumentów były bliskie sobie na płaszczyźnie. Odwzorowanie wag danych za pomocą kolorów Jest to sieć ucząca sie bez nadzoru. Mapa ma stały rozmiar. Siatka ma najczęściej budowę heksagonalną lub prostokątną. Głównym kosztem podczas tworzenia mapy jest porównywanie wektorów.

Graficzna reprezentacja sieci Kohonena

Elementy budujące siatkę

Przykład grupowania kolorów przy pomocy algorytmu SOM: Mapa wstępna Mapa po 100 iteracjach

Neurony wyjściowe (a dokładniej ich wagi) można inicjować wartościami losowymi. Metodyka zmian wag neuronów wyjściowych nazywa się strategią. Dla SOM dwie podstawowe strategie to: - WTA: Winner Takes All Zwycięzca bierze wszystko. Po przedstawieniu sieci wektora wejściowego, neuron najbardziej podobny do elementu prezentowanego (którego wagi są najbardziej podobne składowym wektora wejściowego) zostaje zmodyfikowany tak aby jego wagi były jak najbardziej zbliżone do wektora wejściowego. - WTM: Winner Takes Most Zwycięzca bierze najwięcej. W tej strategii nie tylko neuron najbardziej podobny, ale także jego otoczenie zostają zmodyfikowane. Najczęściej ta modyfikacja jest zależna od odległości sąsiada od zwycięzcy.

Uczenie SOM polega na tym, że dla każdego wektora wejściowego zwycięzca oraz jego sąsiedzi (ściślej ich wektory modelowe) są modyfikowane tak aby były one bardziej podobne wektorowi prezentowanemu. W czasie fazy uczenia pojedyncze zmiany mogą być sprzeczne, ale całkowitym wynikiem procesu powinny być elementy poukładane na mapie. Funkcja uczenia: Mając próbkę x ze zbioru uczącego X w danym kroku t fazy uczenia znajdujemy element mapy najbardziej zbliżony do wektora prezentowanego c(x): c(x) = arg min{ x-m i }

Po znalezieniu tego elementu, zwycięzca i jego sąsiedzi modyfikowani są za pomocą wzoru: m i (t+1)= m i (t) + h c(x),i (t)[x(t) m i (t)] gdzie h c(x),i jest funkcją sąsiedztwa i działa wygładzająco na elementy siatki znajdujące w okolicy zwycięzcy; t zmienna czasowa. Funkcja sąsiedztwa jest brana jako funkcja rozkładu gaussowskiego: Gdzie 0 < α(t) < 1 opisywana jest jako prędkość uczenia. Z założenia α(t) jest funkcją nie rosnącą.

Algorytm Batch Map: Jest to modyfikacja SOM stworzona przez Kohonena. Zakłada modyfikacje wektorów modelowych dopiero po analizie pewnej liczby elementów oraz przyjmuje dostępność wszystkich przykładów przed uruchomieniem. Warunek ten w przypadku modelowania mapy dokumentów off-line nie jest ograniczeniem. Dzięki temu algorytmowi przy odpowiednio dużej liczbie przykładów otrzymuję się znaczące oszczędności obliczeniowe. Algorytm ten jest zależny od wartości początkowych. Mechanizm ten powinien dawać dobre rezultaty przy pewnym wstępnym przesortowaniu. Model Batch Map odpowiednio zastosowany do tworzenia map dokumentów nie powoduje znaczącej utraty jakości przy znacznym przyspieszeniu obliczeń. Kilkanaście iteracji algorytmu Batch Map daje zadowalające wyniki

Ogólny algorytm Batch Map: 1) Jako wektory modelowe należy przyjąć K wektorów przykładowych, gdzie K jest ilością wektorów modelowych (ilością węzłów mapy). 2) Dla każdego elementu mapy i przypisać te wektory ze zbioru przykładów, które znajdują się w sąsiedztwie Ni elementu i (Ni zbiór sąsiadów). 3) Ustawić wektor modelowy elementu mapy jako średnią ze zbioru elementów przypisanych do tego elementu. 4) Powtórzyć kroki 2 i 3

WEBSOM: Własności klastrowania i odwzorowywania danych wejściowych SOM postanowiono wykorzystać w dziedzinie wyszukiwania informacji. Powstał w Centrum Badań nad Sieciami Neuronowymi (Helsinki University of Technology). Autor: prof. Teuvo Kohonen. Praktycznie można w niej umieścić nieskończoną ilość dokumentów. Z powodu dużej złożoności i czasochłonności procesu uczenia tworzone mapy mogą być jedynie statyczną prezentacją zbioru dokumentów stworzoną off-line.

Zastosowanie w internecie WebSom może być bardzo pomocne w wizualnym zorganizowaniu odpowiedzi z tradycyjnych wyszukiwarek. Użytkownik, otrzymując kilkaset lub kilka tysięcy dokumentów z wyszukiwarki w praktyce korzysta jedynie z kilkunastu. Natomiast posługując się mapą i jednym relewantnym dokumentem jako punktem odniesienia, może sięgnąć do innych, skorelowanych z nim dokumentów.

Na metodę WEBSOM składają się następujące kroki: - Utworzenie słownika ze zbioru odwzorowywanych dokumentów. - Utworzenie modeli statystycznych dokumentów w postaci histogramu słów. - Formatowanie mapy dokumentów za pomocą algorytmu SOM.

Eksperyment WebSom przeprowadzony w 1998 r. przez Kohonen'a: - operował na zbiorze 1 124 134 dokumentów - średnia długość dokumentu to 218 słów - długość słownika wynosiła 63 773 słowa - samoorganizująca się sieć składała się z 104 040 komórek - materiał pochodził z 80 różnych grup tematycznych Usenet'u

- każdy dokument klasyfikowano do jednej z 80 grup - dokładność klasyfikacji wynosiła około 80 procent - formatowanie mapy trwało około miesiąca - wyszukiwanie w mapie odbywało się prawie w czasie rzeczywistym

Fragment mapy WEBSOM

Wady: SOM jest obliczeniowo droga co jest poważną wadą, gdy liczba wymiarów danych wzrasta. Jest to metoda wolna. Niemożliwe jest tworzenie mapy w trybie on-line. Problemem jest dostarczenie poprawnych danych: aby wygenerować mapę każdy wzorzec musi posiadać wartość we wszystkich wymiarach. Nauka sieci musi być powtarzana przy każdej nowej porcji dokumentów

Źródła: - Teuvo Kohonen Self-Organization of Very Large Document Collections: State of the Art - SOM_PAK zestaw programów w języku C autorstwa Kohonena i jego zespołu: http://www.cis.hut.fi/research/som_lvq_pak - WebSOM: http://websom.hut.fi/websom/ - http://davis.wpi.edu/~matt/courses/soms/applet.html