Sieci Kohonena Grupowanie

Podobne dokumenty
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Algorytmy zrandomizowane

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Lekcja 5: Sieć Kohonena i sieć ART

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Hierarchiczna analiza skupień

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Co to jest grupowanie

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

CLUSTERING. Metody grupowania danych

Przybliżone algorytmy analizy ekspresji genów.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytm grupowania danych typu kwantyzacji wektorów

TEORETYCZNE PODSTAWY INFORMATYKI

Algorytm grupowania danych typu kwantyzacji wektorów

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza danych. Grupowanie (analiza skupień). Powtórzenie i podsumowanie. ZADANIE GRUPOWANIA

Wprowadzenie. SOM jest skrótem od Self Organizing Maps, czyli Samoorganizujące się mapy.

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Symulacyjna analiza efektywnoêci sieci neuronowych w klasyfikacji bezwzorcowej

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Kwantyzacja wektorowa. Kodowanie różnicowe.

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Analiza korespondencji

Elementy statystyki wielowymiarowej

Grupowanie VQ. Kwantyzacja wektorowa (VQ Vector Quantization) SOM Self-Organizing Maps. Wstępny podział na grupy. Walidacja grupowania

Uczenie sieci radialnych (RBF)

Projektowanie rozmieszczenia stanowisk roboczych

Python: JPEG. Zadanie. 1. Wczytanie obrazka

Agnieszka Nowak Brzezińska

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Asocjacyjna reprezentacja danych i wnioskowanie

Adrian Horzyk

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Przekształcenia liniowe

STATYSTYKA I DOŚWIADCZALNICTWO

Analiza głównych składowych- redukcja wymiaru, wykł. 12

SIECI RBF (RADIAL BASIS FUNCTIONS)

Widzenie komputerowe

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Systemy uczące się Lab 4

Wstęp do grupowania danych

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Temat: Sieci neuronowe oraz technologia CUDA

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

3. Macierze i Układy Równań Liniowych

Monitorowanie i Diagnostyka w Systemach Sterowania

Przegląd metod optymalizacji wielowymiarowej. Funkcja testowa. Funkcja testowa. Notes. Notes. Notes. Notes. Tomasz M. Gwizdałła

Analiza skupień. Idea

Analiza składowych głównych

Wykład z Technologii Informacyjnych. Piotr Mika

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Text mining w programie RapidMiner Michał Bereta

1. Grupowanie Algorytmy grupowania:

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3


Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Transformaty. Kodowanie transformujace

TEORETYCZNE PODSTAWY INFORMATYKI

Skalowanie wielowymiarowe idea

Zagadnienie klasyfikacji (dyskryminacji)

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Metody Sztucznej Inteligencji II

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Elementy modelowania matematycznego

KADD Minimalizacja funkcji

Podstawy działań na wektorach - dodawanie

Koncepcja techniczna sieci FTTH w Programie POPC1.1. Wsparcie do opracowania wniosku. Wersja GNI FREE na QGIS

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Wstęp do sieci neuronowych, wykład 8 Samoorganizacja topologiczna, analiza składowych głównych.

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

SPOTKANIE 2: Wprowadzenie cz. I

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wstęp do Techniki Cyfrowej... Teoria automatów

Agnieszka Nowak Brzezińska Wykład III

METODY INŻYNIERII WIEDZY

Grupowanie danych. Wprowadzenie. Przykłady

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Transkrypt:

Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie mamy żadnych wskazówek. Rozsądnym wyjściem wydaje się: cup, cut, put roulette, launderette unbelievable, loveable Słowa zostały pogrupowane na bazie podobieństwa (długość, fonemy, litery) Inny przykład: redukcja palety barw z 24-bitowej do 16 wybranych kolorów. 1

KIEDY NIE MA NADZORU? W zadaniu związanym z kolorami: Mamy zdefiniowane podobieństwo Wiemy, jak oceniać klastry W zadaniu związanym ze słowami: Musimy zdefiniować podobieństwo sami Nie ma wskazówek, jak oceniać klastry UCZENIE SIĘ Z / BEZ NADZORU Dane Macierz odległości (podobieństwa) Jak? Grupowanie Hierarchiczne Niehierarch. Reprezentacja graficzna Weryfikacja wewnętrzna zewnętrzna 2

MAPY SAMOORGANIZUJĄCE SIĘ Cel: przedstawić wielowymiarowe dane w kontekście mniejszej liczby wymiarów (zazwyczaj 2 wymiary) Warunek: rzuty podobnych danych wejściowych powinny być bliskie na mapie MAPY SAMOORGANIZUJĄCE SIĘ Znane pod nazwami: Self-Organizing Maps Kohonen Networks Competitive Filter Associative Memories 3

ARCHITEKTURA WSPÓŁZAWODNICTWA COMPETITIVE LAYER Każdy węzeł otrzymuje ważoną sumę sygnałów z danych wejściowych Każdy węzeł może być stowarzyszony z pewnymi innymi, sąsiednimi węzłami W obliczu konkretnych danych wejściowych pewne węzły zostaną pobudzone Takie pobudzenie może mieć wzmacniający bądź osłabiający wpływ na sąsiadów 4

STRUKTURA SIECI Składowe sieci: 2-wymiarowa siatka węzłów wyjściowych Węzły połączone według pewnej topologii Wejścia połączone ze wszystkimi węzłami Topologia prostokątna wejście WEJŚCIE DO SIECI Wejścia są wektorami wartości Wartości te kodują odpowiednie cechy W przypadku słów, na wektor mogą się składać wartości odpowiadające: długości słowa, liczbie wystąpień liter... Każdy węzeł przechowuje wektor o wymiarze identycznym z wektorami wejściowymi Można zatem mierzyć odległości pomiędzy węzłami wejściowymi i wyjściowymi, za pośrednictwem ich wektorów 5

NAUKA (JEDEN KROK) Weźmy wektor wejściowy X Znajdźmy węzeł wyjściowy o k o wektorze Y k najbliższym X Zmieńmy Y k aby wzmocnić podobieństwo z X Odrobinę zmieńmy wektory węzłów wokół o k wzmacniając ich podobieństwo z X Wzmacniane podobieństwa: Y k := Y k + ηx, gdzie η - niewielka stała ANALOGIE ALGORYTMICZNE Inicjalizacja warstwy wyjściowej (odpowiednio) losowa Wektory wejściowe stanowią próbę uczącą, rozpatrywaną w pętli Metoda modyfikacji wektorów wyjściowych analogiczna jak w przypadku wychładzania 6

http://websom.hut.fi/websom Sieci Kohonena dla eksploracji internetu Podobne dokumenty położone blisko na mapie Usprawnia to eksplorację poprzez redukcję wymiarów A kto przypisuje etykiety poszczególnym regionom? To już inna historia UCZENIE SIĘ Z / BEZ NADZORU Dane Macierz odległości (podobieństwa) Redukcja wymiarów: Kohonen Grupowanie Hierarchiczne Niehierarch. Reprezentacja graficzna Weryfikacja wewnętrzna zewnętrzna 7

INNE METODY GRUPOWANIA Algorytmy łączące obiekty w większe grupy na podstawie ich wzajemnego podobieństwa. Cechy obiektów (wyrażone liczbowo) Centroidy (środki ciężkości) Kryterium podobieństwa obiektów oparte jest na ich wzajemnej odległości. Zadanie optymalizacyjne: znaleźć taki podział, żeby odległości między obiektami w jednej klasie były jak najmniejsze, a między klasami - jak największe. GRUPOWANIE PRZYKŁAD Zadanie kwantyzacji kolorów: znaleźć takich 16 kolorów, by za ich pomocą jak najwierniej odtworzyć oryginalny, 24-bitowy obrazek. G 16 mln. kolorów 16 kolorów B R Zwykle stosowane algorytmy: zbliżone do zachłannych (np. k-means) lub wspinaczki (np. alg. centroidów). 8

GRUPOWANIE - K-MEANS (PRZYKŁAD ALGORYTMU) Założenia: mamy podzielić zbiór obiektów na K rozłącznych grup. 1. Znajdujemy K najdalszych punktów i zakładamy tam grupy. K=3 2. Znajdujemy obiekt najbliższy centrum jednej z grup i dołączamy go (strategia zachłanna). 3. Powtarzamy czynność 2 do momentu wyczerpania się obiektów. GRUPOWANIE - ALG. CENTROIDÓW (PRZYKŁAD ALGORYTMU) K=2 podział 1. Dzielimy zbiór na K grup w sposób losowy. 2. Liczymy środek (centroid) każdej grupy. 3. Dokonujemy ponownego podziału obiektów, przypisując je do tej grupy, której środek leży najbliżej. 4. Powtarzamy od drugiego kroku póki następują zmiany przyporządkowania. podział centroidy centroidy koniec (układ stabilny) 9