Wykład 5: Uczenie przez współzawodnictwo

Podobne dokumenty
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Lekcja 5: Sieć Kohonena i sieć ART

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Metody Sztucznej Inteligencji II

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Sieci Kohonena Grupowanie

Sztuczne sieci neuronowe (SNN)

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Wprowadzenie. SOM jest skrótem od Self Organizing Maps, czyli Samoorganizujące się mapy.

Sieć przesyłająca żetony CP (counter propagation)

Monitorowanie i Diagnostyka w Systemach Sterowania

Podstawy sztucznej inteligencji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Sztuczna inteligencja

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Uczenie sieci radialnych (RBF)

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Systemy uczące się Lab 4

Inteligentne systemy przeciw atakom sieciowym

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

8. Neuron z ciągłą funkcją aktywacji.

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

Obliczenia inteligentne Zadanie 4

Sztuczne sieci neuronowe

Co to jest grupowanie

Zastosowania sieci neuronowych

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Optymalizacja ciągła

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Podstawy Sztucznej Inteligencji (PSZT)

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Uczenie sieci typu MLP

Asocjacyjna reprezentacja danych i wnioskowanie

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Wstęp do sieci neuronowych, wykład 8 Samoorganizacja topologiczna, analiza składowych głównych.

Przybliżone algorytmy analizy ekspresji genów.

Elementy inteligencji obliczeniowej

Hierarchiczna analiza skupień

Grupowanie VQ. Kwantyzacja wektorowa (VQ Vector Quantization) SOM Self-Organizing Maps. Wstępny podział na grupy. Walidacja grupowania

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Algorytmy sztucznej inteligencji

Zastosowania sieci neuronowych

1. Logika, funkcje logiczne, preceptron.

SIECI REKURENCYJNE SIECI HOPFIELDA

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Systemy uczące się wykład 2

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

Reprezentacja i analiza obszarów

wiedzy Sieci neuronowe

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

SPOTKANIE 2: Wprowadzenie cz. I

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Widzenie komputerowe

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.


Instrukcja realizacji ćwiczenia

Przetwornik analogowo-cyfrowy

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Reprezentacja i analiza obszarów

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Transformaty. Kodowanie transformujace

Iteracyjne rozwiązywanie równań

Sztuczne sieci neuronowe

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Metoda Karnaugh. B A BC A

Minimalizacja form boolowskich

Temat: Sieci neuronowe oraz technologia CUDA

Elementy kognitywistyki III: Modele i architektury poznawcze

str 1 WYMAGANIA EDUKACYJNE ( ) - matematyka - poziom podstawowy Dariusz Drabczyk

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

Matematyczne Podstawy Informatyki

Algorytmiczne sieci neuronowe idea działania, słabe i mocne strony

Najkrótsza droga Maksymalny przepływ Najtańszy przepływ Analiza czynności (zdarzeń)

Transkrypt:

Wykład 5: Uczenie przez współzawodnictwo W sieci uczonej w sposób konkurencyjny (przez konkurencję, przez współzawodnictwo) proces uczenia ma charakter wybiórczy, w odróżnieniu od większości innych sieci, uczonych z reguły w całości. Po prezentacji i propagacji kolejnego przykładu w sieci aktywny jest tylko jeden neuron (lub niewielka ich grupa), pozostałe, których pobudzenia były zbyt niskie, "przegrywają" we współzawodnictwie i nie są w ogóle brane pod uwagę w bieżącym kroku uczenia. Uczenie przebiega według zasady "zwycięzca bierze wszystko" (Winner Takes All): modyfikacja wag przeprowadzana jest jedynie dla neuronu (neuronów) najbardziej aktywnego. "Przegrani" nie podlegają żadnym modyfikacjom, a czasami nawet symuluje się w nich proces "zapominania" lub "oduczania". Cel: kwantowanie wektorowe, czyli nienadzorowane grupowanie wektorów wejściowych stosownie do ich wzajemnego podobieństwa (nienadzorowana kategoryzacja, clustering). Najprostsza sieć realizująca uczenie z konkurencją: pojedyncza warstwa liniowych neuronów. y y j x i gdzie: y w x w x = = j j ij i i x w j - wektor wag j-tego neuronu Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 1

Zwycięzca: = maxarg y j j Przy znormalizowaniu wektorów wag wszystkich neuronów w sieci: Możliwe realizacje: j w x w j x (5.1) poszukiwanie zwycięzcy przez przeglądanie neuronów; wykorzystanie zjawiska hamowania obocznego: każdy neuron hamuje wszystkie pozostałe, a pobudza samego siebie (wymagana nieliniowa funkcja aktywacji, szczegóły w [Grossberg 1976, 1980]). Jak nagradzać (czyli uczyć) zwycięzcę? Początkowa konfiguracja wag - losowa. Uczenie zwycięskiego neuronu polega na zbliżeniu ("przekręceniu") jego wektora wag w kierunku wektora wejść, podobnie jak w regule delta, np.: w = η x Wadą tej formuły jest to, że prowadzi ona do nieograniczonego wzrostu wielkości wag. Da się tego uniknąć normalizując wektor wag po każdej modyfikacji lub stosując bardziej wyrafinowaną formułę tak, aby zachowany 2 był warunek w ij = 1 lub w ij =1. i i Najczęściej do uczenia przez współzawodnictwo używa się reguły w postaci: ( ) w = x w η (5.2) stosując normalizację zarówno wektora wag, jak i wektora wejść. Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 2

Przykładowy przebieg procesu uczenia:, x j w j w i, x i, x j w j w i, x i (W pewnym sensie sieć znajduje tzw. obiekty modalne skupień). Wady sieci uczonych przez konkurencję: "rozrzutne" kodowanie klas (kod 1 z N); mniejsza w porównaniu z innymi typami sieci odporność na uszkodzenia; brak możliwości tworzenia hierarchii kategorii; problem tzw. jednostek martwych, gdy neuronów jest więcej niż skupień. Przykłady zastosowań Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 3

Przybliżona bisekcja grafu: podział grafu o N wierzchołkach na dwa równoliczne podgrafy z minimalną liczbą krawędzi pomiędzy nimi. Architektura sieci: N wejść reprezentujących wierzchołki grafu, 2 wyjścia odpowiadające podgrafom. Reprezentacja danych: Krawędź łącząca wierzchołek i-ty z j-tym reprezentowana jest jako wektor binarny z wartościami 1 na pozycjach i-tej i j-tej i pozostałymi pozycjami równymi 0. Zbiór uczący: krawędzie grafu. Kompresja danych przez kwantowanie wektorowe. Uczenie przez współzawodnictwo służy tu do znajdowania tzw. książki kodowej, tj. zbioru tzw. wektorów prototypowych. Przykład: kompresja obrazu (w celach archiwizacji lub transmisji). 0.42 0.75 0.08 P P 0.21 Uczenie przebiega na zbiorze wielu obrazów. Każdy obraz dzielony jest na regularne pola o wielkości P P pixeli; każde z nich stanowi wektor wejściowy dla sieci. Sieć w trakcie uczenia, dysponując ograniczoną ilością N < P P neuronów, stara się dokonać możliwie dobrej kategoryzacji, przyporządkowując podobnym wektorom (fragmentom obrazu) te same neurony (zwycięzców). Testowanie: obraz testowy podawany jest pole po polu na wejścia sieci; dla każdego pola zapamiętujemy indeks zwycięzcy (sieć pełni tu rolę tzw. książki kodowej). Zamiast archiwizować/transmitować poszczególne punkty obrazu, archiwizujemy/przesyłamy jedynie indeksy. Przy odtwarzaniu obrazu posługujemy się tą samą nauczoną siecią i indeksami neuonów, odtwarzając na tej podstawie kolejne fragmenty obrazu. Przykład: Niech P=8, N=256, liczba stopni szarości (lub kolorów) G=256. Wówczas stopień kompresji wynosi: ( ) ( ) P P sizeof G sizeof N 8 byte = 8 1 = 64 1byte Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 4

Nadzorowane uczenie konkurencyjne na przykładzie LVQ Learning Vector Quantization, Adaptacyjne Kwantowanie Wektorowe [Kohonen 1989] Uczenie nadzorowane - przynależność przykładów do klas jest znana. Architektura i działanie sieci - jak w nienadzorowanym uczeniu przez konkurencję z tą różnicą, że neurony przypisane są a priori do określonych klas k. Istotnej modyfikacji w stosunku do reguły standardowej (5.2) podlega reguła uczenia: ( ) ( k ) ( k ) ( ) = K( k, k ) η k K( k, k ) w x w, gdy k k = + 1 = 1, gdy k k gdzie: K - funkcja zgodności klasy, k - klasa, do której przypisany jest neuron, k' - klasa, do której należy przykład. Czyli: Jeżeli zwycięski neuron reprezentuje tę samą klasę co prezentowany przykład, wektor wag jest zbliżany do wektora przykładów; w przeciwnym razie jest od niego oddalany., x j w j w i, x i Czasami dobrze jest tak skonstruować sieć, aby do każdej klasy przypisanych było po kilka neuronów. Ulepszona wersja, LVQ2 [Kohonen i in. 1989], osiąga wysoką trafność klasyfikowania i daje bardzo dobre rezultaty w zastosowaniach praktycznych (np. przetwarzaniu i rozpoznawaniu mowy). Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 5

SOM - sieć odwzorowania cech istotnych uczona przez współzawodnictwo Self Organizing Map, sieć Odwzorowania Cech Istotnych [Kohonen 1982] Idea: Do zwykłej sieci uczonej przez współzawodnictwo dodajmy aspekt topologii - istotne staje się położenie wygrywającego neuronu w warstwie wyjściowej. Cel: Otrzymanie sieci, w której podobieństwo wzorców podawanych na jej wejście odzwierciedla się w "fizycznej" odległości zwycięzców w warstwie wyjściowej. Im dwa wzorce są bardziej do siebie podobne, tym bliższe są odpowiadające im wygrywające neurony, i vice versa. Topologia i uczenie: Stosujemy zwykłą sieć uczenia przez konkurencję, z tradycyjnym kryterium znajdowania zwycięzcy (wzór 5.1). Neurony aranżujemy w proste układy geometryczne, najczęściej jednowymiarowe (prosta) lub dwuwymiarowe Λ i, j, której wartość (tablica prostokątna). Definiujemy funkcję sąsiedztwa ( ) dla każdej pary neuronów (i,j) odzwierciedla geometrię układu. Λ( i, i) = 1, a gdy odległość pomiędzy neuronami i i j rośnie, Λ( i, j) zanika do zera. Zazwyczaj przyjmuje się: (, ) Λ i j = e β (, ) euklid i j Przy pomocy tak zdefiniowanej funkcji sąsiedztwa modyfikuje się regułę uczenia (5.2) w sposób następujący: ( ) w = η x w ( j j )( ) j w = η Λ, x w j j gdzie: j - indeks neuronu j - indeks neuronu wygrywjącego Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 6

W rezultacie największych modyfikacji wag doświadcza zwycięzca i jego "sąsiedzi". Im dalej od neuronu zwycięskiego, tym mniejsza intensywność procesu uczenia. Przykładowy przebieg uczenia (początkowa konfiguracja wag losowa): Działanie sieci SOM polega na (ciągłym) odwzorowywaniu przestrzeni wielowymiarowej w przestrzeń o (z reguły) mniejszej liczbie wymiarów (zwykle 1, 2 lub 3). Sieć "rozciąga", "ściska", "zgina" i "zwija" na różne sposoby przestrzeń przykładów wejściowych tak, aby przy możliwie wiernym zachowaniu topologii mapować ją na przestrzeń neuronów wyjściowych. Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 7

Uwagi: Opisywane podejście reprezentuje uczenie nienadzorowane: wstępny podział przykładów na klasy nie jest wymagany. W praktyce często stopniowo zmniejsza się η i β podczas uczenia: zmniejszanie η stopniowo spowalnia uczenie, zaś dekrementacja β za-węża sąsiedztwo. W oryginalnym podejściu wygrywa zawsze jeden neuron, tak więc macierz wyjść zawiera zawsze jedną jedynkę, przy pozostałych wartościach równych zeru. Dla pewnych zastosowań taka informacja ma zbyt przybliżony ("zgrubny") charakter, stąd też często próbuje się ekstrahować z sieci bardziej precyzyjną informację. Podczas testowania, po propagacji wektora wejściowego i znalezieniu zwycięzcy przegląda się jego otoczenie w poszukiwaniu innych neuronów, które co prawda nie zwyciężyły, ale "są w czołówce" (złagodzenie warunku zwycięstwa). Po wyznaczeniu "czołówki" można dokonać jej uśrednienia (np. przez znalezienie jej środka ciężkości) i tak otrzymane współrzędne potraktować jako ostateczną odpowiedź sieci. Czasami przykłady w wyniku uczenia rozpraszają się po peryferiach mapy, tworząc zgrupowania na jej obrzeżach i w jej narożnikach stosownie do podobieństwa "klas", do których należą (niekoniecznie klas w sensie ML). Dzieje się tak, ponieważ skrajna lokalizacja na mapie zapewnia z reguły optymalną (tj. maksymalną) odległość od przykładów innych klas. Zjawisku temu można zapobiec "sklejając" ze sobą przeciwległe krawędzie mapy w taki sposób, aby otrzymać powierzchnię bez brzegu. Daje to sieci dodatkowy stopień swobody i pozwala z reguły na dokładniejszą analizę struktury zbioru przykładów. W ogólności neurony mogą tworzyć układy o różnej architekturze (często spotyka się np. układ typu "plaster miodu"). Podobnie manipulować można definicją sąsiedztwa. Przykłady zastosowań: Wizualizacja przestrzeni przykładów opisanych wieloma atrybutami. Z otrzymanej mapy można ze znaczną dozą pewności wnioskować o takich aspektach zbioru danych jak: podobieństwo przykładów pochodzących z różnych klas, zwartość zbioru przykładów reprezentujących daną klasę, obecność "podklas" (kiedy przykłady danej klasy występują w więcej niż jednym skupieniu, na rysunku z poprzedniej strony przykłady oznaczone ). Sterowanie ramieniem robota Kwantowanie wektorowe Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 8

Przykład zastosowania SOM: poszukiwanie odwzorowań pomiędzy nierównoważnymi topologicznie figurami przy zachowaniu liczby wymiarów, np. 2D 2D: przy jednoczesnej redukcji liczby wymiarów, np. 2D 1D: Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 9

Rozwiązywanie problemu komiwojażera (metoda siatki elastycznej) Dane: Cel: M "miast": A, B, C,... o znanych położeniach (współrzędnych): x, y, x, y, x, y ( ) ( ) ( )K A A B B C C Minimalizacja funkcji celu odzwierciedlającej długość zamkniętej marszruty: M X m X m+ 1 m= 1 ( ) H = d X = X M + 1 1 gdzie: d XY - odległość pomiędzy miastami X i Y Problem ten da się potraktować jako zadanie znajdowania odwzorowania przestrzeni dwuwymiarowej - płaszczyzny (mapa z naniesionymi "miastami") na przestrzeń jednowymiarową - linię (marszrutę komiwojażera). Architektura sieci Dwa wejścia, odpowiadające współrzędnym (x,y) miast; M neuronów reprezentujących miasta, tworzących jednowymiarową (liniową) warstwę. Konfiguracja początkowa Wagi kolejnych neuronów odpowiadają kolejnym punktom na zamkniętej marszrucie (np. na okręgu). Podczas uczenia podawane na wejścia sieci miasta "przeciągają" na swoją stronę poszczególne neurony. Marszruta zachowuje się jak elastyczna gumka, którą sieć stara się "rozpiąć" pomiędzy miastami. W konfiguracji końcowej wagi neuronów odpowiadają (w przybliżeniu) współrzędnym miast, a kolejność neuronów w warstwie wyjściowej reprezentuje rozwiązanie: kolejność odwiedzin miast. Uwagi: Lepiej jest mieć więcej neuronów niż miast (stosuje się algorytmy dodające i usuwające jednostki w razie potrzeby). Wada: brak funkcji kosztu, pokazującej, w jakim stopniu otrzymane rozwiązanie pośrednie jest optymalne (ponieważ rozwiązania robocze, wypracowywane przez sieć podczas uczenia, są z reguły niepoprawne). Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 10

Zastosowanie SOM do analizy mowy The "neural" phonetic typewriter [Kohonen 1988] Dane wejściowe: Sygnał mowy (pojedyncze słowa). Wstępna obróbka danych: 1) 12-bitowy przetwornik analogowo-cyfrowy próbkuje sygnał wejściowy co ~10ms; 2) 256-punktowa szybka analiza Fouriera (FFT); 3) wyjście: 15-punktowe spektrum sygnału wejściowego. Sieć: SOM: 15 wejść, warstwa wyjściowa: 8 12=96 neuronów. Uczenie: Sygnał mowy (pojedyncze słowa). Kalibracja: Po nauczeniu sieci podawano na jej wejścia "wzorcowe" fonemy, opatrując zwycięzców odpowiednimi etykietami. Prawie każdej klasie fonemów odpowiada jeden zwycięzca lub grupa blisko położonych zwycięzców. Testowanie: Podczas wypowiadania słowa notowane jest położenie zwycięzcy, które zmieniając się zakreśla pewną marszrutę. Otrzymana w ten sposób transkrypcja fonetyczna słowa może być np. podana na wejście systemu regułowego, który na tej podstawie będzie generowal odpowiednie słowo. a "humppila" l i m u h Uwagi: system działa rzeczywiście jak automatyczna maszyna do pisania: dokonuje detekcji fonemów nie "rozumiejąc" słów, trafność rozpoznawania fonemów: 92-97%, system działa w czasie rzeczywistym, odseparowane słowa a ciągły sygnał mowy, ciekawostka: neurony w warstwie wyjściowej ułożone w "plaster miodu". pp Instytut Informatyki Politechniki Poznañskiej 1995 Wyk³. 13 Strona 11