Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Podobne dokumenty
Widzenie komputerowe

Uczenie sieci typu MLP

8. Neuron z ciągłą funkcją aktywacji.

wiedzy Sieci neuronowe

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 9 Dobór optymalnej architektury i próbek uczących

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Metody Sztucznej Inteligencji II

Sztuczna inteligencja

SZTUCZNA INTELIGENCJA

wiedzy Sieci neuronowe (c.d.)

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Uczenie sieci radialnych (RBF)

Lekcja 5: Sieć Kohonena i sieć ART

Zastosowania sieci neuronowych

Sztuczne sieci neuronowe

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Sieć przesyłająca żetony CP (counter propagation)

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Deep Learning na przykładzie Deep Belief Networks

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Podstawy Sztucznej Inteligencji (PSZT)

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Optymalizacja ciągła

Przykład optymalizacji struktury sztucznej sieci neuronowej metodą algorytmów genetycznych

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Podstawy sztucznej inteligencji

6. Perceptron Rosenblatta

Optymalizacja optymalizacji

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Zastosowania sieci neuronowych

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Systemy uczące się Lab 4

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Sztuczne Sieci Neuronowe

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Obliczenia inteligentne Zadanie 4

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych.

Inteligentne systemy przeciw atakom sieciowym

2.4. Algorytmy uczenia sieci neuronowych

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Badacze zbudowali wiele systemów technicznych, naśladujących w komputerze ludzki mózg. Najbardziej pożyteczne okazały się sieci neuronowe.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

METODY INŻYNIERII WIEDZY

Elementy inteligencji obliczeniowej

x 1 x 2 x 3 x n w 1 w 2 Σ w 3 w n x 1 x 2 x 1 XOR x (x A, y A ) y A x A

Co to jest grupowanie

I EKSPLORACJA DANYCH

Redukcja wariancji w metodach Monte-Carlo

Uczenie sieci neuronowych i bayesowskich

Uczenie ze wzmocnieniem aplikacje

MATLAB Neural Network Toolbox przegląd

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Rozpoznawanie twarzy za pomocą sieci neuronowych

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

Seminarium magisterskie. Dyskusja nad tematem pracy magisterskiej pisanej pod kierunkiem pani Dr hab. Małgorzaty Doman

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

SZTUCZNA INTELIGENCJA

Temat: Sieci neuronowe oraz technologia CUDA

Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

Uczenie ze wzmocnieniem aplikacje

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 10 Wybrane zastosowania;

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

AUTOMATYKA INFORMATYKA

Optymalizacja systemów

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Definicja perceptronu wielowarstwowego

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

ELEMENTY SZTUCZNEJ INTELIGENCJI. Sztuczne sieci neuronowe

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Podstawy Sztucznej Inteligencji

DEKOMPOZYCJA HIERARCHICZNEJ STRUKTURY SZTUCZNEJ SIECI NEURONOWEJ I ALGORYTM KOORDYNACJI

Wstęp do głębokich sieci neuronowych. Paweł Morawiecki IPI PAN

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

Transkrypt:

Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury sieci - Dobór danych uczących - Preprocessing: ekstrakcja cech

PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury sieci - Dobór danych uczących - Preprocessing: ekstrakcja cech

Metody doboru współczynników uczenia Stałe współczynniki takie same dla wszystkich warstw (np. η = 0.05, µ = 0.9) Stałe współczynniki (osobno dla każdej z warstw) η min(1/n i ) gdzie: n i to liczba wejść i-tego neuronu w rozważanej warstwie Cechy powyższych metod: proste ale mało wydajne

Metody doboru współczynników uczenia (cd.) Metoda adaptacyjna (jeżeli błąd maleje to należy zwiększyć η). Zdefiniujmy błąd ε jako: ε = M ( y ) j d j j= 1 Jeżeli ε i > k w ε i-1 to: η i+1 = η i ρ d (ρ d < 1) w przeciwnym razie: η i+1 = η i ρ i (ρ i > 1) Wartości przykładowe: współczynnik dopuszczalnego wzrostu błędu: k w =1.04, współczynnik zmniejszania η: ρ d =0.7, współczynnik zwiększania η: ρ i =1.05) 2

Metody doboru współczynników uczenia (cd.) Metoda doboru przez minimalizację kierunkową: jest to sposób najlepszy ale i najbardziej skomplikowany. Polega na znalezieniu minimum funkcji na wybranym kierunku (dowolną metodą) tzn. należy tak dobrać wartość współczynnika η, aby punkt W k+1 = W k + η k p k odpowiadał minimum funkcji E(W) na kierunku p k. Można stosować tu metody gradientowe, bezgradientowe (np. bisekcji) lub mieszane.

PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury sieci - Dobór danych uczących - Preprocessing: ekstrakcja cech

Metody inicjalizacji wag Ponieważ od inicjalizacji wag zależy efekt procesu uczenia (minima lokalne!), zatem należy inicjalizować właściwie. Co to znaczy właściwie? to znaczy w niecce przyciągania minimum globalnego Ze względu na to, że do końca nie da się określić jak to robić, zawsze należy stosować metodę multistartu i wybrać najlepszą sieć.

Metody inicjalizacji wag (cd.) Metody losowej inicjalizacji (najczęściej stosowane ze względu na prostotę) Metody wykorzystujące uczenie nienadzorowane: - inicjalizacja z wykorzystaniem uogólnionej reguły Hebba - Inicjalizacja za pomocą algorytmu samoorganizaji

Metody losowej inicjalizacji wag Typowy przedział randomizacji: a, n in a n in dla funkcji sigmoidalnej: a = 2.38, n in liczba wejść neuronu

Metody losowej inicjalizacji wag (cd.) Na podstawie badań statystycznych nad dynamiką szkła spinowego oraz analogii z procesem uczenia sieci neuronowych ustalono inny przedział randomizacji: [ ] n n in in 2 0,, 2, Dla neuronów warstw ukrytych Dla neuronów wyjściowych

Metody losowej inicjalizacji wag (cd.) Jeszcze inny proponowany przez Widrowa i Nguena przedział to: [ ] n N n N in n, in [ 0.5, 05] n Dla neuronów warstw ukrytych Dla neuronów wyjściowych

PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury sieci - Dobór danych uczących - Preprocessing: ekstrakcja cech

Dobór architektury sieci Dla realizacji odwzorowania nieciągłego potrzeba w ogólności dwóch warstw ukrytych Twierdzenie Kołmogorowa: Do dowolnej aproksymacji skalarnej funkcji ciągłej wystarczy jedna warstwa ukryta o rozmiarze 2N+1 (gdzie N to ilość wejść) Nie jest to jednak liczba optymalna: zwykle wystarcza dużo mniej neuronów np.: NM (gdzie M to ilość wyjść sieci) lub jeszcze mniej.

Podstawowy dylemat w doborze architektury sieci Za duża liczba wag (funkcja liczby neuronów ukrytych) skutkuje słabymi zdolnościami generalizacyjnymi sieci (jest za dużo stopni swobody w uczeniu) Za mała liczba wag skutkuje trudnościami w uczeniu (za mało stopni swobody) Teoretycznie postulowana liczebność wzorców uczących tak by była ona około 20 razy większa niż liczba modyfikowanych wag jest warunkiem trudnym do spełnienia w praktyce

Metody rozwiązania dylematu Metody redukcji rozmiaru warstwy ukrytej (start od dużej sieci): - metody wrażliwościowe (np. OBD optimal brain damage, OBS optimal brain surgeon, usuwają wagę/neuron dla których funkcja celu ma najmniejszą wrażliwość) - Metody funkcji kary (dodatkowa kara za duże wartości wag powoduje dążenie do ich zmniejszania, by w końcu po osiągnięciu pewnego progu niektóre z nich wyeliminować) Dodawanie neuronów (start od małej sieci) np. algorytm kaskadowej korelacji Fahlmana)

Inne metody zwiększania zdolności generalizacyjnych Sieci neuronowe z rozszerzeniami funkcyjnymi (sieci Pao). Motywacja: dla problemów źle uwarunkowanych (N<<M) można stosować dodatkowe wejścia w postaci funkcji wejść podstawowych (rzutowanie w przestrzeń o większej liczbie wymiarów poprawia uwarunkowanie i zwiększa zdolności generalizacyjne poprzez uproszczenie architektury (np. stosując wejścia x 1, x 2 oraz x 1 x 2 można rozwiązać problem XOR bez warstwy ukrytej)

PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury sieci - Dobór danych uczących - Preprocessing: ekstrakcja cech

zwiększanie zdolności uogólniania poprzez dobór danych uczących Analiza wrażliwościowa danych uczących kończąca się wyborem tylko danych najistotniejszych Dodanie szumu do danych uczących

PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury sieci - Dobór danych uczących - Preprocessing: ekstrakcja cech

Odwzorowania w semantycznym rozpoznawaniu obrazów C 1 C 3 C 2 G F I 1 I 2 I 3 V 2 V 1 V 3 δ klasy C i obrazy I i wektory cech V i Jaroszwicz L. R., Cyran K. A., Podeszwa T., Optimized CGH-based pattern recognizer, Optica Applicata, 2000

Struktury plamkowe interferujących modów na wyjściu światłowodu Jeden mod Kilka modów Wiele modów Jaroszewicz L. R., Cyran K., Merta I., Mrózek A., Fiber Optic Sensor with Few-Mode Speckle Pattern Recognise by Diffraction Method, Proceeding of SPIE: Interferometry'99 Techniques and Technologies, Pułtusk 1999, vol. 3744, 386-393

Eksperymentalny układ symulujący naprężenia dioda laserowa światłowód HiBi SM-600 złącze FSU625 360 m Nacisk 1 2 3 ścisk włókna światłowód kilku-modowy 40 m wzorzec plamkowy system rozpoznawania z KGH Jaroszewicz L. R., Cyran K., Merta I., Mrózek A., Fiber Optic Sensor with Few-Mode Speckle Pattern Recognise by Diffraction Method, Proceeding of SPIE: Interferometry'99 Techniques and Technologies, Pułtusk 1999, vol. 3744, 386-393

f f f L1 L2 L2 P1 P2 P3 coherent light x 1,y 1 x 2,y x,y 2 3 3 ima ge CGH L1 L2 features cla ssi c 1 fier... c n Optoelektroniczny system rozpoznawania obrazów z SSN jako klasyfikatorem f L1 f L2 f L2 P1 P2 P3 K 1 światło spójne cechy Sieć Neuron.... K n x 1,y 1 L1 x 2,y 2 L2 x 3,y 3 obraz KGH Cyran K., Mrózek A., Hybrid Methods in Pattern Recognition, Intelligent Information Systems VIII, Proceedings, Ustroń 1999, 12-16