wiedzy Sieci neuronowe (c.d.)

Metody detekci uszkodzeń oparte na wiedzy Sieci neuronowe (c.d.) Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 8 Metody detekci uszkodzeń oparte na wiedzy

Wprowadzenie Ograniczenia perceptronów prostych nie posiadaa sieci z tzw. warstwami ukrytymi Sieć z edna warstwa ukryta może reprezentować dowolna funkcę boolowska (łacznie z problemem XOR) Sieci wielowarstwowe ogromne możliwości aproksymuace Problem: ak uczyć taka sieć? Rozwiazanie: algorytm wsteczne propagaci błędu Metody detekci uszkodzeń oparte na wiedzy

Struktura sieci u 1 u n 0 1. n 0 1 M-1 M 1. n 1 u m 1. u m. u m n m 1... n M-1 1. n M y 1 y nm Metody detekci uszkodzeń oparte na wiedzy

Struktura sieci Oznaczenia: M liczba warstw (m = 0,..., M) n m w m i b m u y liczba neuronów w m-te warstwie waga połaczenia pomiędzy -tym elementem m-te warstwie i i-tym elementem m 1-te warstwy wartość progowa -tego elementu m-te warstwy sygnał weściowy na -tym weściu sygnał wyściowy na -tym wyściu Metody detekci uszkodzeń oparte na wiedzy

Struktura sieci Każda warstwę można przedstawić za pomoca nieliniowwgo operatora aktywaci neuronów N m {u m } = F{W m u m } m = 1,..., M gdzie: u m wektor sygnałów weściowych dla m-te warstwy operator przetwarzania neuronowego m-te warstwy F operator aktywaci neuronów macierz współczynników wagowych pomiędzy warstwami m i m 1 N m W m Metody detekci uszkodzeń oparte na wiedzy

Struktura sieci Odwzorowanie całe sieci wielowarstwowe: y = N wy N m N m 1... N 1 {u} y = N{u} = F wy {W wy F{W m F{W m 1... F{W 1 u}... }}} gdzie: y = [y 1, y 2,..., y n ] T wektor wyściowy W wy macierz wag pomiędzy warstwa wyściowa i m-ta F wy operator aktywaci neuronów wyściowych N wy operator przetwarzania neuronowego warstwy wyściowe Metody detekci uszkodzeń oparte na wiedzy

Uniwersalny aproksymator Sieć wielowarstwowa można traktować ako układ do aproksymaci funkci nieliniowych wielu zmiennych y = f (u) Twierdzenie (Cybenko) Użycie co namnie dwóch warstw ukrytych umożliwia osiagnięcie dowolne dokładności aproksymaci dowolne funkci, przy dostatecznie duże liczbie neuronów w warstwach Twierdzenie (Cybenko; Hornik i in.) Dowolna ciagła nieliniowa funkca może być zaproksymowana z żadan a dokładnościa za pomoca sieci neuronowe składaace się z tylko edne warstwy ukryte zawieraace dostatecznie duża liczbę elementów Metody detekci uszkodzeń oparte na wiedzy

Uniwersalny aproksymator Użyteczność twierdzeń o uniwersalnym aproksymatorze zależy od tego ile wymaganych est ednostek ukrytych W wielu przypadkach liczba ednostek ukrytych może wzrastać wykładniczo wraz ze wzrostem liczby weść sieci Rozwiazanie: algorytmy doboru optymalne struktury sieci Metody detekci uszkodzeń oparte na wiedzy

Wsteczna propagaca błędów Rozważmy M-warstwowa sieć elementów o ednakowych ciagłych i różniczkowalnych funkcach aktywaci f ( ) Niech u mµ i wyście i-tego elementu m-te warstwy przy prezentaci µ-tego wzorca (m = 0,..., M; i = 0, 1,..., n m ; µ = 1, 2,..., P) Aktywność -tego elementu m-te warstwy n = f (ϕ mµ m 1 ) = f u mµ i=0 wi m u (m 1)µ i Metody detekci uszkodzeń oparte na wiedzy

Wsteczna propagaca błędów Miara błędu Korekta wag w m i P J = J µ, J µ = 1 n M ( ) y zµ 2 y µ 2 µ=1 =1 µ w m i = η J µ w m i Druga z pochodnych czastkowych = η J µ ϕ mµ ϕ mµ w m i ϕ mµ w m i = u mµ i Metody detekci uszkodzeń oparte na wiedzy

Wsteczna propagaca błędów Pierwsza z pochodnych czastkowych J µ u mµ δ mµ = J µ ϕ mµ = J µ u mµ u mµ ϕ mµ = J µ u mµ Dla warstwy wyściowe J ( ) µ u mµ = y zµ y µ = e µ ( ) f ϕ mµ Dla warstw ukrytych wartość u mµ est ednym ze składników sum ważonych liczonych we wszystkich elementach warstwy m + 1, stad n m+1 J µ ϕ (m+1)µ l = l=1 ϕ (m+1)µ u mµ l = n m+1 l=1 δ (m+1)µ l u mµ n m i=1 n w (m+1) li u mµ m+1 i = l=1 δ (m+1)µ l w (m+1 li Metody detekci uszkodzeń oparte na wiedzy

Wsteczna propagaca błędów Każdemu elementowi przetwarzaacemu możemy przypisać bład dla warstwy wyściowe ( ) δ Mµ = f ϕ Mµ e µ dla warstw ukrytych ( δ mµ = f ϕ mµ Uogólniona reguła korekci wag ) n m+1 l=1 µ wi m = ηδ mµ δ m+1 l µw (m+1) l u (m 1)µ i Korekta po zaprezentowaniu całego zbioru wzorców w m i = η P µ=1 δ mµ u (m 1)µ i Metody detekci uszkodzeń oparte na wiedzy

Algorytm wsteczne propagaci Krok 1. Wybierz poczatkowe wartości wag ako małe liczby losowe Krok 2. Wybierz wzorzec u µ i poda go na weście sieci Krok 3. Wyznacz wartości wyść u mµ każdego elementu dla kolenych warstw przetwarzania neuronowego u mµ n m 1 = f i=0 wi m u (m 1)µ i Krok 4. Oblicz wartości błędów e µ i sumy kwadratów błędów J µ Krok 5. Oblicz wartości błędów dla warstwy wyściowe δ Mµ ( ) δ Mµ = f ϕ Mµ e µ Metody detekci uszkodzeń oparte na wiedzy

Algorytm wsteczne propagaci Krok 6. Dokona wsteczne propagaci błędu wyściowego δ Mµ do poszczególnych elementów warstw ukrytych wyznaczaac δ mµ δ mµ = f ( ϕ mµ ) n m+1 l=1 δ m+1 l µw (m+1) l Krok 7. Dokona aktualizaci wag koleno pomiędzy warstwa wyściowa i ukryta, a następnie pomiędzy warstwami ukrytymi, przesuwaac się w kierunku warstwy weściowe µ wi m = ηδ mµ u (m 1)µ i Krok 8. Jeżeli warunek stopu est spełniony to STOP, w innym przypadku idź do Kroku 2 i dokona prezentaci kolenego wzorca Metody detekci uszkodzeń oparte na wiedzy

Algorytm wsteczne propagaci podsumowanie Wagi sa używane zarówno do obliczania odpowiedzi siec ak również do wyznaczania błędów Można zauważyć analogię występuac a pomiędzy wzorami: n u m m 1 = f wi m u (m 1) ( ) n i, δ m = f ϕ m m+1 δ (m+1) l w m+1 l i=0 Reguła modyfikaci est lokalna, tzn. aby policzyć zmianę wagi danego połaczenia należy znać wielkości dostępne tylko na obu końcach tego połaczenia Złożoność obliczeniowa algorytmu nie est duża. Jeżeli liczba wszystkich połaczeń est równa n, to obliczenie funkci kosztu wymaga wykonania liczby operaci rzędu n i obliczenie wszystkich pochodnych wymaga liczby operaci rzędu n l=1 Metody detekci uszkodzeń oparte na wiedzy

Momentum Przyspieszenie zbieżności procesu uczenia przy ednoczesnym zachowaniu stabilności Metoda wyciszaaca oscylace wokół punktu optymalnego Każde wadze nadae się pewna bezwładność w(k) = η E(k) + α w(k 1) gdzie: α współczynnik momentum o wartości α (0, 1) Człon momentum działa ak filtr dolnoprzepustowy eliminaca gwałtownych zmian wartości funkci celu Metody detekci uszkodzeń oparte na wiedzy

Momentum Przykład tłumienia oscylaci przypadek (a) proces uczenia dla η = 0.0476 bez momentum dla 12 kroków przypadek (b) proces uczenia dla η = 0.0476 z członem momentum α = 0.5 dla 12 kroków a) b) + Metody detekci uszkodzeń oparte na wiedzy

Momentum Przykład pokonania minimum lokalnego przypadek (a) proces uczenia bez momentum przypadek (b) proces uczenia z członem momentum a) b) Metody detekci uszkodzeń oparte na wiedzy

Parametry adaptacyne Problem z wyborem odpowiednich wartości kroku uczenia Wartości η dobre w poczatkowe fazie uczenia moga okazać się nieprawidłowe późnie Zaproponowano wiele rozwiazań +a dla E < 0 η(k) = bη dla E > 0 0 w pozostałych przypadkach różne współczynniki uczenia dla każde wagi η 1 obciążalność węzła zastosowanie po ednym parametrze η dla każdego wzorca Metody detekci uszkodzeń oparte na wiedzy

Uogólnianie W trakcie procesu uczenia można wykorzystać dowolna liczbę wzorców uczacych W praktyce, do uczenia używa się zazwycza stosunkowo niewiele wzorców, a przy pomocy pozostałych sprawdza się czy nauczona sieć realizue prawidłowo odwzorowanie Zbiór wzorców dzieli się na dwa podzbiory: uczacy U i testuacy T Zdolność do uogólnień polega na tym, że przy danym zbiorze uczacym sieć znadue pewne wspólne cechy wektorów uczacych Metody detekci uszkodzeń oparte na wiedzy

Uogólnianie Podanie wektora weściowego, który nie był prezentowany w trakcie uczenia powodue zaklasyfikowanie go do edne z określonych klas wektorów, a wyście sieci powinno być zbliżone do wyścia odpowiadaacego nabliższemu wzorcowi w przestrzeni weść Porównanie dobrych właściwości uogólniania (a) i złych (b) a) b) Metody detekci uszkodzeń oparte na wiedzy