Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Podobne dokumenty
Analiza głównych składowych- redukcja wymiaru, wykł. 12

10. Redukcja wymiaru - metoda PCA

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Analiza składowych głównych. Wprowadzenie

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Rozpoznawanie twarzy za pomocą sieci neuronowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

5. Rozwiązywanie układów równań liniowych

Programowanie celowe #1

Elementy statystyki wielowymiarowej

Macierze. Rozdział Działania na macierzach

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Optymalizacja ciągła

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

WYKŁAD 9 METODY ZMIENNEJ METRYKI

TRANSFORMACJE I JAKOŚĆ DANYCH

0 + 0 = 0, = 1, = 1, = 0.

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Wartości i wektory własne

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Analiza korespondencji

Aproksymacja funkcji a regresja symboliczna

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Stosowana Analiza Regresji

Prawdopodobieństwo i statystyka

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Metoda eliminacji Gaussa. Autorzy: Michał Góra

1 Układy równań liniowych

Metody numeryczne Wykład 4

Analiza składowych głównych

Ważne rozkłady i twierdzenia c.d.

Analiza obrazów - sprawozdanie nr 2

Układy równań i nierówności liniowych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Statystyka i eksploracja danych

Zmienne zależne i niezależne

Uczenie sieci typu MLP

Rozwiązywanie równań nieliniowych

O MACIERZACH I UKŁADACH RÓWNAŃ

KADD Minimalizacja funkcji

Układy równań liniowych

Spacery losowe generowanie realizacji procesu losowego

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Agnieszka Nowak Brzezińska Wykład III

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Agnieszka Nowak Brzezińska Wykład III

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Programowanie dynamiczne

Rozwiązywanie układów równań liniowych

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Inteligentna analiza danych

; B = Wykonaj poniższe obliczenia: Mnożenia, transpozycje etc wykonuję programem i przepisuję wyniki. Mam nadzieję, że umiesz mnożyć macierze...

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1

Metody systemowe i decyzyjne w informatyce

Algebra liniowa z geometrią

Zaawansowane metody numeryczne

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Implementacja filtru Canny ego

3. Interpolacja. Interpolacja w sensie Lagrange'a (3.1) Dana jest funkcja y= f x określona i ciągła w przedziale [a ;b], która

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Hierarchiczna analiza skupień

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

Co to jest grupowanie

8. Neuron z ciągłą funkcją aktywacji.

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

3. Wykład Układy równań liniowych.

3. Macierze i Układy Równań Liniowych

SZTUCZNA INTELIGENCJA

Sieć przesyłająca żetony CP (counter propagation)

Wprowadzenie do analizy korelacji i regresji

Weryfikacja hipotez statystycznych

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu

Metody numeryczne I Równania nieliniowe

Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

Wykład z równań różnicowych

Estymacja parametrów, przedziały ufności etc

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Wykład 14. Elementy algebry macierzy

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Transkrypt:

Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl

Metoda PCA Analiza składników głównych PCA (ang. Principal Component Analysis) jest metodą statystyczną, określającą przekształcenie liniowe przekształcajace opis stacjonarnego procesu stochastycznego opisanego za pomocą wektora w wektor za pośrednictwem macierzy w ten sposób, że przestrzeo wyjściowa o zredukowanym wymiarze zachowuje najważniejsze informacje o procesie.

Metoda PCA Wzajemnie skorelowane składniki zostają zamienione w składniki nieskorelowane uszeregowane według ich ważności. Jest to zatem forma kompresji stratnej i jest znana w teorii komunikacji jako przekształcenie Karhunena-Loevego.

Metoda PCA Jeśli x jest wektorem losowym o zerowej wartości średniej to przez rozumiemy wartośd średnią (oczekiwaną) macierzy autokorelacji po wszystkich wektorach x. W i oznacza ortogonalne wektory własne stowarzyszone z wartościami własnymi macierzy tzn.

Metoda PCA Jeśli uszeregujemy wartości własne w kolejności malejącej i ograniczymy się jedynie do K największych, możemy stworzyd macierz W stworzoną z K wektorów stowarzyszonych z danymi wartościami własnymi. Zachowamy w ten sposób najważniejszą częśd informacji. Przekształcenie PCA jest wtedy określone przez macierz W jako Odtworzona informacja ma postad

Metoda PCA Wartośd funkcji błędu osiąga minimum, gdy wiersze W są złożone z pierwszych K wektorów własnych macierzy Otrzymujemy wówczas następujące zależności: Macierz korelacji wektorów y jest równa Oznacza to, że wszystkie składniki wektora y są nieskorelowane, z wariancjami równymi wartościom własnym

Metoda PCA Przekształcenie PCA określa zbiór wektorów ortogonalnych, które mają największy wkład w wariancję wektorów wejściowych. Celem tego przekształcenia jest określenie kierunków W i, zwanych głównymi wektorami własnymi, w taki sposób, by maksymalizowad wyrażenie przy spełnieniu warunku ortogonalności

Metoda PCA PCA i rozpoznawanie twarzy za pomocą wartości własnych 1. Opisana metoda może byd użyta w celu uchwycenia wariancji w zbiorze obrazów twarzy. 2. Każdy obraz może byd traktowany jako wektor (punkt) w przestrzeni o bardzo dużym wymiarze równym liczbie pikseli w danym obrazie. 3. Mając zbiór danych uczących (przykładowych obrazów twarzy) można stworzyd średnią macierz autokorelacji tych wektorów i wyliczyd jej wektory własne, jak zostało to opisane wcześniej. 4. Otrzymane w ten sposób wektory własne mają oczywiście ten sam wymiar, co dane wejściowe tj. wektory utworzone bezpośrednio z obrazów na podstawie wartości ich pikseli.

Metoda PCA 1. Każdy taki wektor własny przyczynia się do opisu wariancji w zbiorze przykładowych obrazów. 2. Każdy obraz ze zbioru uczącego przyczynia się w różnym stopniu do wartości każdego wektora własnego, a różny ich udział w tworzeniu różnych wektorów własnych może byd wykorzystany w celu ich opisu, odpowiedniego do zadania rozpoznania.

Metoda PCA 1. Wektory własne wyliczone w ten sposób tworzą nowy układ współrzędnych w przestrzeni początkowej, w której każdy wektor własny opisuje jedną oś tego nowego układu. 2. Zatem każda twarz określona początkowo jako wielowymiarowy wektor wartości pikseli może zostad zrzutowana na te osie i wyrażona jako liniowa kombinacja tych wektorów własnych. 3. Wektory własne tworzą zbiór obrazów bazowych i zwane są one eigenfaces (od angielskich słów eigenvalues i eigenvectors). 4. Każda twarz może byd również zrzutowana jedynie na najlepsze obrazy bazowe, czyli takie kierunki, które wyznaczone są przez wektory własne o największych wartościach własnych stowarzyszonych z nimi.

Metoda PCA 1. W przestrzeni wejściowej zostaje zatem wyznaczona podprzestrzeo, na którą rzutowane są wektory opisujce twarze. 2. Otrzymujemy redukcję wymiarowości, której stopieo zależy od liczby wybranych obrazów bazowych, na które odbywa się rzutowanie. 3. Każdy element nowopowstałego wektora cech określa współczynnik liniowej kombinacji odnoszący się do danego obrazu bazowego.

Metoda PCA 1. Kirby i Sirovich (Kirby, Sirovich, 1987, 1990) jako pierwsi wykorzystali tę technikę w celu efektywnego reprezentowania obrazów twarzy. 2. Używając metody PCA liczyli oni najlepszy układ współrzędnych użyty przez nich do kompresji obrazów, w którym każdy kierunek był wyznaczony przez obraz bazowy, zwany przez nich eigenpicture. 3. Twierdzili oni, że każdy obraz może byd przechowywany jako zbiór małej ilości wag liniowej kombinacji dokonywanej za pomoc pewnego zbioru bazowych obrazów. 4. Wagi takie znajdowane były przez rzutowanie każdego obrazu na każdy obraz bazowy.

Metoda PCA 1. Turk i Pentland (Turk, M., and Pentland, A., 1991) jako pierwsi zastosowali tę metodę do rozpoznawania twarzy. 2. Zauważyli oni, że jeśli wartości wag opisane powyżej charakteryzują daną twarz w stopniu wystarczającym do jej rekonstrukcji za pomocą obrazów bazowych, to byd może wagi te opisują globalne cechy twarzy, które mogą byd wykorzystane w celu znalezienia cech różniących poszczególne twarze między sobą. 3. Sposób ten okazał się niezwykle skuteczny. Pozostawiając jedynie niewielką liczbę najważniejszych wektorów własnych średniej macierzy autokorelacji wektorów wejściowych, dostaje się przez rzutowanie na te kierunki wektor wag, który jest właśnie poszukiwanym wektorem cech, użytym do rozpoznania. Ma on dużo mniejszy wymiar a jednocześnie zawiera wystarczającą ilośd informacji.

Metoda PCA Liczenie obrazów bazowych Załóżmy, że każdy obraz I( x, y) jest dwuwymiarową tablicą o elementach równych wartościom jasności pikseli. Może on byd również opisany jako wektor o wymiarze N 2. Tak wiec obraz o wymiarach np. 50x50 jest wektorem o wymiarze 2500. Zadaniem metody PCA jest znalezienie nowego układu współrzędnych, który najlepiej opisuje rozkład obrazów twarzy w tej wielowymiarowej przestrzeni. Każda twarz zostaje opisana w nowym układzie współrzędnych poprzez jej rzutowanie na nowy układ współrzędnych.

Metoda PCA

Metoda PCA

Metoda PCA

Metoda PCA Załóżmy, że dysponujemy zbiorem M obrazów twarzy opisanych jako N 2 - wymiarowe wektory które wykorzystane zostaną do wyliczenia wektorów własnych. Pierwszym krokiem jest obliczenie średniej twarzy Każda twarz zostaje opisana przez nowy wektor powstały przez odjęcie średniej twarzy

Metoda PCA Korzystając z tego zbioru wektorów, celem jest znalezienie M ortonormalnych wektorów u n, które najlepiej opisują rozkład danych wejściowych. Wektor k-ty u k jest tak dobrany, aby wyrażenie osiągnęło maximum pod warunkiem, że

Metoda PCA Wektory u k oraz skalary są odpowiednio wektorami i wartościami własnymi macierzy kowariancji

Metoda PCA 1. W przypadku jednak, gdy wymiar obrazu twarzy równa się np. 50x50, N 2 = 2500, wymiar macierzy symetrycznej C jest równy 2500x2500. 2. Z praktycznego punktu widzenia liczenie wartości i wektorów własnych tak dużej macierzy jest bardzo nieatrakcyjne. 3. Jeśli jednak danych wejściowych jest dużo mniej niż wymiar wejściowej przestrzeni (M<<N), istnieje tylko M-1 znaczących wektorów własnych. Pozostałe stowarzyszone są z wartościami własnymi bliskimi zeru, wiec nieprzydatnymi.

Metoda PCA Korzystny zatem jest następujący zabieg. Znajdźmy wektory własne v i macierzy A T A, czyli Jeżeli pomnożymy obie strony tego równania przez macierz A otrzymamy

Metoda PCA Stad wynika, że są szukanymi wektorami macierzy Konstruujemy zatem macierz o wymiarach MxM, gdzie i znajdujemy najpierw M wektorów własnych v i macierzy L. Ostatecznie, szukane wektory własne u l macierzy C otrzymujemy z równania

Metoda PCA 1. Za pomocą tej analizy obliczenia są znacznie zredukowane. 2. Liczenie wektorów własnych macierzy o wymiarach N 2 x N 2 ( NxN wymiar obrazu wejściowego) np. 2500x2500 jest zastąpione liczeniem wektorów własnych macierzy o wymiarach MxM ( M liczba dostępnych obrazów) np. 30x30. 3. Wyliczone wartości własne pozwalają na uszeregowanie otrzymanych wektorów własnych zgodnie z ich ważnością.

Metoda PCA 1. Użytecznośd tego algorytmu wynika z postaci macierzy L. 2. Po pierwsze, ma ona o wiele niższy wymiar niż macierz C 3. Po drugie jest ona symetryczna i rzeczywista, wiec wektory i wartości własne są również rzeczywiste. 4. W praktyce liczenie wektorów i wartości własnych odbywa się za pomocą algorytmu QR, gdzie rzeczywista, symetryczna macierz A jest dekomponowana na iloczyn macierzy ortogonalnej Q oraz macierzy górnej trójkątnej R. 5. Algorytm QR jest rzędu O(N 3 ) dla każdej iteracji. Jednak ten sam algorytm jest rzędu jedynie O (N) dla każdej iteracji dla macierzy trójdiagonalnej. Zatem znaczne przyspieszenie obliczeo może byd osiągnięte przez przekształcenie macierzy L do postaci trójdiagonalnej za pomocą np. algorytmu Housholder a.

Metoda PCA Wynikiem obliczeo są obrazy bazowe tzw. eigenfaces, którymi są wektory własne macierzy C. Przykładowe twarze uczestniczące w tworzeniu obrazów bazowych.

Metoda PCA Otrzymano wektory bazowe znormalizowane, które w celu ich zaprezentowania przeskalowano na zakres [0,255] (zakres wartości pikseli). Otrzymane eigenfaces szeregowane są zgodnie z malejącymi wartościami stowarzyszonych wartości własnych. Przykładowe obrazy bazowe.

Średnia twarz Metoda PCA

Metoda PCA 1. Z powyższych rachunków otrzymano zbiór obrazów (wektorów) bazowych, które wyznaczaj podprzestrzeo przestrzeni początkowej. 2. Wymiarowośd problemu została znacznie ograniczona - w powyższym przykładzie obrazy miały wymiar 100x100, wiec wymiar przestrzeni wejściowej był równy 10000, natomiast uzyskano 25 wektorów bazowych, zatem podprzestrzeo, w której odbędzie się porównanie i rozpoznanie ma wymiar 24 ( M-1 wektorów znaczących), lub mniejszy, jako że nie ma konieczności rzutowania obrazów podlegających rozpoznaniu na wszystkie obrazy bazowe. 3. Często wystarczające jest wykorzystanie jedynie części z nich, np. takich z największymi stowarzyszonymi wartościami własnymi, jako takimi, które niosą najwięcej informacji o wariancji w zbiorze obrazów.

Metoda PCA 1. Często bowiem wektory własne z mniejszymi wartościami własnymi niosą informacje nieistotne, wręcz nieprzydatne, związane z szumem występującym w obrazach. 2. Niekiedy jednak nie jest to prawdą, gdyż, jeśli wśród obrazów istnieją duże różnice w jasności i oświetleniu, największe wektory własne mogą opisywad właśnie te cechy obrazów, które nie są istotne, a wręcz są niepożądane podczas rozpoznania.

Metoda PCA Każdy obraz, także nie uczestniczący w tworzeniu obrazów bazowych, jest rzutowany na powstałą podprzestrzeo poprzez prostą operację gdzie M jest liczbawybranych obrazów bazowych. Otrzymujemy wektor cech opisujący daną twarz Wektor ten zawiera wagi linowej kombinacji dla danego obrazu, jeśli ma on zostad zrekonstruowany na podstawie obrazów bazowych.

Metoda PCA Rekonstrukcja obrazu na podstawie wektora cech i obrazów bazowych odbywa się następująco:

Metoda PCA Rekonstrukcja obrazu za pomocą obrazów bazowych eigenfaces

Metoda PCA Rekonstrukcja ta obarczona jest błędem, który może byd w przybliżeniu określony jako Błąd ten rośnie, jeśli obrazy biorące udział w tworzeniu bazy różnią się znacząco miedzy sobą.

Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz brał udział w tworzeniu bazy.

Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz nie brał udziału w tworzeniu bazy.

Metoda PCA 1. Po obliczeniu obrazów bazowych, każdy obraz w bazie jest opisany za pomocą wektora cech. Wartości te są zapisywane w bazie w celu późniejszego ich wykorzystania. 2. Każdy nowy obraz pokazany systemowi jest opisywany za pomoc wektora cech poprzez dokonanie jego projekcji na te same obrazy bazowe. 3. Powstały wektor cech użyty jest do porównania danej twarzy z innymi. Dokonuje się tego za pomoc różnego rodzaju metryk (Euklidesa, iloczyn skalarny wektorów) lub stosując bardziej wymyślne metody klasyfikacji.

Metoda PCA

Metoda PCA

Metoda PCA Ekstrakcja składników głównych za pomocą sieci Hebba W celu dokonania analizy składników głównych PCA, można wykorzystad odpowiednio skonstruowaną i uczoną sied neuronów Hebba. W modelu Hebba wykorzystuje się obserwację neurobiologiczną, która zwraca uwagę na to, że waga połączenia między dwoma neuronami wzrasta przy jednoczesnym pobudzeniu obu neuronów, w przeciwnym wypadku maleje. Zmiana wag w takiej metodzie uczenia wygląda następująco: gdzie F(.) jest funkcją sygnału wejściowego (presynaptycznego) x j, oraz sygnału wyjściowego (postsynaptycznego) y i. W klasycznym wzorze Hebba reguła ta ma postad:

Metoda PCA Do wyznaczenia pierwszego składnika głównego y 1 i odpowiadającego mu wektora W 1 za pomocą sieci Hebba, Oja zaproponował sied złożonąz jednego neuronu liniowego, z którego otrzymuje się Adaptacja wag odbywa się po każdorazowym podaniu wzorca na wejście neuronu i przebiega według znormalizowanej reguły Hebba, zwanej regułą Oji: lub w postaci wektorowej

Metoda PCA W powyższym wzorze pierwszy składnik odpowiada regule Hebba, drugi natomiast zapewnia samonormalizację, tak aby Estymacja wielu składników głównych wymaga wielu neuronów w warstwie wyjściowej. Dobre rezultaty można otrzymad stosując regułę Sangera. Przy K neuronach liniowych w warstwie wyjściowej każdy z nich generuje sygnał będącym jednym ze składników głównych.

Metoda PCA Adaptacja wag następuje według wzoru Aby użyd powyższą metodę do uzyskania wektorów cech dla danych obrazów twarzy, należy na wejście sieci podawad znormalizowane wektory uzyskane identycznie jak w poprzednim rozdziale. Ustalając liczbę neuronów określamy liczbę składników głównych, które zostaną wyodrębnione kolejno przez wszystkie neurony.

Metoda PCA Odpowiednikiem wektorów własnych u i z poprzedniej metody są wagi danego neuronu W i. Wektor cech powstaje z odpowiedzi y i neuronów sieci na wzorzec przekazany na jej wejcie. Otrzymujemy zatem wektor cech w postaci Jeżeli przez W oznaczymy macierz to dla każdego obrazu. Rekonstrukcja odbywa się podobnie jak w poprzedniej metodzie

Metoda PCA Wagi każdego neuronu uczonego tą metodą podobnie jak w poprzedniej metodzie tworzą pewien obraz bazowy przypominający duchową twarz. Każdy obraz został utworzony z wag jednego neuronu przeskalowanych na zakres [0,255].

Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba. Obraz uczestniczył w uczeniu sieci.

Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą kolejno 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba. Obraz nie uczestniczył w uczeniu sieci.

Metoda PCA Pytanie? Jak obliczyd wariancję wychwyconą przez kilka pierwszych składowych głównych, jeśli są one liczone za pomocą sieci neuronowej?

Wady PCA Metoda rozpoznawania twarzy za pomocą składników głównych PCA słusznie cieszy się powodzeniem wśród badaczy i twórców praktycznych systemów identyfikacji. Nie jest ona jednak metodą doskonałą, niepozbawioną pewnych wad, mimo swojej skuteczności. Według wielu badaczy, ICA (ang. Independent Component Analysis), przy odpowiednich założeniach, jest skuteczniejsza niż PCA. W praktyce wyodrębnianie statystycznie niezależnych składowych odbywa się poprzez odpowiednio skonstruowane i uczone sieci neuronowe.

Podsumowanie ogólnego podejścia Każdy obraz może byd przedstawiony jako liniowa kombinacja pewnych obrazów bazowych, które wyznaczają nowy układ współrzędnych w przestrzeni obrazów twarzy. Każdy obraz może byd zatem traktowany jako punkt w tej przestrzeni i opisany współrzędnymi przy wykorzystaniu rożnych układów współrzędnych (obrazów bazowych będących osiami w tej przestrzeni). Celem metody PCA jest dobranie takiego zbioru obrazów bazowych, aby w tym nowym układzie współrzędnych współczynniki PCA opisujące obrazy były nieskorelowane, to znaczy, aby żaden z nich nie mógł byd przedstawiony jako liniowa kombinacja pozostałych. Oznacza to, że zależności statystyczne pomiędzy pikselami w obrazach zawarte w łącznym rozkładzie prawdopodobieostwa są rozdzielone poprzez przeprowadzenie analizy PCA.

Wady metody PCA PCA jest w stanie usunąd jedynie zalżności statystyczne drugiego rzędu, co może byd intuicyjnie widoczne, jako że przy wyliczaniu PCA liczy się wektory własne macierzy autokorelacji, która jest w stanie opisad jedynie zależności drugiego rzędu. Z tego względu zależności statystyczne wyższego rzędu nadal pozostaną w opisie PCA.

W zadaniach typu rozpoznawanie twarzy lub analiza obrazów dużo ważnej informacji może byd zawartej w zależnościach statystycznych wyższego rzędu pomiędzy wartościami pikseli. Dlatego warto sprawdzid, czy metody, które byłyby uogólnieniami PCA i byłyby w stanie odseparowad te zależności na sygnały (w tym wypadku obrazy bazowe) statystycznie niezależne, nie byłyby skuteczniejsze. Jedną z takich metod jest metoda ICA.

PCA: Daje nieskorelowane współczynniki PCA Minimalizuje średniokwadratowy błąd rekonstrukcji danych wejściowych Jest to w pełni satysfakcjonujące jeśli dane wejściowe mają rozkład Gaussa. Wtedy bowiem cała informacja o rozkładzie jest zawarta w zależnościach statystycznych drugiego rzędu (macierz kowariancji). Problem pojawia się jeśli dane nie są gaussowskie.

Zaletey ICA w porównaniu do PCA Dostarcza lepszego probabilistycznego modelu zjawiska Wyznacza niekoniecznie ortogonalny układ współrzędnych, który pozwala na lepszą rekonstrukcję danych w przypadku wystąpienia dużych szumów Jest wrażliwa na zależności statystyczne wyższego rzędu występujące w danych wejściowych, nie tylko na zależności zawarte w macierzy kowariancji

Dwa pierwsze obrazy (po lewej) przedstawiają oryginalne twarze. Środkowe obrazy przedstawiają te same obrazy z zaszumioną fazą. Obrazy po prawej stronie przestawiają zrekonstruowane obrazy, z tym ze każdy z nich był zrekonstruowany w oparciu o wartości amplitudy własnego widma i fazy widma drugiego obrazu. Przekłamania, jakie pojawiają się w wyniku takiej operacji widad gołym okiem zrekonstruowana twarz bardziej podobna jest do twarzy, od której pochodziła składowa fazy widma. Eksperyment ten ukazuje jak ważna jest ta częśd informacji zawarta w fazie widma.

Związek miedzy tym eksperymentem a metodami PCA i ICA jest następujący: zależności statystyczne drugiego rzędu wychwytują informację zawartą jedynie w amplitudzie widma danego obrazu (czy tez ogólniej sygnału). Informacja niesiona przez fazę widma jest zawarte w zależnościach wyższego rzędu. W pokazanych powyżej obrazach zmiana wyglądu dla ludzkiego oka jest kolosalna, jednak zależności drugiego rzędu nie zostały zmienione.

Definicja ICA Metoda ICA (w swej podstawowej formie) jest definiowana jako przekształcenie liniowe Kryteria doboru macierzy tego przekształcenia (tzn. wektorów bazowych) są inne niż dla PCA, mianowicie parametrem, który jest maksymalizowany jest tutaj wzajemna statystyczna niezależnośd wektorów bazowych, lub też statystyczna niezależnośd współczynników ICA (odpowiedników parametrów linowej kombinacji z metody PCA).

W metodzie ICA zakłada się, że obserwowane są wektory których każda składowa jest liniową kombinacją pewnych niezależnych statystycznie komponentów Zakładamy, że każdy niezależny komponent s k oraz każda liniowa kombinacja x j jest zmienną losową (w innym podejściu może byd traktowana jako sygnał czasowy). Zakładamy, że wektory s oraz x mają zerową średnią wartośd. W przypadku, gdy nie jest to spełnione, zawsze można to osiągnąd poprzez odjeście od każdego wektora x wektora średniego. Powyższy model można zapisad w postaci macierzowej

ICA opisuje proces mieszania składników niezależnych s k poprzez pewien proces, tutaj założony jako proces liniowej kombinacji dokonywany za pomocą macierzy A. Przykładem takiego procesu jest nagrywanie za pomocą dwóch (lub więcej) mikrofonów dwóch osób mówiących jednocześnie. Dysponujemy dwoma nagraniami (składowe wektora x ), które powstały w wyniku zmieszania dwóch sygnałów mowy, które przebiegały w sposób niezależny (składowe wektora s ).

Procedura ICA W modelu ICA obserwujemy jedynie wektory x, nieznane są natomiast wektory s oraz macierz mieszająca A. Celem jest oszacowanie zarówno A jak i s. Punktem wyjścia analizy ICA umożliwiającym takie oszacowanie jest założenie statystycznej niezależności składowych s k wektora s. Zakłada się również, że składowe niezależne nie maja rozkładu prawdopodobieostwa Gaussa. Dla łatwości rozważao przyjęte jest, że macierz A jest kwadratowa.

Po oszacowaniu macierzy A można policzyd jej macierz odwrotną i otrzymad równanie którym szacuje się nieznane składniki niezależne. Z faktu iż zarówno macierz A jak i wektor s są nieznane, wynika, że nie można oszacowad wariancji oraz kolejności składników niezależnych.

Statystyczna niezależnośd Intuicyjnie rzecz ujmując, dwie zmienne losowe s 1 i s 2 są statystycznie niezależne, jeżeli wiedza o wartościach jednej z nich nie daje żadnej informacji o wartościach drugiej.

Statystyczna niezależnośd Formalnie niezależnośd statystyczną definiuje się przez funkcję gęstości prawdopodobieostwa. Jeśli przez p 1 (s 1 ) i p 2 (s 2 ) oznaczymy funkcje gęstości prawdopodobieostwa odpowiednio zmiennej s 1 i s 2, a przez p(s 1, s 2 ) łącznych rozkład prawdopodobieostwa s 1 i s 2, to s 1 i s 2 są statystycznie niezależne wtedy i tylko jeśli zachodzi związek p(s 1, s 2 ) = p 1 (s 1 ) * p 2 (s 2 ) przy czym

Z definicji wynika, że gdzie h i (.) są funkcjami skalarnymi Zmienne s 1 i s 2 są nieskorelowane, jeśli Widad więc, że niezależnośd zawiera w sobie nieskorelowanie zmiennych, natomiast zmienne nieskorelowane niekoniecznie muszą byd niezależne. Powyższe definicje rozciągnąd można na większą liczbę zmiennych s i.

Przykład: Statystyczna niezależnośd dwóch zmiennych oraz proces ich mieszania poprzez macierz A. Zmienne s 1 oraz s 2 mają rozkład jednostajny dany równaniem Zmienne x 1 i x 2 powstały przez zmieszanie s 1 i s 2 przez macierz

Z poniższych rysunków widad, że zmienne s 1 i s 2 są niezależne wartośd jednej z nich nic nie mówi o wartości drugiej. Natomiast widad, iż x 1 i x 2 nie są niezależne, gdyż jeśli jedna z nich zmierza do minimum lub maksimum, jednocześnie determinuje wartośd drugiej.

Widad, iż kolumny macierzy A wskazują kierunki brzegów równoległoboku (ich środki). Natomiast jeśli przyjmiemy rozkład prawdopodobieostwa Gaussa dla s 1 i s 2 oraz mieszającą macierz A ortogonalną, to również x 1 i x 2 mają rozkład Gaussa

Z rysunku takiego rozkładu widad (poniżej), że jest on całkowicie symetryczny i nie daje żadnej informacji o kierunkach kolumn macierzy A. Nie można zatem wyznaczyd macierzy A dla zmiennych gaussowskich. Jeśli jednak tylko jedna zmienna ma rozkład Gaussa, to analiza ICA jest możliwa.

Nie-gausowskośd a statystyczna niezależnośd Z powyższych wywodów wynika, że założenie, iż zmienne losowe podlegające analizie ICA nie mogą mied rozkładu Gaussa jest fundamentalne. Z twierdzenia znanego w statystyce jako Centralne Twierdzenie Graniczne, wynika, że pod pewnymi warunkami, łączny rozkład prawdopodobieostwa sumy niezależnych statystycznie zmiennych losowych dąży do rozkładu Gaussa. Z tego wynika, że suma zmiennych losowych niezależnych zazwyczaj ma rozkład bliższy rozkładowi Gaussa niż rozkład którejkolwiek z oryginalnych zmiennych losowych. Powyższe informacje są bardzo pomocne w analizie ICA.

Załóżmy, że macierz W jest macierzą odwrotnąmacierzy mieszającej A, oraz że chcemy oszacowad jeden z niezależnych składników oznaczony jako Szukamy zatem takiego wektora w, aby y j był estymacją jednego ze składników niezależnych s j. Okazuje się, że można do tego użyd Centralnego Twierdzenia Granicznego. Jeśli przez z oznaczymy otrzymamy następującą zależnośd

Wektor y jest zatem liniową kombinacją nieznanych niezależnych elementów s i. Jako, że są one niezależne, z Centralnego Twierdzenia Granicznego wynika, że jakakolwiek ich suma (także ważona z wagami z i ) będzie miała rozkład bardziej gaussowski niż jakikolwiek ze składników tej sumy. Zatem wynik operacji ma rozkład bardziej gausowski niż jakikolwiek składnik s i, z kolei najbardziej się on będzie różnił od rozkładu Gaussa, jeśli będzie się równał jednemu ze składników s i, co z kolei będzie spełnione, jeśli tylko jeden element wektora z będzie niezerowy.

Jeśli tak się stanie, zmiana w kierunku gausowskości w T x będzie osiągad minimum. W prosty zatem sposób można odwrócid rozumowanie i powiedzied, że jeśli dobierzemy taki wektor w, który maksymalizuje nie-gausowskośd w T x, to taki wektor w będzie odpowiadał wektorowi z z tylko jednym elementem niezerowym, zatem wynik mnożenia będzie jednym z szukanych składników niezależnych s i.

Powyższe rozumowanie jest w dużej części heurystyczne, jednak stanowi punkt wyjścia dla metod jak najbardziej nadających się do praktycznej estymacji składników niezależnych. Należy: zainicjowad wektor w zmieniad go iteracyjnie w kierunku, w którym gausowskośd w T x jest minimalizowana. Pytanie: Jaka jest miara gaussowskości rozkładu danej zmiennej losowej?

Istnieje wiele metod określania stopnia, w jakim rozkład danej zmiennej losowej jest podobny do rozkładu Gaussa. Zakładamy, że zmienna losowa y ma średnią wartośd równą zero i wariancję równą jeden.

Kurtoza Klasyczną metodą pomiaru gausowskości rozkładu jest moment statystyczny czwartego rzędu zwany kurtozą. Definicja: Kurtoza dla zmiennych losowych gausowskich jest równa zero, dla pozostałych w przeważającej większości przypadków jest różna od zera. Kurtoza może byd mniejsza lub większa od zera, zatem w celu określenia stopnia gausowskości rozkładu należy użyd jej absolutnej wartości.

Kurtoza Posiada ona dwie ważne z punktu widzenia analitycznego i praktycznego właściwości gdzie alfa to skalar W praktyce estymacje kurtozy mogą byd bardzo czułe na niewielkie błędy pomiarowe i sprawiad, że estymacje te obarczone są zbyt dużym błędem, by mogły byd praktycznie użyteczne.

Entropia Entropia zmiennej losowej może byd rozumiana jako ilośd informacji, jaką można otrzymad poprzez obserwacje danej zmiennej losowej. Im bardziej losowa jest ta zmienna (nieuporządkowana i nieprzewidywalna), tym większa jest jej entropia. Definicja entropii dla zmiennej losowej ciągłej Y jest następująca : a dla zmiennej losowej dyskretnej y - prawdopodobieostwo, że zmienna losowa y przyjmie wartośd a i

Fundamentalnym twierdzeniem teorii informacji jest stwierdzenie, że zmienna losowa o rozkładzie Gaussa ma największą entropię spośród wszystkich zmiennych losowych o zadanej wariancji. Z tego wynika, że entropia może byd miarą gausowskości danego rozkładu. Aby otrzymad miarę gausowskości równą zero dla rozkładu Gaussa oraz zawsze większ od zera dla pozostałych zmiennych losowych definiuje się pojęcie negentropii J gdzie y gauss jest zmienną losową o rozkładzie Gaussa oraz tej samej wariancji co zmienna y

Wada negentropii Negentropia jako miara gausowskości ma ważną wadę, a mianowicie wymaga estymacji funkcji rozkładu prawdopodobieostwa zmiennej losowej, co w praktyce może przysparzad problemy. Dlatego też, zamiast stosowad ją w praktyce bezpośrednio, używa się innych estymatorów. Poniższy estymator oparty jest na momentach statystycznych wyższego rzędu

Inne rozwiązanie to estymacja negentropii za pomocą równania gdzie v jest zmienną losową o rozkładzie Gaussa o zerowej średniej wartości i jednostkowej wariancji, a G to odpowiednio dobrana funkcja niekwadratowa. Dowiedziono, że następujące funkcje G dobrze sprawdzają się w praktyce

Przygotowanie danych wejściowych Podstawowym zabiegiem dokonywanym na danych wejściowych jest uczynienie z nich danych o zerowej średniej wartości. Jeśli danymi wejściowymi są wektory x, można tego dokonad poprzez odjęcie od każdego z nich średniego wektora rozumianego jako m=e{x} Następną operacją jest zabieg określany angielskim terminem wybielania (ang. whitening). Polega to na przekształceniu danych poprzez liniową transformację w nowe dane, które sąnieskorelowane oraz o zerowej wariancji tzn.

Jest to zawsze możliwe. Popularną metodą jest wykonanie dekompozycji do postaci gdzie B jest macierz ortogonalną złożoną z wektorów własnych macierzy a D jest macierz diagonalną z odpowiadającymi wektorom wartościami własnymi Następnie dokonuje się przekształcenia gdzie

Algorytm FastICA Estymacja składników ICA w metodzie FastICA polega na wyodrębnieniu tych składników poprzez siec neuronową uczoną bez nauczyciela (bez nadzoru). Podobnie jak w metodzie estymacji składników PCA siecią Hebba, tak i teraz każdy neuron ma za zadanie wyodrębnid jeden składnik ICA. W tym przypadku jednak kolejnośd wyodrębnianych składników ICA nie ma większego znaczenia i zależy ona od początkowych losowych wartości wag każdego neuronu. Sied ma za zadanie estymowad macierz W dokonując przekształcenia y =Wx, gdzie y jest poszukiwanym wektorem składników ICA. Wierszami macierzy W są wagi poszczególnych neuronów sieci.

Algorytm FastICA Neurony mają zdolnośd adaptacji swoich wag w zależności od przykładowych danych uczących oraz od składników ICA wyodrębnionych wcześniej przez inne neurony, co ma na celu zapobiec zbieżności różnych neuronów do tego samego składnika ICA. Algorytm opiera się na maksymalizowaniu nie gausowskości wyników mnożenia w T x dla każdego neuronu, gdzie w jest wektorem wag danego neuronu. Wariancja w T x musi byd równa jedności, co dla danych poddanych wstępnej obróbce opisanej wcześniej sprowadza się do ograniczenia normy w do jedności

Algorytm FastICA Poprzez funkcje g oznaczamy pochodne funkcji G wprowadzonych wcześniej dla estymacji gausowskości rozkładu zmiennych losowych. Dla przykładowych funkcji podanych wcześniej wynoszą one odpowiednio

Algorytm dla jednego neuronu przebiega następująco: 1. Zainicjuj losowo wagi w neuronu 2. Przeprowad adaptację wag neuronu zgodnie z równaniem 3. Normalizuj wektor wag 4. Jeśli aktualne rozwiązanie nie jest zbieżne, wród do punktu 2 Rozwiązanie jest zbieżne, jeśli nowe i stare wartości wag różnią się od siebie mniej niż pewna wartośd graniczna, np. ich iloczyn skalarny jest bliski jedności.

Powyższym sposobem można otrzymad estymację jednego składnika ICA. Dla estymacji każdego kolejnego, należy wprowadzid dodatkowy krok w algorytmie zapobiegający zbieganiu się rozwiązao kolejnych neuronów do już znalezionych rozwiązao. Aby to osiągnąd, wyjścia wszystkich neuronów muszą byd dekorelowane po każdej iteracji.

Jednym ze sposobów na dokonanie tego jest schemat Grama-Schmidta. W podejściu tym estymujemy kolejne składniki ICA jeden po drugim. Jeśli wektory wag zostały już obliczone, podczas liczenia wektora wag p w + 1 po każdej iteracji dokonujemy dodatkowych dwóch kroków

W ten sposób można otrzymad estymację dowolnej liczby wzajemnie niezależnych składników ICA. Powyższy algorytm ma tę zaletę nad algorytmami gradientowymi, iż nie występuje w nim współczynnik uczenia, zatem nie ma potrzeby doboru odpowiedniej długości kroku podczas adaptacji wag. Jego zbieżnośd również jest szybsza niż algorytmów gradientowych. Nie potrzebne jest również określenie estymacji funkcji rozkładu prawdopodobieostwa danych wejściowych. Algorytm można optymalizowad poprzez odpowiedni dobór funkcji g, jednak te przedstawione powyżej sąwystarczające w większości wypadków.

Algorytm InfoMax Jest to inny algorytm do liczenia składników ICA, również oparty na architekturze sieci neuronowej. Oparty jest na zasadzie minimalizowanie informacji wzajemnej (ang. Mutual information)

Dwie architektury ICA dla obrazów Celem jest znalezienie odpowiednich bazowych obrazów, za pomocą których można reprezentowad dowolny obraz poddawany analizie. Każdy obraz może byd zorganizowany jako długi wektor o długości równej liczbie jego pikseli. Istniej dwa sposoby, na jakie można z tych wektorów utworzyd macierz X.

W pierwszym sposobie każdy wiersz macierzy X utworzony jest z wektora reprezentującego jeden obraz. W tym podejściu obrazy są zmiennymi losowymi a wartości pikseli sąpomiarami (tworząkolejne kolumny macierzy X ). W tym przypadku możemy mówid o niezależności obrazów, co będzie miało miejsce wtedy, gdy nie będzie można powiedzied nic o wartości, jak przyjmuje dany piksel w obrazie na podstawie wartości odpowiedniego piksela w drugim obrazie.

W sposobie drugim każda kolumna macierzy X stanowi wektor reprezentujący jeden obraz. W tym podejściu piksele są zmiennymi losowymi a obrazy kolejnymi pomiarami. W tym przypadku mówi się o niezależności pikseli, co będzie miało miejsce wtedy, gdy nie można stwierdzid nic o wartości piksela i-tego na podstawie wartości piksela j-tego w tym samym obrazie.

Problemy Niezależnie od wyboru architektury, pojawia się problem, jeżeli dostępnych obrazów jest zbyt wiele, gdyż zadanie staje się wymagające obliczeniowo i bardzo szybko może stad się niepraktyczne z powodu dużych wymogów obliczeniowych. Dlatego tez zamiast stosowad powyższe architektury bezpośrednio na obrazach, wykorzystuje się metodę PCA jako pierwszy krok dla ICA. Przyspiesza to również działanie algorytmu.

Uwaga W architekturze pierwszej celem było otrzymanie niezależnych statystycznie obrazów bazowych, jednak gdy zostanie to osiągnięte, otrzymane współczynniki opisujące liniową kombinację obrazów bazowych ICA niekoniecznie są niezależne.

Powyższe obrazy należy interpretowad następująco: Architektura pierwsza ICA stara się wyodrębnid grupy pikseli, które mają podobne właściwości we wszystkich obrazach. Otrzymujemy, zatem obrazy bazowe niezależne od siebie (na tyle na ile było to możliwe dla algorytmu). Widad, że obrazy te przedstawiają bardziej lokalne cechy, na podstawie których następnie rekonstruowana jest dana twarz. W architekturze drugiej natomiast ICA stara się wykryd te obrazy, które mają podobne cechy analizując kolejno poszczególne piksele obrazów. Dlatego obrazy bazowe przypominają bardziej twarze niż obrazy z architektury pierwszej. ICA architektury drugiej stara się uśrednid obrazy należące do tej samej osoby. Obrazy bazowe nie są niezależne, niezależne są natomiast współczynniki ICA otrzymane poprzez rzutowanie obrazów na bazę.