Predykcja i optymalizacja wielokryterialna w zastosowaniu do prognozowania zużycia energii elektrycznej i sprzedaży leków.

Transkrypt

1 Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Praca magisterska Predykcja i optymalizacja wielokryterialna w zastosowaniu do prognozowania zużycia energii elektrycznej i sprzedaży leków. Marcin Szupke Promotor: Włodzisław Duch Toruń, 2008

2

3 ...

4

5 Spis treści Spis treści i 1 ICA - Metoda Niezależnych Składowych Wprowadzenie Metoda Niezależnych Składowych Definicje Dwuznaczność Metody Niezależnych Składowych Ilustracja ICA Niezależność Definicja i fundamentalne zasady Nieskorelowane zmienne są jedynie częściowo niezależne Dlaczego rozkład normalny nie jest dopuszczalny? Zasady estymacji ICA Nongaussian jest niezależny Miary non-gaussowe Minimalizacja informacji wzajemnej Maksymalna estymacja prawdopodobieństwa Związek z wzajemną informacją ICA i Projection Pursuit Preprocessing ICA Centrowanie Wybielanie Dalszy preprocessing Algorytm FastICA FastICA dla jednej jednostki FastICA dla wielu jednostek FastICA i maksymalne prawdopodobieństwo Właściwości algorytmu FastICA i

6 ii SPIS TREŚCI 2 Tytuł drugiego rozdziału 27 Bibliografia 29 A Tytuł dodatku 33 Spis symboli i skrótów 35 Spis rysunków 36 Spis tabel 37 Skorowidz 39

7 Podziękowania... jakiś tekst... 1

8

9 Rozdział 1 ICA - Metoda Niezależnych Składowych 1.1 Wprowadzenie Głównym problemem w badaniu sieci neuronowych (tak jak w wielu innych dziedzinach) jest znalezienie odpowiedniej reprezentacji wielo-zmiennych danych (np. wektor losowy). Dla celów obliczeniowych i prostoty koncepcyjnej przyjmuje się reprezentację jako kombinację liniową danych oryginalnych (wejściowych). Innymi słowy każdy komponent reprezentacji jest kombinacją liniową oryginalnych zmiennych. Znanymi metodami transformacji liniowych są Analiza Głównych składowych (PCA - Principal Component Analysis), Analiza Czynnikowa (FA - Factor Analysis) i Projection Pursuit (po polsku??). Metoda Niezależnych Składowych (ICA - Independent Component Analysis) jest obecnie rozwijaną metodą, której celem jest znalezienie liniowej reprezentacji nongaussian (nie-gausowskich) danych, których elementy są statystycznie niezależne lub tak niezależne jak to tylko możliwe. Taka reprezentacja jest często niezbędną strukturą danych wielu aplikacji, np: Wybór Cech (feature extraction), Analiza Sygnałów (Signal Separation). Wyobraźmy sobie pokój, w którym są dwie osoby mówiące w tym samym momencie. Mamy dwa mikrofony będące w dwóch różnych miejscach pokoju. Mikrofony nagrywają dwa sygnały, które można zapisać jako: x 1 (t) i x 2 (t), gdzie x 1 i x 2 są amplitudami a t oznacza czas. Każdy z tych dwóch zapisanych sygnałów jest ważoną sumą sygnałów mowy emitowanych przez rozmówców oznaczonych jako s 1 (t) i s 2 (t). Można to zapisać jako równanie liniowe: x 1 (t) = a 1,1 s 1 + a 1,2 s 2 (1.1) x 2 (t) = a 2,1 s 1 + a 2,2 s 2 (1.2) 3

10 4 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH gdzie a1, 1, a 1,2, a 2,1 i a 2,2 są parametrami odległości rozmówców od mikrofonu. Byłoby bardzo pożyteczne gdyby można było estymować dwa oryginalne sygnały mowy s 1 (t) i s 2 (t) używając jedynie zarejestrowanych sygnałów x 1 (t) i x 2 (t). Taka sytuacja nazywa się problemem koktajl-party. 1.2 Metoda Niezależnych Składowych Definicje Aby rygorystycznie zdefiniować ICA można wykorzystać statystyczny model zmiennych nieobserwowalnych (latent variables). Przypuśćmy, że zaobserwowaliśmy n liniowych składników x 1,..., x n z n niezależnych komponentów, wówczas x j = a j,1 s 1 + a j,2 s a j,n s n (1.3) dla wszystkich j. Jak do tej pory nie uwzględnialiśmy indeksu czasu t; w modelu ICA założyliśmy, że każda składowa x j jak również każdy niezależny komponent s k jest zmienną losową, zamiast sygnałem występującym w odpowiednim czasie. Zaobserwowane wartości x j (t) (np. sygnały nagrywane przez mikrofony w problemie koktajl-party) są zatem próbkami tych zmiennych losowych. Bez straty ogólności możemy założyć, że zmienne składowe oraz niezależne komponenty posiadają zerową wartość oczekiwaną. Jeśli to nie jest prawda wówczas obserwowane zmienne x i mogą zawsze być wyśrodkowane poprzez odejmowanie prostych średnich w taki sposób, aby model miał zerową wartość oczekiwaną. Wygodnie jest używać zapisu wektorowego lub macierzowego zamiast sumy tak jak miało to miejsce powyżej. Oznaczmy przez x wektor zmiennych, którego elementami będą składowe x 1,..., x n i podobnie wektor zmiennych s, którego elementami będą s 1,..., s n. Oznaczmy przez A macierz, której elementami będą a i,j. Używając notacji wektorowo-macierzowej możemy zapisać powyższy model jako: x = A s (1.4) Czasem potrzebujemy zapisu kolumnowego macierzy A. Rozkładając macierz na n kolumn model można także zapisać jako: n (5)x = a i s i (1.5) i=1 Taki model nazywamy metodą niezależnych składowych lub inaczej modelem ICA. Model ICA jest modelem generatywnym. Oznacza to, że model ten opisuje w jaki sposób zaobserwowane dane są generowane przez proces mieszania komponentów s i. Niezależne komponenty są zmiennymi nieobserwowalnymi co oznacza, że nie mogą zostać bezpośrednio zaobserwowane. Także zakłada się, że macierz

11 1.2. METODA NIEZALEŻNYCH SKŁADOWYCH 5 mieszająca powinna być nieznana. Wszystko co możemy zaobserwować to wektor x i to na jego podstawie należy estymować A oraz s. Punktem wyjścia dla ICA jest proste założenie, że wszystkie komponenty s i są statystycznie niezależne. Statystyczna niezależność zostanie opisana w dalszej części tego dokumentu. Ponadto musimy założyć, że niezależne komponenty nie mogą mieć rozkładu normalnego. Jednakże, w podstawowym modelu nie zakładamy takiej wiedzy o rozkładzie (jeżeli będziemy wiedzieć jaki rozkład mają komponenty to problem trywializuje się). Dla prostoty zakładamy też, że nieznana macierz mieszająca jest macierzą kwadratową. Wówczas po estymacji macierzy A, liczymy macierz do niej odwrotną W. Otrzymujemy wówczas niezależny komponent jako: s = W x (1.6) ICA jest bardzo blisko spokrewnione z metodą zwaną ślepą separacją sygnału (blind source separation lub inaczej blind signal separation - BSS). Słowo sygnał może oznaczać np. jakiś niezależny komponent jak mikrofon w problemie koktajl - party. Ślepa oznacza, że wiemy niewiele (jeśli w ogóle cokolwiek) o macierzy mieszającej i robimy niewiele założeń na temat sygnałów źródłowych. ICA jest jedną z metod (najprawdopodobniej najczęściej używaną) do przeprowadzania ślepej separacji źródła (sygnału) Dwuznaczność Metody Niezależnych Składowych W modelu ICA w równaniu (2) łatwo można zauważyć, że zachowana jest dwuznaczność: 1. Nie możemy ustalić wariancji niezależnych komponentów. Powód jest taki, że obie zmienne s i A są nieznane. Każdy skalar mnożący z jednego ze źródeł s i nie powinien być dopuszczany do dzielenia korespondującej kolumny a i macierzy A przez ten sam skalar. W konsekwencji, możemy lekko poprawić wielkość niezależnych komponentów. Jakoże są to zmienne losowe, najprostszym sposobem do zrobienia tego jest założenie, że każda zmienna ma jednostkową wariancję: E{s 2 i } = 1. Wówczas macierz A zostanie zaadoptowana do modelu ICA. Warto zauważyć, że pozostawia do dwuznaczność dla znaku: możemy przemnożyć niezależny komponent przez 1 bez wpływu na model. Ta dwuznaczność jest na szczęście nieistotna w większości przypadków. 2. Nie możemy ustalić porządku niezależnych komponentów. Powód jest taki, że ponownie zmienne s i A pozostają nieznane, możemy swobodnie zmienić porządek sum w równaniu (5) i wywołać każdy niezależny komponent w pierwszej kolejności. Formalnie macierz permutacji P i

12 6 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH do niej odwrotna mogą być wstawione do modelu dając: x = A P 1 P s (1.7) Elementy P s są oryginalnymi niezależnymi zmiennymi s j, tyle że w innej kolejności. Macierz A P 1 jest po prostu nową nieznaną macierzą mieszającą, którą należy rozwiązać używając algorytmów ICA Ilustracja ICA Aby zilustrować model ICA statystycznie wyobraźmy sobie dwa niezależne komponenty, które posiadają następujący rozkład: p(s i ) = gdy s i 3 0 w p. p. (1.8) Zakres wartości dla tego rozkładu został tak dobrany by wartość oczekiwana była równa zero, a wariancja jeden, tak by zostać w zgodzie z tym co zostało opisane wcześniej. Połączona gęstość s 1 i s 2 jest osadzona na kwadracie. To pociąga za sobą na mocy podstawowej definicji, że połączona gęstość dwóch niezależnych zmiennych jest produktem ich gęstości brzegowych: w tym momencie musimy po prostu obliczyć ten produkt. Wykres gęstości jest pokazany na rysunku poniżej. Teraz zmieszajmy te dwa niezależne komponenty. W tym celu użyjemy następującej macierzy mieszającej: ( ) 2 3 A 0 = (1.9) 2 1 To daje nam dwie zmieszane zmienne: x 1 i x 2. Łatwo jest policzyć, że zmieszane dane mają rozkład osadzony na równoległoboku. Zauważmy, że zmienne losowe x 1 i x 2 nie są już niezależne. Prostym sposobem do udowodnienia tego faktu jest wyobrażenie sobie czy możliwa jest predykcja wartości jednej z nich, np. x 2, na podstawie wartości drugiej z nich. Oczywiście jeśli x 1 osiągnie minimum lub maksimum wówczas całkowicie określa ona wartość x 2 Dlatego nie są one już niezależne. Dla zmiennych s 1 i s 2 sytuacja jest kompletnie inna. Z wykresu 1.1 można wywnioskować to, że znajomość wartości s 1 nie pomaga w żaden sposób w określeniu wartości s 2. Problem estymacji danych w modelu ICA polega teraz na estymacji macierzy mieszającej A 0 wykorzystując jedynie informacje zawarte w zmiennych x 1 i x 2. Właściwie, jak widać na wykresie 1.2 intuicyjnie droga do estymacji A wygląda następująco: krawędzie równoległoboku leżą w kierunku kolumn macierzy A. Oznacza to, że możemy w zasadzie estymować model ICA przez po pierwsze estymację łącznej gęstości x 1 i x 2 i po drugie w znalezieniu krawędzi. Stąd problem zdaje się mieć rozwiązanie.

13 1.3. NIEZALEŻNOŚĆ 7 Rysunek 1.1: W rzeczywistości jednak okazuje się, że jest to bardzo słaba metoda ponieważ działa ona tylko dla zmiennych, których rozkład osadzony jest dokładnie w kwadracie. Co więcej obliczenia byłyby bardzo skomplikowane. Tego czego potrzebujemy to metoda, która działa z każdym rozkładem niezależnych komponentów i co więcej działa szybko i niezawodnie. Teraz rozpatrzmy dokładną definicję niezależności zanim rozwiniemy metody estymacji modelu ICA. 1.3 Niezależność Definicja i fundamentalne zasady By zdefiniować pojęcie niezależności rozpatrzmy dwie zmienne losowe y 1 i y 2. Po pierwsze zmienne y 1 i y 2 są niezależne jeśli informacja o zmiennej y 1 nie daje nam żadnych informacji na temat zmiennej y 2 i vice versa. Technicznie niezależno ć może być zdefiniowana przez gęstości prawdopodobieństwa. Oznaczmy przez p(y 1, t 2 ) łączną gęstość prawdopodobieństwa funkcji (pdf - probability density function) zależnej od y 1 i y 2. Dalej oznaczmy przez p 1 (y 1 ) brze-

14 8 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Rysunek 1.2: gową pdf dla y 1, np. pdf zmiennej y 1 gdy jest rozpatrywana w pojedynkę: p 1 (y 1 ) = p(y 1, y 2 )dy 2 (1.10) co podobnie się przedstawia dla zmiennej y 2.Wówczas możemy zdefiniować, że zmienne y 1 i y 2 są niezależne wtedy i tylko wtedy gdy: p(y 1, y 2 ) = p 1 (y 1 ) p 2 (y 2 ) (1.11) Definicję tę naturalnie można rozszerzyć do do n różnych zmiennych. Definicja może zostać wykorzystana do wyprowadzenia najważniejszej własności niezależnych zmiennych losowych. Biorąc dwie funkcje h 1 i h 2 zawsze otrzymamy: (11)E{h 1 (y 1 )h 2 (y 2 )} = E{h 1 (y 1 )}E{h 2 (y 2 )} (1.12) Nieskorelowane zmienne są jedynie częściowo niezależne Słabszą formą niezależności jest niekorelacyjność. Dwie zmienne losowe y 1 i y 2 są nieskorelowane jeśli ich kowariancja jest równa zero: E{y 1 y 2 } E{y 1 }E{y 2 } = 0 (1.13) Jeśli zmienne są niezależne to są nieskorelowane, co otrzymujemy bezpośrednio z (11) podstawiając za h 1 (y 1 ) = y 1 i h 2 (y 2 ) = y 2. Z drugiej strony niekorelowalność nie implikuje niezależności.

15 1.4. ZASADY ESTYMACJI ICA 9 Ponieważ niezależność implikuje niekorelowalność wiele metod ICA ogranicza procedurę estymacji co znacznie poprawia koszt estymacji niezależnych komponentów Dlaczego rozkład normalny nie jest dopuszczalny? Podstawowe założenie ICA jest takie, że niezależne komponenty nie mogą być gaussowskie (o rozkładzie innym niż normalny). Aby zobaczyć dlaczego zmienne gaussowskie uniemożliwiają ICA załóżmy, że macierz mieszająca jest ortogonalna i s i jest gaussowskie. Wówczas x 1 i x 2 są gaussowskie, nieskorelowane i o jednostkowej wariancji. Ich łączna gęstość jest następująca: p(x 1, x 2 ) = 1 2π exp( x2 1 + x2 2 ) (1.14) 2 Ten rozkład jest zobrazowany na wykresie (7). Wykres pokazuje, że ten rozkład jest symetryczny. Dlatego też nie zawiera on żadnych informacji na temat kierunków kolumn macierzy mieszającej A. Z tego powodu A nie może być estymowana. 1.4 Zasady estymacji ICA Nongaussian jest niezależny Intuicyjnie mówiąc kluczem do estymowania modelu ICA jest non-gaussowalność. Właściwie bez non-gaussowalności estymacja nie jest w ogóle możliwa. W większości klasycznych teorii statystycznych zmienne losowe powinny mieć rozkład normalny co wyklucza ich związek z ICA. Centralne twierdzenie graniczne mówi, że rozkład sum zmiennych losowych zbiega według rozkładu do standardowego rozkładu normalnego gdy ilość tych zmiennych rośnie do nieskończoności. Tak więc suma dwóch niezależnych zmiennych losowych zazwyczaj ma rozkład. który jest bliższy do normalnego niż jakiegokolwiek z tych dwóch rozkładów oryginalnych zmiennych losowych. Załóżmy, że wektor x jest rozłożony według modelu ICA przedstawionego w równaniu (4), np jest to zbiór niezależnych komponentów. Dla prostoty załóżmy, że wszystkie niezależne komponenty mają ten sam rozkład. Do estymacji jednego z niezależnych komponentów rozpatrzmy liniową kombinację. Oznaczmy przez y = w T x = i w ix i, gdzie w jest wektorem, który musimy wyznaczyć. Jeśli w będzie jednym z wierszy macierzy odwrotnej do A, to ta liniowa kombinacja będzie równa jednemu z niezależnych komponentów. Nasuwa się teraz pytanie, jak wykorzystać centralne twierdzenie graniczne do obliczenia w by był on równy jednemu z wierszy odwróconej macierzy A? W praktyce nie możemy wyznaczyć w dokładnie ponieważ nie mamy żadnej wiedzy o macierzy A. Możemy natomiast znaleźć estymator, który da dobrą aproksymację.

16 10 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Aby zobaczyć jak to prowadzi do podstawowej estymacji ICA zmieńmy zmienne definiując z = A T w. Wówczas mamy y = w T x = w T As = z T s. y jest więc liniową kombinacją s i z wagami otrzymanymi z z i. Ponieważ suma nawet dwóch niezależnych zmiennych losowych jest bardziej gaussowska niż oryginalne zmienne, to z T s jest bardziej gaussowe niż każdy z s i. W takiej sytuacji oczywiście tylko jedna jeden element z i należący do z, który jest niezerowy. Dlatego możemy wziąć jako w wektor, który maksymalizuje non-gaussowość w T x. Taki wektor powinien koniecznie być zgodny z z, który ma tylko jeden niezerowy element. To oznacza, że w T x = z T s równa się jednemu z niezależnych komponentów. Maksymalizacja non-gaussowości w T x daje nam jeden z niezależnych komponentów. Faktycznie optymalizacja całościowa non-gaussowości n-wymiarowego wektora w posiada 2n lokalnych maksimów, po dwa dla każdego niezależnego komponentu, połączonych z s i i s i (??przypomnijmy, że niezależne komponenty mogą być estymowane do multiplikatywnego znaku??). Aby znaleźć kilka niezależnych komponentów musimy znaleźć te wszystkie lokalne maksima. Nie jest to trudne ponieważ różne niezależne komponenty są nieskorelowane. Możemy zawsze ograniczyć poszukiwania do obszaru, w którym estymatory są nieskorelowane z poprzednimi. To odpowiada ortogonalizacji w odpowiednio przekształconej przestrzeni. Takie podejście jest raczej heurystyczne, ale za chwilę okaże się, że ma ono odpowiednie uzasadnienie Miary non-gaussowe Aby używać non-gaussowości w estymacji ICA należy zdefiniować kwantytatywną miarę dla non-gaussowej zmiennej losowe, np. y. Dla prostoty załóżmy, że y jest wyśrodkowane. tzn. ma średnią zerową i jej wariancja jest równa jeden. Kurtoza Klasyczną miarą nongaussianów jest kurtoza, która jest zdefiniowana następująco: kurt(y) = E{y 4 } 3(E{y 2 }) 2 (1.15) Wcześniej założyliśmy, że y ma jednostkową wariancję co powoduje, że równanie upraszcza się do: kurt(y) = E{y 4 } 3 (1.16) To pokazuje, że kurtoza jest po prostu znormalizowanym czwartym momentem E{y 4 }. Jeśli y ma rozkład normalny to to czwarty jej moment wynosi 3(E{y 2 }) 2. Stąd kurtoza dla gaussiańskich zmiennych losowych. Dla większości nongaussiańskich zmiennych losowych kurtoza jest niezerowa.

17 1.4. ZASADY ESTYMACJI ICA 11 Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady: - mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0) - leptokurtyczne - kurtoza jest dodatnia, wartości cechy są bardziej skoncentrowane niż przy rozkładzie normalnym - platykurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym Typowym rozkładem leptokurtycznym jest rozkład Laplace a, którego gęstość jest opisana wzorem: p(y) = 1 2 exp 2 y (1.17) Rozkład ten jest zilustrowany na wykresie poniżej.natomiast typowym przykładem rozkładu platykurtycznego jest rozkład jednostajny. Kurtoza, a raczej jej wartość absolutna może być szeroko wykorzystywana jako miara dla nongaussiańskich zmiennych losowych w ICA. Głównym powodem jest jej prostota obliczeniowa i teoretyczna. Obliczeniowo kurtoza może być estymowana po prostu przez wykorzystanie czwartego momentu próby. Teoretyczna analiza jest prosta z powodu liniowej własności: jeśli x 1 i x 2 są niezależnymi zmiennymi losowymi to: kurt(x 1 + x 2 ) = kurt(x 1 ) + kurt(x 2 ) (1.18) oraz kurt(αx 1 ) = α 4 kurt(x 1 ) (1.19) gdzie α jest skalarem. Te własności łatwo można udowodnić korzystając z definicji. Aby zilustrować jak wygląda optymalizacja dla kurtozy i w jaki sposób niezależne komponenty mogą zostać znalezione przez maksymalizację lub minimalizację kurtozy rozpatrzmy dwuwymiarowy model: x = As (1.20) Załóżmy, że niezależne komponenty s 1 i s 2 mają kurtozy kurt(s 1 ) i kurt(s 2 ) różne od zera. Przypomnijmy, że założyliśmy, że mają one jednostkowe wariancje. Szukamy jednego z niezależnych komponentów y = w T x. Zróbmy jeszcze raz transformację z = A T w. Wówczas otrzymujemy y = w T x = w T As = z T s = z 1 s 1 + z 2 s 2 (1.21)

18 12 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Teraz bazując na addytywności kurtozy otrzymujemy: kurt(y) = kurt(z 1 s 1 ) + kurt(z 2 s 2 ) = z 4 1kurt(s 1 ) + z 4 2kurt(s 2 ) (1.22) Założyliśmy, że wariancja y jest równa jeden co daje nam, że: E{y 2 } = z z 2 2 = 1 (1.23) Geometrycznie oznacza to, że wektor z jest ograniczony przez jednostkowe koło na dwuwymiarowej płaszczyźnie. Napotykamy w tym momencie na problem optymalizacyjny: jakie są maksima funkcji kurt(y) = z 4 1(kurt(s 1 ) + z 4 2(kurt(s 2 ) (1.24) na kole jednostkowym? Dla prostoty można przyjąć, że kurtozy mają ten sam znak stąd można opuścić wartości bezwzględne. Nie jest trudno pokazać, że maksima są w punktach gdzie dokładnie jeden z elementów wektora z jest równy zero a pozostałe są niezerowe. Ponieważ ograniczeniem jest koło jednostkowe to niezerowe elementy muszą być równe 1 lub -1. Tylko te punkty są dokładnie tymi, dla których y jest równy jednemu z niezależnych komponentów ±s i co rozwiązuje problem. W praktyce powinniśmy rozpocząć od pewnego wektora wag w obliczając kierunek, w którym kurtozy y = w T x rosną najszybciej (jeśli kurtozy są dodatnie) lub maleją najszybciej (jeśli kurtozy są ujemne) bazując na danych próbkach x(1),..., x(t ) wektora mieszającego x i obliczając za pomocą metody gradientu nowy wektor w. Jednakże kurtozy posiadają pewne wady. Jedną z nich jest podatność na elementy odstające. Negentropia Drugą bardzo ważną miarą dla zmiennych losowych o rozkładzie innym niż normalny jest negentropia. Stanowi ona różnicę pomiędzy maksymalną możliwą wartością entropii odpowiadającą całkowitej dezorganizacji systemu, a jej aktualną wartością. Przy dezorganizacji systemu negentropia maleje, podczas gdy entropia wzrasta, i - na odwrót - wzrostowi organizacji odpowiada zawsze wzrost negentropii. Entropia jest podstawowym pojęciem teorii informacji. Entropia zmiennej losowej może być interpretowana jako średnia ilość informacji, przypadająca na znak symbolizujący zajście zdarzenia z pewnego zbioru. Entropia H jest zdefiniowana dla dyskretnych zmiennych losowych jako: H(Y ) = i P (Y = a i ) log P (Y = a i ) (1.25)

19 1.4. ZASADY ESTYMACJI ICA 13 gdzie a i jest możliwą wartością dla Y. Ta bardzo dobrze znana definicja może być uogólniona dla zmiennych losowych ciągłych co często się nazywa entropią dyferencjalną. Entropia dyferencjalna H wektora losowego y o gęstości f(y) jest zdefiniowana jako: H(y) = f(y) log f(y)dy (1.26) Fundamentalnym wnioskiem teorii informacji jest to, że zmienne o rozkładzie normalnym mają największą entropię ze wszystkich zmiennych losowych o takich samych wariancjach. Oznacza to, że entropia może być wykorzystana jako miara dla zmiennych o rozkładzie innym niż normalny. W zasadzie oznacza to, że rozkład Gausa jest najbardziej losowy lub też najmniej strukturalny ze wszystkich rozkładów. Entropia jest mała dla rozkładów, które głównie koncentrują się na konkretnych wartościach. W teorii informacji i statystyce, negentropia jest miarą odległości rozkładu zmiennej np. wartości cechy lub sygnału od rozkładu normalnego (Gausa), jedną z miar koncentracji rozkładu. [7][8][9] Podstawą porównania jest rozkład normalny, ponieważ zmienna podlegająca temu rozkładowi charakteryzuje się największą entropią. Negentropia jest zawsze nieujemna, niezmiennicza względem dowolnego liniowego przekształcenia współrzędnych i równa zeru tylko gdy zmienna ma rozkład normalny. Negentropia jest zdefiniowana jako: J(y) = H(y gauss ) H(y) (1.27) gdzie H(y gauss ) jest zmienną losową o rozkładzie normalnym posiadającym taką samą macierz kowariancji jak y. W związku z wyżej wymienionymi własnościami, negentropia jest zawsze nieujemna i jest równa zero wtedy i tylko wtedy, gdy y ma rozkład normalny. Negentropia ma jedną dodatkową własność, którą jest niezmienniczość przekształcenia liniowego. Zaletą używania negentropii lub równoważnie dyferencyjnej entropii jako miary dla zmiennej losowej o rozkładzie innym niż rozkład Gausa jest to, że jest ona dobrze uzasadniona przez teorię statystyki. Faktycznie negentropia jest w pewnym sensie optymalnym estymatorem dla takich zmiennych losowych tak długo jak będą spełniane założenia statystyczne. Problemem w używaniu negentropii jest jest trudność obliczeniowa. Estymowanie negentropii za pomocą definicji wymaga szacowania pdf. Aproksymacja negentropii Estymowanie negentropii jest trudne, dlatego funkcję można rozważać głównie w teoretycznym aspekcie. W praktyce można wykorzystać pewne aproksymacje. Klasyczna metoda aproksymacji negentropii wykorzystuje momenty wysokiego rzędu, np: J(y) 1 12 E{y3 } kurt(y)2 (1.28)

20 14 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Dla zmiennej losowej y zakłada się, że ma ona zerową średnią i jednostkową wariancję. Jednakże prawidłowość takiej aproksymacji może być ograniczona. By uniknąć problemów napotykanych podczas poprzedzających aproksymacji, nowe są rozwijane. Aproksymacje opisane tutaj będą się opierały na zasadzie maksymalnej entropii. Ogólnie rozważmy następującą aproksymację: p J(y) k i [E{G i (y)} E{G i (v)}] 2 (1.29) i=1 gdzie k i jest pewnym dodatnim skalarem, v jest zmienną losową o rozkładzie normalnym o zerowej wartości oczekiwanej i jednostkowej wariancji. Zmienna y ma zerową wartość oczekiwaną i jednostkową wariancję, a funkcje G i są funkcjami nie kwadratowymi. Zauważmy, że nawet jeśli powyższa aproksymacja nie jest dokładna to wciąż może zostać wykorzystana do skonstruowania miary dla zmiennej o rozkładzie innym niż normalny, która będzie zawsze nieujemna i równa zero gdy y ma rozkład Gausa. W sytuacji gdybyśmy użyli jedynie nie kwadratowej funkcji G, aproksymacja przyjmuje postać: J(y) [E{G(y)} E{G(v)}] 2 (1.30) dla praktycznie każdej nie kwadratowej funkcji G. To jest oczywiście generalizacja opartej na momentach aproksymacji (23) jeśli y jest symetryczne. W rzeczy samej biorąc G(y) = y 4 otrzymujemy niemalże dokładnie równanie (23). Ważne jest mądre wybranie G by uzyskać aproksymację negentropii, która będzie lepsza od tej z równania (23). W szczególności wybranie G. które nie rośnie tak szybko może spowodować uzyskanie bardziej solidnego estymatora. Poniższe przykłady G mogą być bardzo użyteczne: G 1 (u) = 1 a 1 log cosh a i u (1.31) G 2 (u) = exp( u2 2 ) (1.32) gdzie 1 a 1 2 jest pewną ustaloną stałą. W ten sposób uzyskaliśmy aproksymację negentropii, która daje dobry kompromis pomiędzy własnościami jakie dają dwie miary dla zmiennych losowych o rozkładach innych niż normalny, czyli kurtozą i negentropią. Są one koncepcyjnie proste oraz szybkie w obliczeniach. Zatem należy użyć te dwie różne funkcje w metodzie ICA Minimalizacja informacji wzajemnej Kolejnym problemem estymacji ICA odziedziczonym po teorii informacji jest minimalizacja informacji wzajemnej.

21 1.4. ZASADY ESTYMACJI ICA 15 Informacja wzajemna Używając pojęcia entropii dyferencjalnej można zdefiniować informację wzajemną I pomiędzy m zmiennymi losowymi y i, i = 1,..., m jako: m I(y 1, y 2,..., y m ) = H(y i ) H(y) (1.33) i=1 Informacja wzajemna jest miarą zależności pomiędzy zmiennymi losowymi. W rzeczywistości jest to równoważne z dobrze znaną odległością Kullbacka-Leiblera pomiędzy łączną gęstością f(y), a produktem ich gęstości brzegowych. Jest ona zawsze nieujemna i równa zero jeśli zmienne losowe są statystycznie niezależne. Tak więc informacja wzajemna bierze pod uwagę całą strukturę zależności między zmiennymi, a nie tylko kowariancję tak jak to robi PCA i metody z niż związane. Informacja wzajemna może być interpretowana używając pojęcia entropii jako długość kodu (code length). Termy H(y i ) zwracają długości kodów y i gdy są one zapisane oddzielnie, oraz H(y) zwraca długość kodu jeśli y zapisany jako wektor losowy. Informacja wzajemna zatem pokazuje jak zmniejszanie się długości kodu jest zależne od zapisywania całych wektorów zamiast oddzielnych komponentów. Generalnie lepiej jest zapisywać całe wektory. Jednakże jeśli y i są niezależne to nie dają one żadnych informacji o sobie nawzajem i każda może z nich może zostać zapisana oddzielnie bez zwiększania długości kodu. Ważna własności wzajemnej informacji jest to, że dla odwracalnej transformacji liniowej y = W x: I(y 1, y 2,..., y n ) = i H(y i ) H(x) log det W (1.34) Teraz wyobraźmy sobie co się stanie gdy założymy, że y i są nieskorelowane i o jednostkowej wariancji. Oznacza to, że E{yy T } = W E{xx T }W T = I, co implikuje: det I = 1 = (det W E{xx T }W T ) = (det W )(det E{xx T })(det W T ) (1.35) co implikuje, że det W musi być stałą. Co więcej dla y i, które ma jednostkową wariancję, entropia i negentropia różni się jedynie o stałą i znak. Stąd otrzymujemy: (30)I(y 1, y 2,..., y n ) = C J(y i ) (1.36) i gdzie C jest stałą, która nie zależy od W. To pokazuje fundamentalną relację między negentropią a wzajemną informacją. Definiowanie ICA za pomocą informacji wzajemnej Skoro informacja wzajemna w teorii informacji jest miarą niezależności zmiennych losowych to można ją wykorzystać jako kryterium do znajdowania transformacji

22 16 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH ICA. W tym modelu, który jest alternatywnym modelem estymacji, definiujemy ICA jako przez wektor losowy x jako odwracalne przekształcenie jak w równaniu s = W x (1.37) gdzie macierz W jest determinująca. Stąd informacja wzajemna transformowanych komponentów s i jest zminimalizowana. Teraz jest jasne z równania (30), że znalezienie odwracalnego przekształcenia W, które minimalizuje informacji wzajemnej jest równoważne ze znalezieniem kierunków, w którą stronę negentropia jest zmaksymalizowana. Bardziej precyzyjnie jest to równoważne ze znalezieniem 1-D podprzestrzeni takich, dla których rzuty na te podprzestrzenie ma maksymalne negentropie. ściślej mówiąc równanie (30) pokazuje, że estymacja ICA przez minimalizację informacji wzajemnej jest równoważne ze znalezieniem maksymalnych sum estymatorów zmiennych losowych o rozkładzie innym niż normalny (nongaussianów), jeśli te estymatory są nieskorelowane. Ograniczenie niekorelowalności nie jest faktycznie potrzebny, ale znacznie upraszcza obliczenia. W ten sposób formułowanie ICA za pomocą minimalizacji wzajemnej informacji daje kolejne rygorystyczne uzasadnienie heurystycznie wprowadzonej idei znajdowania maksymalnych kierunków nongaussianów Maksymalna estymacja prawdopodobieństwa Prawdopodobieństwo Bardzo popularną metodą estymowania modelu ICA jest znajdowanie maksymalnego estymatora prawdopodobieństwa. W dalszej kolejności omówimy to podejście i pokażemy, że jest ono niemal równoważne z minimalizacją informacji wzajemnej. Możliwe jest opisanie bezpośrednio prawdopodobieństwa w bezszumowym modelu ICA i następnie estymować model za pomocą metody maksymalnego prawdopodobieństwa. Oznaczając przez W = (w 1,..., w n ) T macierz A 1, prawdopodobieństwo przyjmuje postać: T n L = log f i (wi T x(t)) + T log det W (1.38) t=1 i=1 gdzie f i są funkcjami gęstości dla s i (zakładamy, że je znamy), x(t), t = 1,..., T realizują x. Element log det W pochodzi z klasycznej metody transformacji zmiennych losowych i ich gęstości. W ogólności dla każdego wektora losowego x o gęstości p x i dla każdej macierzy W, gęstość y = WX jest równa p x (W x) det W. Zasada infomax Zasada ta bazuje na na maksymowaniu entropii wyjściowej sieci neuronowej z nieliniowymi wyjściami. Zakładając, że x jest wejściem sieci neuronowej, któ-

23 1.4. ZASADY ESTYMACJI ICA 17 rej wyjścia pochodzą z przekształcenia φ i (w T i x), gdzie φ i jest pewną nieliniową funkcją skalarną, a w i jest wektorem wag neuronów. Chcemy teraz zmaksymować entropię dla wyjścia: L 2 = H(φ 1 (w T 1 x),..., φ n (w T n x)) (1.39) Jeśli φ i zostały dobrze wybrane, to taka konstrukcja również pozwala na estymację modelu ICA. W rzeczy samej, wielu autorów (np. Cardoso, 1997; Pearlmutter and Parra, 1997) dowiodło zaskakującej tezy, że reguła maksymalizacji entropii sieci (lub inaczej infomax) jest ekwiwalentna do maksymalnej estymacji prawdopodobieństwa. Ta ekwiwalencja wymaga by nieliniowe φ i użyte w sieci neuronowej były tak wybrane by sumaryczne funkcje rozkładu miały związek z gęstościami f i (np.: φ i (.) = f i(.)) Związek z wzajemną informacją Aby zobaczyć różnicę pomiędzy prawdopodobieństwem a informacją wzajemną rozważmy równanie log-likelihood (po polsku??) 1 n T E{L} = E{log f i (wi T x)} + log det W (1.40) i=1 Właściwie jeśli f i będą równe obecnym rozkładom wi T x to pierwsza część sumy będzie równa i H(wT i x). W ten sposób prawdopodobieństwo powinno być równe (modulo dodatnia stała) do ujemnej wzajemnej informacji z równania (28). W praktyce ten związek jest jeszcze silniejszy. Jest tak ponieważ w praktyce nie znamy rozkładów niezależnych składowych. Rozsądnym podejściem byłaby estymacja gęstości wi T x jako część estymacji modelu ML i użycie jej jako aproksymacji gęstości s i. W tym przypadku prawdopodobieństwo i wzajemna informacja są ekwiwalentne. Niemniej istnieje niewielka różnica, która może mieć duże znaczenie w praktyce. Problem z maksymalną estymacją prawdopodobieństwa jest taki, że gęstości f i muszą zostać poprawnie estymowane, ale niekoniecznie z wielką precyzją. W wielu przypadkach posiadamy dostateczną wiedzę na temat niezależnych składowych i nie musimy estymować ich charakterystyki z danych. Zawsze jeśli informacje na temat charakterystyki niezależnych składowych są nieprawidłowe to estymacja ML daje złe rezultaty. Zatem wcześniej powinny zostać podjęte pewne czynności. Używając rozsądnych non-gaussiańskich miar taki problem nie występuje ICA i Projection Pursuit Ważne odnotowania jest to, że nasze podejście do ICA tworzy wyraźne połączenie między ICA a Projection Pursuit (ozn.: PP). PP jest techniką stworzoną w statystyce do znalezienia interesujących rzutowań wielowymiarowych danych.

24 18 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Rysunek 1.3: Ilustracja Takie rzutowania mogą być wykorzystane do optymalnej wizualizacji danych i dla takich celów jak estymacja gęstości i regresja. W podstawowej (1-D) PP postaramy się znaleźć takie kierunki, dla których rzuty danych na nie mają interesujące rozkłady. Został udowodnione przez Hubera (Huber, 1985) oraz przez Jones a i Sibsona (Jones and Sibons, 1987), że rozkład Gausa jest najmniej interesującym oraz że najbardziej interesującymi kierunkami są te, które pokazują najmniejszy rozkład Gausa. To jest dokładnie to czego potrzebujemy do estymacji modelu ICA. Przydatność znalezienia takiego rzutu jest pokazana na rysunku 1.3, gdzie rzut na w kierunku PP (który jest horyzontalny) jasno pokazuje grupową strukturę danych. Z drugiej strony rzut na pierwszy ważny komponent nie pokazuje tej struktury. W ten sposób ICA może być rozważana w zależności od wykonywanego rzutu. Wszystkie miary non-gaussiańskie opisane tutaj i wszystkie algorytmy związane z ICA zaprezentowane tutaj mogą również zostać przypisane do PP zbioru i algorytmów. W szczególności PP pozwala nam poradzić sobie z sytuacją, gdzie istnieje mniej niezależnych komponentów s i niż oryginalnych zmiennych x i. Przypuszczając, że te wymiary przestrzeni, które nie są obejmowane przez niezależne komponenty są wypełnione szumem Gausa widzimy, że obliczając non-gaussowe kierunki PP estymujemy tak naprawdę niezależne komponenty. Kiedy wszystkie non-gaussowe kierunki zostaną znalezione, wszystkie niezależne komponenty zostały wyestymowane. Taka procedura może być zinterpretowana jako hybryda

25 1.5. PREPROCESSING ICA 19 projection pursuit i ICA. 1.5 Preprocessing ICA W poprzedniej sekcji rozważaliśmy statystyczne zasady kryjące się pod metodami ICA. Praktyczne algorytmy bazujące na tych zasadach zostaną omówione w dalszej części. Jednakże zanim zaczniemy stosować algorytmy ICA na danych zazwyczaj przeprowadza się preprocessing. W tej sekcji przedstawimy pewne techniki preprocessingu, który sprawia, że problem estymacji ICA staje się łatwiejszy i lepiej sformułowana Centrowanie Najbardziej podstawową techniką jest centrowanie x (np.: odejmowanie wartości oczekiwanej m = E{x} tak by x stało się zmienną losową o zerowej wartości oczekiwanej). Powoduje to, że s ma wartość oczekiwaną równą zero także po odjęciu oczekiwań z obu stron równania 1.4. Tę technikę wykorzystuje się wyłącznie do uproszczenia algorytmów ICA. Nie oznacza to, że wartość oczekiwana może być estymowana. Po estymacji macierzy mieszającej A z wycentrowanymi danymi możemy dokończyć estymację przez dodanie wektora wartości oczekiwanych s z powrotem do wycentrowanych estymatorów s. Wektor wartości oczekiwanych jest zadany przez A 1 m, gdzie m jest wartością oczekiwaną, która została zmieniona podczas preprocessingu Wybielanie Kolejną przydatną strategią preprocessingu jest wybielenie obserwowanych zmiennych. Działa ona w ten sposób, że przed zastosowaniem algorytmu ICA (i po centrowaniu) przekształca się zaobserwowany wektor x liniowo tak, że otrzymujemy nowy wektor Żx, który jest biały (np.: jego komponenty są nieskorelowane i ich wariancje są równe jeden). Innymi słowy, macierz kowariancji Żx jest równa macierzy identycznościowej: E{ŻxŻx T } = I (1.41) Wybielanie jest zawsze możliwe. Jedną z popularnych metod wybielania jest dekompozycja za pomocą wartości własnej (Eigen-Value Decomposition, EVD) macierzy kowariancji E{xx T } = EDE T, gdzie E jest macierzą ortogonalną wektorach własnych z E{xx T } i D jest macierzą diagonalną z jej wartościami własnymi, D = diag(d 1,..., d n ). Zauważmy, że E{xx T } może być estymowane w standardowy sposób z dostępnych próbek x(1),..., x(n). Wybielanie może zostać przeprowadzone teraz przez: Żx = ED 1 2 E T x (1.42)

26 20 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH gdzie macierz D 1 2 = diag(d 1 2 1,..., d 1 2 n ). Łatwo udowodnić teraz, że E{ŻxŻx T } = I. Wybielanie przekształca macierz mieszającą tworząc nową, Ż A. Mamy z równania 1.4 i 1.42: Żx = ED 1 2 E T As = Ż As (1.43) Narzędzie wybielania sprawia, że nowa macierz mieszająca Ż A jest ortogonalna. Można to udowodnić z: E{ŻxŻx T } = Ż AE{ss T }A T = Ż A Ż A T = I (1.44) W tym miejscu widzimy, że technika wybielania redukuje liczbę parametrów do estymacji. Zamiast mieć n 2 parametrów do estymowania, które są elementami oryginalnej macierzy A, musimy estymować jedynie nową macierz ortogonalną A. Ż Macierz ortogonalna zawiera n(n 1) 2 stopni swobody. Dla przykładu w dwóch wymiarach ortogonalna transformacja jest determinowana przez pojedynczy parametr. W większych wymiarach macierz ortogonalna zawiera jedynie około połowę parametrów macierzy wyjściowej. W ten sposób możemy powiedzieć, że wybielanie rozwiązuje połowę problemów związanych z estymowaniem ICA. Ponieważ wybielanie jest stosunkowo łatwą metodą to lepiej jest zredukować złożoność problemu na tym poziomie niż wykorzystywać do tego algorytmy ICA. Także bardzo przydatne może okazać się zredukowanie wymiaru danych w tym samym czasie gdy przeprowadzamy wybielanie. Zatem spójrzmy na wartości własne d j z E{xx T } i odrzućmy te, które są za małe jak to się często robi w statystycznej technice analizy głównych składowych (PCA). Ta metoda często powoduje redukcję szumów. Co więcej, redukcja wymiaru zapobiega przeuczeniu, co jest często spotykanym problemem ICA. Graficzna ilustracja tego efektu jest widoczna na rysunku 1.4, na którym dane z rysunku 1.2 zostały wybielone. Kwadrat definiujący rozkład jest teraz obróconą wersją oryginalnego rysunku 1.1. Wszystko to co pozostało jest estymacją pojedynczego kąta, który nadał rotacji. W pozostałej części tego rozdziału zakładamy, że dane zostały wycentrowane i wybielone. Dla prostoty notacji zakładamy, że dane po precossingu są oznaczone jako x, a przekształcona macierz mieszająca jest oznaczona jako A Dalszy preprocessing Sukces modelu ICA bazującego na zadanym zbiorze danych może zależeć od przeprowadzenia pewnych kroków preprocessingu zależnego od aplikacji. Na przykład, jeśli dane zawierają sygnały czasowe to pewne filtry środkowoprzepustowe mogą zostać zastosowane. Zauważmy, że jeśli filtrujemy liniowo obserwowane sygnały x i (t) by uzyskać nowe sygnały (na przykład x i (t)) to model ICA wciąż operuje na x i (t) z tą samą macierzą mieszającą.

27 1.6. ALGORYTM FASTICA 21 Rysunek 1.4: Można to zobaczyć w następujący sposób. Oznaczmy przez X macierz zawierającą obserwacje x(1),..., x(t ) jako jej kolumny. Podobnie oznaczmy S. Wówczas model ICA jest wyrażony jako: X = AS (1.45) Teraz filtr czasowy stosujemy mnożąc X z prawej strony przez macierz, na przykład M. Daje nam to X = XM = ASM = AS (1.46) co pokazuje, że model ICA wciąż pozostaje poprawny. 1.6 Algorytm FastICA W poprzednich sekcjach opisaliśmy różne miary non-gaussowe (np. obiektowe funkcje estymacji ICA). W praktyce potrzebujemy jeszcze algorytmu do maksymalizacji kontrastu funkcji (np. 1.30). W tej sekcji przedstawimy bardzo skuteczną metodę maksymalizacji proporcjonalną do ryzyka. Zakładamy, że na danych został wykonany preprocessing tak jak zostało to opisane wcześniej.

28 22 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH FastICA dla jednej jednostki Na początku przedstawimy wersję jedno-jednostkową algorytmu. Przez jednostkę rozumiemy jednostką obliczeniową, ewentualnie sztuczny neuron posiadający wektor wag w taki, że jest w stanie się zmodyfikować po procesie uczenia. Metoda uczenia FastICA znajduje kierunki (np.: wektor jednostkowy w, dla którego rzut w T x maksymalizuje non-gaussowość). Non-gaussowość jest w tej sytuacji mierzona za pomocą aproksymacji negentropii J(w T x) danej w równaniu Przypomnijmy, że wariancja w T x musi być równa jeden (dla wybielonych danych jest do równoważne z tym, że norma w jest równa jeden). FastICA bazuje na schemacie iteracji punktu stałego w celu znalezienia maksimum non-gaussowości w T x z miarą Może ona także zostać wyprowadzona z aproksymacji iteracji Newtona. Oznaczając przez g pochodną funkcji nie kwadratowej G użytej w 1.30; na przykład pochodnymi funkcji w 1.31 są: g 1 (u) = tgh(a 1 u) g 2 (u) = u exp( u2 2 ) (1.47) gdzie 1 a 1 2 jest pewną ustaloną stałą, często przyjmuje się, że a 1 = 1. Podstawową formą algorytmu FastICA jest: 1. Wybierz wektor wag w 2. w + = E{xg(w T x)} E{g (w T x)}w 3. w = w + / w + 4. Jeśli się nie zbiegają wróć do 2. Zbieżność oznacza tutaj ten sam kierunek wartości wektorów w i w +, np.: ich iloczyn skalarny jest (niemal) równy jeden. Nie jest konieczne by wektory zbiegały do pojedynczego punktu dopóki w i -w definiują ten sam kierunek. Jest tak dlatego, że niezależne komponenty mogą być definiowane z dokładnością co do znaku. Wyprowadzenie FastICA przebiega następująco. Po pierwsze zauważmy, że maksima aproksymacji negentropii w T x zawierają się w pewnych obszarach (??optima??) E{G(w T x)}. Stosownie do warunków Kuhn-Tuckera obszary E{G(w T x)} pod warunkiem, że E{G(w T x) 2 } = w 2 = 1 zawierają się w punktach, gdzie: E{xg(w T x)} βw = 0 (1.48) Spróbujmy rozwiązać to równanie za pomocą metody Newtona. Oznaczmy lewą stronę równania 1.48 przez F. Otrzymujemy macierz Jacobiana JF (w) jako: JF (w) = E{xx T g (w T x)} βi (1.49)

29 1.6. ALGORYTM FASTICA 23 By ułatwić odwrócenie tej macierzy aproksymujemy pierwszą część równania Ponieważ dane mają zakres (??sphered??) to rozsądną aproksymacją zdaje się być: E{xx T g (w T x)} E{xx T }E{g (w T x)} = E{g (w T x)}i (1.50) To powoduje, że Jacobian staję się diagonalny i łatwo daje się odwrócić. Stąd otrzymujemy następującą aproksymację iteracji Newtona: w + = w [E{xg(w T x)} βw]/[e{g (w T x)} β] (1.51) Algorytm może zostać w dalszej części uproszczony przez pomnożenie obu stron równania 1.51 przez β E{g (w T x)}. To daje, po uproszczeniach algebraicznych iterację FastICA FastICA dla wielu jednostek FastICA dla jednej jednostki opisany w poprzednim podrozdziale estymuje jedynie jeden niezależny komponent lub jeden kierunek projection pursuit. By estymować wiele niezależnych komponentów musimy uruchomić jedno-jednostkowego FastICA używając wielu jednostek (np. neuronów) z wektorami wag w 1,, w n. By zapobiec zbieżności różnych wektorów do tych samych maksimów musimy zdekorelować wyjścia w1 T x,..., wt n x po każdej iteracji. Poniżej zaprezentujemy trzy metody uzyskiwania tego. Prostym sposobem uzyskania dekorelacji jest schemat deflacji oparty na ortogonalizacji Grama-Schmidta. Oznacza to, że estymujemy niezależne komponenty jeden po drugim. Kiedy mamy p estymowanych niezależnych komponentów lub p wektorów w 1,, w p uruchamiamy jedno-jednostkowy algorytm oparty o punkt stały dla w p+1. Po każdym kroku iteracji wydobywamy z w p+1 rzuty wp+1 T w jw j dla j = 1,, p wcześniej estymowanych p wektorów. Następnie renormalizujemy w p+1 : 1. w p+1 = w p+1 p j=1 wt p+1 w jw j 2. w p+1 = w p+1 / wp+1 T w (1.52) p+1 W pewnych aplikacjach jednakże może być wymagane by użyć symetrycznej dekorelacji, w której żaden wektor nie jest bardziej uprzywilejowany od pozostałych. Może to być wykonane np. za pomocą klasycznych metod łącznie z pierwiastkiem kwadratowym z macierzy: W = (W W T ) 1 2 W (1.53) gdzie W jest macierzą złożona z wektorów (w 1,, w n ) T i pierwiastek kwadratowy odwrotnej macierzy (W W 1 2 ) pochodzi z dekompozycji wartości własnych macierzy W W T = F DF T jako (W W T ) 1 2 = F D 1 2 W. Prostą alternatywą jest

30 24 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH następujący algorytm iteracyjny: 1. W = W/ W W T Powtarzaj 2. do uzyskania zbieżności 2. W = 3 2 W 1 2 W W T W (1.54) FastICA i maksymalne prawdopodobieństwo W końcu otrzymaliśmy wersję algorytmu FastICA, która pokazuje wyraźnie połączenie z dobrze znaną metodą infomax lub algorytmem maksymalnego prawdopodobieństwa. Jeśli wyrazimy FastICA używając pośredniej formuły z 1.51 i zapisali ją w postaci macierzowej zobaczymy, że FastICA przybiera następującą formę: W + = W + diag(α i )[diag(β i ) + E{g(y)y T }]W (1.55) gdzie y = W X, β i = E{y i g(y i )} oraz α i = 1/(β i E{g (y i )}). Macierz W musi być zortogonalizowana po każdym kroku. W wersji macierzowej naturalnym jest zortogonalizowane W symetrycznie. Powyższa wersja FastICA powinna być porównana ze stochastyczną metodą gradientu do maksymalizowania prawdopodobieństwa: W + = W + µ[i + g(y)y T ]W (1.56) gdzie µ jest współczynnikiem uczenia, niekoniecznie stałym w tym momencie. Teraz, g jest funkcją niezależnych komponentów: g = f i /f i gdzie f i jest niezależnego komponentu. Porównując 1.55 i 1.56 widzimy, że FastICA może być rozważana jako algorytm oparty na punkcie stałym do estymacji maksymalnego prawdopodobieństwa w modelu ICA. W FastICA szybkość zbieżności jest zoptymalizowana przez wybór macierzy diag(α i ) i diag(β i ). Inną zaletą FastICA jest to, że może on estymować sub-gaussowe i super-gaussowe niezależne komponenty co jest przewagą nad prostymi algorytmami??, które mogą pracować jedynie z pewnymi klasami rozkładu (patrz 1.4.4) Właściwości algorytmu FastICA Algorytm FastICA i należące do niego funkcje posiadają wiele pożytecznych właściwości gdy porówna się je do istniejących metod ICA. 1. Zbieżność jest sześcienna (lub przynajmniej kwadratowa), przy założeniach dla modelu danych ICA. Jest to kontrastowa własności w porównaniu ze zwykłymi algorytmami ICA bazującymi na stochastycznych metodach gradientu gdzie zbieżność jest jedynie liniowa.

31 1.6. ALGORYTM FASTICA W porównaniu z algorytmami opartymi o gradient w FastICA nie trzeba wybierać parametru wielkości kroku. Oznacza to, że algorytm jest łatwy w użyciu. 3. Algorytm znajduje bezpośrednio niezależne komponenty o dowolnym niegaussowym rozkładzie używając dowolnego nieliniowego g. W wielu innych algorytmach należy znać najpierw funkcję rozkładu i nieliniowość musi być wcześniej ustalona. 4. Złożoność metody może być zoptymalizowana poprzez odpowiednie wybranie nieliniowego g. 5. Niezależne komponenty mogą być estymowane jeden po drugim co jest mniej więcej równoważne z projection pursuit. Jest to użyteczne podczas przeprowadzania analizy danych i zmniejsza złożoność obliczeniową metody w miejscach, w których jedynie niektóre niezależne komponenty muszą być estymowane. 6. FastICA posiada większość zalet algorytmów neuronowych. Jest równoległy, obliczeniowo prosty i wymaga małej ilości pamięci.

32

33 Rozdział 2 Tytuł drugiego rozdziału... jakiś tekst... Jakieś cytowanie literatury [1] Pewne symbole: DMC, LZ77, LZ78. 27

34

35 Bibliografia [1] Aapo Hyvärinen and Erkki Oja. Independent Component Analysis: Algorithms and Applications. Neural Networks Research Centre, Helsinki University of Technology, P.O. Box 5400, FIN HUT, Finland, [cytowanie na str. 27] 29

36

37 Appendices 31

38

39 Dodatek A Tytuł dodatku... jakiś tekst... 33

40

41 Spis symboli i skrótów Abbreviation Description Definition ML Muszę odnaleźć do w tekście page?? PP Projection Pursuit page 17 EVD Eigen-Value Decomposition page 19 pdf probability density function page 7 35

42 Spis rysunków Ilustracja

43 Spis tabel 37

44

45 Skorowidz tekst, 25 39