Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów
Lokalne klasyfikatory... 2 Plan Referatu Część I- Lokalne Klasyfikatory Schemat Liftingu Proximal Support Vector Machines(PSVM) Przykład Część II- Zespoły lokalnych klasyfikatorów Algorytm Arcing Algorytm Arcing dla binarnych klasyfikatorów Algorytm Arcing jako metoda ekstrakcji cech Część III- Wyniki Eksperymentów Dane sztuczne Dane rzeczywiste Część IV- Podsumowanie
Lokalne klasyfikatory... 3 CzęśćI Lokalne Klasyfikatory
Lokalne klasyfikatory... 4 Sygnał Sygnałjestdowolnąfunkcjąx:I U,takąże: I Zoraz I < U R p,dlap 1 Uwagi Dlap>1będęmówił,żesygnałjestwielokanałowy,apjest liczbą kanałów MożnateżrozważaćIwpostaciI=I 1 I 2... I n,dla I i Z.Naprzykładdlan=2mamysygnałydwuwymiarowe, czyli bitmapy.
Lokalne klasyfikatory... 5 Motywacja Opracować metodę do wyznaczania cech o następujących własnościach: Lokalność Każda cecha jest wyliczana na podstawie części oryginalnego sygnału. Dyskryminacja Przy wyliczaniu cech brana jest pod uwagę informacja o przynależności do klasy decyzyjnej. Liniowość Własność ta umożliwia rozpisanie analizowanego sygnału w specjalnej bazie zwanej lokalną bazą dyskryminacyjną.
Lokalne klasyfikatory... 6 Schemat liftingu(ang. Lifting Scheme) Metoda konstrukcji falek zaproponowana przez Wima Sweldensa. Bardzo prosty i naturalny sposób konstrukcji falek. Nie wymaga znajomości transformaty Fouriera. Cała konstrukcja odbywa się w dziedzinie czasu(przestrzeni). Brak problemu z dziedzinami zwartymi(np. odcinkami) oraz z sygnałami, których długość nie jest potęgą dwójki. W pracy wykorzystałem modyfikację predyktor-korektor(ang. update first) wzorowaną na pomyśle Claypoola, Baraniuka i Nowaka.
Lokalne klasyfikatory... 7 Lifting Scheme- operatory Niechx R T fort=2 t dlapewnegot Z SPLIT-rozbijsygnałxnadwapodsygnały,składającesię odpowiedniozpróbekoindeksachnieparzystych(x odd )i parzystych(x even ). UPDATE- wylicz zgrubną(ang. coarse) aproksymację c sygnału x c(k)= x even(k)+x odd (k), k=1,2,...,t/2 2 PREDICT- wylicz współczynniki falkowe d d(k)=predict k (x even (k),c), k=1,2,...,t/2
Lokalne klasyfikatory... 8 Schemat Liftingu- przykład
Lokalne klasyfikatory... 9 Schemat Liftingu x split x odd x even update c predict d
Lokalne klasyfikatory... 10 Hierarchiczne biortogonalne bazy dyskryminacyjne x: T T/2 T/2 T/4 T/4 x: ^ T/4 T/4 T/2
Lokalne klasyfikatory... 11 Liniowa wersja operatora PREDICT w 0 k x(2k) d(k) c(k) w k 1 w 2 k c(k+1) Współczynniki d(k) można wyznaczyć następująco: d(k) = x even (k) (w k 1c(k)+w k 2c(k+1)) częściowaregularyzacja d(k) = w k 0x even (k) (w k 1c(k)+w k 2c(k+1)) pełnaregularyzacja
Lokalne klasyfikatory... 12 Liniowa wersja operatora PREDICT Zadaniem jest znalezienie takich współczynników d(k), które będą różne dla przykładów z różnych klas. Pełna regularyzacja d(k)=w k 0x even (k) (w k 1c(k)+w k 2c(k+1)) Niepełna regularyzacja d(k)=x even (k) (w k 1c(k)+w k 2c(k+1))
Lokalne klasyfikatory... 13 Proximal Support Vector Machines(PSVM) Autor Olvi Mangasarian(bardzo płodny w dziedzinie SVM). Polecam lekturę jego strony www http://www.cs.wisc.edu/~olvi/ Jedna z wielu wersji powszechnie znanej metody opracowanej przez Vapnika. Łatwa w implementacji(wystarczy umieć rozwiązywać układy równań). Wspaniała jak korzysta się z R a/matlaba/octave a (kilka linijek kodu). Równie skuteczna co klasyczne SVM. Inna nazwa to regresja grzbietowa(ang. ridge regression)
Lokalne klasyfikatory... 14 PSVM- obrazek poglądowy
Lokalne klasyfikatory... 15 PSVM Załóżmy, że dysponujemy zbiorem treningowym postaci X={(x 1,y 1 ),...,(x l,y l )}gdziex i R T,y i {+1, 1}. Reguła klasyfikacyjna jest postaci: h(x)=η ( f (w,γ) (x) ) gdzie f (w,γ) (x)= w,x +γ, oraz η(t)= +1 dlat>0 1 dlat 0
Lokalne klasyfikatory... 16 PSVM- oznaczenia Amacierzdanych Y diagonalnamacierzzwartościamiy i naprzekątnej ewektorzłożonyzsamychjedynek
Lokalne klasyfikatory... 17 Regresja Grzbietowa Szukamy rozwiązania nadokreślonego układu równań liniowych Hz=b Metoda Regresjii Grzebitowej polega na poszukiwaniu wektora z jako rozwiązania następującego problemu optymalizacyjnego min z Hz b +α 2 z, gdzie α jest parametrem. Uwaga Zwykła Regresja polega na rozwiązywaniu problemu min z Hz b
Lokalne klasyfikatory... 18 Wprowadźmy oznaczenia H=[Ae] PSVM a Regresja Grzebietowa b=y:=(y 1,y 2,...,y l ) T z:=[wγ] T PSVM polega na zastosowaniu Regresji Grzbietowej do następującego zadania regresji Hz=y
Lokalne klasyfikatory... 19 PSVM- inne podejście Optymalny wektor w jest dany poprzez rozwiązanie następującego problemu optymalizacyjnego przy ograniczeniach min w,γ,ξ 1 2 ( w 2 +γ 2 )+ ν 2 ξ 2 Y(Aw eγ)+ξ=e Proste rachunki prowadzą do następujących wzorów: [ 1 ( u = ν I+Y AA T +ee T) 1 Y] e w = A T Yu γ = e T Yu
Lokalne klasyfikatory... 20 Szybki algorytm dla PSVM Do rozwiązywania układów równań postaci ( G+UV T) x=b można wykorzystać formułę Shermana-Morrisona-Woodbury ego ( G+UV T) 1 =G 1 G 1 U ( I+VG 1 U ) 1 V T G 1 Rozwiązanie PSVM jest dane tego typu układem(także z dodaktowymi ograniczeniami) Redukcja kosztu obliczeniowego jest znacząca.(koszt rozwiązywaniaukładurównańjestrzęduo(n 3 )). W przypadku zastosowania funkcji jądrowych, zysk nie będzie duży, chyba, że zastosuje się podejście zwane Reduced Support Vector Machines(też pomysł Mangasariana!).
Lokalne klasyfikatory... 21 przy ograniczeniach PSVM- dodatkowe ograniczenia min w,γ,ξ 1 2 ( w 2 +γ 2 )+ ν 2 ξ 2 Y(Aw eγ)+ξ = e Bw = f Proste rachunki prowadzą do następujących wzorów: { 1 [ u = ν I+Y AA T +ee T AB T( BB T) BA T] Y [e YAB T( BB T) ] 1 f } 1 w = A T Yu+B T (BB T ) 1 f B T[( BB T) BA T Y ] u γ = e T Yu
Lokalne klasyfikatory... 22 Po co wersja z dodatowymi ograniczeniami? Klasyczny Lifting Scheme narzucał na operator PREDICT taki warunek, aby w przypadku gdy sygnał x jest lokalnie wielomianem, współczynniki falkowe d(k) były równe 0. Konsekwencje są takie, że liczba otrzymanych współczynników jest(w przypadku odpowiednio gładkich sygnałów) jest dużo mniejsza niż liczba próbek(kompresja) Stosując wersję algorytmu z niepełną regularyzacją oraz PSVM z dodaktowymi ograniczeniami możemy otrzymać bazę, która będzie spełniała dwa warunki: Współczynniki będą równe 0 jeśli sygnał będzie lokalnie wielomianem. Współczynniki będą różne dla różnych przykładów z różnych klas.
Lokalne klasyfikatory... 23 Przykład(dane Waveform) 8 6 4 2 0-2 -4 0 5 10 15 20 25 30 35 10 8 6 4 2 0-2 -4 0 5 10 15 20 25 30 35 Rysunek 1: Zbiór treningowy(dwie klasy z trzech)
Lokalne klasyfikatory... 24 8 7 6 5 4 3 2-1 01-2 -3 8 7 6 5 4 3 2-1 01-2 -3 0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 2 4 6 8 10 12 14 16 6 5 4 3 2 1 0-1 -2 6 5 4 3 2 1 0-1 -2 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 0.18 0.17 0.16 0.15 0.14 0.13 0.12 0.11 0.1 0.09 1 2 3 4 5 6 7 8-0.5 0-1.5-1 5 4 3 2 1 0-1 -2 3.5 2.5 3 1.5 2 0.5 1 1 1.5 2 2.5 3 3.5 4 1 1.5 2 2.5 3 3.5 4 0.13 0.125 0.12 0.115 0.11 0.105 0.1 0.095 1 1.5 2 2.5 3 3.5 4 Rysunek 2: Zgrubna aproksymacja oraz błąd klasyfikacji dla trzech poziomów dekompozycji(błąd dla danych oryginalnych wynosi 0.10)
Lokalne klasyfikatory... 25 Analysis Synthesis Base vector 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 3132 Time (samples) Base Vector 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 3132 Time (samples) 11000 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 Rysunek 3: Nośniki dyskryminacyjnej bazy biortogonalnej
Lokalne klasyfikatory... 26 10 8 6 4-2 02-4 -10-8 -6 0 5 10 15 20 25 30 35 0.15 0.1 0.05 0-0.05-0.1-0.15 0 5 10 15 20 25 30 35 10000 8000 6000 4000 2000-2000 0-4000 -6000-8000 -10000 40000 30000 20000 10000 0-10000 -20000-30000 -40000 0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 0.04 0.02 0-0.02-0.04-0.06-0.08-0.1 0.05 0.04 0.03 0.02 0.01-0.01 0-0.02-0.03-0.04-0.05-0.06 0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 Rysunek 4: Wektory bazowe: synteza(lewa), analiza(prawa) dla trzech poziomów dekompozycji.
Lokalne klasyfikatory... 27 CzęśćII Zespoły lokalnych klasyfikatorów
Lokalne klasyfikatory... 28 1.m(i)=0dlai=1,...,l 2.Dlan=1...Npowtarzaj Algorytm Arcing (a)p(i)=(1+m(i)) s i=1,...,l (b)znormalizujp,takaby l i=1 p(i)=1 (c)wylosujzezwracaniemlprzykładówzezbioruxzgodniez rozkładem prawdopodobieństwa zadanym przez p. (d)zbudujklasyfikatorh n przyjmującwylosowaneprzykłady jako przykłady treningowe (e) Zwiększ p(i) jeśli i-ty przykład, z oryginalnego zbioru X, jest źle klasyfikowany Uwaga Arcing Adaptively Resample and Combine
Lokalne klasyfikatory... 29 Algorytm Arcing dla binarnych klasyfikatorów 1.M(i,c)=0dlai=1,...,l,c=1,...,C 2.Dlan=1...Npowtarzaj (a)p(i)=(1+ C c=1 M(i,c))s i=1,...,l (b)znormalizujp(i),takaby l i=1 p(i)=1 (c)wylosujzezwracaniemlprzykładówzezbioruxzgodniez rozkładem prawdopodobieństwa zadanym przez p (d)dokonajmapowaniazbioruetykietek{1,...,c}nazbiór { 1,1}przypomocyfunkcjiµ t (e)zbudujklasyfikatorh n przyjmującwylosowaneprzykłady, ze zmodyfikowanymi etykietkami, jako przykłady treningowe (f)zwiększm(i,c)jeślii-typrzykład,zoryginalnegozbiorux, jest źle klasyfikowany
Lokalne klasyfikatory... 30 Algorytm Arcing jako metoda ekstrakcji cech 1.KonstruujemyTfunkcjif 1,...,f T przypomocyalgorytmu Arcing 2. Zamiast starego wektora cech użyjemy następujących nowych cech (f 1 ( ),...,f T ( ))
Lokalne klasyfikatory... 31 CzęśćIII Wyniki Eksperymentów
Lokalne klasyfikatory... 32 CBF3klasy,128próbek CBF-tr 3 klasy, 128 próbek Waveform 3 klasy, 32 próbki Tracedata 4 klasy, 275 próbek 2-Patterns 4 klasy, 128 próbek Control 6 klas, 60 próbek Dane sztuczne
Lokalne klasyfikatory... 33 Dane rzeczywiste Gunx2klasy,150próbek Auslan(Flock) 10 klas, 30 próbek, 8 kanałów Auslan(Clean) 95 klas, 50 próbek, 22 kanały JapaneseVowels9klas, 20próbek,12kanałów ECG2klasy, 90próbek,2kanały Wafer2klasy, 140próbek,2kanały Pendigits 10 klas, 8 próbek, 2 kanały USPS 10 klas, 256 próbek, sygnał wielowymiarowy
Lokalne klasyfikatory... 34 Wyniki dla danych sztucznych Dane Arcing DT + Arcing SVM + Arcing Najlepszy znany Tracedata 02.00% 03.70% 01.34% 00.18% Waveform 14.03% 16.73% 13.30% 14.60% CBF 01.43% 01.53% 00.83% 00.00% CBF-tr 02.54%. % 01.35% 00.86% Control 00.43% 04.00% 00.41% 00.17% 2-Patterns 05.52% 15.35% 02.89% 00.59%
Lokalne klasyfikatory... 35 Wyniki dla danych rzeczywistych Dane Arcing DT + Arcing SVM + Arcing Najlepszy znany Gunx 00.85% 01.75% 01.05% 00.50% Auslan(Flock). % 16.16% 02.20% 01.28% Auslan(Clean) 07.05% 20.15% 02.20% 02.00% Vowels 06.30% 17.84% 00.97% 01.41% Pendigits 19.33% 08.60% 02.60% 01.59% ECG 13.21% 15.87% 10.82% 15.50% Wafer 00.69% 00.54% 00.49%. % USPS 10.61% 14.85% 05.33% 02.00%
Lokalne klasyfikatory... 36 CzęśćIV Podsumowanie
Lokalne klasyfikatory... 37 Wnioski Zaprezentowana metoda jest konkurencyjna wobec istniejących metod klasyfikacji sygnałów Dzięki własności Lokalności i Dyskryminacyjności metoda jest atrakcyjnym narzędziem analizy sygnałów. Metoda została z sukcesem zastosowana do analizy lokalnych potencjałów wywołanych w Instytucie Biologii Doświadczalnej im. M. Nenckiego PAN. Ponieważ cała metoda wykorzystuje jedynie iloczyny skalarne, można wykorzystać funkcje jądrowe. Algorytm jest kosztowny, ale można z tym walczyć poprzez wykorzystanie wbudowanej równoległości oraz wydajnych bibliotek do algebry liniowej(blas, LAPACK).
Lokalne klasyfikatory... 38 Propozycje rozszerzeń Uogólnienie metody na sygnały wielowymiarowe poprzez tzw. nieseparowalne bazy falkowe. Bardzo komplikuje się implementacja. Bardziej stabilny algorytm dla PSVM z dodatkowymi ograniczeniami. Sygnały o różnych długościach. Algorytm uczenia wykorzystujący dane bez etykietek. Tworzenie zespołu funkcji jądrowych, zamiast zespołu klasyfikatorów.