Monitorowanie i Diagnostka w Sstemach Sterowania na studiach II stopnia specjalności: Sstem Sterowania i Podejmowania Deczji Nieliniowe PCA kernel PCA na podstawie: Nowicki A. Detekcja i lokalizacja uszkodzeń prz użciu metod Kernel PCA w aplikacji do sstemów dstrbucji wod pitnej. Praca magisterska. PG 00 Promotor: dr inż. M. Grochowski; Nowicki i Grochowski. Kernel PCA In Application to Leakage Detection In Drinking Water Distribution Sstem. Lecture Notes in Computer Science. ICCCI 0, Part I, LNCS 69, pp.497-506. Prezentacja na ICCCI 0- Gdnia; Schölkopf, B., Smola, A., & Müller, K.-R. (996). Nonlinear Component Analsis as a Kernel Eigenvalue Problem. Ma-Planck-Institut fur biologische Bülthoff, Tübingen, German. Opracował: dr inż. Michał Grochowski
Liniowe vs nieliniowe PCA MiDwSS W8: Metoda kernel PCA (kpca) Cz w takich przpadkach PCA daje poprawne (wiargodne) rezultat???
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej Smulacja wcieku w pobliżu węzła monitorowanego - ciśnienie: - przepłw P 9 Q 44, Q 45, Q 60, Q 6, Q 54
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej dzień dzień dzień 3 dzień 4 dzień 5 dzień 6 wciek
Liniowe vs nieliniowe PCA Przkład: Lokaln model sieci wodociągowej Przpadek uproszczon: pomiar Przpadek rzeczwist 6 pomiarów
Liniowe vs nieliniowe PCA MiDwSS W8: Metoda kernel PCA (kpca) Modele statstczne: PCA VQPCA Vector Quantization PCA kpca kernel PCA PCA VQPCA KPCA
Liniowe vs nieliniowe PCA MiDwSS W8: Metoda kernel PCA (kpca) Modele statstczne: PCA VQPCA Vector Quantization PCA kpca kernel PCA PCA VQPCA KPCA
Liniowe vs nieliniowe PCA MiDwSS W8: Metoda kernel PCA (kpca) Modele statstczne: PCA VQPCA Vector Quantization PCA kpca kernel PCA PCA VQPCA KPCA
Liniowe vs nieliniowe PCA MiDwSS W8: Metoda kernel PCA (kpca) Metoda KPCA polega na odwzorowaniu Xwrozszerzoną przestrzeń cech poprzez pewne nieliniowe odwzorowanie źródło: Schölkopf, B., Smola, A., & Müller, K.-R. (996)
kernel PCA (kpca) opis intuicjn metod R M Przestrzeń wejść ϕ : [] [,sin()] F Przestrzeń cech F R Zredukowana przestrzeń cech
kernel PCA (kpca) opis metod Niech: MiDwSS W8: Metoda kernel PCA (kpca) X = M, będzie zbiorem obserwacji pozostającch wnieliniowej zależności., m Metoda KPCA polega na odwzorowaniu Xwrozszerzoną przestrzeń cech poprzez pewne nieliniowe odwzorowanie przestrzeń X L O L, n m, n Φ ( ) : R n F M przestrzeń F X F
kernel PCA (kpca) opis metod Wmiar przestrzeni F może bć dowolnie duż (zwkle większ niż przestrzeń obserwacji), wogólności również nieskończon. Prz odpowiednio dobranm Φ, za pomocą klascznej metod PCA daje się wznaczć liniowe zależności pomiędz odwzorowanmi w Fobserwacjami Φ( i ). Φ ( ) : R n F przestrzeń X przestrzeń F X F
kernel PCA (kpca) opis metod Metoda PCA opiera się o wektor własne macierz kowariancji wznaczonej dla wektorów obserwacji. Stuacja jest oczwista jeśli znam. W przpadku KPCA wznaczenie Φ( i ) w postaci jawnej, o ile jest możliwe w przpadku skończenie wmiarowej przestrzeni cech F (aczkolwiek bardzo kosztowne obliczeniowo dla przestrzeni o większej liczbie wmiarów), to w przpadku nieskończenie wmiarowej przestrzeni jest nierealizowalne. Rozwiązaniem jest zastosowanie tzw. sztuczki jądra (ang. kernel trick) zaprezentowanej po raz pierwsz w prac(m.a Aizerman, 964).
kernel PCA (kpca) opis metod kernel trick sztuczka jądra Metoda polega na przekształceniu algortmu PCA w taki sposób, ab wektorφ( i )wstępowałtlkoiwłączniewobrębieilocznuskalarnego. Wted iloczn ten można zastąpić tzw. reprezentacją(funkcją) jądra k(,): k(, ) = ( Φ( ), Φ( )) X = M,, m L O L, n M m, n K = k k, M m, L k i, j L k k, m M m, m Oznacza to, że możem pracować na wektorach Φ() bez konieczności wkonwania odwzorowania Φ( ).
kernel trick sztuczka jądra MiDwSS W8: Metoda kernel PCA (kpca) kernel PCA (kpca) opis metod Załóżm że mam dwa wektor w przestrzeni obserwacji X:, R n Niech: Φ ( ), Φ ( ) F są efektem transformacji tch wektorów poprzez operator Φ( i ) do przestrzeni F. W przestrzeni F chcem policzć (szukam): Zdefiniujm funkcję jądra (kernel): Φ( )' Φ( ) k(, ) = ( Φ( ), Φ( ))
kernel trick sztuczka jądra MiDwSS W8: Metoda kernel PCA (kpca) kernel PCA (kpca) opis metod Jak wgląda przestrzeń F?? F Φ() Φ() = [; ] = [; ] Prost przkład Niech =( ; ), natomiast jako nieliniową transformację Φ() wbieram wielomian go stopnia. (,,,, ) z = Φ( ) =,
Iloczn skalarn, w przestrzeni F (kernel): ( ) ) ( ) ( ), ( z z k + + + + + = Φ = Φ = kernel PCA (kpca) opis metod kernel trick sztuczka jądra Trik!!! ( ),,,,, ) ( z = = Φ Cz możem policzć k(,) bez transformacji wektorów oraz? ( ) ' ), ( k + = ( ) ( ) ( ) ' ), ( k + + + + + = + + = + = Wbierzm jądro:
Otrzman wnik jest ilocznem skalarnm ( ) ), ( k + + + + + = kernel PCA (kpca) opis metod kernel trick sztuczka jądra transformacji (przekształcenia): ( ),,,,, ( ),,,,, więc wbrane k(,) może bć jądrem (kernelem).
Przestrzeń F jest m wmiarowa: MiDwSS W8: Metoda kernel PCA (kpca) kernel PCA (kpca) opis metod kernel trick sztuczka jądra Rozszerzm nasze rozumowanie na wższe wmiar Niech: n, R Φ ( ) : R n F k (, ) = + ( ' ) m ( + + + ) m k (, ) = K+ ( a b) m k (, ) = ' + m m Można również wprowadzić współcznniki skalujące jądro a i b:
kernel PCA (kpca) opis metod kernel trick sztuczka jądra Metod wznaczania jądra:. konstruowanie sprawdzanie. Sprawdzanie warunków odpowiednich założeń matematcznch (warunki Mercera) 3. Liczenie na szczęście
kernel PCA (kpca) opis metod kernel trick sztuczka jądra Warunki Mercera: Funkcja K(,) może stanowić funkcję jądra, jeżeli:. Jest smetrczna, np.: k(,) = *=*. Macierz: K = k k, M m, L k i, j L k k, m M m, m k ij =k( i, j ) jest półdodatniookreślona dla dowolnch wektorów,.
kernel PCA (kpca) opis metod kernel trick sztuczka jądra Wbór funkcji jądra jest istotn ponieważ determinuje odwzorowanie Φ( ). Najczęściej spotkane funkcje jądra to: wielomianowa: Gaussa: odwrotnej form kwadratowej: sigmoidalna: MiDwSS W8: Metoda kernel PCA (kpca) Szczególnm przpadkiem funkcji wielomianowej jest funkcja wielomianowa n pierwszego rzędu iodpowiada ona przekształceniu liniowemu: Φ ( ) : R Taka funkcja jądra (k(,) = *) sprowadza KPCA do klascznej metod PCA. R n
kernel PCA (kpca) opis metod Wektor własne Φ( i ) znajdują się zawsze wpodprzestrzeni przestrzeni cech F rozpiętej przez wektor. Tak więc wmiar macierz kowariancji (a więc iilość wektorów własnch) jest określon przez liczbę obserwacji, anie ich wmiar!!! Oznacza to, że wogólności KPCA umożliwia wznaczenie znacznie większej ilości składników głównch, niż PCA. Prz dużej ilości obserwacji wznaczenie wszstkich wektorów własnch może bć kłopotliwe, ale istnieją metod aproksmacji jednie istotnch wektorów własnch, tj. takich którm odpowiadają duże wartości własne (np. metoda potęgowa).
Budowa modelu kpca - algortm Podobnie jak prz PCA zapisujem zbiór obserwacji w postaci macierz X zawierającej N obserwacji, każda po M zmiennch; X = M, Kolejne zmienne, m Traktując kompletną obserwację jako wektor i możem zapisać: L O L, n M m, n Kolejne pomiar każd element i,j stanowi j-tą zmienną i-tej obserwacji. X = M m n ilość zmiennch pomiarowch; m - ilość danch pomiarowch; Podobnie jak prz PCA normalizujem dane;
Budowa modelu kpca - algortm Wznaczam macierz K (ang. kernel matri), wktórej każd element k ij przjmuje wartości odpowiadające ilocznowi skalarnemu obserwacji Φ( i ) i Φ( j ) odwzorowanch wprzestrzeni cech F. Do jej obliczenia wkorzstujem wbraną funkcję jądra: k M, L K = k i, j k, m M k m, L km, m k ij =k( i, j ) Macierz K stanowi jądro przekształcenia. Dla jądra będącego funkcją Gaussa, możem zapisać: Z czego wnika, że macierz jest smetrczna, a wszstkie element na przekątnej są sobie równe. Wkorzstanie tch faktów umożliwia redukcję obliczeń.
Budowa modelu kpca - algortm Dokonujem przesunięcia obserwacji Φ( i ) wprzestrzeni cech tak, ab ich środek znajdował się wpoczątku układu współrzędnch. Znormalizowane obserwacje oznaczam jako: ~ Φ( i ) = Φ( i ) Φ gdzie: Φ ~ ( i )-obraz obserwacji i w przestrzeni cech Fuwzględniając przesunięcie środka zestawu danch do początku układu współrzędnch; -środek zbioru N obserwacji Φ 0 Φ m 0 = Φ( i ) m i= ~ Φ( 0 i )
Budowa modelu kpca - algortm Ponieważ nie znam odwzorowanch punktów Φ( i ) dokonujem tego pośrednio przekształcając kolejno każd element macierz K: gdzie: k ~ ij -element macierz K ~ zawierającej iloczn skalarne przesunięte do początku układu współrzędnch w przestrzeni cech ~ K = ~ k M ~ k, N, L O L ~ k, M M ~ k N, M
Budowa modelu kpca - algortm Wznaczam wektor własne macierz tak jak opisano w przpadku PCA lub korzstając z metod iteracjnch. Wznaczone wektor własne α pozostają wzależności względem wektorów własnch Vmacierz korelacji przekształconch obserwacji Φ() jak to opisuje zależność: K ~ gdzie: α i it wektor własn macierz K ~ Wektor α należ tak przeskalować, ab spełnion bł warunek: gdzie: λ i ita wartość własna macierz K ~
Budowa modelu kpca - algortm Analogicznie do PCA zgrupowane w macierz przeładowań V istotne wektor własne v i umożliwiają wznaczenie współrzędnch dowolnego punktu T względem składników głównch wprzestrzeni cech. Ponieważ nie znam Φ( T ) inie możem wznaczć v i bez znajomości Φ( i ), możem ponownie skorzstać ze sztuczki jądra iotrzmam zależność wkorzstującą iloczn skalarn, któr jesteśm w stanie obliczć:
Budowa modelu kpca - algortm Należ jeszcze uwzględnić przesunięcie do początku układ współrzędnch iostatecznie dowoln punkt T można przedstawić wprzeładowanej przestrzeni korzstając zrównania: m m m m m m gdzie: K macierz ilocznów skalarnch; k ' i = K = ' ' [ k K k ],, L ( Φ( ) Φ( )) = k( Φ( ), Φ( )) i T i T
Monitoring procesu MiDwSS W8: Metoda kernel PCA (kpca) Jako miarę jakości wpasowania bieżącch obserwacji wmodel wkorzstam błąd rekonstrukcji E w przestrzeni cech F opisan równaniem Φ ~ ~ Φ ( T ) = Φ ( ) Φ gdzie: skrócon zapis: T Interpretacją geometrczną bledu rekonstrukcji jest kwadrat odległości pomiędz odwzorowaną w F obserwacją, a jej rzutem na L- istotnch składników głównch. Φ ~ Φ ~ Wrażenie określa sferczne pole potencjału wprzestrzeni cech imoże bć wznaczone jako: 0
Monitoring procesu MiDwSS W8: Metoda kernel PCA (kpca) Ponieważ nie znam Φ ~, wkorzstując poprzednie wzor możem wznaczć wrażenie na błąd rekonstrukcji wprzestrzeni cech Fwzależności od punktu prac wprzestrzeni wejść R M : Jedna zhiperpłaszczznw przestrzeni cech F, ostałej wartości błędu rekonstrukcji może pełnić rolę granic deczjnej determinującej dopuszczalność aktualnego stanu operacjnego (Hoffmann, 006). Sedno sztuczki polega na tm, że taka hiperpłaszczznaw przestrzeni cech, na skutek nieliniowego przekształcenia Φ( ), w przestrzeni wejść przbiera postać hiperpowierzchni o regularnch kształtach dopasowanch do danch treningowch. W przpadku PCA błąd rekonstrukcji nie bł ograniczon od gór, natomiast prz KPCA, na skutek nieliniowego odwzorowania Φ( ), błąd rekonstrukcji w przestrzeni wejść zbiega do pewnej granicznej wartości.
Monitoring procesu MiDwSS W8: Metoda kernel PCA (kpca) Przpadek zbioru dwuwmiarowch obserwacji. Prz odpowiednio dobranch parametrach metoda KPCA wpołączeniu zbłędem rekonstrukcji pełniącm rolę wskaźnika jakości procesu potrafią skutecznie opisać nawet złożone nieliniowe modele. Punkt smbolizują obserwacje, krzwa jest izolinią stałego błędu rekonstrukcji. Autor ekspermentu: Heiko Hoffman.
kernel PCA analiza parametrów Błąd rekonstrukcji MiDwSS W8: Metoda kernel PCA (kpca) Do wnioskowania obieżącm stanie sstemu wkorzstujem, błąd rekonstrukcji. Dla poprawnie stworzonego modelu błąd ten będzie bliski zeru wprzestrzeni stanów dozwolonch, awsoki dla pozostałch stanów; wbierając wartość błędu, która zapewnia zadawalając margines niepewności, określam odpowiadającą jej izolinie, która pełnić będzie rolę granic deczjnej. Błąd rekonstrukcji - czarne punkt oznaczają obserwacje, kolorem zaznaczono obszar orównej wartości błędu rekonstrukcji.
kernel PCA analiza parametrów Funkcje jądra i parametr MiDwSS W8: Metoda kernel PCA (kpca) Prz braku jakichkolwiek przesłanek co do zastosowania innej funkcji sugeruje się zastosowanie funkcji Gaussa. Szerokość jądra δpełni istotną rolę zpunktu widzenia skuteczności metod ipowinna bć uważnie dobrana. Zbt duża wartość δspowoduje, że eksponenta będzie się zachowwała prawie liniowo iwielowmiarowe odwzorowania zaczną tracić swoje nieliniowe właściwości. Zdrugiej stron, za mała wartość doprowadzi do nieregularnej granic deczjnej, zwiększając podatność na zakłócenia (Souza, 00).
kernel PCA (kpca) opis intuicjn metod R M Przestrzeń wejść ϕ : [] [,sin()] F Przestrzeń cech F R Zredukowana przestrzeń cech
kernel PCA (kpca) opis intuicjn metod Odwzorowanie wejść Φ : X F Funkcja jądra: miara podobieństwa międz wektorami wejściowmi Wznaczenie podprzestrzeni Fs F Wmiar Fs Wszukanie liniowch zależności PCA Wkorzstanie błędu rekonstrukcji jako granic deczjnej Granicznawartość błędu rekonstrukcji
kernel PCA analiza parametrów szerokość jądra δ MiDwSS W8: Metoda kernel PCA (kpca)
kernel PCA analiza parametrów Liczba składników głównch MiDwSS W8: Metoda kernel PCA (kpca) Liczba istotnch składników głównch L, powinna bć dobierana wzależności od złożoności modelu procesu reprezentowanego przez obserwacje. Generalnie złożone proces wmagają zwkle uwzględnienia większej liczb składników głównch, chociaż nie istnieją szczegółowe wtczne wtej kwestii. Zbt mała ilość składników głównch prowadzi do znacznego uproszczenia modelu i w efekcie może doprowadzić do zbt luźnej granic deczjnej. Natomiast zbt duża liczba składników głównch prowadzi do zjawiska znanego wsieciach neuronowch jako przeuczenie. Wefekcie sstem traci zdolność do generalizowania. Ponieważ składniki główne znajdują się wpodprzestrzeni wznaczonej przez przekształcone wektor własne Φ( i ), liczba istotnch składników głównch może bć co najwżej równa liczbie obserwacji i.
kernel PCA (kpca) analiza parametrów Rozmiar przestrzeni F (ilość PCs) MiDwSS W8: Metoda kernel PCA (kpca)
kernel PCA (kpca) analiza parametrów PCA vs kpca - przkład
Dziękuję za uwagę