Autoreferat rozprawy doktorskiej. Uczenie bayesowskie w modelowaniu rozmytym

Save this PDF as:
 WORD  PNG  TXT  JPG

Wielkość: px
Rozpocząć pokaz od strony:

Download "Autoreferat rozprawy doktorskiej. Uczenie bayesowskie w modelowaniu rozmytym"

Transkrypt

1 Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Informatyki Autoreferat rozprawy doktorskiej Uczenie bayesowskie w modelowaniu rozmytym mgr inż. Alina Momot Promotor: prof. dr hab. inż. Jacek Łęski Gliwice 2004r.

2

3 1 Wprowadzenie Systemy rozmyte znajdują szerokie zastosowanie we współczesnej nauce i technice. Wykorzystywane są w rozwiązywaniu rozmaitych problemów z zakresu sterowania, identyfikacji systemów, rozpoznawania obrazów, przetwarzania sygnałów oraz wielu innych. Wśród obszarów zastosowań systemów rozmytych można wyróżnić takie, które związane są z szeroko pojętym procesem uczenia. Przez proces ów należy rozumieć znajdowanie zależności pomiędzy danymi wejściowymi, a wartościami wynikowymi na podstawie ograniczonego zbioru obserwacji. Zarazem w praktycznych zastosowaniach często stawiany jest postulat, aby proces uczenia dokonywał się automatycznie, bez bezpośredniego udziału człowieka. W tym celu konstruuje się modele maszyn uczących się. Zadaniem tych maszyn jest wyznaczanie funkcji, które opisują zależności pomiędzy danymi wejściowymi, a wartościami wynikowymi. Wyznaczanie to odbywa się poprzez odpowiedni dobór parametrów funkcji, z zadanego zbioru parametrów. Kryterium doboru funkcji powinno charakteryzować się przy tym nie tylko dobrym dopasowaniem wartości funkcji do wartości wynikowych dla zadanych danych wejściowych, ale również dobrym dopasowaniem wartości funkcji do nieznanych wcześniej wartości wynikowych dla nowych danych wejściowych. Własność ta nazywana jest zdolnością uogólniania. Tworzeniem i badaniem modeli maszyn uczących się zajmuje się między innymi statystyczna teoria uczenia, za której twórcę uważa się V. Vapnika [67], [68]. Praktyczne wykorzystanie tej teorii stanowią opisane przez niego maszyny oparte na wektorach podtrzymujących (ang. Support Vector Machine, SVM). Statystyczna teoria uczenia stanowiła inspirację dla powstania SVM, jednak na gruncie tej teorii powstało również wiele nowych metodologii uczenia między innymi cała grupa metod opartych na funkcji jądra [50], [59], takich jak na przykład metoda wyznaczania funkcji dyskryminacyjnej Fishera oparta na funkcji jądra (ang. Kernel Fisher Discriminant, KFD) [40], [55], [1] lub metoda uczenia nienadzorowanego zwana analizą głównych składowych opartą na funkcji jądra (ang. Kernel Principal Component Analysis, Kernel PCA) [56], [41], [57]. Również maszyny oparte na wektorach istotnych (ang. Relevant Vector Machine - RVM) opisane w pracach M. Tippinga [64], [65] i rozwijane w [3], [12] oraz [66] stanowią metodę uczenia wykorzystującą funkcje jądra. Wiele zagadnień z zakresu teorii uczenia może być postrzeganych jako problemy uczenia sieci neuronowych o specyficznych strukturach, np. nieparametryczny estymator Parzena [52] oparty na funkcji jądra można traktować jako tak zwaną radialną sieć neuronową. Również teorię maszyn opartych na wektorach podtrzymujących (ang. Support Vector Machine, SVM) [67] [68], można ujmować w terminologii sieci neuronowych. Sieć taka jest nazywana siecią opartą na wektorach podtrzymujących (ang. Support Vector Network, SVN). Zastosowanie sieci neuronowych jest bardzo szerokie. Stosowane są one do rozpoznawania znaków [45], jak również do przetwarzania obrazów [11] w szerszym kontekście, a także innych dziedzin, takich jak transport [9], ekonomia i finanse [71], nauki 1

4 przyrodnicze [17], energetyka [20], medycyna [25]. Metodologia SVM (maszyn uczących się opartych na wektorach podtrzymujących) budzi szerokie zainteresowanie. Wykorzystuje się ją w wielu zagadnieniach związanych z uczeniem, takich jak na przykład problem klasyfikacji [15], [4], [23], wyznaczania funkcji regresji [60], [54], [38], [72], estymacji funkcji gęstości [70] lub prognozowania wartości szeregów czasowych [49], [48], [13]. Prowadzone są także teoretyczne prace dotyczące analizy i poprawy działania algorytmów uczenia maszyn opartych na wektorach podtrzymujących [5], [51], [53], [58]. Jednak niezależnie od rozwoju metod wykorzystujących osiągnięcia statystycznej teorii uczenia, klasyczne techniki rozwiązywania problemów klasyfikacji (między innymi algorytm k najbliższych sąsiadów, algorytm k-ty najbliższy sąsiad, liniowa funkcja dyskryminacyjna Fishera [22], [21]) lub regresji (metoda najmniejszych kwadratów [47]) nadal znajdują szerokie zastosowania [37], [14], [61]. Zdolność uogólniania charakteryzująca rozwiązania otrzymywane z wykorzystaniem tych metod wynika z faktu, że przestrzeń wejściowa danych uczących ma niewielki wymiar d w stosunku do liczby elementów zbioru uczącego N. Wskazana jest zatem przy stosowaniu tych metod redukcja wymiaru wektorów danych uczących, aby zmniejszyć wartość ilorazu d. Redukcji tej N można dokonać wykorzystując na przykład analizę głównych składowych (ang. Principal Component Analysis, PCA) [19], [47] lub transformatę falkową [2], [42]. Przykłady zastosowania redukcji wymiaru wektorów danych uczących z wykorzystaniem transformaty falkowej w celu zwiększenia zdolności uogólniania klasyfikatorów można znaleźć między innymi w pracach [43], [44], [46]. W ostatnich latach wzrasta również zainteresowanie systemami rozmytymi łączącymi w sobie podejście rozmyte z technikami statystycznej teorii uczenia [27], [28], [30]. Łączenie podejścia rozmytego z technikami statystycznej teorii uczenia pojawia się po raz pierwszy w kontekście uczenia nienadzorowanego w 2001 roku [26]. Prace [26] i [29] opisują metody rozmytego grupowania wykorzystujące ε-nieczułą funkcję straty, natomiast praca [8] przedstawia rozmytą metodę grupowania opartą na wektorach podtrzymujących. W 2002 roku pojawiło się pojęcie maszyny opartej na wektorach podtrzymujących i wykorzystującej logikę rozmytą (ang. Fuzzy Support Vector Machine) [24], a w 2003 roku maszyny opartej na wektorach podtrzymujących i wykorzystującej logikę rozmytą do wyznaczania funkcji regresji (ang. Support Vector Fuzzy Regression Machine) [18]. Zastosowanie technik statystycznej teorii uczenia do tworzenia rozmytych klasyfikatorów można znaleźć między innymi w pracach [31], [32], [7], [6], [33], natomiast praca [34] opisuje wykorzystuje ε-nieczułą funkcję straty dla rozmytego modelowania funkcji regresji. 2

5 2 Zakres i tematyka pracy Zagadnienie wyznaczania funkcji regresji jest jednym z podstawowych problemów uczenia nadzorowanego. Można je określić jako estymację funkcji rzeczywistej f na podstawie zaszumionych obserwacji {x i,t i } N i=1. Zwykle zakłada się, że {x i } jest ciągiem niezależnych realizacji wektora losowego, natomiast {t i } określone jest zależnością funkcyjną t i = f(x i ) + ǫ i i {1, 2,...,N}, (1) gdzie {ǫ i } jest ciągiem niezależnych realizacji zmiennej losowej o rozkładzie normalnym ze średnią 0 i odchyleniem standardowym σ. Estymacja funkcji regresji f θ (x) odbywa się poprzez dobór wektorowego parametru θ z pewnego zbioru Θ. Wyboru parametru θ dokonuje się poprzez minimalizację pewnego funkcjonału. W klasycznym podejściu jest to błąd średniokwadratowy. Jednak tak wyznaczona ocena parametru θ jest mało odporna na zakłócenia oraz dane obce (ang. outliers). Aby wyznaczyć ocenę bardziej odporną stosowane są inne, bardziej zaawansowane kryteria i metody wyznaczania parametru θ. Jednym z podejść do znajdowania odpornej oceny parametru θ jest metoda wykorzystująca maszyny oparte na wektorach podtrzymujących (SVM) zaproponowana przez V. Vapnika [67]. Metoda regresji wykorzystująca wektory podtrzymujące (ang. Support Vector Regression - SVR) [10] charakteryzuje się dużą zdolnością uogólniania osiągniętą dzięki mechanizmowi unikania zbytniego dopasowania funkcji regresji do obserwacji. Otrzymywana funkcja regresji jest postaci: f θ (x) = N θ i K(x,x i ) + θ 0, (2) i=1 gdzie K(x,x i ) jest funkcją jądra, natomiast parametry θ i nazywane są wagami i często są oznaczane symbolami w i lub v i. Zarazem rozwiązania uzyskiwane tą metodą opisywane są poprzez jawną zależność od jedynie niewielkiej liczby obserwacji {x i }, czyli wektorów podtrzymujących (ang. support vectors). Opis o tej własności jest określany jako rzadki (ang. sparse), co wyraża się poprzez znaczną liczbe współczynników θ i przyjmujących wartość zero. Pomimo wielu zalet metodologia uczenia oparta na wektorach podtrzymujących posiada również pewne wady i ograniczenia: Rzadkość uzyskiwanego wyniku nie jest znacząca w przypadku licznego zbioru obserwacji. Liczba wektorów podtrzymujących zwykle liniowo rośnie wraz ze wzrostem liczności zbioru obserwacji. Metoda ta zapewnia jedynie punktową ocenę parametru θ, podczas gdy często pożądanym rezultatem jest również warunkowy rozkład p(t x), który dostarcza informacji o niepewności związanej z uzyskaną oceną (np. w postaci przedziałów ufności dla wartości regresji). Prowadzone są wprawdzie badania nad uzyskaniem 3

6 przedziałów ufności dla wartości funkcji regresji, jednak ich wyznaczenie sprawia wiele trudności i często jest mało wiarygodne [16]. Konieczne jest wyznaczenie parametru opisującego kompromis między minimalizacją funkcji błędu a stopniem skomplikowania modelu oraz parametru nieczułości ε, co wprowadza dodatkowy narzut obliczeniowy. Stosowane funkcje jądra K(x,x i ) muszą spełniać warunki Mercera [39]. Maszyny oparte na wektorach istotnych (RVM) dzięki wykorzystywaniu bayesowskiego podejścia są wolne od opisanych wyżej wad i ograniczeń [65]. W metodzie tej postać funkcji regresji jest taka sama jak w przypadku SVR, czyli opisana wzorem (2), natomiast podejście bayesowskie do uczenia wyraża się poprzez wprowadzenie rozkładów a priori dla parametrów θ i. Każdy z tych rozkładów jest określany poprzez pewien parametr, który jest iteracyjnie wyznaczany na podstawie danych obserwacji. Rzadkość (ang. sparsity) rozwiązania jest uzyskiwana, gdyż w praktyce wyznaczone rozkłady są silnie skoncentrowane wokół zera [64]. Łączenie podejścia rozmytego z technikami statystycznej teorii uczenia może prowadzić do powstania metod posiadających większą zdolność uogólniania. Przykład udanego połączenia metod SVM oraz wnioskowania rozmytego można znaleźć w [33]. W pracy tej przedstawiony został klasyfikator opisany poprzez system rozmyty Takagi Sugeno Kanga (system TSK) [63] [62], w którego konkluzjach występują funkcje wyznaczane za pomocą metodologii wektorów podtrzymujących. Zastosowanie podejścia rozmytego, wykorzystującego w analogiczny sposób system TSK do rozwiązania problemu regresji można znaleźć w pracy [35]. W niniejszej pracy rozpatrywany jest model regresji nieco ogólniejszy od opisanego wyżej zakładający, że {ǫ i } jest realizacją wektora niezależnych zmiennych losowych o rozkładach normalnych z jednakową średnią 0 i odchyleniami standardowymi σ i. Przy rozwiązywaniu problemu regresji wykorzystywane jest podejście nawiązujące do metodologii wektorów istotnych w kontekście uczenia systemów rozmytych Takagi Sugeno Kang a rzędu pierwszego. 3 Teza i cele rozprawy Sfomułowano nastepującą tezę rozprawy: Modelowanie rozmyte, w którym do wyznaczania konkluzji rozmytych reguł warunkowych JEŻELI TO zastosowano uczenie bayesowskie prowadzi do systemów rozmytych o dużej zdolności uogólniania przy niewielkiej liczbie parametrów wymagających dopasowania w procesie uczenia. 4

7 Aby wykazać prawdziwość powyższej tezy w pracy określono następujące cele: 1. Wyprowadzenie analitycznej postaci rozkładu a posteriori wektora parametrów θ funkcji regresji f θ (x) oraz rozkładu wartości wyjściowej t dla nieznanego wcześniej wektora wartości wejściowych x. 2. Opracowanie algorytmu uczenia ważonej wersji maszyny opartej na wektorach istotnych (ang. Weighted Relevant Vector Machine, WRVM). 3. Określenie sposobu inicjalizacji wag dla algorytmu WRVM. 4. Zaproponowanie algorytmu uczenia systemów rozmytych Takagi Sugeno Kanga rzędu pierwszego wykorzystującego algorytm WRVM do wyznaczania współczynników w konkluzjach rozmytych reguł. 5. Ocena zdolności uogólniania systemów rozmytych uczonych zaproponowanymi metodami na tle wyników zastosowania innych metod z wykorzystaniem powszechnie znanych zbiorów danych. 4 Osiągnięte wyniki Prezentowana rozprawa stanowi próbę znalezienia nowych i charakteryzujących się dużą zdolnością uogólniania metod uczenia systemów rozmytych Takagi Sugeno Kanga rzędu pierwszego. Do tworzenia tych metod starano się wykorzystać metody statystyczne, a w szczególności wnioskowanie bayesowskie. Przewodnią myślą wszystkich badań było spostrzeżenie, że skomplikowana z punktu widzenia statystyki wielowymiarowej nieliniowa struktura modelu regresji może być czasami z powodzeniem opisywana za pomocą niewielu prostych funkcji liniowych (konkluzji rozmytych reguł JEŻELI TO systemów TSK rzędu pierwszego). Jednym z celów postawionych przez autora pracy było otrzymanie analitycznej postaci rozkładu a posteriori wektora parametrów v funkcji regresji f(x; v) oraz rozkładu wartości wyjściowej t dla nieznanego wcześniej wektora wartości wejściowych x w modelu regresji nieco ogólniejszym do stosowanego klasycznie. Dla danych par obserwacji w postaci zbioru {(x 1,t 1 ), (x 2,t 2 ),...,(x N,t N )} R d R szukana była funkcja f(x;v), która dla każdego i {1, 2,...,N} spełnia warunki: t i = f(x i ;v) + ε i, (3) gdzie ε i jest skończonym, N-elementowym ciągiem realizacji niezależnych zmiennych losowych o rozkładzie normalnym odpowiednio N( ; 0,σ 2 i ) dla każdego i {1, 2,...,N}. Przyjęto założenie, że szukana funkcja f ma być postaci: f(x;v) = N v i K(x,x i ) + v 0, (4) i=1 5

8 gdzie K(x,x i ) jest ustaloną funkcją jądra, zaś v = (v 0,v 1,...,v N ) T. Uwzględniając fakt, że t = (t 1,t 2,...,t N ) T, jest N-elementowym ciągiem realizacji niezależnych zmiennych losowych o rozkładzie normalnym N( ;f(x i ;v),σi 2 ) odpowiednio dla każdego i {1, 2,...,N} (wynika to z założonej wcześniej niezależności w odniesieniu do elementów ciągu {ε i } N i=1) i przyjmując oznaczenie β = (σ1 2,σ2 2,...,σ 2 N )T, otrzymuje się rozkład warunkowy p(t v,β) 1 wektora t: p(t v, β) = N N( ;f(x i ;v),σi 2 ) = i=1 = (2π) N 1 2 B 2 exp { 1 } 2 (t Φv)T B(t Φv), (5) gdzie B = diag(β) = diag ( (σ1 2,σ2 2,...,σ 2 N )T), natomiast symbol Φ oznacza macierz wymiaru N (N + 1) opisaną wcześniej wzorem: Φ = φ(x 1 ) φ(x 2 ). φ(x N ) 1 K(x 1,x 1 ) K(x 1,x 2 ) K(x 1,x N ) = 1 K(x 2,x 1 ) K(x 2,x 2 ) K(x 2,x N ) (6) 1 K(x N,x 1 ) K(x N,x 2 ) K(x N,x N ) Aby ograniczyć wymiar VC (Vapnika Chervonenkisa) otrzymywanych rozwiązań (co jest równoważne zapewnieniu zdolności uogólniania poszukiwanej funkcji regresji) przyjęto założenie, że rozkład a priori wektora v jest wielowymiarowym rozkładem normalnym o zerowym wektorze średnich. Wprowadzając dodatkowo założenie o niezależności składowych tego wektora, prowadzi to do określenia rozkładu a priori dla parametru v postaci: N p(v α) = N(v i ; 0,α 1 i ) = i=0 = (2π) N+1 2 A 1 2 exp { 1 } 2 vt Av, (7) gdzie A = diag(α) = diag ( (α 0,α 1,...,α N ) T). Uwzględniając powyżej opisane założenia otrzymano analityczną postać rozkładu p(v t,α,β). Jest nim rozkład normalny N(v;m,C) o wektorze średnich m oraz macierzy kowariancji C postaci: m = CΦ T Bt, (8) C = (Φ T BΦ + A) 1. (9) Wnioskowanie o wartości t na podstawie nieznanej wcześniej wartości wektora x oraz σ 2 (wariancja zakłócenia wartości t ) odbywać się będzie za pomocą rozkładu: p(t t,α MP,β MP,x,σ ) 2 = p(t v,x,σ )p(v t,α 2 MP,β MP )dv, (10) 1 Dla przejrzystości zapisu przy oznaczeniu tego rozkładu oraz wszystkich następnych będzie pomijana zależność warunkowa względem wartości x 1,x 2,...,x N. 6

9 gdzie α MP oraz β MP to najbardziej prawdopodobne wartości parametrów α oraz β dla rozkładu p(t α,β) = N(t;0, (B 1 + ΦA 1 Φ T )). Również dla rozkładu p(t t,α MP,β MP,x,σ 2 ) uzyskano analityczną postać. Jest to rozkład normalny N(t ;γ,η) o średniej γ i wariancji η postaci: γ = φ(x )m, (11) η = σ 2 + φ(x )Cφ(x ) T ), (12) gdzie φ(x ) = (1,K(x,x 1 ),...,K(x,x N )) dla pewnej funkcji jądra K(, ). Wartość oczekiwana powyższego rozkładu może stanowić punktową ocenę nieznanej wartości t. Ocena taka jest uzyskana jako iloczyn skalarny wektora φ(x ) oraz wektora m średnich rozkładu a posteriori wektora v. Wynika z tego zatem, że za poszukiwaną wartość wektora v można przyjąć wektor średnich m rozkładu p(v t,α MP,β MP ). W takim przypadku szukana funkcja f(x;v) określona jest następująco: f(x;w) = N m (i) K(x,x i ) + m (0), (13) i=1 gdzie wektor m opisany jest wzorem (8). Należy przy tym podkreślić, że wraz z uzyskaną wartością wektora v otrzymuje się również możliwość wyznaczania przedziałów ufności dla wartości f(x;v). W pracy opracowano również algorytm powalający wyznaczyć optymalne wartości α MP oraz β MP. Otrzymuje się je wykorzystując metodę iteracji Picarda. W pojedynczym kroku algorytmu iteracyjnego odbywa się wyznaczanie wartości m oraz C odpowiednio ze wzorów (8) oraz (9), a następnie na podstawie tak uzyskanych wartości dokonuje się wyznaczenia wartości α i oraz β i ze wzorów: α i = β i = 1 C (i,i) + (m (i) ) 2, (14) 1 φ(x i )Cφ(x i ) T + (t i φ(x i )m) 2. (15) Opisane iteracje wykonuje się dopóki wszystkie wartości α i uzyskane w danej iteracji różnią się znacząco od wartości otrzymanych w iteracji poprzedniej. Możliwe jest również przyjęcie alternatywnej strategii wyznaczania wektora β MP przyjmując założenie, że: β = (β 1,β 2,...,β N ) T = = β( β 1 β, β 2 β,..., β N β )T = = β( β 1, β 2,..., β N ) T = = β β, (16) gdzie β jest pewną dodatnią liczbą. Tak więc macierz B = diag(β) można zapisać w postaci B = β diag( β) = β B. Ponadto zakładając, że składowe wektora β są ustalone arbitralnie, wyznaczenie wektora β MP sprowadza się do wyznaczenia wartości β. 7

10 Również w tym przypadku optymalne wartości α MP oraz β MP otrzymuje się wykorzystując metodę iteracji Picarda. W pojedynczym kroku algorytmu iteracyjnego odbywa się wyznaczanie wartości m oraz C odpowiednio ze wzorów (8) oraz (9), a następnie na podstawie tak uzyskanych wartości dokonuje się wyznaczenia wartości α i oraz β i = β β i ze wzorów odpowiednio (14) oraz β = N ). (17) Tr( BΦCΦ T + (t Φm) T B (t Φm) Opisane iteracje wykonuje się dopóki wszystkie wartości α i uzyskane w danej iteracji różnią się znacząco od wartości otrzymanych w iteracji poprzedniej. Uwzględniając powyższe rozważania autor zaproponował dwie wersje iteracyjnego algorytmu uczenia ważonej wersji maszyny opartej na wektorach istotnych (ang. Weighted Relevant Vector Machine, WRVM), zwanego dalej algorytmem WRVM. Wagi maszyny WRVM związane są z wartościami wektora β, czyli odwrotnościami wariancji zakłóceń odpowiadających danym obserwacjom zbioru uczącego. Im większa jest wartość tej wariancji, tym mniejszą wagę (wiarygodność) przypisuje się danej obserwacji. Algorytmy te różniące się sposobem wyznaczania wektora β (w kolejnych krokach iteracji parametr β i wyznaczany jest ze wzoru (15) lub wykorzystując wzór (17)) opisują w jaki sposób na podstawie zbioru danych uczących wyznaczyć wartości wektora v wektora parametrów funkcji regresji opisanej wzorem (4). Następnym celem postawionym przez autora było określenie sposobu inicjalizacji wag, czyli macierzy B = diag (( β 1, β 2,..., β ) N ) T (18) dla algorytmu WRVM. Zadanie to zostało rozwiązane poprzez przyjęcie: β n = (µ P (i)(x n )) p n {1, 2,...,N}. (19) gdzie µ P (i)( ) oznacza funkcję przynależności do P (i) zbioru rozmytego i-tej przesłanki systemu Takagi Sugeno Kanga rzędu pierwszego, którego baza wiedzy składa się z następującego c-elementowego zbioru reguł: R = { R (i) } c i=1 = { JEŻELI x jest P (i), TO y = (w (i) ) T x } c i=1, (20) gdzie wektor x = (1,x T ) T jest rozszerzonym wektorem wejściowym systemu, a w (i) jest wektorem parametrów przesłanki i-tej reguły JEŻELI TO. Wybór tak określonej macierzy B wynika z faktu, że β n opisuje odwrotność wariancji zakłócenia dla obserwacji x n, natomiast wartość µ P (i)(x n ) można interpretować jako stopień wiarygodności rozpatrywanej obserwacji x n w kontekście zbioru P (i) (przesłanki i-tej reguły JEŻELI TO systemu TSK). Oznacza to, że im mniejszym zaufaniem obdarza się obserwację tym większa jest oczekiwana wariancja zakłócenia. Parametr p charakteryzuje intensywność wpływu wartości funkcji przynależności na wartości wariancji. 8

11 Kolejnym celem było zaproponowanie nowego algorytmu uczenia systemów rozmytych Takagi Sugeno Kanga rzędu pierwszego wykorzystujących algorytm WRVM do wyznaczania współczynników w konkluzjach rozmytych reguł. Cel ten osiągnięto konstruując opisaną w pracy rozmytą maszynę uczącą się opartą wektorach istotnych (ang. Fuzzy Relevant Vector Machine, FRVM). Przedstawiono algorytm zwany FRVM wykorzystujący algorytm WRVM z funkcją jądra będącą iloczynem skalarnym (gdyż funkcje występujące w konkluzjach rozmytych reguł systemu są funkcjami liniowymi) do wyznaczania wartości składowych wektora w g parametrów systemu TSK w przypadku uczenia globalnego i lokalnego. Sposób wyznaczania wektora w g jest analogiczny do wyznaczania go w przypadku stosowania algorytmu WLS [36]. Podejście globalne charakteryzuje się tym, że wektor w g wyznaczany jest równocześnie dla wszystkich reguł JEŻELI TO (nie ma tu więc potrzeby stosowania parametru p). Natomiast podejście lokalne opisuje sposób wyznaczania za pomocą algorytmu WFRVM niezależnie c wektorów w (i) składowych odpowiadających i-tej regule warunkowej. W tym przypadku wektor parametrów systemu w g jest wyznaczany na ( (w (1) podstawie równości: w g = ) T ( ), w (2) T ( ) ),..., w (c) T T. Dla uczenia lokalnego zaproponowano w pracy dwa algorytmy nazywane algorytmem sekwencyjnym oraz równoległym. Różnią się one tym, że w algorytmie sekwencyjnym wykonuje się c iteracji algorytmu, w każdym kroku wyznaczając jeden z wektorów w (i), natomiast w algorytmie równoległym wszystkie wektory w (i) (i {1, 2,...,c}) wyznacza się w jednym kroku. Wartość wyjściowa systemu dla danego wektora x podanego na wejście systemu wyznaczana jest ze wzoru: f(x,w g ) = c µ P (i)(x)(w (i) ) T x i=1, (21) c µ P (i)(x) i=1 gdzie x = ( 1,x T) T jest rozszerzonym wektorem wejściowym, zaś µp (i)(x), zwane stopniem aktywacji i-tej reguły systemu, jest wartością funkcji przynależności wektora x do zbioru P (i) (przesłanki i-tej reguły JEŻELI TO systemu). Uwzględniając oznaczenie: ( c 1 µ P (i)(x) = µ P (i)(x) µ P (i)(x)), (22) dla każdego i {1, 2,...,c} (µ P (i)(x) zwane znormalizowanym stopniem aktywacji i-tej reguły), wartość wyjściową systemu otrzymuje się ze wzoru: i=1 f(x,w g ) = c µ P (i)(x)(w (i) ) T x = (r(x )) T w g, (23) i=1 9

12 gdzie w g = r(x ) = ( (w ) (1) T ( ), w (2) T ( ) ),..., w (c) T T, (24) ( µ P (1)(x) (x ) T,µ P (2)(x) (x ) T,...,µ P (c)(x) (x ) T) T. (25) Występujące w powyższych wzorach wartości funkcji przynależności µ P (i)( ) wyznaczane są następująco. Niech dany będzie zbiór uczący postaci {x n,t n } N n=1, gdzie x n R d, natomiast t n R dla n {1, 2,...,N}. Dla zbioru {x n } N n=1 wykonywany jest algorytm rozmytych c średnich. W wyniku zastosowania tego algorytmu otrzymuje się macierz przynależności U. Na jej podstawie można wyznaczyć d-wymiarowe wektory odpowiadające środkom oraz szerokościom (na każdej z d współrzędnych) każdej z c grup: m (i) = s (i) = N U (i,n) x n n=1, (26) N U (i,n) n=1 N ( U (i,n) xn m (i)) ( 2) n=1, (27) N U (i,n) n=1 gdzie i {1, 2,...,c}, natomiast symbol x ( 2) oznacza wektor zbudowany z kwadratów składowych wektora x. Przyjmując gaussowskie funkcje przynależności do zbioru P (i) j (rozmyty zbiór P (i) stanowi iloczyn kartezjański zbiorów rozmytych P (i) 1 P (i) 2... P (i) d, gdzie d oznacza wymiar wektora x) występującego w przesłance i-tej reguły JEŻELI TO, dla wszystkich j {1, 2,...,d} oraz wszystkich i {1, 2,...,c}, a także przyjmując t-normę w postaci iloczynu algebraicznego, można stwierdzić, że: µ P (i)(x) = exp 1 2 ( d x j m (i) j j=1 s (i) j ) 2 i {1, 2,...,c}, (28) gdzie m (i) = (m (i) 1,m (i) 2,...,m (i) d )T oraz s (i) = (s (i) 1,s (i) 2,...,s (i) d )T. Warto przy tym zwrócić uwagę na fakt, że ze względu na dwa sposoby modyfikacji wektora odwrotności wariancji zakłóceń β (dwie wersje algorytmu WRVM niezależna modyfikacja każdej składowej tego wektora lub modyfikacja jedynie współczynnika proporcjonalności β, przy ustalonym wektorze β, gdzie β = β β) algorytm FRVM wyznaczający wektor parametrów systemu w g można realizować w dwóch wersjach odpowiednio FRVM.0 oraz FRVM.1. Ponadto każda z wersji może realizować sposób 10

13 uczenia lokalnego sekwencyjnego lub równoległego, a także uczenia globalnego, co daje łącznie 6 różnych algorytmów uczenia systemu rozmytego TSK rzędu pierwszego. Praca zawiera również próbę oceny zdolności uogólniania systemów rozmytych uczonych zaproponowanymi metodami na tle wyników zastosowania innych metod znanych z literatury, takich jak oryginalny algorytm RVM (Relevant Vector Machine), algorytm SVM (Support Vector Machine), a także innych rozmytych algorytmów uczenia systemów rozmytych Takagi Sugeno Kanga rzędu pierwszego, takich jak algorytm WLS (Weighted Least Squares) [36] lub IQP (Iterative Quadratic Programming) [35] oraz εlssli (ε-insensitive Learning by Solving a System of Linear Inequalities) [35]. Jako powszechnie znany zbiór danych wykorzystano w pracy między innymi zbiór Sunspots (zawierający dane dotyczące średniej rocznej liczby plam na słońcu w latach , pochodzące z pracy [69]). Zbiór ten zawiera zatem 280 pomiarów x n. W celu identyfikacji modelu dla funkcji regresji t = f(x) został przyjęty 12-wymiarowy wektor wejściowy x. Utworzono zatem 268-elementowy ciąg par (x n,t n ), postaci x n = (x n 1,x n 2,...,x n 12 ) T oraz t n = x n dla n {1, 2,...,268}. Z ciągu tego wybrano 100 pierwszych par, tworząc zbiór uczący, natomiast pozostałe 168 par utworzyło zbiór testowy. Tabela 1 przedstawia minimalne błędy RMSE uzyskane przy zastosowaniu poszczególnych algorytmów wraz z wartościami parametrów, dla których zostały one osiągnięte. Uczenie lokalne sekwencyjne algorytmu FRVM oznaczone jest symbolem s (FRVM.0s i FRVM.1s), natomiast uczenie lokalne równoległe oznaczone jest symbolem r (FRVM.0r i FRVM.1r). Najmniejsze wartości błędów dla uczenia lokalnego oraz globalnego zostały wyróżnione poprzez obramowanie. Tabela 1: Zestawienie błędów RMSE uczenia dla danych Sunspots. Uczenie lokalne Uczenie globalne RMSE algorytm parametry RMSE algorytm parametry WLS c = WLS c = IQP c = 5, τ = 0.02, ε = IQP c = 3, τ = 0.1, ε = εlssli c = 4, τ = 0.02, ε = εlssli c = 3, τ = 0.09, ε = FRVM.0s c = 6, p = FRVM.0 c = FRVM.1s c = 6, p = FRVM.1 c = FRVM.0r c = 6, p = FRVM.1r c = 5, p = 0.5 Dane dotyczące błędów w przypadku algorytmów IQP oraz εlssli pochodzą z pracy [35] (sposób utworzenia zbioru uczącego i testowego dla danych ze zbioru Sunspots zaprezentowany w tej pracy pokrywa się ze sposobem w jaki autor utworzył zbiór testowy i uczący). Natomiast algorytm WLS jak również wszystkie wersje algorytmu FRVM zostały zaimplementowane przez autora w środowisku MATLAB (kody źródłowe tych algorytmów stanowią dodatek do rozprawy). Również w tym środowisku zostały wykonane wszystkie eksperymenty numeryczne opisywane w pracy. 11

14 Dla określonego wyżej zbioru uczącego i testowego wykorzystującego dane Sunspots można wyznaczyć również błędy RMSE dla wyników działania algorytmów SVM oraz RVM, przy użyciu pakietów dla środowiska MATLAB odpowiednio Matlab Support Vector Machine Toolbox 2 w wersji 2.1 autorstwa S. Gunna oraz SparseBayes 3 w wersji 1.0 autorstwa M. Tippinga. Minimalny błąd RMSE uzyskany w przeprowadzanych doświadczeniach wynosi: dla algorytmu SVM z parametrami C = 262, ε = 0.01, przy użyciu funkcji jądra gaussowskiej z parametrem σ = 12, rozwiązanie to charakteryzuje się 91 wektorami podtrzymującymi; dla algorytmu RVM z funkcja jądra gaussowska σ = 5, rozwiązanie to charakteryzuje się 6 wektorami istotnymi. Porównując wyżej zaprezentowane błędy RMSE można zauważyć, że najlepszy wynik został uzyskany z wykorzystaniem algorytmu FRVM.1r dla uczenia lokalnego równoległego. Warto ponadto podkreślić, że błąd dla rozwiązania uzyskanego przy zastosowaniu oryginalnego algorytmu RVM jest znacząco mniejszy od analogicznego błędu rozwiązania dla algorytmu SVM, a ponadto charakteryzuje się ponad 15 razy mniejszą liczbą wektorów istotnych w stosunku do liczby wektorów podtrzymujących. Zatem w przypadku tego zbioru danych podejście bayesowskie do zagadnienia uczenia prowadzi do bardziej efektywnych rozwiązań w sensie zdolności uogólniania. 5 Podsumowanie Opisywane w pracy wyniki eksperymentów numerycznych świadczą o tym, że proponowane nowe algorytmy uczenia systemów rozmytych Takagi Sugeno Kanga zapewniają dużą zdolność uogólniania i mogą konkurować z wieloma algorytmami znanymi z literatury. Proponowane metody nie są oczywiście pozbawione wad. Należy do nich przede wszystkim konieczność doboru parametru c opisującego liczbę rozmytych reguł, a w przypadku uczenia lokalnego również parametru p, który określa z jaką intensywnością wartość funkcji przynależności wpływa na początkową wartość odwrotności zakłócenia danej. Również złożoność obliczeniowa zaproponowanych algorytmów jest znaczna. Dla sposobu uczenia lokalnego sekwencyjnego oraz uczenia globalnego jest ona rzędu N 3 (złożoność czasowa) lub N 2 (złożoność pamięciowa), gdzie N jest liczbą elementów zbioru uczącego; natomiast w przypadku uczenia lokalnego równoległego złożoność czasowa jest rzędu (cn) 3, a pamięciowa (cn) 2, gdzie c jest liczbą rozmytych reguł systemu TSK. Jednak niedogodność związana ze stosunkowo długim czasem uczenia rozmytych maszyn opartych na wektorach istotnych (FRVM) jest wynagradzana mniejszą 2 dostępny pod adresem 3 dostępny pod adresem 12

15 liczbą parametrów, wymagających dopasowania niż na przykład parametry C (parametr opisujący kompromis między minimalizacją funkcji błędu a stopniem skomplikowania modelu) oraz ε (parametr nieczułości) w przypadku maszyn opartych na wektorach podtrzymujących (dodatkowo należy uwzględnić ewentualne parametry związane z wyborem funkcji jądra), które to parametry są zwykle dobierane za pomocą metody rotacji zbioru uczącego (ang. cross-validation). Zatem złożoność czasowa (obejmująca również fazę ustalania optymalnych parametrów algorytmu) tego algorytmu jest często lepsza niż w przypadku SVM. Podsumowując można stwierdzić, że zmierzone cele pracy prowadzące do opracowania nowych algorytmów uczenia systemów TSK zostały osiągnięte, a przedstawione wyniki badań, zdaniem autora, nie stanowią podstaw do odrzucenia tezy pracy. Jako dalsze kierunki badań można wskazać między innymi: analizę innych sposobów inicjalizacji parametrów przesłanek, na przykład za pomocą warunkowych algorytmów grupowania opartych na rozmytej medianie; rozważenie innych (różnych od funkcji gaussowskich) postaci funkcji przynależności do zbiorów rozmytych występujących w przesłankach rozmytych reguł systemu Takagi Sugeno Kanga; poszukiwanie sposobów optymalizacji liczby rozmytych reguł systemu TSK, na przykład za pomocą badania jakości podziału zbioru uczącego; rozważenie innych rozkładów a priori współczynników funkcji regresji; analizę innych rozkładów dla parametrów rozkładów a priori współczynników funkcji regresji; poszukiwanie metod automatycznego wyznaczania parametru p charakteryzującego intensywność wpływu wartości funkcji przynależności na wartości wariancji; analizę innych sposobów inicjalizacji wektora odwrotności wariancji zakłóceń danych obserwacji zbioru uczącego. Literatura [1] Baudat G., Anouar F. Generalized discriminant analysis using a kernel approach. Neural Computation 12(10), str , [2] Białasiewicz J. T. Falki i aproksymacje, PWN, Warszawa, [3] Bishop C. M., Tipping M. E. Variational relevance vector machines. W Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence, str , Morgan Kaufmann,

16 [4] Brown M., Grundy W., Lin D., Christianini N., Sugnet C., Ares M.Jr., Haussler D. Support vector machine classification of microarray gene expression data, Technical Report UCSC-CRL 99-09, Department of Computer Science, University California, Santa Cruz, [5] Burges C.J.C., Schölkopf B. Improving the accuracy and speed of support vector learning machines. W Advances in Neural Information Processing Systems 9, str , MIT Press, Cambridge, [6] Castellano G., Fanelli A.M., Mencor C. An Empirical Risk Functional to Improve Learning in Neuro-Fuzzy Classifier. IEEE Transaction on System, Man and Cybernetics Part B: Cybernetics, 34(1), str , [7] Chen Y., Wang J.Z. Support Vector Learning for Fuzzy Rule-Based Classification Systems. IEEE Transaction on Fuzzy Systems, 11(6), str , [8] Chiang J.-H., Hao P.-Y. A New Kernel-Based Fuzzy Clustering Approach: Support Vector Clustering With Cell Growing. IEEE Transactions on Fuzzy Systems, 11(4), str , [9] Dougherty M. A review of neural networks applied to transport. Transportation Research Part C: Emerging Technologies, 3(4), str , [10] Drucker H., Burges C.J.C., Kaufman L., Smola A., Vapnik V. Support vector regression machines. W Advances in Neural Information Processing Systems 9, str , MIT Press, Cambridge, [11] Egmont-Petersen M., Ridder D.de, Handels H. Image processing with neural networks a review. Pattern Recognition, 35, str , [12] Faul A. C., Tipping M. E. Analysis of sparse Bayesian learning. W Advances in Neural Information Processing Systems 14, str , MIT Press, [13] Fernandez R. Predicting time series with a local support vector regression machine. W ACAI 99 (Workshop on Support vector machines theory and applications ), Chania, [14] Frank E., Trigg L., Holmes G., Witten I. H. Naive Bayes for regression. Machine Learning, 41(1), str. 5 26, [15] Furey T.S., Cristianini N., Duffy N., Bednarski D.W., Schummer M., Haussler D. Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarray Expression Data. Bioinformatics, 16(10), str , [16] Gao J., Gunn S., Harris C., Brown M. A probabilistic framework for svm regression and error bar estimation. Machine Learninig, 46(1), str ,

17 [17] Gardner M.W., Dorling S.R. Artificial neural networks (the multilayer perceptron) a review of applications in the atmospheric sciences. Atmospheric Environment, 32(14-15), str , [18] Hong D.H., Hwang C. Support Vector Fuzzy Regression Machines. Fuzzy Sets and Systems, 138(2), str , [19] Hotelling H. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 27,str , [20] Kalogirou, S. A. Artificial neural networks in renewable energy systems applications: a review. Renewable and Sustainable Energy Reviews, 5(4), str , [21] Krzyśko M. Analiza dyskryminacyjna, WNT, Warszawa, [22] Kurzyński M. Rozpoznawanie obiektów. Metody statystyczne, Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław, [23] Lin Y., Lee Y., Wahba, G. Support vector machines for classification in nonstandard situations, Technical Report 1016, Department of Statistics, University of Wisconsin, Madison, [24] Lin C.-F., Wang S.-D. Fuzzy Support Vector Machine. IEEE Transaction on Neural Networks, 13(2), str , [25] Lisboa, P.J.G. A review of evidence of health benefit from artificial neural networks in medical intervention. Neural Networks, 15(1), str , [26] Łęski J. An ε-insensitive Approach to Fuzzy Clustering. International Journal of Applied Mathematics & Computer Science, 11(4), str , [27] Łęski J. Neuro-fuzzy modelling with ε-insensitive learning. W Methods of Artificial Intelligence in Mechanics and Mechanical Engineering, str , Gliwice, [28] Łęski J. Improving generalization ability of neuro-fuzzy systems by ε-insensitive learning. International Journal of Applied Mathematics & Computer Science, 12(3), str , [29] Łęski J. Towards a robust fuzzy clustering. Fuzzy Sets and Systems, 137(2), str , [30] Łęski J. Neuro-fuzzy system with learning tolerant to imprecision. Fuzzy Sets and Systems, 138(2), str , [31] Łęski J. Fuzzy if-then rule-based nonlinear classifier. International Journal of Applied Mathematics & Computer Science, 13(2), str ,

18 [32] Łęski J. Ho-Kashyap classifier with generalization control. Pattern Recognition Letters, 24, str , [33] Łęski J. An ε-margin Nonlinear Classifier Based on Fuzzy If-Then Rules. IEEE Transaction on System, Man and Cybernetics Part B: Cybernetics, 34(1), str , [34] Łęski J. ε-insensitive fuzzy c-regression models: Introduction to ε-insensitive fuzzy modelling. IEEE Transaction on System, Man and Cybernetics Part B: Cybernetics, 34(1), str. 4 15, [35] Łęski J. TSK-Fuzzy Modelling Based on ε-insensitive Learning. IEEE Transaction on Fuzzy Systems, w druku. [36] Łęski J. Systemy Neuronowo-Rozmyte. Wprowadzenie do Obliczeń Miękkich. w druku. [37] Maggini M., Giles C.L., Horne B. Financial Time Series Forecasting Using K- Nearest Neighbors. W Nonlinear Financial Forecasting: Proceedings of the First INFFC, str , Finance & Technology Publishing, Haymarket, [38] Mason J.C., Turner D.A. Applications of Support Vector Machine Regression in Metrology and Data Fusion. WAdvanced Mathematical and Computational Tools in Metrology V (Series on Advances in Mathematics for Applied Sciences, Vol. 57), str , World Scientific Publishing Company, [39] Mercer J. Functions of positive and negative type and their connection with the theory of integral eqations. Philos. Trans. Roy. Soc. London, A 209, str , [40] Mika S., Rätsch G., Weston J., Schölkopf B., Müller K.R. Fisher discriminant analysis with kernels. W Neural Networks for Signal Processing IX, str , IEEE, [41] Mika S., Schölkopf B., Smola A.J., Müller K.R., Scholz M., Rätsch G. Kernel PCA and de-noising in feature spaces. W Advances in Neural Information Processings Systems 11, str , MIT Press, [42] Momot A. Falki i ich zastosowanie w przetwarzaniu obrazów. Studia Informatica 24(4), str , Gliwice, [43] Momot A., Momot M., Owczarek A. Zastosowanie transformaty falkowej w klasyfikacji sygnałów EKG. Studia Informatica 24(3), str , Gliwice, [44] Momot M., Momot A.,Owczarek A. Classification of ECG signals based on wavelet transform, Conference on Measurement and Control in Biomedicine, str , Roznov, Czech Republic,

19 [45] Momot A. Zastosowanie sztucznych sieci neuronowych w rozpoznawaniu znaków. Studia Informatica, 25(1), str , [46] Momot M., Momot A.,Owczarek A. Electrocardiography Signal Classification Based On Wavelet Transform. Conference Biosignal, Czech Republic, [47] Morrison D.F. Wielowymiarowa analiza statystyczna, PWN, Warszawa, [48] Mukherjee S., Osuna E., Girosi F. Nonlinear prediction of chaotic time series using a support vector machine.w Neural Networks for Signal Processing VII Proceedings of the 1997 IEEE Workshop, str , IEEE, New York, [49] Müller K.R., Smola A.J., Rätsch G., Schölkopf B., Kohlmorgen J., Vapnik V.N. Predicting time series with support vector machines. W Artificial Neural Networks ICANN 97, str , Springer Lecture Notes in Computer Science 1327, Berlin [50] Müller K.R., Mika S., Rätsch G., Tsuda K., Schölkopf B. An Introduction to Kerned-Based Learning Algorithms. IEEE Trans. on Neural Networks, 12(2), str , [51] Osuna E., Freund R., Girosi F. An improved training algorithm for support vector machines. Neural Networks for Signal Processing VII Proceedings of the 1997 IEEE Workshop, str , IEEE, New York, [52] Parzen E. On estimation of probability function and mode. Annals of Mathematical Statistics, 33(3), str , [53] Platt J. Fast training of support vector machines using sequential minimal optimization. W Advances in Kernel Methods Support Vector Learning, str , MIT Press, Cambridge, [54] Pontil M., Mukherjee S., Girosi F. On the noise model of support vector machine regression. A.I. Memo No. 1651, MIT Artifcial Intelligence Laboratory, [55] Roth V., Steinhage V. Nonlinear discriminant analysis using kernel functions. W Advances in Neural Information Processings Systems 12, str , MIT Press, [56] Schölkopf B., Smola A.J. Müller K.R. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 10, str , [57] Schölkopf B., Mika S., Burges C.J.C, Knirsch P., Müller K.R., Rätsch G., Smola A.J. Input space vs. feature space in kernel-based methods. IEEE Transactions on Neural Networks, 10(5), str , [58] Schölkopf B., Smola A.J., Williamson R.C., Bartlett P.L. New support vector algorithms. Neural Computation, 12, str ,

20 [59] Smola A.J., Schölkopf B. On a kernel-based method for pattern recognition, regression, approximation and operator inversion. Algorithmica, 22, str , [60] Stitson M., Gammerman A., Vapnik V.N., Vovk V., Watkins C., Weston J. Support vector regression with ANOVA decomposition kernels. Technical Report CSD-97-22, Royal Holloway College, University of London, [61] Stąpor K., Momot A., Trojnar M. Asymptotyczna optymalność w algorytmach uczenia rozpoznawania obrazów. Studia Informatica, 24(1), str , Gliwice [62] Sugeno M., Kang G.T. Structure identification of fuzzy model. Fuzzy Sets and Systems, 28, str , [63] Takagi T., Sugeno M. Fuzzy idnetification of systems and its application to modeling and control. IEEE Trans. on System, Man and Cybernetics, 15(1), str , [64] Tipping M. The Relevance Vector Machine. W Advances in Neural Information Processing Systems 12, str , MIT Press, Cambridge, [65] Tipping M.E. Sparse Bayesian learning and the relevance vector machine. Journal of Machine Learning Research, 1(2), str , [66] Tipping M. E., Faul A. C. Fast marginal likelihood maximisation for sparse Bayesian models. W Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics, [67] Vapnik V.N. The nature of statistical learning theory, Springer, New York, [68] Vapnik V.N. Statistical learning theory, John Wiley and Sons, New York, [69] Weigend A.S., Huberman B.A., Rumelhart D.E., Predicting the Future: A Connectionist Approach. International Journal of Neural Systems, 1, str , [70] Weston J., Gammerman A., Stitson M., Vapnik V.N., Vovk V., Watkins C. Support vector density estimation. W Advances in Kernel Methods Support Vector Learning, str , MIT Press, Cambridge, [71] Wong B.K., Selvi Y. Neural network applications in finance: A review and analysis of literature ( ). Information & Management, 34(3), str , [72] Yang H., Chan L., King I. Support Vector Machine Regression for Volatile Stock Market Prediction. Lecture Notes In Computer Science, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, str , Springer-Verlag, London,