Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.

Transkrypt

1 Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr. Warszawa, 10 Marca 2016

2 Plan prezentacji. Definicja funkcji jądrowej.

3 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody.

4 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody. Funkcje jądrowe wbudowane w bibliotekę Pythona.

5 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody. Funkcje jądrowe wbudowane w bibliotekę Pythona. Własne funkcje jądrowe zaimplementowane w Pythonie.

6 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody. Funkcje jądrowe wbudowane w bibliotekę Pythona. Własne funkcje jądrowe zaimplementowane w Pythonie. Dane syntetyczne.

7 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody. Funkcje jądrowe wbudowane w bibliotekę Pythona. Własne funkcje jądrowe zaimplementowane w Pythonie. Dane syntetyczne. Wpływ współczynnika regularyzacji na jakość klasyfikacji.

8 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody. Funkcje jądrowe wbudowane w bibliotekę Pythona. Własne funkcje jądrowe zaimplementowane w Pythonie. Dane syntetyczne. Wpływ współczynnika regularyzacji na jakość klasyfikacji. Wnioski.

9 Plan prezentacji. Definicja funkcji jądrowej. Opis problemu i metody. Funkcje jądrowe wbudowane w bibliotekę Pythona. Własne funkcje jądrowe zaimplementowane w Pythonie. Dane syntetyczne. Wpływ współczynnika regularyzacji na jakość klasyfikacji. Wnioski. Literatura.

10 Definicja funkcji jądrowej. Definicja Niech X będzie niepustym zbiorem. Funkcję rzeczywistą K : X X R, która jest ciągła, ograniczona, symetryczna i całkuje się do 1 nazywamy funkcją jądrową na X.

11 Definicja funkcji jądrowej. Definicja Niech X będzie niepustym zbiorem. Funkcję rzeczywistą K : X X R, która jest ciągła, ograniczona, symetryczna i całkuje się do 1 nazywamy funkcją jądrową na X. Definicja Funkcję, która przekształca wektory wejściowe w oryginalnej przestrzeni atrybutów i zwraca iloczyn skalarny wektorów w nowej przestrzeni cech, nazywamy funkcją jądrową.

12 Opis problemu i metody. Prezentacja pokazuje metody uczenia bazujące na jądrach używane do rozpoznawania ręcznie pisanych cyfr. Stosuje się metody jądrowe uczenia (wykorzystujące maszyny wektorów podpierających - SVM), które służą do rozpoznawania znaków w tekście.

13 Opis problemu i metody. Prezentacja pokazuje metody uczenia bazujące na jądrach używane do rozpoznawania ręcznie pisanych cyfr. Stosuje się metody jądrowe uczenia (wykorzystujące maszyny wektorów podpierających - SVM), które służą do rozpoznawania znaków w tekście. Jest to klasyczne zadanie rozpoznawania wzorców, czyli klasyfikacji obiektów.

14 Opis problemu i metody. Prezentacja pokazuje metody uczenia bazujące na jądrach używane do rozpoznawania ręcznie pisanych cyfr. Stosuje się metody jądrowe uczenia (wykorzystujące maszyny wektorów podpierających - SVM), które służą do rozpoznawania znaków w tekście. Jest to klasyczne zadanie rozpoznawania wzorców, czyli klasyfikacji obiektów. Obiektami są cyfry pisane, które mogą mieć różne kształty, pozycję, oraz orientację (mogą być np. pochylone, obrócone itp.).

15 Obiekty Rysunek : Cyfry do rozpoznawania [1].

16 Szczegóły rozpatrywanego zadania są następujące: W tekście pisanym na zeskanowanej kartce papieru znajdują się pożądane znaki.

17 Szczegóły rozpatrywanego zadania są następujące: W tekście pisanym na zeskanowanej kartce papieru znajdują się pożądane znaki. Należy zidentyfikować poszczególne znaki z minimalnym błędem próbki (określanym jako procentowa wartość niepoprawnie sklasyfikowanych obiektów).

18 Wzór funkcji celu, której wartość trzeba zminimalizować f (ε, w) = 1 2 w 2 + C gdzie: n ε i, i=1

19 Wzór funkcji celu, której wartość trzeba zminimalizować f (ε, w) = 1 2 w 2 + C n ε i, gdzie: w- wektor wag SVM, trzeba je dobrać tak, aby błąd (liczba niepoprawnie sklasyfikowanych obiektów) był jak najmniejszy. i=1

20 Wzór funkcji celu, której wartość trzeba zminimalizować f (ε, w) = 1 2 w 2 + C n ε i, gdzie: w- wektor wag SVM, trzeba je dobrać tak, aby błąd (liczba niepoprawnie sklasyfikowanych obiektów) był jak najmniejszy. ε i - elementy po niewłaściwej stronie hiperpłaszczyzny- wektory podpierające, i=1

21 Wzór funkcji celu, której wartość trzeba zminimalizować f (ε, w) = 1 2 w 2 + C n ε i, gdzie: w- wektor wag SVM, trzeba je dobrać tak, aby błąd (liczba niepoprawnie sklasyfikowanych obiektów) był jak najmniejszy. ε i - elementy po niewłaściwej stronie hiperpłaszczyzny- wektory podpierające, C- stała regularyzacyjna (jak duży może być margines błędu popełniany przez klasyfikator) i=1

22 Opis metody SVM. Jest to klasyfikator binarny, generujący na wyjściu jedną z dwóch wartości: -1 albo 1 (w zależności od wartości atrybutów badanego obiektu). f (X) = sgn(x) gdzie X = {X 1, X 2,, X n }, X i cechy.

23 Opis metody SVM. Jest to klasyfikator binarny, generujący na wyjściu jedną z dwóch wartości: -1 albo 1 (w zależności od wartości atrybutów badanego obiektu). f (X) = sgn(x) gdzie X = {X 1, X 2,, X n }, X i cechy. Uczenie polega na skonstruowaniu hiperpłaszczyzny separującej (oddzielającej) obiekty należące do jednej z dwóch kategorii. Metoda ta nadaje się do klasyfikacji w problemach nieseparowalnych liniowo.

24 Transformacja obiektów za pomocą funkcji jądrowej. W przypadku, gdy obiekty nie są separowalne liniowo, konieczne jest przejście z oryginalnej przestrzeni atrybutów do nowej przestrzeni, w której separacja liniowa byłaby możliwa.

25 Transformacja obiektów za pomocą funkcji jądrowej. W przypadku, gdy obiekty nie są separowalne liniowo, konieczne jest przejście z oryginalnej przestrzeni atrybutów do nowej przestrzeni, w której separacja liniowa byłaby możliwa. W tym celu stosowane jest przekształcenie przy pomocy funkcji jądrowej K(x,y). K(x,y) = φ(x), φ(y)

26 Transformacja obiektów za pomocą funkcji jądrowej. W przypadku, gdy obiekty nie są separowalne liniowo, konieczne jest przejście z oryginalnej przestrzeni atrybutów do nowej przestrzeni, w której separacja liniowa byłaby możliwa. W tym celu stosowane jest przekształcenie przy pomocy funkcji jądrowej K(x,y). K(x,y) = φ(x), φ(y) Rysunek : Transformacja obiektów za pomocą funkcji jądrowej [6].

27 Przykład transformacji obiektów Funkcja jądrowa wielomianowa K(x, y) = x, y 2, transtormacja φ(x) : R 2 R 3, φ(x 1, x 2 ) = (x1 2, x 2 2, 2x 1 x 2 ). K(x, y) = φ(x), φ(y) = (x1 2, x2 2, 2x 1 x 2 ), (y1 2, y2 2, 2y 1 y 2 ) = = x 2 1 y 2 1 +x 2 2 y x 1 x 2 y 1 y 2 = (x 1 y 1 + x 2 y 2 ) 2 = (x 1, x 2 ), (y 1, y 2 ) 2 = x, y 2 Rysunek : Przykład transformacji wielomianowej [4].

28 Przykład 2 Metoda SVM z funkcją jądrową gaussowską K(x, y) = exp ( γ x y 2) Rysunek : Wykres z Bell SVM aplet [4].

29 Przykład 3 Metoda SVM z funkcją jądrową wielomianową K(x, y) = ( x, y + 1) 2 Rysunek : Wykres z Bell SVM aplet [4].

30 Opis metody SVM-cd. Konieczna jest parametryzacja metody:

31 Opis metody SVM-cd. Konieczna jest parametryzacja metody: dobór funkcji jądra i jej parametrów,

32 Opis metody SVM-cd. Konieczna jest parametryzacja metody: dobór funkcji jądra i jej parametrów, współczynnika regularyzacji C.

33 Implementacja jąder w Pytonie. Program, z którego korzysta się w doświadczeniu jest tym samym programem, który został utworzony i wykorzystany w artykule [1].

34 Implementacja jąder w Pytonie. Program, z którego korzysta się w doświadczeniu jest tym samym programem, który został utworzony i wykorzystany w artykule [1]. Do implementacji poszczególnych klasyfikatorów SVM (w których wykorzystane są funkcje jądrowe: rbf, linear, poly, sigmoid) została użyta biblioteka LibSVM języka Python realizująca wybrane algorytmy sztucznej inteligencji, którą można pobrać z Internetu.

35 Jądra użyte do klasyfikacji znaków do odpowiednich kategorii-svm. Wszystkie przykłady jąder zastosowane są do tych samych danych. Zbiór trenujący zawiera 6999 przykładów o 76 atrybutach. Zbiór zawiera identyfikator kategorii w pierszej kolumnie (która to cyfra).

36 Jądra użyte do klasyfikacji znaków do odpowiednich kategorii-svm. Wszystkie przykłady jąder zastosowane są do tych samych danych. Zbiór trenujący zawiera 6999 przykładów o 76 atrybutach. Zbiór zawiera identyfikator kategorii w pierszej kolumnie (która to cyfra). Oznaczenia kolumn w tabelkach: n.support - liczba wektorów podpierających, Cl(X, y) - jakość klasyfikatora dla danych trenujących, Cl(X.test,y.test) - jakość klasyfikatora dla danych testujących.

37 Jądra użyte do klasyfikacji znaków do odpowiednich kategorii-svm. Wszystkie przykłady jąder zastosowane są do tych samych danych. Zbiór trenujący zawiera 6999 przykładów o 76 atrybutach. Zbiór zawiera identyfikator kategorii w pierszej kolumnie (która to cyfra). Oznaczenia kolumn w tabelkach: n.support - liczba wektorów podpierających, Cl(X, y) - jakość klasyfikatora dla danych trenujących, Cl(X.test,y.test) - jakość klasyfikatora dla danych testujących. Oznaczenia matematyczne w zapisie funkcji jądrowych: x, y = x T y - iloczyn skalarny, x y = n i=1 x i y i - pierwsza norma, x y 2 2 = n i=1 x i y i 2 -druga norma, x y d d = n i=1 x i y i d - d norma.

38 Jądro gaussowskie (rbf). Jest to podstawowe jądro o wartościach dodatnich, najczęściej stosowane ze względu na dobre wyniki klasyfikacyjne. K(x, y) = exp ( γ x y 2)

39 Jądro gaussowskie (rbf). Jest to podstawowe jądro o wartościach dodatnich, najczęściej stosowane ze względu na dobre wyniki klasyfikacyjne. K(x, y) = exp ( γ x y 2) Lp Parametr γ n.support Cl(X, y) Cl(X.test,y.test) 1 γ = 1 n γ = γ = γ = γ = γ = γ = 2(= 10, 100) Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra gaussowskiego (rbf).

40 Jądro liniowe. Jest to najprostrze jądro o małym koszcie obliczeniowym. K(x, y) = x, y + c

41 Jądro liniowe. Jest to najprostrze jądro o małym koszcie obliczeniowym. K(x, y) = x, y + c Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 linear Tablica : Wyniki klasyfikacji metodą SVM dla jądra liniowego.

42 Jądro wielomianowe poly. Jest to jądro preferowane dla problemów, w których dane są znormalizowane. K(x, y) = (γ x, y + c) d

43 Jądro wielomianowe poly. Jest to jądro preferowane dla problemów, w których dane są znormalizowane. K(x, y) = (γ x, y + c) d Lp stopień n.support Cl(X, y) Cl(X.test,y.test) 1 d= d=2 (=2.5) d=3 (=3.5) d= d= d= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra wielomianowego.

44 Jądro tangens hiperboliczny (sigmoid). Jest to jądro stosowane w sieciach neuronowych jako funkcja aktywacji. K(x, y) = tanh (γ x, y + c)

45 Jądro tangens hiperboliczny (sigmoid). Jest to jądro stosowane w sieciach neuronowych jako funkcja aktywacji. K(x, y) = tanh (γ x, y + c) Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 sigmoid Tablica : Wyniki klasyfikacji metodą SVM dla jądra tangens hiperboliczny.

46 Własne funkcje jądrowe zaimplementowane w Pythonie. Wszystkie jądra przetestowaliśmy najpierw w pliku test.py, w którym wykorzystujemy funkję XOR.

47 Własne funkcje jądrowe zaimplementowane w Pythonie. Wszystkie jądra przetestowaliśmy najpierw w pliku test.py, w którym wykorzystujemy funkję XOR. Zbiór wektorów uczących funkcji XOR, x1 x2 y gdzie y to wektor, który powinniśmy otrzymać na wyjściu.

48 Własne funkcje jądrowe zaimplementowane w Pythonie. Wszystkie jądra przetestowaliśmy najpierw w pliku test.py, w którym wykorzystujemy funkję XOR. Zbiór wektorów uczących funkcji XOR, x1 x2 y gdzie y to wektor, który powinniśmy otrzymać na wyjściu. Sprawdzamy czy wprowadzone przez nas funkcje jądrowe radzą sobie w problemie nieseparowalnym liniowo.

49 Jądro Laplace a. Jest to jądro równoważne jądru wykładniczemu K(x, y) = exp jednak jest mniej wrażliwe na zmianę parametru γ. K(x, y) = exp ( γ x y ) ( x y 2γ 2 ),

50 Jądro Laplace a. Jest to jądro równoważne jądru wykładniczemu K(x, y) = exp jednak jest mniej wrażliwe na zmianę parametru γ. K(x, y) = exp ( γ x y ) ( x y 2γ 2 ), Lp Parametr γ n.support Cl(X, y) Cl(X.test,y.test) 1 γ = γ = γ = γ = γ = γ = γ = γ = 0.5(= 1) Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra Laplace a.

51 Jądra falowe (sinc) oraz (sinc2). Są to jądra symetryczne i dodatnie. K(x, y) = sinc x y = sin x y x y

52 Jądra falowe (sinc) oraz (sinc2). Są to jądra symetryczne i dodatnie. K(x, y) = sinc x y = sin x y x y Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 sinc Tablica : Wyniki klasyfikacji metodą SVM dla jądra falowego (sinc)

53 Jądra falowe (sinc) oraz (sinc2). Są to jądra symetryczne i dodatnie. K(x, y) = sinc x y = sin x y x y Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 sinc Tablica : Wyniki klasyfikacji metodą SVM dla jądra falowego (sinc) K(x, y) = sinc x y 2 = sin x y 2 x y 2 Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 sinc Tablica : Wyniki klasyfikacji metodą SVM dla jądra falowego (sinc2)

54 Jądro kwadratowe quadratic. Jest to jądro mniej kosztowne obliczeniowo niż jądro gaussowskie i powinno być wykorzystywane wtedy, kiedy czas uczenia ma znaczenie. x y 2 K(x, y) = 1 x y 2 + c

55 Jądro kwadratowe quadratic. Jest to jądro mniej kosztowne obliczeniowo niż jądro gaussowskie i powinno być wykorzystywane wtedy, kiedy czas uczenia ma znaczenie. x y 2 K(x, y) = 1 x y 2 + c Lp Parametr c n.support Cl(X, y) Cl(X.test,y.test) 1 c= c= c= c= c= c= c= c= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra kwadratowego.

56 Jądro wielokwadratowe multiquadric. Jest to jądro niedodatnie i ograniczone. Ma zastosowanie tam gdzie jądro kwadratowe. K(x, y) = x y 2 + c 2

57 Jądro wielokwadratowe multiquadric. Jest to jądro niedodatnie i ograniczone. Ma zastosowanie tam gdzie jądro kwadratowe. K(x, y) = x y 2 + c 2 Lp Parametr c n.support Cl(X, y) Cl(X.test,y.test) 1 c= c= c= c= c= c= c= c= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra wielokwadratowego.

58 Jądro odwrócone wielokwadratowe inverse multiquadric. 1 K(x, y) = x y 2 + c 2

59 Jądro odwrócone wielokwadratowe inverse multiquadric. 1 K(x, y) = x y 2 + c 2 Lp Parametr c n.support Cl(X, y) Cl(X.test,y.test) 1 c= c= c= c= c= c= c= c= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra odwróconego wielokwadratowego.

60 Jądro logarytmiczne log. Jest to jądro warunkowo dodatnie i ograniczone. ( ) K(x, y) = log x y d + 1

61 Jądro logarytmiczne log. Jest to jądro warunkowo dodatnie i ograniczone. ( ) K(x, y) = log x y d + 1 Lp Parametr d n.support Cl(X, y) Cl(X.test,y.test) 1 d= d= d= d= d= d= d= d= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra logarytmicznego.

62 Jądro Cauchy ego cauchy. To jądro pochodzi od dystrybuanty Cauchy ego, dobrze nadaje się do analizy przestrzeni wielowymiarowej. K(x, y) = x y 2 c 2

63 Jądro Cauchy ego cauchy. To jądro pochodzi od dystrybuanty Cauchy ego, dobrze nadaje się do analizy przestrzeni wielowymiarowej. K(x, y) = x y 2 c 2 Lp Parametr c n.support Cl(X, y) Cl(X.test,y.test) 1 c= c= c= c= c= c= c= c= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra Cauchy ego.

64 Jądro T-Studenta tstudent. 1 K(x, y) = 1 + x y d

65 Jądro T-Studenta tstudent. 1 K(x, y) = 1 + x y d Lp Parametr d n.support Cl(X, y) Cl(X.test,y.test) 1 d= d= d= d= d= d= d= d= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jądra T-Studenta.

66 Uwaga Jądro minimum K(x, y) = n i=1 min(x i, y i ) i jądro power K(x, y) = x y d nie działają poprawnie dla naszego testu.

67 Uwaga Jądro minimum K(x, y) = n i=1 min(x i, y i ) i jądro power K(x, y) = x y d nie działają poprawnie dla naszego testu. Ale te jądra rozwiązują nasz problem klasyfikacyjny SVM. Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 min power d= power d= power d= power d= power d= power d= power d= power d= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jąder minimum oraz power.

68 Uwaga Jądro minimum K(x, y) = n i=1 min(x i, y i ) i jądro power K(x, y) = x y d nie działają poprawnie dla naszego testu. Ale te jądra rozwiązują nasz problem klasyfikacyjny SVM. Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 min power d= power d= power d= power d= power d= power d= power d= power d= Tablica : Wyniki klasyfikacji metodą SVM dla różnych parametrów jąder minimum oraz power. Oba jądra radzą sobie lepiej z problemem klasyfikacyjnym od jądra gaussowskiego.

69 Podsumowanie- porównanie wyników klasyfikacji Lp jądro n.support Cl(X, y) Cl(X.test,y.test) 1 laplacean γ = minimum power d= quadratic c= cauchy c= multiquadric c= rbf, γ = 1 n log d= inversemultiquadric c= poly, d= linear tstudent d= sinc sinc sigmoid Tablica : Uzyskane wyniki dla funkcji jądrowych z optymalnymi parametrami.

70 Obserwacje. Obserwacja Widzimy, że z zainstalowanych funkcji jądrowych w Pythonie najlepsza jest funkcja gaussowska z parametrem γ = 1 n.

71 Obserwacje. Obserwacja Widzimy, że z zainstalowanych funkcji jądrowych w Pythonie najlepsza jest funkcja gaussowska z parametrem γ = 1 n. Obserwacja Zauważamy również, że dla jądra Laplace a z parametrem γ = 0.01 uzyskaliśmy globalnie najlepszy wynik.

72 Obserwacje. Obserwacja Widzimy, że z zainstalowanych funkcji jądrowych w Pythonie najlepsza jest funkcja gaussowska z parametrem γ = 1 n. Obserwacja Zauważamy również, że dla jądra Laplace a z parametrem γ = 0.01 uzyskaliśmy globalnie najlepszy wynik. Obserwacja Otrzymane wyniki są dla prostych i intuicyjnych podejść wyboru parametrów jąder.

73 Obserwacje. Obserwacja Widzimy, że z zainstalowanych funkcji jądrowych w Pythonie najlepsza jest funkcja gaussowska z parametrem γ = 1 n. Obserwacja Zauważamy również, że dla jądra Laplace a z parametrem γ = 0.01 uzyskaliśmy globalnie najlepszy wynik. Obserwacja Otrzymane wyniki są dla prostych i intuicyjnych podejść wyboru parametrów jąder.

74 Obserwacje. Obserwacja Widzimy, że z zainstalowanych funkcji jądrowych w Pythonie najlepsza jest funkcja gaussowska z parametrem γ = 1 n. Obserwacja Zauważamy również, że dla jądra Laplace a z parametrem γ = 0.01 uzyskaliśmy globalnie najlepszy wynik. Obserwacja Otrzymane wyniki są dla prostych i intuicyjnych podejść wyboru parametrów jąder. Obserwacja Zbiory danych są łatwe do sklasyfikowania, jako wystąpienie metody SVM, dla większości jąder otrzymujemy powyżej 90 procent.

75 Dane syntetyczne Obliczenia zostały wykonane dla poszczególnych funkcji jądrowych z najlepiej dobranym parametrem z poprzedniego doświadczenia.

76 Dane syntetyczne Obliczenia zostały wykonane dla poszczególnych funkcji jądrowych z najlepiej dobranym parametrem z poprzedniego doświadczenia. Wszystkie pliki danych były modyfikowane z ustalonym wspólczynnikiem regularyzacji (C=16).

77 Dane syntetyczne Obliczenia zostały wykonane dla poszczególnych funkcji jądrowych z najlepiej dobranym parametrem z poprzedniego doświadczenia. Wszystkie pliki danych były modyfikowane z ustalonym wspólczynnikiem regularyzacji (C=16). Procedura zmiany danych została wprowadzona, aby sprawdzić czy metoda SVM poradzi sobie z klasyfikacją zaburzonych danych.

78 Procedura zmiany danych: 1 Policzone zostało minimum i maksimum dla poszczególnych kolumn, a następnie rozstęp. dr(i) = max(a i ) min(a i )

79 Procedura zmiany danych: 1 Policzone zostało minimum i maksimum dla poszczególnych kolumn, a następnie rozstęp. dr(i) = max(a i ) min(a i ) 2 Dany rozstęp pomnożony został przez 0.1 i otrzymana liczba została zaokrąglona do liczby całkowitej Z. r(i) = 0.1 dr(i)

80 Procedura zmiany danych: 1 Policzone zostało minimum i maksimum dla poszczególnych kolumn, a następnie rozstęp. dr(i) = max(a i ) min(a i ) 2 Dany rozstęp pomnożony został przez 0.1 i otrzymana liczba została zaokrąglona do liczby całkowitej Z. r(i) = 0.1 dr(i) 3 Wartości z każdej kolumny, która była zmieniona, zostały zastąpione liczbami z wykorzystaniem funkcji LOS(), która losuje liczbę rzeczywistą z przedziału [0, 1],

81 Procedura zmiany danych: 1 Policzone zostało minimum i maksimum dla poszczególnych kolumn, a następnie rozstęp. dr(i) = max(a i ) min(a i ) 2 Dany rozstęp pomnożony został przez 0.1 i otrzymana liczba została zaokrąglona do liczby całkowitej Z. r(i) = 0.1 dr(i) 3 Wartości z każdej kolumny, która była zmieniona, zostały zastąpione liczbami z wykorzystaniem funkcji LOS(), która losuje liczbę rzeczywistą z przedziału [0, 1], Ze względu na zaokrąglenia, oryginalna wartość może pozostać niezmieniona (jeśli losowo wybrana liczba jest zbyt mała). a i := a i + LOS() r(i) gdzie LOS() [0, 1]

82 Zmodyfikowane pliki danych 1 Dane zostały zmienione w 3 kolumnach (B,C,D). I tak powstał plik test123.

83 Zmodyfikowane pliki danych 1 Dane zostały zmienione w 3 kolumnach (B,C,D). I tak powstał plik test Dane zostały zmienione w 10 kolumnach (od B do K). I tak powstał plik test10.

84 Zmodyfikowane pliki danych 1 Dane zostały zmienione w 3 kolumnach (B,C,D). I tak powstał plik test Dane zostały zmienione w 10 kolumnach (od B do K). I tak powstał plik test10. 3 Dane zostały zmienione w 20 kolumnach (od B do U). I tak powstał plik test20.

85 Zmodyfikowane pliki danych 1 Dane zostały zmienione w 3 kolumnach (B,C,D). I tak powstał plik test Dane zostały zmienione w 10 kolumnach (od B do K). I tak powstał plik test10. 3 Dane zostały zmienione w 20 kolumnach (od B do U). I tak powstał plik test20. 4 Dane zostały zmienione we wszystkich kolumnach (od B do FP). I tak powstał plik testwszystkie.

86 Porównanie wyników dla zmodyfikowanych plików: Lp Jądro test123 test10 test20 testwszystkie 1 laplacean minimum power quadratic cauchy multiquadric rbf log inversemultiquadric poly linear tstudent sinc sinc sigmoid Tablica : Porównanie przy ustalonych optymalnych parametrach jąder.

87 Obserwacje. Obserwacja Widzimy, że zmiana pierwszych trzech kolumn atrubutów nic nie zmienia. Wyniki klasyfikacji są takie same jak w przypadku danych testujących.

88 Obserwacje. Obserwacja Widzimy, że zmiana pierwszych trzech kolumn atrubutów nic nie zmienia. Wyniki klasyfikacji są takie same jak w przypadku danych testujących. Obserwacja Można zauważyć również, że jądro sigmoid dla wszystkich zbiorów tak samo radzi (nie radzi sobie) sobie z problemem klasyfikacji.

89 Obserwacje. Obserwacja Widzimy, że zmiana pierwszych trzech kolumn atrubutów nic nie zmienia. Wyniki klasyfikacji są takie same jak w przypadku danych testujących. Obserwacja Można zauważyć również, że jądro sigmoid dla wszystkich zbiorów tak samo radzi (nie radzi sobie) sobie z problemem klasyfikacji. Obserwacja Dla jądra minimum i dla jądra power d=1 otrzymujemy takie same wyniki niezależnie od zbioru danych. To samo jest z jądrami quadratic c=100 oraz cauchy c=10.

90 Obserwacje- cd. Obserwacja Zauważamy również, że dla jądra Laplace a z parametrem γ = 0.01 uzyskaliśmy globalnie najlepszy wynik dla zbiorów test123, test10 i test20. Zbioru testwszystkie nie musimy brać pod uwagę, ponieważ dla niego nasz klasyfikator nie radzi sobie (niskie wyniki klasyfikacji) z problemem klasyfikacji obiektów do poszczególnych klas.

91 Obserwacje- cd. Obserwacja Zauważamy również, że dla jądra Laplace a z parametrem γ = 0.01 uzyskaliśmy globalnie najlepszy wynik dla zbiorów test123, test10 i test20. Zbioru testwszystkie nie musimy brać pod uwagę, ponieważ dla niego nasz klasyfikator nie radzi sobie (niskie wyniki klasyfikacji) z problemem klasyfikacji obiektów do poszczególnych klas. Obserwacja Funkcje jądrowe sinc i sinc2 lepiej klasyfikują nasz zbiór dla 20 kolumn zmienionych losowo niż dla 10.

92 Wpływ współczynnika regularyzacyjnej na wyniki klasyfikacji. W tym doświadczeniu sprawdzamy jak duży może być margines błędu popełniany przez klasyfikator oraz jak współczynnik regularyzacji wpływa na wynik klasyfikacji.

93 Wpływ współczynnika regularyzacyjnej na wyniki klasyfikacji. W tym doświadczeniu sprawdzamy jak duży może być margines błędu popełniany przez klasyfikator oraz jak współczynnik regularyzacji wpływa na wynik klasyfikacji. Przy ustalonym parametrach jąder, wybranych w wyniku pierwszego doświadczenia, badamy wpływ stalej regularyzacji na wyniki klasyfikacji.

94 Wpływ współczynnika regularyzacyjnej na wyniki klasyfikacji. W tym doświadczeniu sprawdzamy jak duży może być margines błędu popełniany przez klasyfikator oraz jak współczynnik regularyzacji wpływa na wynik klasyfikacji. Przy ustalonym parametrach jąder, wybranych w wyniku pierwszego doświadczenia, badamy wpływ stalej regularyzacji na wyniki klasyfikacji. Doświadczenie przeprowadzone dla C=5,10,15,16,17,20,30.

95 Wyniki klasyfikacji dla różnych jąder dla współczynnika regularyzacji C = 10 Lp Jądro n.support Cl(X, y) Cl(X.test,y.test) 1 laplacean γ = minimum power d= quadratic c= cauchy c= rbf, γ = 1 n multiquadric c= log d= inversemultiquadric c= poly, d= linear tstudent d= sinc sinc sigmoid

96 Obserwacje Obserwacja Dla większości jąder (oprócz jądra linear i inversemultiquadric), dla parametru C=10 dostajemy najlepsze wyniki klasyfikacji.

97 Obserwacje Obserwacja Dla większości jąder (oprócz jądra linear i inversemultiquadric), dla parametru C=10 dostajemy najlepsze wyniki klasyfikacji. Obserwacja Dla C=16 jądro multiquadric miało lepszy wynik klasyfikacji od jądra rbf, ale dla C=10 już tak nie jest.

98 Obserwacje Obserwacja Dla większości jąder (oprócz jądra linear i inversemultiquadric), dla parametru C=10 dostajemy najlepsze wyniki klasyfikacji. Obserwacja Dla C=16 jądro multiquadric miało lepszy wynik klasyfikacji od jądra rbf, ale dla C=10 już tak nie jest. Obserwacja Znowu dostajemy takie same wyniki dla jądra minimum i power oraz dla cauchy i quadratic.

99 Obserwacje Obserwacja Dla większości jąder (oprócz jądra linear i inversemultiquadric), dla parametru C=10 dostajemy najlepsze wyniki klasyfikacji. Obserwacja Dla C=16 jądro multiquadric miało lepszy wynik klasyfikacji od jądra rbf, ale dla C=10 już tak nie jest. Obserwacja Znowu dostajemy takie same wyniki dla jądra minimum i power oraz dla cauchy i quadratic. Obserwacja Dla wszystkich wybranych współczynników C, dla jądra Laplace a z parametrem γ = 0.01 otrzymujemy najlepszy wynik klasyfikacji.

100 Obserwacje-cd. Obserwacja Dla niektórych jąder (sigmoid, sinc, sinc2, log, tstudent, power, minimum) parametr C nie ma wpływu na wynik klasyfikacji (dla wszystkich wartości C otrzymujemy ten sam wynik klasyfikacji).

101 Obserwacje-cd. Obserwacja Dla niektórych jąder (sigmoid, sinc, sinc2, log, tstudent, power, minimum) parametr C nie ma wpływu na wynik klasyfikacji (dla wszystkich wartości C otrzymujemy ten sam wynik klasyfikacji). Obserwacja Można również zauważyć, że jądra sinc, sinc2, sigmoid posiadają niską jakość klasyfikacji dla wszystkich parametów współczynnika C.

102 Wnioski Wniosek Doświadczenia uwzględniające wiele funkcji jądrowych wykazały, że chociaż najpopularniejsze jądro gaussowskie klasyfikuje prawidłowo (w ponad 90%) nasze obiekty, inne funkcje, np takie jak jądro Laplace a może uzyskać lepsze wyniki klasyfikacji.

103 Wnioski Wniosek Doświadczenia uwzględniające wiele funkcji jądrowych wykazały, że chociaż najpopularniejsze jądro gaussowskie klasyfikuje prawidłowo (w ponad 90%) nasze obiekty, inne funkcje, np takie jak jądro Laplace a może uzyskać lepsze wyniki klasyfikacji. Wniosek Przetworzone pliki danych są łatwe do sklasyfikowania, ponieważ jakość klasyfikacji przy użyciu metody SVM, dla większości jąder wynosi powyżej 90 procent.

104 Wnioski-cd. Wniosek Należy pamiętać, że najlepsze wyniki uzyskano intuicyjnie dla wybranych parametrów jąder. Aby upewnić się, że nie istnieją lepsze wartości, należy użyć jednego z algorytmów optymalizacji parametrów.

105 Wnioski-cd. Wniosek Należy pamiętać, że najlepsze wyniki uzyskano intuicyjnie dla wybranych parametrów jąder. Aby upewnić się, że nie istnieją lepsze wartości, należy użyć jednego z algorytmów optymalizacji parametrów. Wniosek Wadą przedstawionej metody jest przeuczenie (overlearning), obserwowane w większości przypadków. Jest to efekt nadmiernego regulowania klasyfikatora danych uczących, co prowadzi do niskiej zdolności generalizacji.

106 Literatura W. Homenda, A. Jastrzębska, W. Pedrycz, R. Piliszek, Rejecting Foreign Elements in Pattern Recognition Problem-Reinforced Training of Rejection Level P. Bilski, Automated selection of kernel parameters in diagnostics of analog systems, Przegląd Elektrotechniczny, 2011 Kernel Functions for Machine Learning Applications [Online]. J. Stefanowski, SVM Support Vector Machines Poznań University of Technology, UM slajdy dodatkowe do wykładu P. Chudzian, Optymalizacja parametrów przekształcenia jądrowego w zadaniach klasyfikacji, Politechnika Warszawska, PhD Thesis, 2012 (in Polish) E. Miedziński, Klasyfikacja wyników wyszukiwania zasobów internetowych, Politechnika Warszawska, BSc Thesis, 2013 (in Polish)