7. Maszyny wektorów podpierajacych SVMs

Podobne dokumenty
5. Analiza dyskryminacyjna: FLD, LDA, QDA

10. Redukcja wymiaru - metoda PCA

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

9. Praktyczna ocena jakości klasyfikacji

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

2. Empiryczna wersja klasyfikatora bayesowskiego

Popularne klasyfikatory w pakietach komputerowych

SVM: Maszyny Wektorów Podpieraja cych

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie. Zaawansowane Metody Uczenia Maszynowego

KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH

W ostatnim wykładzie doszliśmy do tego, że problem znalezienia klasyfikatora optymalnego pod względem marginesów można wyrazić w następujący sposób:

Pattern Classification

ŁĄCZENIE RÓWNOLEGŁE MODELI KLASYFIKACJI OTRZYMANYCH METODĄ WEKTORÓW NOŚNYCH

Programowanie matematyczne

Klasyfikatory SVM. Przemysław Klęsk. 1 Wiadomości ogólne 1. 2 Margines separacji Wzór na odległość punktu od płaszczyzny...

Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.

Jądrowe klasyfikatory liniowe

Maszyny wektorów podpierajacych w regresji rangowej

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Metody systemowe i decyzyjne w informatyce

1 Klasyfikator bayesowski

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

FILTROWANIE SPAMU Z UŻYCIEM MASZYNY WEKTORÓW WSPIERAJĄCYCH

Regresyjne metody łączenia klasyfikatorów

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

Programowanie liniowe

SPOTKANIE 9: Metody redukcji wymiarów

Klasyfikacja LDA + walidacja

Elementy Modelowania Matematycznego

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Elementy Modelowania Matematycznego Wykład 7 Programowanie nieliniowe i całkowitoliczbowe

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych

Oracle Data Mining 10g

Metody systemowe i decyzyjne w informatyce

Metody sztucznej inteligencji Zadanie 1: Perceptron Rosenblatt a w wersji nieliniowej

Estymatory regresji rangowej oparte na metodzie LASSO

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Własności estymatorów regresji porządkowej z karą LASSO

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Widzenie komputerowe (computer vision)

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Lokalne klasyfikatory jako narzędzie analizy i

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Metody klasyfikacji Danych wielowymiarowych by mgr inz. Marcin Kurdziel and mgr inz. Tomasz Arodz

Agnieszka Nowak Brzezińska

A Zadanie

Równania różniczkowe cząstkowe drugiego rzędu

Analiza danych. TEMATYKA PRZEDMIOTU

Wykład Matematyka A, I rok, egzamin ustny w sem. letnim r. ak. 2002/2003. Każdy zdający losuje jedno pytanie teoretyczne i jedno praktyczne.

Rozpoznawanie obrazów

ROZPRAWA DOKTORSKA MARCIN KMIEĆ

RBF sieci neuronowe o radialnych funkcjach bazowych

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Matematyka stosowana i metody numeryczne

KARTA PRZEDMIOTU. 17. Efekty kształcenia:

Elementy inteligencji obliczeniowej

Klasyfikacja danych wielowymiarowych algorytmami SVM

Metody klasyfikacji danych - część 2 p.1/55

Metody systemowe i decyzyjne w informatyce

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA

Optymalizacja systemów

1 Relacje i odwzorowania

Układy równań nieliniowych (wielowymiarowa metoda Newtona-Raphsona) f(x) = 0, gdzie. dla n=2 np.

Biometria WYKŁAD 7: ROZPOZNAWANIE I KLASYFIKACJA OBIEKTÓW

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

SZTUCZNA INTELIGENCJA

Document: Exercise*02*-*manual /11/ :31---page1of8 INSTRUKCJA DO ĆWICZENIA NR 2

VI. Równania różniczkowe liniowe wyższych rzędów

Klasyfikacja wyników wyszukiwania zasobów internetowych

Maciej Grzesiak. Optymalizacja

Postać Jordana macierzy

Regresja nieparametryczna series estimator

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Metody systemowe i decyzyjne w informatyce

Agnieszka Nowak Brzezińska Wykład III

Laboratorium 11. Regresja SVM.

Estymacja w regresji nieparametrycznej

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Sztuczne Sieci Neuronowe

Prof. Stanisław Jankowski

Równanie Schrödingera

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Metody systemowe i decyzyjne w informatyce

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

Transkrypt:

Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1

1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang. Support Vector Mashines, SVMs) należą do grupy klasyfikatorów liniowych. Obiekt reprezentowany przez x jest klasyfikowany do jednej z dwóch klas 1 i 1 za pomocą liniowej funkcji dyskryminacyjna δ(x) = w T x + w 0 w następujący sposób: 1, jeżeli w T x + w 0 > 0 Ψ SV M (x) = 1, jeżeli w T x + w 0 < 0. (1) Wektor w = (w 1, w 2,..., w D ) oraz wyraz wolny w 0 są tak dobierane, aby jak najszerzej liniowo separować klasy, jeżeli jest to możliwe. 2

8 7.5 Makroklasa 1 Makroklasa 2 Wektory podpierajace 7 6.5 6 5.5 5 4.5 4 2 2.5 3 3.5 4 4.5 Rysunek 1. Wektory podpierające dla liniowego klasyfikatora SVMs. Źródło: opracowanie własne 3

Do treningu używamy ciągu uczącego {(x 1,c 1 ), (x 2,c 2 ),...,, (x N,c N )}, gdzie x k to D-wymiarowy wektor cech, a c k to jego klasa pochodzenia. Dane muszą zostać unormowane, co oznacza, że indeksy klas przyjmą wartości 1 i 1. Klasyfikator SVM dany wzorem (1) klasyfikuje zgodnie ze znakiem funkcji dyskryminacyjnej δ(x) = w T x + w 0. Wyznaczenie na podstawie ciągu uczącego parametrów w i, i = 0, 1, 2,...,D stanowi zadanie optymalizacyjne. 4

2. Maksymalizacja marginesu Rysunek 2. Hiperpłaszczyzna rozdzielająca o maksymalnym marginesie. Źródło: [5] 5

Maksymalizacja marginesu polega na maksymalizacji odległości między wektorami podpierającymi a hiperpłaszczyzną rozdzielającą. Odległość między hiperpłaszczyzną δ(x) = w T x + w 0 = 0 a pewnym wektorem x n z ciągu uczącego (n {1, 2...,N}) wynosi δ(x n ). (2) w Maksymalizację wyrażenia (2) można sprowadzić do minimalizacji w, lub równoważnie minimalizacji 1 2 w 2. (3) 6

Bez zmniejszenia ogólności rozważań zakładamy, że marginesy będą postaci w T x + w 0 = 1 i w T x + w 0 = 1. (4) Wszystkie punkty z ciągu uczącego muszą się znaleźć poza pasem między marginesami, ale tak aby wszystkie punkty z klasy 1 były po odpowiedniej stronie marginesu w T x + w 0 = 1, a wszystkie punkty z klasy 1 po odpowiedniej stronie marginesu w T x + w 0 = 1 (patrz rys. 2). Sprowadzamy ten warunek do nierówności c n ( w T x n + w 0 ) 1 (5) dla każdego wektora x n z ciągu uczącego (n {1, 2...,N}), gdzie c n to jego klasa pochodzenia. 7

Problem optymalizacyjny poszukiwania maksymalnego marginesu sprowadza się do min w,w0 1 2 w 2 przy c n ( w T x n + w 0 ) 1. (6) Metoda mnożników Lagrange a polega na minimalizacji funkcji L L(w, w 0, λ) = 1 2 w 2 N n=1 λ n { cn ( w T x n + w 0 ) 1 }. (7) Każdy mnożnik λ n 0 odpowiada jednemu wektorowi x n z ciągu uczącego (n {1, 2...,N}). 8

W celu minimalizacji funkcji L wyznaczamy jej pochodne i przyrównujemy je do zera L(w,w 0,λ) w = 0, L(w,w 0,λ) w 0 = 0, L(w,w 0,λ) λ = 0. (8) [przykład numeryczny dla D2] 9

3. Nieliniowe SVMs Niestety nie zawsze klasyfikacja za pomocą maszyn wektorów podpierających SVMs (1) jest możliwa do przeprowadzenia. Może się zdarzyć, że klasy nie są liniowo separowalne. Rysunek 3. Liniowo separowalne oraz nieseparowalne klasy. Źródło: opracowanie własne 10

W przypadku nierozdzielnych liniowo klas stosujemy trik z zastosowaniem funkcji jądrowych φ (kernel trick). Inną postać przyjmuje funkcja dyskryminacyjna δ(x) = w T φ (x) + w 0. Rysunek 4. Wektory podpierające dla nieliniowego klasyfikatora SVMs. Źródło: [2] 11

Funkcja L w metodzie mnożników Lagrange a również ulega zmianie L(w, w 0, λ) = 1 2 w 2 N n=1 Minimalizację L sprowadzamy do problemu dualnego. λ n { cn ( w T φ (x n ) + w 0 ) 1 }. (9) Maksymalizujemy teraz L przy ograniczeniach N L(λ) = n n=1λ 1 2 N n=1 N m=1 λ n λ m c n c m κ (x n,x m ) (10) λ n 0, n = 1,2,...,N, (11) N λ n c n = 0, (12) n=1 12

gdzie jądro κ przyjmuje postać κ (x n,x m ) = φ (x n ) T φ (x m ). (13) Funkcja jądrowa wielomianowa p-tego rzędu Matematyczna forma κ (x,y) κ (x,y) = ( x T y + r ) p gaussowska (Radial Basis Function) κ (x,y) = exp( x y 2 2σ 2 ) sigmoidalna κ (x,y) = tanh(x T y + r) 13

Jądrowa (nieliniowa) wersja klasyfikatora SVM to wtedy 1, jeżeli N n=1 Ψ kernel SV M (x) = λ nc n κ (x n,x) + w 0 > 0, 1, jeżeli N n=1 λ nc n κ (x n,x) + w 0 < 0. (14) 14

a) b) Rysunek 5. (a) Zbiór punktów nierozdzielny liniowo. (b) Ten sam zestaw danych przekształcony przez transformację [x 1,x 2 ] [x 1,x 2,x 2 1 + x2 2 ]. Źródło: [6] 15

a) b) Rysunek 6. Hiperpłaszczyzna rozdzielająca: (a) liniowa w R 3, (b) nieliniowa w R 2. Źródło: [6] 16

Literatura [1] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [2] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006) [3] M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczace się. Rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości. WNT, Warszawa (2008) [4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] http://en.wikipedia.org/wiki/support_vector_machine [6] http://www.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html 17