Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Podobne dokumenty
5. Analiza dyskryminacyjna: FLD, LDA, QDA

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Elementy statystyki wielowymiarowej

Klasyfikacja LDA + walidacja

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Metody Sztucznej Inteligencji II

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta


Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Elementy inteligencji obliczeniowej

Podstawy sztucznej inteligencji

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Optymalizacja ciągła

Agnieszka Nowak Brzezińska

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

wiedzy Sieci neuronowe

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

KADD Minimalizacja funkcji

Analiza składowych głównych

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Inteligentne systemy przeciw atakom sieciowym

Prawdopodobieństwo czerwonych = = 0.33

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Zmienne zależne i niezależne

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Analiza składowych głównych. Wprowadzenie

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Sieci neuronowe w Statistica

Projekt Sieci neuronowe

Stosowana Analiza Regresji

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

KADD Minimalizacja funkcji

Własności statystyczne regresji liniowej. Wykład 4

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Podstawy Sztucznej Inteligencji (PSZT)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Metoda największej wiarygodności

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Metody systemowe i decyzyjne w informatyce

6. Perceptron Rosenblatta

Rozpoznawanie obrazów

Hierarchiczna analiza skupień

Analiza regresji - weryfikacja założeń

Wprowadzenie do badań operacyjnych - wykład 2 i 3

Programowanie celowe #1

PDF created with FinePrint pdffactory Pro trial version

KORELACJE I REGRESJA LINIOWA

Komputerowa Analiza Danych Doświadczalnych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wielokryteriowa optymalizacja liniowa

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Sieć przesyłająca żetony CP (counter propagation)

Wprowadzenie do analizy korelacji i regresji

Prawdopodobieństwo i statystyka

1.1 Klasyczny Model Regresji Liniowej

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

KLASYFIKACJA. Słownik języka polskiego

Programowanie liniowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

8. Neuron z ciągłą funkcją aktywacji.

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Statystyka i eksploracja danych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zastosowania sieci neuronowych

Uczenie sieci typu MLP

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Mail: Pokój 214, II piętro

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Ważne rozkłady i twierdzenia c.d.

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Wykład 10 Skalowanie wielowymiarowe

Wprowadzenie do uczenia maszynowego

Uogolnione modele liniowe

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Transkrypt:

Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl

Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych losowo według dwolnego rozkładu ciągłego na R p, losowo podzielonych na 2 klasy, ma własnośd liniowej separowalności wynosi 1, gdy natomiast w ogólności jest równe Wniosek z twierdzenia: im różnica (2p-n) jest większa co do bezwzględnej wielkości, tym prawdopodobieośtwo liniowej separowalności jest mniejsze (przy losowych obserwacjach i losowym przydziale do klas).

Jak najlepiej rozdzielid te klasy za pomocą liniowej funkcji dyskryminacyjnej?

Szukamy takiego kierunku, żeby po zrzutowaniu na niego obserwacji (przykładów) klasy były jak najlepiej od siebie oddzielone

Funkcja dyskryminacyjna jest wtedy prostopadła do wyznaczonego kierunku

Sir Rnald Fisher 1936 r. Liniowa analiza dyskryminacyjna (LDA, ang. Linear discriminant analysis) Zakładamy, że wektory obserwacji są wektorami w p-wymiarowej przestrzeni Euklidesa Metoda prowadzi do reguły dyskryminacyjnej opartej na funkcji liniowej Oryginalne sformułowanie dla g=2 klas

Cel: Znajdź kierunek a w X, który najlepiej rozdziela obie klasy, przy czym oprócz odległości między klasami uwględnij również zmiennośd wewnątrzgrupową (wewnątrz klas)

Miarą odległości między klasami jest odległośd między wartościami oczekiwanymi przykładów z każdej klasy W przypadku wielowymiarowym jest to wektor wartości oczekiwanych dla każdego z atrybutów

Próbkowym odpowiednikiem wartości oczekiwanej jest wektorowa średnia

Miarą zróżnicowania danych jest w przypadku jedego atrybutu wariancja, a w przypadku wielowymiarowym macierz kowariancji Na przekątnej znajdują się wariancje poszczególnych atrybutów Jest to maceirz symetryczna

Próbkowym odpowiednikiem macierzy kowariancji jest macierz S

Wartośd wariancji rzutu wektora x na prostą o wektorze kierunkowym a: jaka jest wariancja a T x?

Założenie Fishera: klasy charakteryzują się taką samą macierzą kowariancji Wpólnie dla obu klas ustala się wskaźnik zmienności wewnątrzgrupowej

Próbkową miarą zmienności wewnątrzgrupowej wzdłuż kierunku a jest

Sformułowanie Fishera: znajdź kierunek najlepiej oddzielający klasy, jako kierunek maksymalizujący wyrażenie:

Mając kierunek a, zrzutuj średnie obu klas oraz nowy wektor x na ten kierunek i zaklasyfikuj x do klasy j jeśli dla

Rozwiązanie to daje często dobre wyniki nawet jeśli założenie o równości macierzy kowarancji nie jest spełnione.

Rozwiązanie : można wykazad, że poszukiwany wektor a jest proporcjonalny do Rozwiązanie jest jednoznaczne z dokładnością do długości wektora a

Zmienna a T x to pierwsza zmienna kanoniczna a wektor a to pierwszy wektor kanoniczny

Alternatywne sformułowanie hiperpłaszczyzny dyskryminacyjnej:

Reguła dyskryminacyjna: przypisz punkt x do klasy 2 jeśli:

Kierunek rzutowania Prosta dyskryminacyjna jest prostopadła do znalezionego kierunku i przechodzi przez punkt pośrodku pomiędzy średnimi klas.

Co gdy g > 2? (problem z wieloma klasami)

Sformułowanie zadania: znajdź a maksymalizujące wyrażenie: gdzie

Rozwiązanie: Wektorem maksymalizującym to wyrażenie jest wektor własny macierzy W -1 B odpowiadający największej wartości własnej tej macierzy.

Reguła dyskryminacyjna Obserwację x przypisz do klasy j jeśli Dla wszystkich

Można również rozwiązad zadao dyskryminacji pomiędzy parami klas Należy przyjąd wtedy wpólną macierz kowariancji wewnątrzgrupowej

Rzutowanie na jeden kierunek może nie wystarczyd Można poszukiwad kolejnych kierunków najlepiej rozdzielających klasy, ale jednocześnie ortogonalnych do wcześniej znalezionych kierunków Znajdź a r maksymalizujący warunkiem, że po

Kolejne zmienne kanoniczne są nieskorelowane z poprzednimi Kolejny kierunek kanoniczny jest wyznaczany jako wektor własny odpowiadający r-tej co do wielkości wartości własnej macierzy W -1 B Najwyższy możliwy rząd macierzy B wynosi g-1 zatem tyle można otrzymad wektorów kanonicznych.

Wektory kanoniczne mogą służyd do przeniesienia problemu klasyfikacyjnego do nowej przestrzeni (oryginalne atrybuty zastępujemy zmiennymi kanonicznymi) W nowej przestrzeni problem może byd rozwiązywany dowolnymi metodami (dowolnymi klasyfikatorami)

Regresja liniowa Zadanie dyskryminacji można potraktowad jako zadanie estymacji funkcji o wartościach nominalnych (np. ze zbioru {0, 1} dla dwóch klas ). Funkcja regresji jest dana warunkową wartością oczekiwaną zmiennej objaśnianej (wskaźnik klasy w naszych zadaniach dyskryminacji). Aby rozwiązad problem dyskryminacji z wieloma klasami za pomocą regresji liniowej, przedstawimy je jako wielowymiarową analizę regresji (zmienna objaśniana ma postad wektorową)

Dla dwóch klas: Regresja liniowa Jeśli oszacowane prawdopodobieostwo warunkowe jest >0.5 to x jest klasyfikowany do klasy 1, jeśli <0.5 to do klasy 0.

Dla liczby klas >2: Regresja liniowa Etykiety klas zakodowane są za pomocąwektora wskaźnikowego o g współrzędnych (g liczba klas) Etykieta klasy k ma 1 na pozycji k-tej i 0 na wszystkich innych pozycjach Przykład: Dla 5 klas, jeśli x pochodzi z klasy 3, jego wektor wskaźnikowy to *0,0,1,0,0+ Zadanie polega na jednoczesnym rozwiązaniu zadania regresji dla każdej pozycji wektora wskaźnikowego

Regresja liniowa Stosując zapis macierzowy mamy macierz obserwacji: oraz macierz etykiet obserwacji (wskaźnikowa macierz wektorów oodpowiedzi):

Regresja liniowa Stosując zapis macierzowy mamy macierz obserwacji: Kolumna jedynek umożliwia wystąpienie wyrazu wolnego. oraz macierz etykiet obserwacji (wskaźnikowa macierz wektorów oodpowiedzi):

Regresja liniowa Co się stanie jak nie będzie wyrazu wolnego? Przykład w 2D (dwa atrybuty): Szukamy granicy decyzyjnej między dwiema klasami w postaci liniowej zależności atrybutów x: w 0 to wyraz wolny y = w 1 *x 1 + w 2 *x 2 + w 0 Przykład x jest klasyfikowany do pierwszej klasy jeśli y>0 a do klasy drugiej w przeciwnym przypadku, zatem granica decyzyjna to 0 = w 1 *x 1 + w 2 *x 2 + w 0

Regresja liniowa 0 = w 1 *x 1 + w 2 *x 2 + w 0 z tego x 2 = -w 1 /w 2 *x 1 w 0 /w 2 Jest to zależnośd typu y = ax+b Jeśli brak w 0 (tzn. w 0 =0) to y = ax tzn. prosta musi przechodzid przez początek układu współrzędnych (nie może reprezentowad dowolnej granicy)

Regresja liniowa Celem regresji liniowej jest znalezienie współczynników zależności liniowej (macierz B), które minimalizują odpowiednie wyrażenie oparte na metodzie najmniejszych kwadratów Suma kwadratów norm Euklidesowych

Regresja liniowa Rozwiązanie (przez tzw. pseudoinwersję)

Regresja liniowa Mamy do czynienia z prostymi liniowymi estymatorami prawdopodobieośtwa a posteriori p(k x) Można powiedzied, że operamy się na metodzie Bayesa, tyle że nie uwzględniamy prawdopodobieostw a priori oraz estymatory są bardzo proste Można wykazad, że Uwaga: wartości w tej sumie mogą byd >1 lub ujemne!

Regresja liniowa Reguła dyskryminacyjna: wybierz klasę odpowiadającą największej wartości współrzędnych wketora odpowiedzi

Gdy g=2: Regresja liniowa Rozwiązanie regresyjne jest bardzo bliskie rozwiązaniu przez metodę LDA (Fishera) Model regresji liniowej wyznacza kierunek zgodzny z kryterium LDA Obie reguły dyskryminacyjne są identyczne, gdy obie próby uczące (z obu klas) są równoliczne

Regresja liniowa Miarą dopasowania modelu w regresji liniowej jest współczynnik R 2 zdefiniowany jako proporcja wariancji wyjaśnionej przez model R 2 =1-model bardzo dobry R 2 =0-model nie pasuje do danych

Model logistyczny Model logistyczne zapewnia wartości estymatora p(2 x) w przedziale [0,1] Jest to szczególny przypadek uogólnionego modelu liniowego

Dla g=2: Model logistyczny

Model logistyczny Estymacja parametrów (w0, w) odbywa się na podstawie próby uczącej poprzez metodę nawiększej wiarygodności, czyli maksymalizacji podlega: Proces przebiega iteracyjnie

Model logistyczny Reguła dyskryminacyjna: Wybierz większą z wartości oraz I odpoweidnio zaklasyfikuj obserwację x.

Model logistyczny Przypadek wielu klas (g>=2). Klasa g wybrana dowolnie

Model logistyczny Stosując ten model dostajemy: dla k=1,..,g-1 Spełnione jest:

Model logistyczny Jeśli klasy mają rokłady normalne o takiej samej macierzy kowariancji, równe pradopodobieostwa a priori to dla g=2 model logistyczny daje dokładnie to samo rozwiązanie do model LDA.

Perceptron

1 Perceptron Funkcja progowa funkcja aktywacji perceptronu w 0 w 1 x 1 w 2 x 2 Przykład dla dwóch atrybutów

Perceptron Zakładamy liniową separowalnośd danych Szukamy hiperpłaszczyzny decyzyjnej w postaci Wektory w oraz x zwierają już wyraz wolny (zwany również biasem) W przypadku poprawnej kalsyfikacji, dla pierwszej klasy mamy a dla drugiej

Oznaczenie: Perceptron Wtedy dla z i poprawnie zaklasyfikowanego mamy:

Perceptron Dla przykładów ze zbioru M (przykłady, dla których brak poprawnej klasyfikacji przez perceptron) definiujemy tzw. Kryterium perceptronowe: Zadanie uczenia perceptronu: zminimalizuj ze względu na wagi w wartośd kryterium perceptronowego.

Perceptron Jeśli klasy rzeczywiście są liniowo separowalne, to zadanie to można łatwo rozwiązad metodą najszybszego spadku. Gradient kryterium perceptronowego wynosi Aktualizacja wag odbywa iteracyjnie się zgodnie z: n l jest parametrem uczenia sterującym szybskością zmian wartości wag.

Perceptron Aktualizacja wag może odbywad się: W trybie wsadowym (poprzedni slajd) Po prezentacji każdego przykłądu, jeśli został on błędnie zaklasyfikowany

Perceptron Dowiedzione jest, że jeśli klasy są liniowo separowalne, oraz przy pewnych założeniach co do wartości n l, algorytm ten znajduje rozwiązanie w skooczonej liczbie kroków. Wady Czasami potrzebna jest duża liczba iteracji Rozwiązanie nie jest jednoznaczne, zależy od początkowego wektora wag Jeśli problem nie jest liniowoseparowalny, algorytm nie jest zbieżny ciężkie do wykrycia: brak zbieżności vs wolna zbieżnośd

1 Perceptron Reguła Widrowa-Hoffa w 0 w 1 x 1 w 2 x 2 Na wyjściu neuronu jest liniowa kombinacja atrybutów (brak funkcji progowej) Przykład dla dwóch atrybutów

Perceptron Reguła Widrowa-Hoffa Kryterium uczenia perceptronu może byd również minimalizacja kwadratów odległości między odpowiedzią modelu a pożądanymi odpowiedziami y, np. -1 dla klasy pierwszej oraz 1 dla klasy drugiej Różnica między wartościami pożądanymi a odpowiedziami modelu Minimalizacji podlega wyrażenie:

Perceptron Gradientem względem wektora w jest: Podobnie jak w regresji liniowej otrzymujemy metodę obliczenia wag:

Perceptron W wersji iteracyjnej (aktualizacja wag po prezentacji każego przykłądu uczącego) otrzymujemy regułę uczenia Widrowa-Hoffa (tzw. reguła delta):

Dla wielu klas Perceptron Każda klasa ma przyporządkowany sobie jeden perceptron Dla tego perceptronu, jego klasa to 1, wszystkie pozostałe to -1

Perceptron wielowarstwowy Czy jest sens łączyd perceptrony liniowe w większe sieci? 1 1 x 1 x 2 w1 w2 y 1 y 2 w3 y 3 w 1 =[w 10, w 11, w 12 ] w 2 =[w 20, w 21, w 22 ] w 3 =[w 30, w 31, w 32 ]

Perceptron wielowarstwowy y 1 = w 10 +w 11 x 1 +w 12 x 2 y 2 = w 20 +w 21 x 1 +w 22 x 2 y 3 = w 30 +w 31 y 1 +w 32 y 2 = w 30 +w 31 *(w 10 +w 11 x 1 +w 12 x 2 ) + w 32 *(w 20 +w 21 x 1 +w 22 x 2 ) = (w 30 + w 31 w 10 + w 32 w 20 ) + x 1 *(w 31 w 11 +w 32 w 21 ) + x 2 *(w 31 w 12 +w 32 w 22 ) = w 40 + w 41 x 1 + w 42 x 2

Perceptron wielowarstwowy y 1 = w 10 +w 11 x 1 +w 12 x 2 y 2 = w 20 +w 21 x 1 +w 22 x 2 y 3 = w 30 +w 31 y 1 +w 32 y 2 = w 30 +w 31 *(w 10 +w 11 x 1 +w 12 x 2 ) + w 32 *(w 20 +w 21 x 1 +w 22 x 2 ) = (w 30 + w 31 w 10 + w 32 w 20 ) + x 1 *(w 31 w 11 +w 32 w 21 ) + x 2 *(w 31 w 12 +w 32 w 22 ) = w 40 + w 41 x 1 + w 42 x 2 Liniowa kombinacja liniowych kombinacji jest również liniową kombinacją.

Perceptron wielowarstwowy Neurony w warstwach ukrytych powinny mied nieliniowe funkcje aktywacji.

Perceptron wielowarstwowy Neurony w warstwach ukrytych powinny mied nieliniowe funkcje aktywacji. Warstwy ukryte, poprzez nieliniowe transformacje sygnałów wejściowych, przenoszą problem do nowych przestrzeni, w których są one rozwiązywane przez liniowe neurony z warstwy wyjściowej sieci.

Perceptron wielowarstwowy