Jądrowe klasyfikatory liniowe

Podobne dokumenty
Rozpoznawanie obrazów

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Regresyjne metody łączenia klasyfikatorów

Estymatory regresji rangowej oparte na metodzie LASSO

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

Maszyny wektorów podpierajacych w regresji rangowej

Własności estymatorów regresji porządkowej z karą LASSO

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

Metoda największej wiarygodności

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SVM: Maszyny Wektorów Podpieraja cych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Uogolnione modele liniowe

Wprowadzenie. Data Science Uczenie się pod nadzorem

Metoda największej wiarogodności

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Prawdopodobieństwo i statystyka r.

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

7. Maszyny wektorów podpierajacych SVMs

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Podstawowe modele probabilistyczne

Testowanie hipotez statystycznych.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Prawdopodobieństwo i statystyka

Wykład 12 Testowanie hipotez dla współczynnika korelacji

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

Quick Launch Manual:

Centralne twierdzenie graniczne

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 12 Testowanie hipotez dla współczynnika korelacji

1 Klasyfikator bayesowski

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Testowanie hipotez statystycznych.

1.1 Wstęp Literatura... 1

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

SPOTKANIE 3: Regresja: Regresja liniowa

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Metoda najmniejszych kwadratów

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metoda największej wiarygodności

Statystyka i eksploracja danych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Estymatory nieobciążone

2. Empiryczna wersja klasyfikatora bayesowskiego

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Modele zapisane w przestrzeni stanów

WYKŁAD 8 ANALIZA REGRESJI

Zaawansowane metody numeryczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Metody probabilistyczne

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Elementy statystyki wielowymiarowej

Procesy stochastyczne

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

1 Podstawy rachunku prawdopodobieństwa

Estymacja parametrów rozkładu cechy

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Porównanie dwóch rozkładów normalnych

Prawdopodobieństwo i statystyka

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Klasyfikacja LDA + walidacja

Ważne rozkłady i twierdzenia c.d.

Testowanie hipotez statystycznych. Wprowadzenie

Pobieranie prób i rozkład z próby

Procesy stochastyczne

Własności porządkowe w modelu proporcjonalnych szans

Geometryczna zbieżność algorytmu Gibbsa

1 Gaussowskie zmienne losowe

EGZAMIN MAGISTERSKI, 18 września 2013 Biomatematyka

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Transkrypt:

Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19

Zagadnienie klasyfikacyjne Binarnym zagadnieniem klasyfikacyjnym nazywamy problem przyporządkowania obiektu opisanego przez p-wymiarowy wektor obserwowanych cech X = (X 1, X 2,..., X p ) do jednej z dwóch populacji (grup,klas) G 0, G 1. O populacjach zakładamy, że mają p-wymiarowe rozkłady prawdopodobieństwa z nieznanymi wektorami wartości oczekiwanych µ 0 i µ 1 oraz nieznanymi macierzami kowariancji Σ 0 i Σ 1. Rozwiązanie zagadnienia klasyfikacyjnego polega na podaniu reguły klasyfikacyjnej (klasyfikatora) pozwalającego na przyporządkowanie obiektu do jednej z klas: d : X {0, 1}. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 2 / 19

Zagadnienie klasyfikacyjne Poszukujemy klasyfikatora liniowego postaci d(x) = I (a x > m) = I (< a, x >> m), spełniającego warunek a = arg max w R p J(w). Klasyfikator wyznaczamy przy użyciu n-elementowej próby uczącej L n, przy czym L n = L 0 L 1 = {x 1, x 2,..., x n }, gdzie L 0 = {x 0 1,..., x 0 n 0 }, L 1 = {x 1 1,..., x 1 n 1 }. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 3 / 19

Zagadnienie klasyfikacyjne Jako estymatory nieznanych parametrów przyjmujemy Ponadto, niech ˆΣ i = S i = 1 n i 1 ˆµ i = x i = 1 n i x L i x, i = 0, 1, x L i (x x i )(x x i ), i = 0, 1. S B = ( x 1 x 0 )( x 1 x 0 ), S W = 1 n 2 [(n 0 1)S 0 + (n 1 1)S 1 ]. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 4 / 19

Przypadek Σ 0 = Σ 1 (Fisher,1936) Jako miarę odległości pomiędzy grupami G 0 i G 1 przyjmujemy J(w) = w S B w w S W w. W wyniku maksymalizacji miary J(w) otrzymujemy klasyfikator liniowy, dla którego a = S 1 W ( x 1 x 0 ), m = 1 2 ( x 1 x 0 ) S 1 W ( x 1 + x 0 ). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 5 / 19

Przypadek Σ 0 Σ 1 (Anderson i Bahadur,1962) Twierdzenie Przy dodatkowym założeniu normalności rozkładów populacji, dla dowolnego θ takiego, że macierz Σ 1 + θσ 0 jest dodatnio określona, klasyfikator liniowy, dla którego a = (Σ 1 + θσ 0 ) 1 (µ 1 µ 0 ), m = a µ 0 + θa Σ 0 a jest dopuszczalny Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 6 / 19

Przypadek Σ 0 Σ 1 Kryteria maksymalizujące odległości probabilistyczne (Schumway i Unger, 1974 oraz Krzyśko i Wołyński, 1997) odległość Chernoffa: J 1 (w) = 1 w S B w s(1 s) 2 (1 s)w S 1 w + sw S 0 w + 1 2 ln[(1 s)w S 1 w + sw S 0 w] 1 2 (1 s) ln(w S 1 w) 1 2 s ln(w S 0 w), s [0, 1]. odległość Morisity: J 2 (w) = 1 w S B w 2 w (S 1 + S 0 )w + 1 2 ln[w (S 1 + S 0 )w] + ln[(w S 1 w) 1 2 + (w S 0 w) 1 2 ] 1 2 ln[(w S 1 w)(w S 0 w)] ln(2 2). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 7 / 19

Przypadek Σ 0 Σ 1 Wszystkie rozważane miary odległości pomiędzy grupami J(w) są funkcjami wektora w jedynie poprzez wyrażenia: w S B w, w S i w, i = 0, 1. Zauważmy, że oraz w S B w = w S i w = 1 n i 1 ( 1 n 1 n 1 k=1 < w, x 1 k > 1 n 0 n 0 k=1 < w, x 0 k > ) 2 ( n i < w, x i k > 1 n i 2 < w, x i k >), i = 0, 1. n i k=1 k=1 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 8 / 19

Przykład µ 0 = [ 0 0 ], Σ 0 = [ 1 0 0 1 ], µ 1 = [ 6 0 ], Σ 1 = [ 9 0 0 4 ]. LDA: e R = 0.074, e CV = 0.086. θ LDA: e R = 0.037 dla θ = 3.83, e CV = 0.041. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 9 / 19

Klasyfikatory jądrowe Niech Zatem oraz gdzie x Φ(x) = x H. L H n = L H 0 L H 1 = {Φ(x 1 ), Φ(x 2 ),..., Φ(x n )} d(x) = I (< a, Φ(x) >> m), a = arg max J(w). w Lin(L H n ) Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 10 / 19

Kernel trick Mamy a = Zatem n α j Φ(x j ). j=1 n n < a, Φ(x) > = < α j Φ(x j ), Φ(x) >= α j < Φ(x j ), Φ(x) > j=1 j=1 n = α j K(x j, x), j=1 gdzie K jest jądrem. Typy jąder: wielomianowe K(x, y) = (1 + x y) c, c > 0, normalne K(x, y) = exp( x y 2 /c), c > 0. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 11 / 19

Własności Niech x H i = 1 Φ(x), S H i = 1 (Φ(x) x H i )(Φ(x) x H i ), i = 0, 1. n i n x L i 1 i x L i Wtedy gdzie oraz gdzie w S H B w = α Mα, M = (M 1 M 0 )(M 1 M 0 ), (M i ) j = 1 n i K(x j, x i n k) i w S H i w = α N i α, k=1 N i = 1 n i 1 K i(i 1 n i 11 )K i, (K i ) kl = K(x k, x i l), i = 0, 1. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 12 / 19

Przypadek Σ 0 = Σ 1 (Mika, Rätsch, Weston, Schölkopf, Müller,1999) Niech Wtedy J(w) = w Mw w Nw, N = 1 n 2 [(n 0 1)N 0 + (n 1 1)N 1 ]. a = N 1 (M 1 M 0 ), m = 1 2 (M 1 M 0 ) N 1 (M 1 + M 0 ). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 13 / 19

Przypadek Σ 0 Σ 1 Dla odległości Chernoffa: J 1 (w) = 1 w Mw s(1 s) 2 (1 s)w N 1 w + sw N 0 w + 1 2 ln[(1 s)w N 1 w + sw N 0 w] 1 2 (1 s) ln(w N 1 w) 1 2 s ln(w N 0 w), s [0, 1]. Otrzymujemy a = (N 1 + θn 0 ) 1 (M 1 M 0 ), m = a M 0 + θa N 0 a. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 14 / 19

Przykład c.d. µ 0 = [ 0 0 ], Σ 0 = [ 1 0 0 1 ], µ 1 = [ 6 0 ], Σ 1 = [ 9 0 0 4 ]. KLDA: e R = 0.027, e CV = 0.058. θ KLDA: e R = 0.023 dla θ = 5.64, e CV = 0.043. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 15 / 19

Zagadnienie wieloklasowe Niech liczba klas K > 2. Oznaczmy p ij (x) = P(X G i X G i G j, x), i, j = 1,..., K, i j. Przyjmujemy p ij (x) = 1/(1 + exp(a ij x m ij)), i, j = 1,..., K, i j. Ponadto p i (x) = P(X G i x), i = 1,..., K. Wtedy p ij (x) = p i (x) p i (x) + p j (x), i < j, (p ji(x) = 1 p ij (x)). Układ K(K 1)/2 równań z K niewiadomymi (zazwyczaj sprzeczny). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 16 / 19

Metoda PWC (Hastie i Tibshirani, 1998) Oszacowanie prawdopodobieństw a posteriori p i (x) poprzez minimalizację odległości Kullbacka-Leiblera postaci: ρ KL (ˆp 1 (x),..., ˆp K (x)) = [ n ij ˆp ij (x) log ˆp ] ij(x), p j i ij (x) gdzie liczebności n ij = n i + n j pełnią rolę wag. Do wyznaczenia tych oszacowań wykorzystujemy algorytm Bradley a-terry ego. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 17 / 19

Ważona metoda PWC Niech q ij (x) = p i (x) + p j (x). Do oszacowania prawdopodobieństwa q ij (x) wykorzystujemy klasyfikatory binarne uczone na próbie zawierającej tylko dwie klasy. Do pierwszej z nich zaliczamy obserwacje z klas i-tej i j-tej, a do drugiej pozostałe obserwacje. Ważona procedura sumacyjna: ˆp i (x) = 1 ˆq ij (x)ˆp ij (x), i = 1, 2,..., K. K 1 j i ˆd(x) = arg max 1 i K Ważona procedura iloczynowa: ˆq ij (x)ˆp ij (x). j i ˆp i (x) = K 1 ˆq ij (x)ˆp ij (x), i = 1, 2,..., K. j i ˆd(x) = arg max ˆq ij (x)ˆp ij (x). 1 i K j i Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 18 / 19

Literatura 1 Anderson T.W., Bahadur R.R. (1962), Classification into two multivariate normal distributions with different covariance matrices, Ann. Math. Statist. 33, 420 431. 2 Krzyśko M., Wołyński W. (1997), Linear discriminant functions for stationary time series, Biometrical Journal 39, 955-973. 3 Mika S., Rätsch G., Weston J., Schölkopf B., Müller K.R. (1999), Fisher discriminant analysis with kernels, In Y.-H. Hu, J. Larsen, E. Wilson, and S. Douglas, editors, Neural Networks for Signal Processing IX, 41-48. 4 T. Hastie, R. Tibshirani (1998), Classification by pairwise coupling, The Annals of Statistics 26, 451-471. 5 M. Krzyśko, W. Wołyński (2009), New variants of pairwise classification, European Journal of Operational Research 199, 512 519. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 19 / 19