Kombinacja jądrowych estymatorów gęstości w klasyfikacji - przegląd literatury

Podobne dokumenty
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji kontynuacja prac

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Mateusz Kobos Seminarium z Metod Inteligencji Obliczeniowej, MiNI PW

2. Empiryczna wersja klasyfikatora bayesowskiego

Drzewa decyzyjne i lasy losowe

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Optymalizacja ciągła

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Jądrowe klasyfikatory liniowe

SPOTKANIE 9: Metody redukcji wymiarów

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

1 Klasyfikator bayesowski

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Elementy modelowania matematycznego

Dobór parametrów algorytmu ewolucyjnego

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Metody systemowe i decyzyjne w informatyce

Regresyjne metody łączenia klasyfikatorów

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Metody klasyfikacji danych - część 1 p.1/24


Klasyfikacja LDA + walidacja

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Wykład III

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Sieć przesyłająca żetony CP (counter propagation)

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

10. Redukcja wymiaru - metoda PCA

Wstęp do sieci neuronowych laboratorium 01 Organizacja zajęć. Perceptron prosty

TEORETYCZNE PODSTAWY INFORMATYKI

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Stosowana Analiza Regresji

Aproksymacja funkcji a regresja symboliczna

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Machine learning Lecture 5

Elementy inteligencji obliczeniowej

Wybór modelu i ocena jakości klasyfikatora

Uczenie sieci typu MLP

KLASYFIKACJA. Słownik języka polskiego

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Adrian Horzyk

Agnieszka Nowak Brzezińska Wykład III

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

SPOTKANIE 3: Regresja: Regresja liniowa

KADD Minimalizacja funkcji

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

METODY INŻYNIERII WIEDZY

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

CLUSTERING. Metody grupowania danych

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Metody systemowe i decyzyjne w informatyce

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Elementy statystyki wielowymiarowej

Klasyfikacja naiwny Bayes

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Optymalizacja systemów

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Analiza Statystyczna

Uczenie sieci radialnych (RBF)

7. Maszyny wektorów podpierajacych SVMs

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Dariusz Brzeziński. Politechnika Poznańska

Rozpoznawanie obrazów

Algorytmy klasyfikacji

Kognitywne hierarchiczne aktywne podziały. Arkadiusz Tomczyk.

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Metody szacowania zdolności kredytowej klientów indywidualnych. Mateusz Kobos

Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

MATLAB Neural Network Toolbox przegląd

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Fuzja sygnałów i filtry bayesowskie

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Transkrypt:

1/37 Kombinacja jądrowych estymatorów gęstości w klasyfikacji - przegląd literatury Mateusz Kobos, 22.10.2008 Seminarium Metody Inteligencji Obliczeniowej

2/37 Spis treści Klasyfikator Bayesowski Estymatory gęstości: estymator jądrowy, Gaussian Mixture Model Kombinacja estymatorów jądrowych Opinie o klasyfikacji poprzez estymację gęstości Przegląd literatury

Klasyfikator Bayesowski Teoretycznie, by dokonać klasyfikacji wystarczy tylko znać gęstość punktów każdej z klas 3/37

4/37 Estymator jądrowy (Kernel Density Estimator (KDE)) Pobrane z [Hwang94]

5/37 Gaussian Mixture Model (GMM) Parametry (μ, Σ_i) dobiera się najczęściej za pomocą algorytmu EM korzystającego z metody największej wiarogodności Pobrane z [Hwang94] Liczba składowych jest z góry zadana

6/37 Kombinacja KDE (KDEC) Ogólny pomysł: Estymować gęstość poprzez kombinację (liniową) estymacji za pomocą KDE o różnej szerokości jądra

Kombinacja KDE (KDEC) Wstępny pomysł (algorytm KDEC): Dobierać szerokości jąder dla kolejnych KDE tak, by malały wykładniczo w zależności od parametru a. Szerokość jądra określona jako: Każda z KDE ma taką samą wagę Minimalizujemy funkcję błędu (za pomocą cross-validation lub np. metodą największego spadku z momentum) 7/37

Kombinacja KDE (KDEC) Parametry modelu: a jak szybko maleją jądra h_0 największa szerokość jądra (tu: ustalone) w_i waga każdego z KDE w kombinacji liniowej (tu: ustalone i takie same) Potencjalne modyfikacje: Dobierać kształt jąder dla każdej klasy oddzielnie Określić inną funkcję zmniejszania się jąder Optymalizować względem innych parametrów Ustalać h_0 na podstawie któregoś z popularnych kryteriów doboru szerokości jądra 8/37

9/37 Kombinacja KDE (KDEC) przykładowy wykres błędu Parametry modelu

Opinie o klasyfikacji poprzez estymację gęstości Dla danych o dużej liczbie wymiarów estymacja gęstości jest b. trudna, bo dla skończonego zbioru danych w miejscach o dużej gęstości może być b. mało punktów [Bishop95] W klasyfikacji oddzielne uczenie się rozkładu każdej z klas może być niepotrzebne i mylące. Skupiamy się na dokładniejszym dostosowywaniu rozkładu do pewnych punktów, jednak te punkty mogą nie mieć znaczenia dla obliczania prawdopodobieństwa przynależności do klasy. Dla klasyfikacji, prawdopodobieństwo musimy dobrze estymować tylko w pobliżu granic decyzyjnych.[hastie01] 10/37

11/37 Opinie o klasyfikacji poprzez estymację gęstości Estymacja gęstości jest centralnym problemem modelowania danych i uczenia maszynowego. Jest to problem trudniejszy od klasyfikacji i regresji [Shawe-Taylor07] Chociaż optymalne estymatory gęstości nie koniecznie prowadzą do dobrej klasyfikacji, to dobre estymacje klas z pewnością dają klasyfikatory o niskim błędzie [Hoti04]

12/37 Opinie o klasyfikacji poprzez estymację gęstości Dobra estymacja gęstości za pomocą estymatorów jądrowych jest możliwa do 6 wymiarów. Jednak, mimo że sama estymacja gęstości może być zła, to klasyfikacja na jej podstawie może być dobra. Metody jądrowe w zagadnieniu klasyfikacji dają dobre wyniki również dla dziesiątków wymiarów [Scott04]

13/37 Artykuł: klasyfikacja za pomocą kombinacji KDE Artykuł [Ghosh06a]: Anil K. Ghosh, Probal Chaudhuri, and Debasis Sengupta, Classification Using Kernel Density Estimates: Multi-scale Analysis and Visualization, Technometrics, 2006 Pomysł: klasyfikacja za pomocą kombinacji KDE o różnej szerokości jądra Modyfikacja tego pomysłu dla estymatorów gęstości opartych na metodzie k-nn: [Ghosh06b]

Artykuł: klasyfikacja za pomocą kombinacji KDE cd. Cechy metody: Zagadnienie klasyfikacji binarnej Każdej z klas przypisujemy oddzielną szerokość jądra (h1 dla klasy 1, h2 dla klasy 2) Działanie algorytmu - ogólnie: 1.Normalizujemy punkty dla każdej z klas oddzielnie 2.Bierzemy najlepsze pary szerokości jąder h1, h2: tzn. te, które dają globalnie najmniejszy błąd klasyfikacji. Używamy pomocą cross-validation. 3.Dla danego punktu testowego x obliczamy P(c=1 x) jako ważoną sumę P(c=1 x) dla najlepszych par h1, h2 14/37

wykres: 1-błąd klasyfikacji Wartości wag Zakres niezerowych wartości wag Optymalny punkt klasyfikacji Optymalny punkt estymacji gęstości Unormowane mnożenie log(h2) wykres: adjusted weighted p-value wykres: P(c=1 x) Wartości dla punktu testowego x log(h2) mnożenie wykres: p-value przypisania do klasy c=1 log(h1) sumuj i normuj Obrazki pobrane z [Ghosh06a] wynik: P(c=1 x) = 0.7 15/37

Artykuł: klasyfikacja za pomocą kombinacji KDE - porównanie Artykuł: brany jest punkt optymalny pod względem błędu cross-validation w przestrzeni szerokości jąder i jego najbliżsi sąsiedzi Wada: parametry modelu są dla sąsiadów podobne lepsze wyniki można by prawdopodobnie uzyskać biorąc bardziej odległe punkty (większa różnorodność) KDEC: branych jest kilka odległych od siebie punktów w jej przestrzeni (odległości między punktami są dobierane poprzez minimalizację funkcji błędu) 16/37

17/37 Artykuł: klasyfikacja za pomocą kombinacji KDE - porównanie Artykuł: wagi każdego z elementów kombinacji dobierane są za pomocą gęstości normalnej KDEC: wagi są identyczne Artykuł: przeszukiwana jest przestrzeń (h1, h2) KDEC: przeszukiwana jest przestrzeń (a) (ew. (a1, a2)

18/37 Artykuł: klasyfikacja za pomocą kombinacji KDE - porównanie Artykuł: Używana jest brutalna metoda optymalizacji sprawdzanie wartości funkcji błędu w każdym z punktów (pewnej siatki) KDEC: można minimalizować funkcję błędu tak jak w MLP: np. metodą największego spadku z momentum

19/37 Artykuł: estymacja gęstości za pomocą stacking z KDE i GMM Artykuł [Smyth99]: Padhraic Smyth, David Wolpert, Linearly Combining Density Estimators via Stacking, Machine Learning, 1999 Pomysł: estymacja gęstości za pomocą kombinacji liniowej GMM i KDE. Parametry kombinacji obliczane za pomocą techniki meta-uczenia: stacking i alg. EM.

Artykuł: estymacja gęstości za pomocą stacking z KDE i GMM cd. Do zagadnienia estymacji za pomocą kombinacji estymatorów podchodzą od strony algorytmów meta-uczących się. Działanie algorytmu: Standardowy algorytm stacking z crossvalidation: modelami poziomu 0 są estymacje gęstości (KDE, GMM) modelem poziomu 1 (poziom łączący) jest kombinacja liniowa z parametrami dobieranymi za pomocą alg. EM tak, by maksymalizować loglikelihood punktów ze zbioru uczącego 20/37

21/37 Artykuł: estymacja gęstości za pomocą stacking z KDE i GMM cd. Działanie algorytmu dla KDE: 1.Wykonaj estymację dla określonych predefiniowanych szerokości jąder KDE przy pomocy cross-validation. 2.Oblicz parametry kombinacji liniowej estymatorów za pomocą EM. 3.Wykonaj estymację każdym z estymatorów KDE tym razem na całym zb. uczącym. 4.Połącz estymacje za pomocą obliczonej kombinacji liniowej i zwróć wynik.

22/37 Artykuł: estymacja gęstości za pomocą stacking z KDE i GMM - porównanie Artykuł: nie jest dokonywana klasyfikacja, optymalizowane jest log-likelihood dopasowania do danych KDEC: dokonujemy klasyfikacji i minimalizujemy błąd związany z klasyfikacją Artykuł: szerokości jąder są predefiniowane (chociaż proponują, że można by też dobierać je dynamicznie) KDEC: szerokości jąder dobierane dynamicznie

23/37 Artykuł: estymacja gęstości za pomocą stacking z KDE i GMM - porównanie Artykuł: każda z estymacji składowych (KDE i GMM) jest wykonywana za pomocą crossvalidation, co przeciwdziała przeuczeniu Artykuł: stosowane są KDE i GMM KDEC: stosowane są tylko KDE Artykuł: każda z estymacji składowych ma inną wagę KDEC: wszystkie wagi takie same

24/37 Artykuł: Filtered KDE Artykuł [Marchette96]: David J. Marchette, Carey E. Priebe, George W. Rogers, Jeffrey L. Solka Filtered Kernel Density Estimation, Computational Statistics, 1996 Pomysł: Połączenie wielu KDE z GMM. Na całej przestrzeni określamy wagi każdego z KDE.

25/37 Artykuł: Filtered KDE cd. Pomysł bardziej szczegółowo: Jest podanych kilka predefiniowanych szerokości jąder odpowiadających estymatorom KDE. Do każdego KDE jest przypisany rozkład wagi, który mówi, w których miejscach dziedziny dana szerokość jest ważna, a w których nie. Dzięki temu możemy definiować obszary, w których jądra mają być szerokie i te, w których mają być wąskie. Gdy obliczamy gęstość w jakimś punkcie, to obliczamy ważoną sumę KDE zgodnie z rozkładem wag w danym punkcie.

26/37 Artykuł: Filtered KDE cd. W praktyce rozkład wag określamy poprzez GMM każda składowa odpowiada dominacji jednej z szerokości jądra w KDE. Kształty jąder w danym obszarze są określane na jeden z 2 sposobów: przez optymalizację w ramach jednego obszaru przez użycie wariancji punktów obszaru (w praktyce wyniki tych obu sposobów są podobne).

Artykuł: Filtered KDE cd. Przykład: 2 składowe GMM; szerokości jąder modelu w różnych punktach Pobrane z [Marchette96] 27/37

Artykuł: Filtered KDE - porównanie Artykuł: nie jest optymalizowana jakość klasyfikacji Artykuł: lokalne dopasowywanie szerokości jądra Potrzeba takiego dopasowywania może być zauważona na podstawie poprzedniego rysunku KDEC: dopasowywanie globalne Artykuł: musimy z góry wiedzieć ile jest obszarów dominacji szerokości jąder Artykuł: uczenie GMM za pomocą EM może utknąć w minimum lokalnym 28/37

29/37 Artykuł: KDE i Boosting Artykuł [Marzio05b]: Marco Di Marzio, Charles C. Taylor, On boosting kernel density methods for multivariate data: density estimation and classification, Statistical Methods & Applications, 2005 Pomysł: Zastosowanie alg. Meta-uczącego się (Boosting) do estymacji gęstości i klasyfikacji. Modelami poziomu 0 są KDE. Modelem poziomu 1 jest Boosting.

30/37 Artykuł: KDE i Boosting cd. Artykuły pokrewne: Pomysł zaproponowany w [Marzio04] W [Marzio05a] używa się KDE i Boosting (w wersji AdaBoost) do klasyfikacji. Rozważany jest przypadek 1D z 2 klasami. Przedstawiona jest analiza teoretyczna i wyniki eksperymentalne

31/37 Artykuł: KDE i Boosting cd. Proponują algorytm BoostKDE (do estymacji gęstości) Idea: w kolejnych iteracjach boosting-u przypisujemy różne wagi każdemu z przykładów ze zbioru uczącego. Proponują algorytm BoostKDC (do klasyfikacji): Idea: w zależności od pewnego błędu związanego z klasyfikacją przypisujemy różne wagi każdemu z przykładów ze zbioru uczącego.

32/37 Artykuł: KDE i Boosting - porównanie Artykuł: różna waga jest przypisywana różnym przykładom dla różnych KDE KDEC: waga przykładów jest taka sama, za to dobierane są szerokości jąder

Inne artykuły Artykuł [Ormoneit98]: stosują uśrednianie (ensemble averaging) do estymacji gęstości. Modelami poziomu 0 są gęstości GMM. Każdej estymacji nadają taką samą wagę. Stosują 3 podejścia do generowania różnych GMM, które potem są uśrednianie: Algorytm EM kończy w różnych minimach lokalnych, Dane dla każdego GMM stanowią 70% danych oryginalnych is są wybierane poprzez losowanie bez powtórzeń Dane dla każdego GMM wybieramy przykłady przez losowanie z powtórzeniami (Bagging) 33/37

Inne artykuły cd. Artykuł [Cooley98]: proponują klasyfikację za pomocą KDE, gdzie macierze kowariancji rozkładów normalnych dla każdej z klas są dobierane oddzielnie a ramach klasy są identyczne. Algorytm jest przeznaczony szczególnie dla danych o dużej liczbie wymiarów Artykuł [Ridgeway02]: używają Boosting i Bagging do estymacji gęstości. Używają metody EM do maksymalizowania wiarogodności danych uczących. Nie jest bezpośrednio optymalizowana jakość klasyfikacji. 34/37

35/37 Literatura [Bishop95] Christopher Bishop, Nerual Networks for pattern recognition, p.34, 1995 [Cooley98] Craig A. Cooley, Steven N. MacEachern, Classification via Kernel Product Estimators, Biometrika, 1998 [Ghosh06a] Anil K. Ghosh, Probal Chaudhuri, and Debasis Sengupta, Classification Using Kernel Density Estimates: Multi-scale Analysis and Visualization, Technometrics, 2006 [Ghosh06b] Anil K. Ghosh, Probal Chaudhuri, C. A. Murthy, Multiscale Classification Using Nearest Neighbor Density Estimates, IEEE Transactions on Systems, Man, and Cybernetics, 2006 [Hastie01] Hastie, Tibshirani, Friedman, The elements of statistical learning, 2001 [Hoti04] Fabian Hoti, Lasse Holmstrom, A semiparametric density estimation approach to pattern classification, Pattern Recognition, 2004 [Hwang94] Jenq-Neng Hwang, Shyh-Rong Lay, Alan Lippman, Nonparametric multivariate density estimation a comparative study, IEEE transactions on signal processing, 1994 [Marchette96] David J. Marchette, Carey E. Priebe, George W. Rogers, Jeffrey L. Solka, Filtered Kernel Density Estimation, Computational Statistics, 1996 [Marzio04] Marco Di Marzio, Charles C. Taylor, Density Estimates: a Bias Reduction Technique?, Biometrika, 2004

36/37 Literatura cd. [Marzio05a] Marco Di Marzio, Charles C. Taylor, Kernel density classification and boosting: an L_2 analysis, Statistics and computing 2005 [Marzio05b] Marco Di Marzio, Charles C. Taylor, On boosting kernel density methods for multivariate data: density estimation and classification, Statistical Methods & Applications, 2005 [Ormoneit98] Dirk Ormoneit, Volker Tresp, Averaging, Maximum Penalized Likelihood and Bayesian Estimation for Improving Gaussian Mixture Probability Density Estimates, IEEE Transactions on Neural Networks, 1998 [Ridgeway02] Greg Ridgeway, Looking for lumps: boosting and bagging for density estimation, Computational Statistics & Data Analysis, 2002 [Scott04] David W. Scott, Stephan R. Sain, Multidimensional Density Estimation, Handbook of statistics vol. 24, 2004 [Shawe-Taylor07] J. Shawe-Taylor, A. Dolia, A framework for probability density estimation, Proceedings of International Workshop on Artificial Intelligence and Statistics, 2007. [Smyth99] Padhraic Smyth, David Wolpert, Linearly Combining Density Estimators via Stacking, Machine Learning, 1999

Dziękuję za uwagę! 37/37