Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Podobne dokumenty
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Meta-uczenie co to jest?

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ALGORYTM RANDOM FOREST

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

7. Maszyny wektorów podpierajacych SVMs

SPOTKANIE 2: Wprowadzenie cz. I

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

KARTA MODUŁU KSZTAŁCENIA

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

CLUSTERING. Metody grupowania danych

2. Empiryczna wersja klasyfikatora bayesowskiego

MATLAB Neural Network Toolbox przegląd

Metody selekcji cech

Pattern Classification

Agnieszka Nowak Brzezińska

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Algorytm genetyczny (genetic algorithm)-

PRZEWODNIK PO PRZEDMIOCIE

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Algorytmy klasyfikacji

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

PRZEWODNIK PO PRZEDMIOCIE

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

METODY INŻYNIERII WIEDZY

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SZTUCZNA INTELIGENCJA

Multiklasyfikatory z funkcją kompetencji

Drzewa decyzyjne i lasy losowe

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

Aproksymacja funkcji a regresja symboliczna

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Systemy uczące się wykład 2

Kognitywne hierarchiczne aktywne podziały. Arkadiusz Tomczyk.

Elementy modelowania matematycznego

przetworzonego sygnału

Metody klasyfikacji danych - część 1 p.1/24

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech. Piotr Porwik Uniwersytet Śląski w Katowicach

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

Analiza składowych głównych. Wprowadzenie

Maszyny wektorów podpierajacych w regresji rangowej

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

9. Praktyczna ocena jakości klasyfikacji

Numeryczna algebra liniowa

Uczenie sieci radialnych (RBF)

Modelowanie interakcji helis transmembranowych

Transformacja wiedzy w budowie i eksploatacji maszyn

Systemy uczące się Lab 4

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Agnieszka Nowak Brzezińska Wykład III

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

AUTOMATYKA INFORMATYKA

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

SPOTKANIE 1: Wprowadzenie do uczenia maszynowego

Optymalizacja ciągła

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

TEORETYCZNE PODSTAWY INFORMATYKI

Agnieszka Nowak Brzezińska Wykład III

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Plan. Zakres badań teorii optymalizacji. Teoria optymalizacji. Teoria optymalizacji a badania operacyjne. Badania operacyjne i teoria optymalizacji

Semantyczne podobieństwo stron internetowych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Co to jest grupowanie

Dariusz Brzeziński. Politechnika Poznańska

Algorytm grupowania danych typu kwantyzacji wektorów

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

Odniesienie symbol II/III [1] [2] [3] [4] [5] Efekt kształcenia. Wiedza

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Optymalizacja optymalizacji

Propensity score matching (PSM)

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Narzędzia geoprzestrzenne Business Intelligence (BI)

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Wykład 4: Statystyki opisowe (część 1)

Wykrywanie nietypowości w danych rzeczywistych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Transkrypt:

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl

Czym jest klasyfikacja jednoklasowa? Celem klasyfikacji wieloklasowej jest rozróżnienie między obiektami pochodzącymi z dwóch lub więcej klas, zachowując jak najmniejszy błąd.

Czym jest klasyfikacja jednoklasowa? Celem klasyfikacji wieloklasowej jest rozróżnienie między obiektami pochodzącymi z dwóch lub więcej klas, zachowując jak najmniejszy błąd.

Czym jest klasyfikacja jednoklasowa? W przypadku klasyfikacji jednoklasowej na etapie uczenia mamy do dyspozycji wyłącznie obiekty pochodzące z jednej klasy. Nazywa się to nauką przy braku kontrprzykładów.

Czym jest klasyfikacja jednoklasowa? Jednym z najbardziej popularnych podejść jest estymacja zamkniętej granicy decyzyjnej, zawierającej w sobie wszystkie istotne obiekty z klasy celu.

Czym jest klasyfikacja jednoklasowa? Zakłada się, że w trakcie eksploatacji klasyfikatora jednoklasowego mogą pojawić się nowe, nieznane obserwacje. Nazywa się je obserwacjami odstającymi.

Komitety klasyfikatorów jednoklasowych W klasyfikacji jednoklasowej niezbędne są metody poprawiające jakość i stabilność modelu komitety klasyfikatorów są więc obiecujacym kierunkiem badań. Do tej pory większość prac w tej dziedzinie skupiała się na aplikacjach istnieje potrzeba rozbudowania teoretycznych podstaw tej dziedziny.

Klasyfikatory w puli Aby komitet klasyfikatorów osiągał dobrą skuteczność rozpoznawania, musi być on zbudowany z puli klasyfikatorów które jednocześnie mają niski błąd klasyfikacji oraz są zróżnicowane względem siebie.

Klasyfikatory w puli Jeżeli klasyfikatory niezależnie uzyskują niski błąd klasyfikacji, ale nie są zróżnicowane to nie wnoszą nic do komitetu. Jeśli klasyfikatory są zróżnicowane względem siebie, ale nie przejawiają dobrej jakości rozpoznawania to pogorszymy jakość komitetu.

Trudności w budowie komitetów jednoklasowych W literaturze istnieje bogaty wachlarz sposobów w jaki budować i dobierać komitety klasyfikatorów dedykowany problemom wieloklasowym. Niestety te metody nie mogą zostać zastosowane w problemie klasyfikacji jednoklasowej. Głownym problemem jest brak kontrzpykładów na etapie nauki: metody budowy komitetów, takie jak boosting opierają się na minimalizacji błędu rozpoznawania miary różnorodności bazują na wskazaniach dwóch i więcej klasyfikatorów dla danego obiektu i jego klasy metody selekcji / przycinania komitetów potrzebują miary kryterialnej, którą najczęściej jest błąd komitetu

Dwa główne zagadnienia w budowie komitetów komitety klasyfikatorów jednoklasowych metody budowy puli klasyfikatorów metody selekcji klasyfikatorów podział przestrzeni cech podział przestrzeni obiektów wykorzystujące kryterium nieparametryczne Krawczyk B., Woźniak M., Cyganek B., Clustering-based ensembles for one-class classification. Information Sciences, 2013

Budowa komitetu przez podział przestrzeni cech Budowa komitetów klasyfikatorów jednoklasowych za pomocą podziału przestrzeni cech polega na uczeniu klasyfikatorów na zredukowanej przestrzeni cech, co zapewni wstępną różnorodność modeli. Jest to metoda bardzo obiecująca dla klasyfikacji jednoklasowej, gdyż redukuje złożoność obliczeniową każdego klasyfikatora. Niestety istnieje ryzyko utworzenia wielu zbliżonych do siebie podprzestrzeni, lub podprzestrzeni wykorzystujących cechy o niskiej wartości informacyjnej. Z tego powodu zaproponowano podejście Overproduce and Select, które opiera się na zbudowaniu dużej liczby podprzestrzeni a następnie przycinaniu komitetu. Krawczyk B., Woźniak M., Diversity measures for one-class classifier ensembles. Neurocomputing, 2013

Metody selekcji klasyfikatorów jednoklasowych W wielu przypadkach (np. zastosowania metody Random Subspace) nie należy wykorzystać wszystkich klasyfikatorów dostępnych w puli. Istnieją dwie główne motywacje dokonania selekcji klasyfikatorów / przycinania komitetu: eliminacja słabych klasyfikatorów, które mogą wpłynąć negatywnie na wynik decyzji komitetu redukcja ilości klasyfikatorów w puli, co prowadzi do redukcji złożoności komitetu Zaproponowano dwa typy podejść: wymagające miary kryterialnej oraz nieparametryczne. Typ pierwszy jest modyfikacją istniejących metod selekcji, z reguły opierający się na metodach optymalizacji. Wymagana jednak jest dedykowana miara dla klasyfikacji jednoklasowej. Typ drugi jest alternatywnym podejściem, nie wymagającym dedykowanej miary. Krawczyk B., Filipczuk P., Cytological Image Analysis with Firefly Nuclei Detection and Hybrid One- Class Classification Decomposition. Engineering Applications of Artificial Intelligence, 2013

Miary w klasyfikacji jednoklasowej Zaproponowano szereg nowych miar różnorodności, wyspecjalizowanych pod kątem klasyfikacji jednoklasowej. Jedną z najskuteczniejszych miar jest miara nakładania się sfer. Jako miarę jakości zamiast tradycyjnego błedu klasyfikacji proponuje się zastosowanie miary spójności przestrzeni.

Metody selekcji z kryterium Aby uniknąć problemu doboru tylko dokładnych albo tylko zróżnicowanych klasyfikatorów jednoklasowych, zaproponowano wykorzystanie metod optymalizacji wielokryterialnej. Funkcją celu jest liniową kombinacją jednej z miar różnorodności (np. miary nakładania się sfer) oraz miary spójności przestrzeni. Wcześniejsze badania przeprowadzono z użyciem algorytmów genetycznych. Dobre wyniki zachęciły do dalszych badan nad metodą przeszukiwania. Obecnie proponuje się stosowanie algorytmu memetycznego, łączącego algorytm genetyczny z lokalnym przeszukiwaniem za pomocą metody tabu search. Szczurek A., Krawczyk B. & Maciejewska M., VOCs classification based on committee of classifiers coupled with single sensor signals. Chemometrics and Intelligent Laboratory Systems vol. 125: 1-10.

Metody selekcji z kryterium Metody oparte na podejściu optymalizacyjnym mogą być złożone obliczeniowo dla rozbudowanych komitetów. Alternatywą może być wykorzystanie algorytmów klasteryzacji. Proponuje się, aby działały one na macierzy złożonej z wartości parowych miar różnorodności. W ten sposób miara różnorodności jest tożsama z odległością między obiektami w klasycznej analizie skupień. Następnie dla każdego z klastrów wybiera się reprezentanta za pomocą jednej z kilku badanych metod (najbliższy centroidowi, najdalszy od innych centroidów, uczenie nowego klasyfikatora itd). Krawczyk B., Pruning and Weighted Fusion of One-Class Classifier Ensemble with Firefly Algorithm. Machine Learning in review

Metody nieparametryczne Alternatywnym podejściem do wprowadzania nowych miar jest szukanie metod nieparametrycznych do przycinania komitetów klasyfikatorów jednoklasowych. Nasuwającym się tu rozwiązaniem jest zastosowanie metod klasteryzacji. Analizy skupień dokonuje się w nowej przestrzeni, gdzie obiektem jest klasyfikator, zaś cechami wartości funkcji wsparć dla poszczególnych obiektów. Wyszukuje się najbardziej podobne klastry klasyfikatorów, tworzące pewne profile decyzyjne. Krawczyk B., Woźniak M., Influence of Distance Measures on the Effectiveness of One-Class Classification Ensembles. Applied Artificial Intelligence, 2013

Badania eksperymentalne Wykonane na 20 bazach z UCI machine learning repository. Klasyfikator bazowy Support Vector Domain Description z jądrem RBF. Pula 30 klasyfikatorów, budowana na Random Subspace złożonej z 40% oryginalnych przestrzeni cech. Wykorzystano test rankingowy Friedmana.

Badania eksperymentalne

Dziękuję za uwagę bartosz.krawczyk@pwr.wroc.pl http://www.kssk.pwr.wroc.pl/krawczyk