Multiklasyfikatory z funkcją kompetencji

Podobne dokumenty
Regresyjne metody łączenia klasyfikatorów

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Drzewa decyzyjne i lasy losowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Maszyny wektorów podpierajacych w regresji rangowej

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Pattern Classification

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Elementy modelowania matematycznego

Agnieszka Nowak Brzezińska Wykład III

Indukowane Reguły Decyzyjne I. Wykład 8

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

10. Redukcja wymiaru - metoda PCA

Agnieszka Nowak Brzezińska Wykład III

METODY INŻYNIERII WIEDZY

Przestrzeń algorytmów klastrowania

Adrian Horzyk

Metody klasyfikacji danych - część 1 p.1/24

Agnieszka Nowak Brzezińska

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Algorytmy klasyfikacji

METODY INŻYNIERII WIEDZY

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Ćwiczenie 12. Metody eksploracji danych

KLASYFIKACJA. Słownik języka polskiego

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Komputerowa diagnoza medyczna tworzenie i interpretowanie. prof. dr hab. inż. Andrzej Walczak

Metody selekcji cech

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Informatyka Techniczna Rozpoznawanie obrazów

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

Mail: Pokój 214, II piętro

2. Empiryczna wersja klasyfikatora bayesowskiego

METODY INŻYNIERII WIEDZY

Optymalizacja reguł decyzyjnych względem pokrycia

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Konferencja Statystyka Matematyczna Wisła 2013

Rozszerzenia klasyfikatorów złożonych dla danych niezrównoważonych

Metody systemowe i decyzyjne w informatyce

Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu

7. Maszyny wektorów podpierajacych SVMs

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Sztuczna inteligencja : Algorytm KNN

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

5. Analiza dyskryminacyjna: FLD, LDA, QDA

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Metody systemowe i decyzyjne w informatyce

Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych

Rozpoznawanie obrazów

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Hierarchiczna analiza skupień

Selekcja cech. Wprowadzenie Metody selekcji cech. Przykład zastosowania. Miary niepodobieństwa. Algorytmy przeszukiwania

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Klasyfikacja naiwny Bayes

Metody systemowe i decyzyjne w informatyce

ALGORYTM RANDOM FOREST

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

1. Wprowadzenie Podejście wielomodelowe polega, ogólnie rzecz ujmując, na łączeniu (agregacji) M modeli bazowych. w jeden model zagregowany

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Wprowadzenie do klasyfikacji

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Systemy uczące się Lab 4

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

ED Laboratorium 3. Drzewa decyzyjne

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Klasyfikacja LDA + walidacja

Drzewa decyzyjne. Jak klasyfikować obiekty o cechach nominalnych (opisowych), tj. pochodzących ze skończonego zbioru, bez uporządkowania?

Wprowadzenie. Data Science Uczenie się pod nadzorem

Analiza danych. TEMATYKA PRZEDMIOTU

Rozpoznawanie obrazów

Badania w sieciach złożonych

Widzenie komputerowe (computer vision)

AUTOMATYKA INFORMATYKA

Metody Eksploracji Danych. Klasyfikacja

Wyk lad 8: Leniwe metody klasyfikacji

Jądrowe klasyfikatory liniowe

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Klasyfikacja z milionami etykiet

Wybrane zagadnienia uczenia maszynowego

ZESPOŁY KLASYFIKATORÓW - AKTUALNE KIERUNKI BADAŃ STRESZCZENIE

Modelowanie motywów łańcuchami Markowa wyższego rzędu


Transkrypt:

3 stycznia 2011

Problem klasyfikacji Polega na przewidzeniu dyskretnej klasy na podstawie cech obiektu. Obiekt jest reprezentowany przez wektor cech Zbiór etykiet jest skończony x X Ω = {ω 1, ω 2,..., ω l } Klasyfikator to funkcja przyporządkowująca obiektowi jego klasę D : X Ω Funkcje decyzyjne d i : X R, i = 1,..., c (1)

Drzewa decyzyjne Użyte klasyfikatory bazowe Metody multiklasyfikacyjne X 1 > 2 Tak Nie ω 1 X 2 > 3 Tak Nie ω 1 ω 2 Rysunek: Schemat struktury prostego drzewa decyzyjnego.

Użyte klasyfikatory bazowe Metody multiklasyfikacyjne Algorytm tworzenia drzewa decyzyjnego. [6] Utwórz korzeń drzewa. Zwiąż z nim cały zbiór uczący Dopóki są w drzewie istnieją węzły nieoznaczone: rozdziel dowolny nieoznaczony węzeł tak, by zmaksymalizować zysk informacyjny. Należy wybrać cechę oraz jej wartość tak, aby suma entropii zbiorów rozdzielonych tym warunkiem była jak najmniejsza. Oznacz węzły spełniające warunek stopu.

Użyte klasyfikatory bazowe Metody multiklasyfikacyjne Algorytm tworzenia drzewa decyzyjnego. [6] Utwórz korzeń drzewa. Zwiąż z nim cały zbiór uczący Dopóki są w drzewie istnieją węzły nieoznaczone: rozdziel dowolny nieoznaczony węzeł tak, by zmaksymalizować zysk informacyjny. Należy wybrać cechę oraz jej wartość tak, aby suma entropii zbiorów rozdzielonych tym warunkiem była jak najmniejsza. Oznacz węzły spełniające warunek stopu.

Użyte klasyfikatory bazowe Metody multiklasyfikacyjne Algorytm tworzenia drzewa decyzyjnego. [6] Utwórz korzeń drzewa. Zwiąż z nim cały zbiór uczący Dopóki są w drzewie istnieją węzły nieoznaczone: rozdziel dowolny nieoznaczony węzeł tak, by zmaksymalizować zysk informacyjny. Należy wybrać cechę oraz jej wartość tak, aby suma entropii zbiorów rozdzielonych tym warunkiem była jak najmniejsza. Oznacz węzły spełniające warunek stopu.

Metody fuzji Użyte klasyfikatory bazowe Metody multiklasyfikacyjne Fuzja etykiet Wyjściami klasyfikatorów z puli bazowej są etykiety klasowe. Na ich podstawie tworzona jest decyzja systemu. Głosowanie większościowe[1]. Głosowanie z większością kwalifikowaną[6]. Głosowanie ważone[6]. Fuzja wsparć Klasyfikatory z puli bazowej zwracają wektor wsparć. Metody nietrenowalne, np. średnia arytmetyczna wsparć µ j (x) = 1 L Li=1 d i,j (x) Metody trenowalne, m. in. metody szablonów decyzyjnych (decision templates)

Metody selekcji Użyte klasyfikatory bazowe Metody multiklasyfikacyjne Metody a priori Dynamic Classifier Selection Local Accuracy[9]. Metoda funkcji potencjału [7] Metody a posteriori Dynamic Classifier Selection Local Class Accuracy[9] Algorytm a posteriori [3]

Użyte klasyfikatory bazowe Metody multiklasyfikacyjne Metody dynamicznego wyboru zespołu. DES[5] selekcja podzbioru kompetentnych klasyfikatorów z puli fuzja wyjść klasyfikatorów z podzbioru

Funkcje kompetencji Projekt i implementacja Multiklasyfikator z funkcją kompetencji jest złożony z puli klasyfikatorów bazowych zbioru walidacyjnego, stanowiącego bazę wiedzy metody wyznaczania funkcji kompetencji metody rozprowadzania funkcji kompetencji po całej przestrzeni cech nadrzędnej reguły decyzyjnej wykorzystującej powyższe

Funkcje kompetencji Projekt i implementacja Multiklasyfikator z funkcją kompetencji jest złożony z puli klasyfikatorów bazowych zbioru walidacyjnego, stanowiącego bazę wiedzy metody wyznaczania funkcji kompetencji metody rozprowadzania funkcji kompetencji po całej przestrzeni cech nadrzędnej reguły decyzyjnej wykorzystującej powyższe

Funkcje kompetencji Projekt i implementacja Multiklasyfikator z funkcją kompetencji jest złożony z puli klasyfikatorów bazowych zbioru walidacyjnego, stanowiącego bazę wiedzy metody wyznaczania funkcji kompetencji metody rozprowadzania funkcji kompetencji po całej przestrzeni cech nadrzędnej reguły decyzyjnej wykorzystującej powyższe

Funkcje kompetencji Projekt i implementacja Multiklasyfikator z funkcją kompetencji jest złożony z puli klasyfikatorów bazowych zbioru walidacyjnego, stanowiącego bazę wiedzy metody wyznaczania funkcji kompetencji metody rozprowadzania funkcji kompetencji po całej przestrzeni cech nadrzędnej reguły decyzyjnej wykorzystującej powyższe

Funkcje kompetencji Projekt i implementacja Multiklasyfikator z funkcją kompetencji jest złożony z puli klasyfikatorów bazowych zbioru walidacyjnego, stanowiącego bazę wiedzy metody wyznaczania funkcji kompetencji metody rozprowadzania funkcji kompetencji po całej przestrzeni cech nadrzędnej reguły decyzyjnej wykorzystującej powyższe

Funkcje kompetencji Projekt i implementacja Propozycje funkcji kompetencji MINDIFF FC FC2 ENT C src (D x) = min j l(x) d l((x)) d j (2) C FC src (D x) = 2d l(x) max i d i min i d i max i d i min i d i (3) C FC2 src (D x) = 2d l(x) max Csrc ENT (D x) = Csrc FC (D x)(1 + i d i min i d i (4) c d i log l d i ) (5) i=1

Funkcje kompetencji Projekt i implementacja Metody rozprowadzania funkcji kompetencji uśrednianie po k najbliższych sąsiadach uśrednianie po k najbliższych sąsiadach opatrzonych odpowiednią etykietą uśrednianie z wagą zależną od odległości poszczególnych sąsiadów metody funkcji potencjału

Założenia techniczne Funkcje kompetencji Projekt i implementacja platforma Java/Weka multiklasyfikator oraz funkcje kompetencji zaprojektowane jako osobne klasy. Wykorzystano wzorzec projektowy Strategii. testy przeprowadzone przy wykorzystaniu modułu Weka/Experimenter

Diagram klas Funkcje kompetencji Projekt i implementacja

Użyte bazy benchmarkowe W pracy korzystano z repozytorium UCI Machine Learning Repository[2] Baza Il. obiektów Il. cech Il. klas Breast C.W. 699 9 2 Glass 214 9 6 Wine 178 13 3 Vowel 990 10 11 Iris 150 4 3 Segmentation 990 10 11 Tabela: Opis użytych baz benchmarkowych

Parametry porównywanych systemów Stałe parametry wszystkich multiklasyfikatorów to: Wielkośc frakcji zbioru uczącego dla pojedynczego klasyfikatora z puli bazowej ustalono na 80%. Wielkość frakcji zbioru walidacyjnego ustalono na 60%. W każdym przypadku pula klasyfikatorów bazowych składała się z dziesięciu drzew decyzyjnych.

Wyniki. Drzewa BFTree[8], [4] Tabela: Eksperymentalne porównanie multiklasyfikatorów działających w oparciu o różne funkcji kompetencji. Pula klasyfikatorów bazowych złożona jest z drzew BFTree Zbiory BAGG DEG ENT OT OT1 MIN EXP APR DCS-LA SB RRC2 RRC breast C.W. 95.50 95.71 95.68 95.70 95.67 95.67 93.56* 95.64 95.64 94.69 93.65* 93.61* glass 73.94 74.35 74.64 74.45 74.60 74.40 74.50 74.55 74.50 67.27* 74.54 74.31 iris 94.53 94.67 94.67 94.67 94.73 94.67 94.73 94.67 94.67 94.53 94.40 94.67 segment 96.12 96.18 96.28 96.31 96.35 96.39 96.15 96.27 96.16 94.55* 96.07 96.18 vowel 84.40 85.51v 86.51v 86.56v 86.71v 86.92v 84.92 86.01v 85.42v 74.06* 84.38 84.91 wine 94.59 94.99 95.05 95.04 95.10 95.10 94.99 95.04 94.88 92.76 93.98 94.93 średnia 89.85 90.23 90.47 90.45 90.53 90.52 89.81 90.36 90.21 86.31 89.50 89.77

Wyniki. Drzewa REPTree3CV[4] Tabela: Eksperymentalne porównanie multiklasyfikatorów działających w oparciu o różne funkcji kompetencji. Pula klasyfikatorów bazowych złożona jest z drzew REPTree3CV Zbiory SB DEG ENT OT OT1 MIN EXP APR DCS-LA RRC1 RRC2 breast C.W 94.81 96.10 96.07 96.12 96.05 96.05 94.08 96.01 96.05 93.75 94.11 glass 66.13 70.47 70.85 71.19 71.75 72.49v 69.53 70.28 70.29 68.56 69.44 iris 94.53 94.00 94.07 94.13 94.13 94.13 94.20 94.00 94.00 94.13 94.20 segment 94.59 95.92v 96.34v 96.35v 96.35v 96.42v 95.83v 96.14v 95.94v 95.56 95.87v vowel 67.27 82.66v 85.92v 86.02v 86.14v 86.44v 80.16v 83.33v 82.45v 79.43v 80.00v wine 91.17 94.59 94.60 94.76 94.88 94.82 94.36 94.59 94.42 92.58 94.42 średnia 84.75 88.96 89.64 89.76 89.88 90.06 88.03 89.06 88.86 87.34 88.01

Wyniki. Drzewa REPTreeUP[4] Tabela: Eksperymentalne porównanie multiklasyfikatorów działających w oparciu o różne funkcji kompetencji. Pula klasyfikatorów bazowych złożona jest z drzew REPTreeUP Zbiory SB DEG ENT OT OT1 MIN EXP APR DCS-LA RRC1 RRC2 breast C.W. 94.69 95.87 95.81 95.87 95.78 95.78 93.91 95.80 95.82 93.19 93.94 glass 68.31 73.07 73.31 73.12 73.17 73.03 73.45 73.26 73.45 72.55 73.16 iris 94.40 94.73 94.60 94.60 94.60 94.73 94.80 94.73 94.67 94.80 94.87 segment 95.36 96.67v 96.80v 96.79v 96.78v 96.77v 96.65v 96.71v 96.65v 96.65v 96.61v vowel 77.58 87.93v 88.31v 88.23v 88.37v 88.36v 87.33v 87.96v 87.83v 87.04v 87.38v wine 92.92 94.67 94.84 94.67 94.78 94.78 94.90 94.78 94.67 93.77 94.78 średnia 87.21 90.49 90.61 90.55 90.58 90.58 90.17 90.54 90.51 89.67 90.12

Dywersyfikacja puli znacznie poprawia działanie multiklasyfikatora Zastosowanie funkcji kompetencji zwiększa dokładność multiklasyfikatora Poprawnienie działania przez zastosowanie funkcji kompetencji jest zależne od: zastosowanych klasyfikatorów bazowych zbioru danych

Do dalszej lektury I Leo Breiman. Bagging predictors. Machine Learning, 24(2):123 140, 1996. A. Frank, A. Asuncion. UCI machine learning repository, 2010. Giorgio Giacinto, Fabio Roli. Methods for Dynamic Classifier Selection. Lecture, 1999. Mark Hall, Eibe Frank. The weka data mining software: An update. SIGKDD Explorations, 2009.

Do dalszej lektury II Albert H.R. Ko, Robert Sabourina, Alceu Souza Britto Jr. From dynamic classifier selection to dynamic ensemble selection. Pattern Recognition, 2008. Ludmila I. Kuncheva. Combining Pattern Classifiers Methods and Algorithms. John Wiley & Sons, Inc., Hoboken, New Jersey, wydanie 1st 2004. L. A. Rastrigin, R. H. Erenstein. Method of Collective Recognition. Energoizdat, Moscow, 1981.

Do dalszej lektury III Haijian Shi. Best-first decision tree learning. Praca magisterska, Department of Computer Science, University of Waikato, 2007. Kevin Woods, Philip W. Kegelmeyer, Kevin W. Bowyer. Combination of multiple classifiers using local accuracy estimates. IEEE Trans. Pattern Anal. Mach. Intell., 19(4):405 410, 1997.