Rozszerzenia klasyfikatorów złożonych dla danych niezrównoważonych

Podobne dokumenty
Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski

Drzewa decyzyjne i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Dariusz Brzeziński. Politechnika Poznańska

Multiklasyfikatory z funkcją kompetencji

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Odkrywanie wiedzy klasyfikacyjnej z niezrównoważonych danych

Badania w zakresie systemów uczących się w Zakładzie ISWD. Politechnika Poznańska Instytut Informatyki

Taksonomia 20. Klasyfikacja i analiza danych teoria i zastosowania. Krzysztof Jajuga Marek Walesiak

Odkrywanie wiedzy klasyfikacyjnej inne metody oraz metodyka oceny

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Budowa modeli klasyfikacyjnych o skośnych warunkach

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

ALGORYTM RANDOM FOREST

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - przegląd literatury

Optymalizacja ciągła

METODY INŻYNIERII WIEDZY

XGBOOST JAKO NARZĘDZIE PROGNOZOWANIA SZEREGÓW CZASOWYCH

Metody klasyfikacji danych - część 1 p.1/24

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Jakość uczenia i generalizacja

Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Kombinacja jądrowych estymatorów gęstości w klasyfikacji kontynuacja prac

Konferencja Statystyka Matematyczna Wisła 2013

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

10. Redukcja wymiaru - metoda PCA

Zaawansowana eksploracja danych: Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

O MOŻLIWOŚCIACH WYKORZYSTANIA ROTACYJNEGO LASU W BADANIACH RYNKOWYCH I MARKETINGOWYCH THE POSSIBILITY OF USE OF ROTATION FOREST IN MARKETING SURVEYS

PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu

2. Empiryczna wersja klasyfikatora bayesowskiego

METODY INŻYNIERII WIEDZY

9. Praktyczna ocena jakości klasyfikacji

Metody konstrukcji oraz symulacyjne badanie właściwości jednorodnych i niejednorodnych komitetów klasyfikatorów

A Zadanie

Plan. Sztuczne systemy immunologiczne. Podstawowy słownik. Odporność swoista. Architektura systemu naturalnego. Naturalny system immunologiczny

WYKŁAD 6. Reguły decyzyjne

Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Redukcja wymiarowości i selekcja cech w zadaniach klasyfikacji i regresji z wykorzystaniem uczenia maszynowego

Mateusz Kobos Seminarium z Metod Inteligencji Obliczeniowej, MiNI PW

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech. Piotr Porwik Uniwersytet Śląski w Katowicach

Algorytmy klasyfikacji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Widzenie komputerowe (computer vision)

Blokowe i przyrostowe klasyfikatory złożone dla strumieni danych ze zmienną definicją klas

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Komitety sieci konwolucyjnych w zagadnieniu klasyfikacji przy jednoczesnym zaszumieniu danych wejściowych oraz etykiet klas. Stanisław Kaźmierczak

Kognitywne hierarchiczne aktywne podziały. Arkadiusz Tomczyk.

Sprawozdanie z zadania Modele predykcyjne (2)

Monte Carlo, bootstrap, jacknife

Lingwistyczne podsumowania baz danych.inteligentne generowanie s

Badania w sieciach złożonych

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Nowe narzędzia pozycjonowania uczelni założenia U-Map i U-Multirank. Szansa, czy zagrożenie dla polskich uczelni?

Transformaty w klasyfikacji szeregów czasowych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Systemy uczące się wykład 2

Opisy przedmiotów do wyboru

Algorytmy estymacji stanu (filtry)

Architektury i technologie integracji danych

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

JAKOŚĆ DANYCH Z PERSPEKTYWY SYSTEMÓW WSPOMAGANIA DECYZJI KLINICZNYCH. Dr hab. inż. Szymon Wilk Politechnika Poznańska Instytut Informatyki

Mail: Pokój 214, II piętro

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Szacowanie ryzyka z wykorzystaniem zmiennej losowej o pramatkach rozmytych w oparciu o język BPFPRAL

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

Badania w zakresie sztucznej inteligencji na Politechnice Poznańskiej

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Inteligentne systemy informacyjne

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

ZASTOSOWANIE ODCINKOWO-LINIOWEGO MINIMODELU DO MODELOWANIA PRODUKCJI SPRZEDANEJ PRZEMYSŁU

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

dr Anna Matuszyk PUBLIKACJE: CeDeWu przetrwania w ocenie ryzyka kredytowego klientów indywidualnych Profile of the Fraudulelent Customer

Machine learning Lecture 2

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Transkrypt:

klasyfikatorów złożonych dla danych niezrównoważonych Marcin Szajek Politechnika Poznańska, Instytut Informatyki 23.04.2013 Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 1 / 30

Plan prezentacji Wstęp 1 Wstęp 2 3 Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 2 / 30

Uczenie nadzorowane Wstęp Klasyfiaktor: dane uczące + algorytm uczący Zbiór par (x i, y i ) Cel: stworzenie funkcji f: f (x) = y y Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 3 / 30

Dane niezrównoważone Wstęp Nierówne liczności klas Klasyfikatory zwykle opierają się o globalną trafność poprawna miara? Przykładowe zastosowania: Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 4 / 30

Dane niezrównoważone Wstęp Nierówne liczności klas Klasyfikatory zwykle opierają się o globalną trafność poprawna miara? Przykładowe zastosowania: wykrywanie awarii wykrywanie rzadkich chorób wykrywanie plam oleju Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 4 / 30

yeast-me Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 5 / 30

HSV Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 6 / 30

Klasyfikatory złożone Wstęp Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners) Uzgadnianie decyzji różne podejścia: Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 7 / 30

Klasyfikatory złożone Wstęp Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners) Uzgadnianie decyzji różne podejścia: proste głosowanie ważenie decyzji metaklasyfikator Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 7 / 30

Klasyfikatory złożone Wstęp Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners) Uzgadnianie decyzji różne podejścia: proste głosowanie ważenie decyzji metaklasyfikator Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 7 / 30

Klasyfikatory złożone - rodzaje Heterogeniczne różne klasyfikatory bazowe Homogeniczne różne zbiory uczące Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 8 / 30

Klasyfikatory złożone - rodzaje Heterogeniczne różne klasyfikatory bazowe Homogeniczne różne zbiory uczące Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 8 / 30

Klasyfikatory złożone - rodzaje Heterogeniczne różne klasyfikatory bazowe Homogeniczne różne zbiory uczące Główne rodziny: bagging boosting Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 8 / 30

Bagging (L.Breiman, 1996) Bootstrap aggregating próbki uczące oparte o losowanie ze zwracaniem wielu całkowicie niezależnych ekspertów Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 9 / 30

Boosting (Schapire 1990) Budowany sekwencyjnie Losowanie z wagami Tworzenie ekspertów dla trudnych danych Najbardziej znany AdaBoost Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 10 / 30

Podział metod wg M.Galar i in. Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics Part C, vol. 42 (4), 463 484 (2011). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 11 / 30

Exactly Balanced Bagging (Tao) Wielkość próbki ustalana na 2*liczność klasy mniejszościowej Cała klasa mniejszościowa w próbce Obiekty z klasy większościowej losowane Efekt: każdy klasyfikator bazowy umie rozpoznawać klasę mniejszościową Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 12 / 30

Roughly Balanced Bagging (S Hido, H Kashima) Zmienna wielkość próbki bootstrapowej dla każdej z klas Klasa losowana z ujemnego rozkładu dwumianowego (negative binominal) Obiekty z wylosowanej klasy losowane z rozkładu jednorodnego Bliżej oryginalnego zamysłu baggingu Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 13 / 30

Porównanie (G-mean) Wstęp Data set RBB RBB w/r EBB Bagging C4.5 Diabetes 76.2 77.2 74.7 71.2 67.6 Breast 95.7 95.7 95.1 95.4 94.1 German 70.1 69.9 67.9 60.4 56.3 E-Coli 89.3 88.9 88.3 74.1 69.5 Satimage 87.6 87.5 88.1 73.9 72.5 Flag 55.4 47.4 54.0 0.0 0.0 Glass 92.9 92.8 92.5 87.9 89.5 Letter-A 98.7 98.7 98.6 97.4 97.7 RealF 72.4 72.8 72.8 56.4 55.4 Hido, S., Kashima, H.: Roughly Balanced Bagging for Imbalanced Data. Statistical Analysis and Data Mining vol. 2 (5-6), 412-426 (2009). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 14 / 30

Local-and-Over-All Balanced Bagging (Błaszczyński, Stefanowski, Idkowiak) Rozszerzenie RBBag Modyfikacja prawdopodobieństwa wylosowania przykładu Lokalne sąsiedztwo zamiast globalnego niezrównoważenia Wyniki porównywalne (a czasem lepsze) od RBB Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 15 / 30

Porównanie (G-mean) Wstęp data set RBBag L-O-ABBag abdominal pain 81.04 80.73 acl-m 88.97 88.65 breast-w 96.12 96.47 bupa 71.97 69.45 german credit 87.07 67.94 ecoli 71.84 89.04 flags 67.23 74.04 haberman 64.17 50.74 hepatitis 80.29 75.04 ionosphere 90.75 90.91 scrotal pain 74.43 74.16 vehicle 95.23 96.2 yeast-m2 85.57 85.06 Stefanowski, J., Błaszczyński, J., Idkowiak, Ł.: Extending Bagging for Imbalanced Data. Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 16 / 30

OverBagging Wstęp Zmiana na poziomie zbioru danych wejściowych nadlosowywanie (oversampling) + bagging Wada łatwo dochodzi do przeuczenia Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 17 / 30

SMOTEBagging (Wang, Yao) Odpowiedź na wadę OverBaggingu SMOTE zamiast nadlosowywania Czy tworzenie syntetycznych przykładów jest dobre? Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 18 / 30

Porównanie Wstęp Glass G-mean Overall Q-statistics Over 0.927 0.664 SMOTE 0.960 0.621 Yeast G-mean Overall Q-statistics Over 0.941 0.675 SMOTE 0.969 0.615 Wang, S., Yao, T.: Diversity analysis on imbalanced data sets by using ensemble models. In Proc. IEEE Symp. Comput. Intell. Data Mining, 324-331 (2009). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 19 / 30

AdaCost (Fan, Stolfo, Zhang, Chan) Rozszerzenie AdaBoost Inna funkcja zmiany wag dla klasy mniejszościowej niż dla większościowej Większy wzrost wag i mniejszy spadek dla klasy mniejszościowej Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 20 / 30

Porównanie (Percentage Cumulative Loss) Data set cripper AdaBoost AdaCost hypothyroid 2.5 2.6 2.2 boolean 16.0 10.5 6.9 dis 5.8 6.0 4.9 crx 10.1 10.2 8.6 breast cancer 3.7 3.7 2.7 wpbc 32.0 30.8 25.4 Fan, W., Stolfo, S., Zhang, J., Chan, P.: AdaCost: Misclassification Cost-sensitive Boosting. In Proc. 16th International Conf. on Machine Learning, 97-105 (1999). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 21 / 30

SMOTEBoost (Chavla) Wstęp Rozszerzenie AdaBoost W każdej rundzie Boosting syntetyczne nadlosowywanie Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 22 / 30

SMOTEBoost (Chavla) Wstęp Rozszerzenie AdaBoost W każdej rundzie Boosting syntetyczne nadlosowywanie Wady: duża złożoność i syntetyczne dane Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 22 / 30

Porównanie (miara F) Wstęp Data set RIPPER SMOTE Boosting SMOTEBoost KDDCup-99 68.42 84.17 84.83 88.8 mammography 58.11 61.31 66.89 68.36 Satimage 55.50 59.97 67.78 70.19 phoneme 65.15 68.89 76.55 77.37 Chawla, N., Lazarevic, A., Hall, L., Bowyer, K.: SMOTEBoost: Improving Prediction of the Minority Class in Boosting. In Proc. Principles of Knowledge Discovery in Databases, PKDD-2003, 107-119 (2002). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 23 / 30

RUSBoost (Seiffert, Khoshgoftaar) Random UnderSampling Boosting Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 24 / 30

RUSBoost (Seiffert, Khoshgoftaar) Random UnderSampling Boosting Odpowiedź na SMOTEBoost Mniejsza złożoność, podobna jakość rozwiązań Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 24 / 30

DataBoost-IM (Guo, Viktor) DataBoost for IMbalanced Wyszkuwanie trudnych przykładów Synteza obiektów na podstawie trudnych przykładów (z obu klas) Zacieranie różnic przez zwiększanie zbioru Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 25 / 30

Porównanie (G-mean) Wstęp Data set C4.5 AdaBoost SMOTEBoost DataBoost-IM glass 85.9 89.4 91.1 92.3 satimage 72.7 77.0 75.6 80.4 vowel 95.8 97.6 98.7 99.3 sick 93.0 94.2 95.5 95.9 abalone 50.8 59.0 56.9 61.1 yeast 22.3 66.6 67.5 66.9 primary-tumor 0.00 37.5 37.3 52.6 oil 55.8 55.8 67.5 67.7 Guo, H., Viktor, H.: Learning from Imbalanced Data Sets with Boosting and Data Generation: The DataBoost-IM Approach. SIGKDD Explorations (2004). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 26 / 30

Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski, Wilk) Ivotes + SPIDER Modyfikacja ( czyszczenie ) próbki uczącej: Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 27 / 30

Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski, Wilk) Ivotes + SPIDER Modyfikacja ( czyszczenie ) próbki uczącej: nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 27 / 30

Wyniki eksperymentów Wstęp Błaszczyński, J., Deckert, M., Stefanowski, J., Wilk, S.: IIvotes ensemble for imbalanced data. Intell. Data Anal. 16(5): 777-801 (2012). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 28 / 30

Wnioski z eksperymentów SMOTEBagging i RUSBoost zachowują się najlepiej dla danych niezrównoważonych Prostsze metody nie tracą w stosunku do metod bardziej złożonych Bagging > Boosting Liczba klasyfikatorów bazowych zależna od metody Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics Part C, vol. 42 (4), 463 484 (2011). Khoshgoftaar T., Van Hulse J., Napolitano A.: Comparing boosting and bagging techniques with noisy and imbalanced data. IEEE Transactions on Systems, Man, and Cybernetics Part A, 41 (3), 552 568 (2011). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 29 / 30

Wstęp Dane niezrównoważone ważny problem Wykorzystanie klasyfikatorów złożonych Wiele rozszerzeń (wady i zalety) Dalsze prace bagging (lepsze wyniki) Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 30 / 30