klasyfikatorów złożonych dla danych niezrównoważonych Marcin Szajek Politechnika Poznańska, Instytut Informatyki 23.04.2013 Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 1 / 30
Plan prezentacji Wstęp 1 Wstęp 2 3 Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 2 / 30
Uczenie nadzorowane Wstęp Klasyfiaktor: dane uczące + algorytm uczący Zbiór par (x i, y i ) Cel: stworzenie funkcji f: f (x) = y y Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 3 / 30
Dane niezrównoważone Wstęp Nierówne liczności klas Klasyfikatory zwykle opierają się o globalną trafność poprawna miara? Przykładowe zastosowania: Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 4 / 30
Dane niezrównoważone Wstęp Nierówne liczności klas Klasyfikatory zwykle opierają się o globalną trafność poprawna miara? Przykładowe zastosowania: wykrywanie awarii wykrywanie rzadkich chorób wykrywanie plam oleju Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 4 / 30
yeast-me Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 5 / 30
HSV Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 6 / 30
Klasyfikatory złożone Wstęp Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners) Uzgadnianie decyzji różne podejścia: Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 7 / 30
Klasyfikatory złożone Wstęp Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners) Uzgadnianie decyzji różne podejścia: proste głosowanie ważenie decyzji metaklasyfikator Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 7 / 30
Klasyfikatory złożone Wstęp Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners) Uzgadnianie decyzji różne podejścia: proste głosowanie ważenie decyzji metaklasyfikator Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 7 / 30
Klasyfikatory złożone - rodzaje Heterogeniczne różne klasyfikatory bazowe Homogeniczne różne zbiory uczące Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 8 / 30
Klasyfikatory złożone - rodzaje Heterogeniczne różne klasyfikatory bazowe Homogeniczne różne zbiory uczące Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 8 / 30
Klasyfikatory złożone - rodzaje Heterogeniczne różne klasyfikatory bazowe Homogeniczne różne zbiory uczące Główne rodziny: bagging boosting Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 8 / 30
Bagging (L.Breiman, 1996) Bootstrap aggregating próbki uczące oparte o losowanie ze zwracaniem wielu całkowicie niezależnych ekspertów Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 9 / 30
Boosting (Schapire 1990) Budowany sekwencyjnie Losowanie z wagami Tworzenie ekspertów dla trudnych danych Najbardziej znany AdaBoost Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 10 / 30
Podział metod wg M.Galar i in. Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics Part C, vol. 42 (4), 463 484 (2011). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 11 / 30
Exactly Balanced Bagging (Tao) Wielkość próbki ustalana na 2*liczność klasy mniejszościowej Cała klasa mniejszościowa w próbce Obiekty z klasy większościowej losowane Efekt: każdy klasyfikator bazowy umie rozpoznawać klasę mniejszościową Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 12 / 30
Roughly Balanced Bagging (S Hido, H Kashima) Zmienna wielkość próbki bootstrapowej dla każdej z klas Klasa losowana z ujemnego rozkładu dwumianowego (negative binominal) Obiekty z wylosowanej klasy losowane z rozkładu jednorodnego Bliżej oryginalnego zamysłu baggingu Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 13 / 30
Porównanie (G-mean) Wstęp Data set RBB RBB w/r EBB Bagging C4.5 Diabetes 76.2 77.2 74.7 71.2 67.6 Breast 95.7 95.7 95.1 95.4 94.1 German 70.1 69.9 67.9 60.4 56.3 E-Coli 89.3 88.9 88.3 74.1 69.5 Satimage 87.6 87.5 88.1 73.9 72.5 Flag 55.4 47.4 54.0 0.0 0.0 Glass 92.9 92.8 92.5 87.9 89.5 Letter-A 98.7 98.7 98.6 97.4 97.7 RealF 72.4 72.8 72.8 56.4 55.4 Hido, S., Kashima, H.: Roughly Balanced Bagging for Imbalanced Data. Statistical Analysis and Data Mining vol. 2 (5-6), 412-426 (2009). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 14 / 30
Local-and-Over-All Balanced Bagging (Błaszczyński, Stefanowski, Idkowiak) Rozszerzenie RBBag Modyfikacja prawdopodobieństwa wylosowania przykładu Lokalne sąsiedztwo zamiast globalnego niezrównoważenia Wyniki porównywalne (a czasem lepsze) od RBB Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 15 / 30
Porównanie (G-mean) Wstęp data set RBBag L-O-ABBag abdominal pain 81.04 80.73 acl-m 88.97 88.65 breast-w 96.12 96.47 bupa 71.97 69.45 german credit 87.07 67.94 ecoli 71.84 89.04 flags 67.23 74.04 haberman 64.17 50.74 hepatitis 80.29 75.04 ionosphere 90.75 90.91 scrotal pain 74.43 74.16 vehicle 95.23 96.2 yeast-m2 85.57 85.06 Stefanowski, J., Błaszczyński, J., Idkowiak, Ł.: Extending Bagging for Imbalanced Data. Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 16 / 30
OverBagging Wstęp Zmiana na poziomie zbioru danych wejściowych nadlosowywanie (oversampling) + bagging Wada łatwo dochodzi do przeuczenia Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 17 / 30
SMOTEBagging (Wang, Yao) Odpowiedź na wadę OverBaggingu SMOTE zamiast nadlosowywania Czy tworzenie syntetycznych przykładów jest dobre? Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 18 / 30
Porównanie Wstęp Glass G-mean Overall Q-statistics Over 0.927 0.664 SMOTE 0.960 0.621 Yeast G-mean Overall Q-statistics Over 0.941 0.675 SMOTE 0.969 0.615 Wang, S., Yao, T.: Diversity analysis on imbalanced data sets by using ensemble models. In Proc. IEEE Symp. Comput. Intell. Data Mining, 324-331 (2009). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 19 / 30
AdaCost (Fan, Stolfo, Zhang, Chan) Rozszerzenie AdaBoost Inna funkcja zmiany wag dla klasy mniejszościowej niż dla większościowej Większy wzrost wag i mniejszy spadek dla klasy mniejszościowej Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 20 / 30
Porównanie (Percentage Cumulative Loss) Data set cripper AdaBoost AdaCost hypothyroid 2.5 2.6 2.2 boolean 16.0 10.5 6.9 dis 5.8 6.0 4.9 crx 10.1 10.2 8.6 breast cancer 3.7 3.7 2.7 wpbc 32.0 30.8 25.4 Fan, W., Stolfo, S., Zhang, J., Chan, P.: AdaCost: Misclassification Cost-sensitive Boosting. In Proc. 16th International Conf. on Machine Learning, 97-105 (1999). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 21 / 30
SMOTEBoost (Chavla) Wstęp Rozszerzenie AdaBoost W każdej rundzie Boosting syntetyczne nadlosowywanie Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 22 / 30
SMOTEBoost (Chavla) Wstęp Rozszerzenie AdaBoost W każdej rundzie Boosting syntetyczne nadlosowywanie Wady: duża złożoność i syntetyczne dane Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 22 / 30
Porównanie (miara F) Wstęp Data set RIPPER SMOTE Boosting SMOTEBoost KDDCup-99 68.42 84.17 84.83 88.8 mammography 58.11 61.31 66.89 68.36 Satimage 55.50 59.97 67.78 70.19 phoneme 65.15 68.89 76.55 77.37 Chawla, N., Lazarevic, A., Hall, L., Bowyer, K.: SMOTEBoost: Improving Prediction of the Minority Class in Boosting. In Proc. Principles of Knowledge Discovery in Databases, PKDD-2003, 107-119 (2002). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 23 / 30
RUSBoost (Seiffert, Khoshgoftaar) Random UnderSampling Boosting Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 24 / 30
RUSBoost (Seiffert, Khoshgoftaar) Random UnderSampling Boosting Odpowiedź na SMOTEBoost Mniejsza złożoność, podobna jakość rozwiązań Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 24 / 30
DataBoost-IM (Guo, Viktor) DataBoost for IMbalanced Wyszkuwanie trudnych przykładów Synteza obiektów na podstawie trudnych przykładów (z obu klas) Zacieranie różnic przez zwiększanie zbioru Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 25 / 30
Porównanie (G-mean) Wstęp Data set C4.5 AdaBoost SMOTEBoost DataBoost-IM glass 85.9 89.4 91.1 92.3 satimage 72.7 77.0 75.6 80.4 vowel 95.8 97.6 98.7 99.3 sick 93.0 94.2 95.5 95.9 abalone 50.8 59.0 56.9 61.1 yeast 22.3 66.6 67.5 66.9 primary-tumor 0.00 37.5 37.3 52.6 oil 55.8 55.8 67.5 67.7 Guo, H., Viktor, H.: Learning from Imbalanced Data Sets with Boosting and Data Generation: The DataBoost-IM Approach. SIGKDD Explorations (2004). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 26 / 30
Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski, Wilk) Ivotes + SPIDER Modyfikacja ( czyszczenie ) próbki uczącej: Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 27 / 30
Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski, Wilk) Ivotes + SPIDER Modyfikacja ( czyszczenie ) próbki uczącej: nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 27 / 30
Wyniki eksperymentów Wstęp Błaszczyński, J., Deckert, M., Stefanowski, J., Wilk, S.: IIvotes ensemble for imbalanced data. Intell. Data Anal. 16(5): 777-801 (2012). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 28 / 30
Wnioski z eksperymentów SMOTEBagging i RUSBoost zachowują się najlepiej dla danych niezrównoważonych Prostsze metody nie tracą w stosunku do metod bardziej złożonych Bagging > Boosting Liczba klasyfikatorów bazowych zależna od metody Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics Part C, vol. 42 (4), 463 484 (2011). Khoshgoftaar T., Van Hulse J., Napolitano A.: Comparing boosting and bagging techniques with noisy and imbalanced data. IEEE Transactions on Systems, Man, and Cybernetics Part A, 41 (3), 552 568 (2011). Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 29 / 30
Wstęp Dane niezrównoważone ważny problem Wykorzystanie klasyfikatorów złożonych Wiele rozszerzeń (wady i zalety) Dalsze prace bagging (lepsze wyniki) Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 30 / 30