Konstruowanie klasykatorów reguªowych z niezrównowa»onych danych Streszczenie rozprawy doktorskiej 1 Wst p 1.1 Kontekst pracy Rozprawa dotyczy problemu klasykacji, w którym celem jest przypisanie obiektu (przykªadu) do jednej z klas decyzyjnych. Przykªady opisane s za pomoc atrybutów warunkowych, które mog przyjmowa warto±ci liczbowe, porz dkowe lub nominalne. Dodatkowo, w przypadku uczenia nadzorowanego (którego dotyczy ta praca), dla przykªadów ucz cych znana jest warto± atrybutu decyzyjnego, okre±laj cego przydziaª przykªadu do klasy. Zadanie uczenia jest deniowane jako stworzenie klasykatora, który powinien jak najlepiej przewidywa warto± atrybutu decyzyjnego dla nowych obiektów w oparciu o warto±ci atrybutów warunkowych. Praca dotyczy konstruowania klasykatorów reguªowych, w których wiedza jest reprezentowana w postaci reguª decyzyjnych postaci je»eli (atrybuty warunkowe) to (decyzja) Zajmujemy si reprezentacj reguªow z kilku powodów. Po pierwsze, uwa»a si»e reprezentacja ta jest bardziej naturalna i czytelna dla czªowieka ni» inne reprezentacje, takie jak sieci neuronowe czy metoda wektorów wspieraj cych (ang. support vector machines). Ponadto, pojedyncze reguªy stanowi bloki wiedzy, które mog by analizowane niezale»nie. Intuicyjna reprezentacja wiedzy jest szczególnie przydatna w takich dziedzinach jak medycyna, nanse czy prawo, gdzie bardzo istotne jest by ekspert wykorzystuj cy klasykator rozumiaª decyzje przez niego podejmowane. Niniejsza rozprawa dotyczy problemu klasykacji nadzorowanej, gdy zbiór danych ucz cych jest niezrównowa»ony, to znaczy przykªady reprezentuj ce jedn z klas (tzw. klas mniejszo±ciow ) s du»o mniej liczniejsze ni» przykªady z pozostaªych klas (nazywanych klasami mniejszo±ciowymi ). Co wi cej, klasa mniejszo±ciowa jest zwykle wa»niejsza ni» pozostaªe klasy, to znaczy nierozpoznanie przykªadów mniejszo±ciowych ma du»o powa»niejsze konsekwencje dla u»ytkownika ni» powstanie tzw. faªszywego alarmu (gdy przykªad z klasy wi kszo±ciowej zostanie przypisany do klasy mniejszo±ciowej). 1
Zauwa»my,»e taka sytuacja wyst puje w wielu problemach uczenia. W zastosowaniach medycznych, celem uczenia mo»e by rozpoznanie rzadkiej choroby. Dane ucz ce, b d ce historycznymi danymi pacjentów, b d zawieraªy bardzo du»o opisów przypadków w których nie wykryto danej choroby, a tylko kilka opisów b dzie dotyczyªo pacjentów z jej rozpoznaniem. Jednocze±nie, niepoprawne zdiagnozowanie osoby chorej i niepodj cie leczenia jest bardziej krytyczne ni» rozpoznanie choroby u osoby zdrowej, u której diagnoza mo»e by skorygowana w trakcie kolejnych bada«. Podobna sytuacja ma miejsce w przypadku zastosowa«w bankowo±ci (wykrywanie nadu»y nansowych, wykrywanie niepoprawnych operacji wykonanych za pomoc kart kredytowych), diagnostyce technicznej (wykrywanie awarii) czy informatyce (ltrowanie dokumentów, wykrywanie spamu). Uczenie z niezrównowa»onych danych jest istotnym problemem badawczym, poniewa» klasyczne algorytmy ucz ce, które byªy tworzone przy zaªo»eniu»e klasy s w przybli»eniu równomiernie reprezentowane w danych, s nadmiernie ukierunkowane na rozpoznawanie klasy wi kszo±ciowej, pomijaj c klas mniejszo±ciow. W skrajnych przypadkach, klasykator przydziela wszystkie przykªady ucz ce do klasy wi kszo±ciowej. 1.2 Motywacje Wielu badaczy uwa»a,»e problem w uczeniu z takich danych nie wynika wyª cznie ze stopnia niezrównowa»enia liczno±ci klas. Zauwa»ono,»e je±li klasy s ªatwo separowalne, standardowe metody uczenia potra poprawnie nauczy si denicji obu klas bez wzgl du na stopie«niezrównowa»enia [11]. Dopiero gdy niezrównowa»enie wyst puje razem z innymi czynnikami zwi zanymi z rozkªadem danych, skuteczno± klasykatorów istotnie spada. Ponadto, spadek trafno±ci klasy- kowania jest obserwowany gªównie dla klasy mniejszo±ciowej. Dotychczas wyró»niono kilka czynników zwi zanych z rozkªadem danych, które w powi zaniu z niezrównowa»eniem powoduj trudno±ci w uczeniu, s to: nakªadanie si przykªadów z obu klas na granicy mi dzy klasami (tzw. overlapping), dekompozycja klasy mniejszo±ciowej na maªe podskupienia (tzw. small disjuncts) lub wyst powanie szumu (tzw. noisy examples). Wpªyw tych czynników na uczenie klasykatorów badano gªównie poprzez konstruowanie sztucznych zbiorów danych, w których rozkªad przykªadów ucz cych byª znany a priori. Jednak»e, nie istniej metody które pozwalaj przenie± obserwacje poczynione w tych studiach eksperymentalnych na grunt danych rzeczywistych, w których rozkªad przykªadów nie jest znany. Stworzenie metod umo»liwiaj cych oszacowanie rozkªadu danych w rzeczywistym zbiorze niezrównowa»onym pozwoliªoby, po pierwsze, potwierdzi»e wyró»nione w literaturze czynniki zwi zane z rozkªadem danych badane w pracach opartych o zbiory sztuczne, faktycznie wyst puj w rzeczywistych zbiorach danych. Po drugie, daªoby to mo»liwo± analizy zbioru przed podj ciem decyzji o wyborze odpowiedniego dla tego zbioru algorytmu ucz cego. Standardowe algorytmy ucz ce s wra»liwe na niezrównowa»enie danych. Dotyczy to równie» klasykatorów reguªowych [5]. Przypomnijmy,»e reprezen- 2
tacja reguªowa jest cz sto wykorzystywana w dziedzinach, w których interpretowalno± decyzji podejmowanych przez klasykator jest istotna, takich jak medycyna czy nanse. Jednocze±nie, s to dziedziny w których problem niezrównowa»enia klas jest cz sto obserwowany. Z tego powodu, zaproponowanie metod poprawiaj cych uczenie wªa±nie klasykatorów reguªowych z niezrównowa»onych danych jest wa»nym problemem badawczym. Istniej ce rozwi zania dedykowane dla tego typu danych s naszym zdaniem niewystarczaj ce, poniewa» nie bior pod uwag zªo»ono±ci problemu, zwi zanego z trudnymi rozkªadami w danych niezrównowa»onych. 1.3 Cele pracy Podstawowym celem pracy jest analiza czynników na poziomie danych i na poziomie algorytmów które utrudniaj uczenie z danych niezrównowa»onych oraz zaproponowanie na tej podstawie nowych metod konstruowania klasykatorów reguªowych, które poprawiaj uczenie z danych niezrównowa»onych. W ramach tego celu zdeniowano cztery cele szczegóªowe: 1. Analiza czynników na poziomie danych. Chocia» w literaturze mo»na znale¹ studia eksperymentalne analizuj ce wpªyw czynników na poziomie danych na metody uczenia, s one w wi kszo±ci przeprowadzone na sztucznych danych. Ponadto, niewiele studiów analizuje wpªyw ró»nych czynników jednocze±nie. W rozdziale 3 zostanie zaproponowana metoda oceny rozkªadu przykªadów w rzeczywistych zbiorach danych. Pozwala ona wyró»ni cztery typy przykªadów: przykªady typu safe, borderline, rare, outliers. Metoda oparta jest na analizie s siedztwa przykªadów mniejszo±ciowych. Ponadto, zostanie wykorzystana metody wizualizacji, oparta na projekcji zbiorów wielowymiarowych do dwóch wymiarów, do oceny rozkªadu przykªadów w zbiorze. Analizuj c w ten sposób kolekcj rzeczywistych zbiorów danych, zostanie pokazany wpªyw typów przykªadów na standardowe klasykatory. 2. Analiza czynników na poziomie algorytmów. W rozdziale 4 zostanie przeprowadzona analiza technik stosowanych w konstruowaniu klasykatorów reguªowych w kontek±cie danych niezrównowa»onych. Poka»emy,»e techniki wykorzystywane na wszystkich etapach uczenia, od metody sekwencyjnego pokrywania poprzez miary oceny reguª a» do wyboru strategii klasykacyjnych, mog powodowa nadmierne ukierunkowanie klasykatora na rozpoznawanie klasy wi kszo±ciowej. W tym rozdziale zostan równie» przeanalizowane istniej ce propozycje rozszerzenia algorytmów uczenia reguª, dedykowanych dla niezrównowa»onych danych. 3. Zaproponowanie nowego algorytmu uczenia reguª BRACID. Na podstawie analiz przeprowadzonych w ramach celów 1 i 2, w rozdziale 5 zaproponowano nowy algorytm ucz cy, który w bardziej kompleksowy sposób podchodzi do problemu uczenia z danych niezrównowa»onych, staraj c si odnie± do niego na wszystkich etapach uczenia. Cel ten zostaª 3
osi gni ty poprzez zastosowanie mi dzy innymi mniej zachªannej techniki przeszukiwania, rezygnacj z sekwencyjnego pokrywania, zmian miary oceny reguª, dostosowanie strategii klasykacyjnej oraz wzi cie pod uwag ró»nych typów przykªadów ucz cych i zmian sposobu przeszukiwania w zale»no±ci od typu przykªadu. Analiza eksperymentalna, przeprowadzona w rozdziale 6 i porównuj ca dziaªanie algorytmu BRACID ze standardowymi metodami uczenia jak równie» z podej±ciami dedykowanymi dla danych niezrównowa»onych, potwierdziªa skuteczno± tego podej±cia. Ponadto, wykorzystuj c metod analizy zbiorów zaproponowan w ramach celu 2, przeanalizowano zakres kompetencji zaproponowanego podej±cia. 4. Wykorzystanie wiedzy eksperckiej do uczenia z danych niezrównowa»onych. Wykorzystanie wiedzy eksperckiej w procesie uczenia pozwala konstruowa reguªy bardziej zgodne z wiedz dziedzinow. Wiedza ekspercka mo»e by szczególnie u»yteczna dla danych niezrównowa»onych, w których klasa mniejszo±ciowa jest niedoreprezentowana w danych, co utrudnia algorytmom ucz cym znalezienie poprawnej denicji tej klasy. W rozdziale 7 zaproponowane zostanie podej±cie, w którym ekspert mo»e dodatkowo uzasadni decyzj podj t dla wybranych, trudnych przykªadów ucz cych. Ten paradygmat nosi nazw argument-based learning. Uzasadnienia te s nast pnie uwzgl dniane w procesie indukcji reguª. Zaproponowany algorytm, ABMODLEM, jest rozszerzeniem istniej cego algorytmu uczenia reguª, MODLEM. Ponadto, zaproponujemy metod wyboru krytycznych przykªadów ucz cych, które powinny by uzasadnione przez eksperta, opart na rozwi zaniach z tzw. active learning. Analiza eksperymentalna przeprowadzona w rozdziale 8 potwierdziªa,»e wykorzystanie wiedzy eksperckiej poprawia rozpoznawanie klasy mniejszo±ciowej, nie powoduj c jednocze±nie pogorszenia rozpoznania klasy wi kszo±ciowej. Opublikowane wyniki Wi kszo± rozprawy zostaªa opublikowana, lub jest aktualnie w trakcie procesu recenzyjnego, w mi dzynarodowych czasopismach i wydawnictwach specjalistycznych. Wymieniono je poni»ej wraz z numerami rozdziaªów których dotycz. Rozdziaª 3: K. Napierala, J. Stefanowski, S. Wilk, 2010. Learning from imbalanced data in presence of noisy and borderline examples. Proceedings of the Conf. on Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, Springer Verlag 6086, 158-167 K. Napierala, J. Stefanowski, 2012. Identication of Dierent Types of Minority Class Examples in Imbalanced Data. Proc. of the 7th International Conf. HAIS 2012, Lecture Notes in Computer Science, Springer 7209, 139-150 4
K. Napierala, J. Stefanowski, 2012. Types of Minority Class Distributions in Learning from Imbalanced Data. Wysªane do czasopisma IEEE Data and Knowledge Engineering Rozdziaª 4: K. Napierala, J. Stefanowski, 2012. Modications of Classication Strategies in Rule Set Based Bagging for Imbalanced Data. Proc. of the 7th International Conf. HAIS 2012, Lecture Notes in Computer Science, Springer 7209, 514-525 Rozdziaªy 5 i 6: K. Napierala, J. Stefanowski, 2011. BRACID: a comprehensive approach to learning rules from imbalanced data. Journal of Intelligent Information Systems, Springer 2012, Volume 39, Number 2, Pages 335-373. DOI 10.1007/s10844-011-0193-0 Rozdziaªy 7 i 8: K. Napierala, J. Stefanowski, 2010. Argument Based Generalization of MODLEM Rule Induction. Proceedings of the Conf. on Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, Springer Verlag, vol. 6086, 138-147 K. Napierala, J. Stefanowski, 2012. Addressing imbalanced data with argument based rule learning. Po rewizji w Computational Intelligence Journal W celu uªatwienia czytelnikowi polskoj zycznemu zapoznanie si z rozpraw, w kolejnych punktach omówiono pokrótce zawarto± i gªówne osi gni cia poszczególnych rozdziaªów. 2 Podstawowe poj cia w uczeniu z niezrównowa-»onych danych W rozdziale drugim przedstawiono podstawowe poj cia zwi zane z uczeniem z danych niezrównowa»onych. Rozdziaª 2.1 przedstawia wyró»nione w literaturze czynniki zwi zane z rozkªadem danych, które powoduj trudno±ci w uczeniu z danych niezrównowa»onych. Te czynniki to m.in.: Nakªadanie si przykªadów z obu klas w obszarze granicznym mi dzy klasami (ang. overlapping). Poniewa» przykªady z klasy mniejszo±ciowej s mniej licznie reprezentowane w tym obszarze, istnieje ryzyko»e klasykator przypisze caªy ten obszar do klasy wi kszo±ciowej [1, 8]. 5
Dekompozycja klasy mniejszo±ciowej na podskupienia (ang. small disjuncts). Podskupienia takie, zawieraj ce tylko kilka przykªadów ucz - cych, s charakterystyczne dla klasy mniejszo±ciowej i trudne do nauczenia [12, 15]. Wyst powanie szumu (ang. noise) i przypadków odstaj cych (ang. outliers). Szum, czyli nieprawidªowe obserwacje mog ce wynika z niepoprawnej warto±ci atrybutu decyzyjnego lub warunkowego, maj du»y wpªyw szczególnie na klas mniejszo±ciow. Niepoprawne przykªady wi kszo±ciowe, znajduj ce si w obszarze nale» cym do klasy mniejszo±ciowej, mog prowadzi do fragmentacji tego obszaru powoduj c dodatkow trudno± w uczeniu. Klasyczne metody radzenia sobie z szumem zwykle usuwaj takie przykªady ze zbioru ucz cego [3, 21]. Rozdziaª 2.2 zawiera krótki przegl d miar oceny klasykatorów. Pokazano w nim dlaczego standardowe miary oceny, takie jak globalna trafno±, s ukierunkowane na klas wi kszo±ciow i nie powinny by u»ywane w kontek±cie danych niezrównowa»onych. Nast pnie przedstawiono miary oceny dostosowane do problemu danych niezrównowa»onych, takie jak F-miara, G-mean, krzywe ROC, AUC. W rozdziale 2.3 dokonano przegl du metod dedykowanych dla niezrównowa»onych danych. Podzielono je na metody na poziomie danych i metody na poziomie algorytmów. Metody na poziomie danych maj na celu zmian rozkªadu w zbiorze ucz cym, tak aby móc na nim zastosowa standardowe metody uczenia. Podstawowe z nich polegaj na dodaniu do zbioru dodatkowych przykªadów mniejszo±ciowych (ang. oversampling methods) lub na usuni ciu cz ±ci przykªadów wi kszo±ciowych (ang. undersampling methods). Metody typu undersampling usuwaj losowo wybrane przykªady wi kszo±ciowe lub tylko niepotrzebne przykªady - na przykªad na podstawie analizy lokalnego s siedztwa usuwaj tylko trudne przykªady (metody NCR [13], ENN [23]). Metody typu oversampling dodaj do zbioru kopie przykªadów mniejszo±ciowych (kopiuj c losowo wybrane przykªady lub, na podstawie analizy s siedztwa, tylko trudne przykªady). Metoda SMOTE [4], uznawana za jedn ze skuteczniejszych metod na poziomie danych, dodaje do zbioru nowe, sztuczne przykªady. Istnieje równie» grupa tzw. metod hybrydowych, które jednocze±nie nadlosowuj klas mniejszo±ciow i usuwaj przykªady wi kszo±ciowe (SPIDER [18], SMOTE-ENN [1]). Metody na poziomie algorytmów wykorzystuj uczenie z kosztami (ang. cost-sensitive learning), zmian miar oceny stosowanych w budowie klasykatora lub zmian strategii klasykacyjnej, mniej zachªanne przeszukiwanie lub klasykatory zªo»one. 3 Typy przykªadów i ich wpªyw na uczenie klasy- katorów Rozdziaª 3 zawiera analiz wpªywu typów przykªadów na uczenie klasykatorów. Wyró»niono cztery typy przykªadów. Przykªady typu safe le» w jednorodnych 6
obszarach, w których znajduj si tylko przykªady z jednej klasy. Przykªady borderline (brzegowe) le» w pobli»u granicy mi dzy klasami, gdzie przykªady z obu klas mog si nakªada. Dodatkowo, zdecydowano si skupi na dwóch dodatkowych typach przykªadów, rare (rzadkie przypadki) i outlier (przypadki odstaj ce), które naszym zdaniem nie byªy wystarczaj co dobrze zbadane w literaturze. S to przykªady mniejszo±ciowe znajduj ce si w du»ej odlegªo±ci od skupie«nale» cych do klasy mniejszo±ciowej. Takie odstaj ce przykªady mniejszo±ciowe nie mog by naszym zdaniem uznane za szum (bª dne obserwacje). Jako»e klasa mniejszo±ciowa jest niedoreprezentowana w danych, takie przykªady mog stanowi poprawne, istotne dla denicji klasy, obserwacje. Pod poj ciem outlier rozumiemy pojedyncze odstaj ce przykªady, a pod poj ciem rare - odstaj ce przypadki tworz ce odizolowane grupy kilku przykªadów mniejszo±ciowych. W tym rozdziale zaproponowano metod analizy wyst powania tych czterech typów przykªadów w zbiorach rzeczywistych. Polega ona na analizie lokalnego s siedztwa przykªadów mniejszo±ciowych. Do pomiaru odlegªo±ci mi dzy przykªadami wykorzystano miar HVDM [24] i poprzez analiz literatury uzasadniono jej wybór wobec alternatywnych propozycji. Poprzez analiz klas przykªadów znajduj cych si w s siedztwie o rozmiarze 5, przykªady s przydzielane do jednego z czterech typów wedªug nast puj cej zasady: przykªad jest typu safe je±li co najmniej 4 jego s siadów jest z tej samej klasy; typu borderline, je±li liczba s siadów z obu klas w s siedztwie jest podobna, tzn. je±li przykªad ma 2 lub 3 s siadów ze swojej klasy; typu rare, je±li tylko jeden s siad jest z tej samej klasy, i on równie» nie ma w swoim s siedztwie innych przykªadów z tej klasy; w przeciwnym razie jest to przykªad typu borderline; typu outlier, je±li wszyscy s siedzi s z przeciwnej klasy. Mimo prostoty tej metody, pokazano»e poprawnie odwzorowuje ona rozkªad przykªadów w sztucznych zbiorach, w których rozkªad ten byª znany a-priori. Pokazano równie»,»e zmiana parametrów metody takich jak rozmiar s siedztwa, lub wykorzystanie zmiennego rozmiaru s siedztwa okre±lanego na podstawie funkcji j drowej (tzw. kernel approach), nie wpªywa znacz co na wynik metody. Ponadto, zaproponowano wykorzystanie metod wizualizacji zbioru do oceny rozkªadu przykªadów w zbiorze. Aby przedstawi rzeczywiste (wielowymiarowe) zbiory danych na pªaszczy¹nie dwuwymiarowej, zaproponowano u»ycie metod projekcji wymiarów za pomoc zaproponowanych w literaturze metod MDS (multi-dimensional scaling [6]) i t-sne (t-distributed Stochastic Neighbour Embedding [20]). Dla wybranych zbiorów rzeczywistych pokazano,»e analiza zbioru za pomoc wizualizacji pokrywa si wynikiem zaproponowanej metody. Wykorzystuj c zaproponowan metod analizy typów przykªadów, przeanalizowano rozkªad przykªadów w 21 niezrównowa»onych zbiorach rzeczywistych. 7
Analiza ta pokazaªa,»e wi kszo± zbiorów zawiera wszystkie cztery typy przykªadów mniejszo±ciowych. Tylko niewielka liczba zbiorów skªada si gªównie z przykªadów safe. W wielu zbiorach, przykªady typu borderline stanowi wi kszo± w klasie mniejszo±ciowej. Przykªady typu rare i outlier nie s tak liczne, ale cz sto stanowi 20-30% zbioru. W niektórych zbiorach przykªady typu outlier stanowi nawet ponad 50% przykªadów mniejszo±ciowych, co potwierdza hipotez»e uznanie ich za szum (i w konsekwencji usuni cie ze zbioru) mo»e uniemo»liwi poprawne nauczenie si denicji tej klasy. W kolejnym eksperymencie wykorzystano powy»sz analiz do oceny wpªywu typów przykªadów na uczenie podstawowych klasykatorów. W eksperymencie wykorzystano drzewa decyzyjne (J48), reguªy decyzyjne (PART), sieci neuronowe (RBF), algorytm k najbli»szych s siadów (1NN i 3NN) oraz metod wektorów wspieraj cych (SVM). Wyniki eksperymentu obliczeniowego pokazaªy,»e klasykatory te wykazuj ró»n wra»liwo± na te typy danych. Czynniki takie rozmiar zbioru czy stopie«niezrównowa»enia maj mniejsze znaczenie. Wi kszo± klasykatorów poprawnie rozpoznaje przykªady typu safe. Przykªady typu borderline s trudniejsze, a najlepszymi metodami dla nich wydaj si by SVM i RBF. Przykªady typu rare i outlier s trudne dla wi kszo±ci klasykatorów - RBF i SVM s bardzo wra»liwe na te dane, podczas gdy PART, 1NN i J48 potra (lecz w ograniczonym stopniu) rozpozna cz ± tych przykªadów. Analogiczn analiz eksperymentaln przeprowadzono dla metod wst pnego przetwarzania danych, dedykowanych dla zbiorów niezrównowa»onych. Porównano metody typu oversampling (losowe kopiowanie przykªadów RO oraz SMOTE), typu undersampling (NCR) oraz podej±cie hybrydowe (SPIDER). Metody typu undersampling dobrze sprawdzaªy si dla przykªadów typu borderline. Z kolei w przypadku przykªadów rare i outlier, metody typu oversampling byªy skuteczniejsze. Metoda SMOTE byªa najlepsz alternatyw dla przykªadów typu outlier, jednak mogªa powodowa du»e straty na klasie wi kszo±ciowej. Losowe kopiowanie przykªadów (RO) w najmniejszym stopniu poprawiaªo trafno± klasy- kacji, poza sieci neuronow (RBF) dla której ta metoda byªa bardziej skuteczna. Szegóªowe rezultaty mo»na znale¹ w rozprawie w Tabelach 3.5-3.10. 4 Uczenie klasykatorów reguªowych z niezrównowa»onych danych W rozdziale 4 dokonano przegl du technik wykorzystywanych w standardowych algorytmach indukcji reguª i pokazano ich ograniczenia w kontek±cie uczenia ze zbiorów niezrównowa»onych. W szczególno±ci, pokazano»e: Wi kszo± algorytmów wykorzystuje indukcj reguª w kierunku top-down, polegaj c na rozpoczynaniu od pustej reguªy i dodawaniu pojedynczo kolejnych warunków elementarnych, dopóki reguªa nie pokrywa tylko przykªadów z jednej klasy (mo»liwe s równie» inne kryteria stopu). Rzadkie, pojedyncze przypadki, charakterystyczne dla klasy mniejszo±ciowej, mog zale»e od wielu warunków elementarnych jednocze±nie, dlatego technika 8
dodawania warunków elementarnych do reguªy pojedynczo mo»e utrudnia znalezienie reguª dla takich przykªadów [22]. Miary wykorzystywane do oceny reguª i wyboru kolejnych warunków elementarnych przy ich budowie, oceniaj zwykle ogólno± i dokªadno± reguªy [22]. Jako»e klasa mniejszo±ciowa jest niedoreprezentowana w danych, budowanie dla niej ogólnych i dokªadnych reguª jest trudniejsze ni» dla klas wi kszo±ciowych. U»ywanie takich miar oceny mo»e wi c spowodowa,»e decyzja o doborze warunku elementarnego b dzie podejmowana gªownie w oparciu o przykªady wi kszo±ciowe, dyskryminuj c klas wi kszo±ciow. Zachªanna technika sekwencyjnego pokrywania (ang. sequential covering) polega na znajdowaniu pojedynczej reguªy i usuwaniu pokrywanych przez ni przykªadów z rozwa»anego zbioru. Technika ta sªu»y znajdowaniu minimalnego zbioru reguª pokrywaj cego przykªady ucz ce. Jednak w przypadku klasy mniejszo±ciowej, usuwanie przykªadów powoduje dalsz fragmentacj tych (rzadkich) danych. W rezultacie, kolejne generowane reguªy silnie zale» od dotychczasowych reguª. Ponadto, reguªy generowane jako ostatnie mog by niewiarygodne. Podczas klasykacji nowych przykªadów w algorytmach generuj cych nieuporz dkowany zbiór reguª, potrzebne s strategie klasykacyjne rozwi zuj ce sytuacje koniktowe w przypadku gdy wiele reguª pokrywa klasy- kowany przykªad, lub gdy»adna reguªa nie pokrywa tego przykªadu. W takiej sytuacji zwykle wykorzystuje si gªosowanie reguª b d cych w kon- ikcie z siª gªosu zale»n od ich miary oceny. W rozdziale 4 przeprowadzono analiz najbardziej typowych strategii klasykacyjnych i pokazano,»e mog one dyskryminowa klas mniejszo±ciow, zbyt cz sto przypisuj c przykªady do klasy wi kszo±ciowej. W dalszej cz ±ci tego rozdziaªu przedstawiono najwa»niejsze prace modykuj ce algorytmy uczenia reguª dla danych niezrównowa»onych. Wi kszo± tych propozycji polega na zmianie tylko wybranych technik opisanych powy»ej. Przykªadowo, modykuj one tylko miar oceny reguªy (modykacja CN2 [10]), rezygnuj z techniki sekwencyjnego pokrywania (RLSD [25], BRUTE [16], EX- PLORE [19]) lub zmieniaj strategi klasykacyjn (IIVOTES [2], strategia Grzymaªy [9]). Wreszcie, w tym rozdziale przedstawiono algorytmy indukcji reguª, które tworz klasykator zªo»ony zarówno z reguª decyzyjnych jak i pojedynczych przykªadów ucz cych. Pomimo tego»e rozwi zania te nie powstaªy z my±l o danych niezrównowa»onych, pokazali±my dlaczego mog one by skuteczne w uczeniu z takich danych. Najwa»niejszym reprezentatem tego podej±cia, na którym oparty jest algorytm zaproponowany w kolejnym rozdziale, jest algorytm RISE [7]. 9
5 Algorytm BRACID W rozdziale pi tym wprowadzono nowy algorytm uczenia reguª, BRACID, dedykowany dla danych niezrównowa»onych. Algorytm ten w caªo±ciowy sposób podchodzi do problemu danych niezrównowa»onych, odnosz c si do problemów na poziomie danych (wyszczególnionych w rozdziale 2) i na poziomie algorytmicznym (wskazanych w rozdziale 4). Jego podstawowe cechy to: Hybrydowa reprezentacja wiedzy, zªo»ona z reguª oraz pojedynczych przypadków, aby wykorzysta komplementarne zalety obu reprezentacji; reguªy reprezentuj jednolite, spójne obszary, podczas gdy pojedyncze przypadki opisuj przykªady odstaj ce, rzadkie oraz skomplikowane granice mi dzy klasami. Wykorzystanie mniej zachªannej techniki przeszukiwania w kierunku bottomup, w której reguªy generowane s poprzez stopniowe uogólnianie przykªadów ucz cych do najbli»szych s siadów z tej samej klasy, oraz rezygnacja z techniki sekwencyjnego pokrywania poprzez nieusuwanie pokrytych przykªadów ucz cych ze zbioru. Mo»e to zapobiec fragmentacji danych i uªatwi znajdowanie opisu dla maªych grup przykªadów (tzw. small disjuncts). Wykorzystanie miary oceny reguª dostosowanej do problemu danych niezrównowa»onych (F-miary), tak aby nie dyskryminowa klasy mniejszo±ciowej podczas oceny i akceptacji reguª. U»ycie strategii klasykacyjnej opartej na najbli»szej regule, aby zmniejszy dominacj reguª wi kszo±ciowych podczas rozstrzygania sytuacji koniktowych w klasykowaniu nowych przykªadów. Wykrywanie i usuwanie odstaj cych przykªadów wi kszo±ciowych, które mo»na uzna za szum, aby zapobiec fragmentacji klasy mniejszo±ciowej. Analizowanie jednocze±nie kilku mo»liwych generalizacji reguªy mniejszo±ciowej w spójnych obszarach (reprezentowanych przez przykªady typu safe) i wybór najlepszej z nich, aby zmniejszy problem niedoreprezentowania tej klasy w zbiorze ucz cym. Konstruowanie wi kszej liczby reguª w obszarach nakªadania si klas (reprezentowanych przez przykªady borderline) poprzez generalizowanie reguªy do kilku najbli»szych s siadów, aby zmniejszy dominacj reguª wi kszo±ciowych w tym regionie. Po» dan cech zaproponowanego rozwi zania jest konstrukcja reguª wyª cznie w oparciu o istniej ce przykªady ucz ce, bez modykowania zbioru ucz cego na przykªad poprzez wprowadzenie sztucznych przykªadów. Reguªy tworzone przez BRACID s dzi ki temu potencjalnie bardziej wiarygodne i zrozumiaªe dla eksperta z danej dziedziny. 10
6 BRACID - studium eksperymentalne Zaproponowany algorytm BRACID zostaª przetestowany i porównany na drodze analizy eksperymentalnej z innymi rozwi zaniami reguªowymi na kolekcji 22 rzeczywistych zbiorów danych. Wykonane eksperymenty i ich wyniki przedstawiono pokrótce poni»ej. Ocena wpªywu poszczególnych skªadników zaproponowanego algorytmu (takich jak strategia klasykacyjna, usuwanie odstaj cych przykªadów wi kszo±ciowych) pokazaªa,»e ka»dy z elementów skªadowych nowego algorytmu przyczynia si do zwi kszenia trafno±ci klasykowania klasy mniejszo±ciowej oraz poprawy agreguj cych miar takich jak F-miara i G- mean. Porównano algorytm BRACID ze standardowymi klasykatorami regu- ªowymi (tj. C45rules, CN2, PART, RIPPER, MODLEM), z rozwi zaniem bazowym zaproponowanego algorytmu (RISE) oraz z algorytmem reprezentuj cym uczenie z przykªadów (instance-based learning), czyli k- NN. Tabela 6.1 pokazuje porównanie trafno±ci klasykacji w klasie mniejszo±ciowej. Przeprowadzenie testu Friedmanna i analizy pot-hoc wykazaªo,»e BRACID znacz co przewy»sza algorytm bazowy (RISE), podej±cie instance-based learning oraz klasyczne algorytmy reguªowe na wszystkich miarach oceny. Drugim najlepszym rozwi zaniem byl algorytm PART. Porównano BRACID z rozwi zaniami dedykowanymi dla danych niezrównowa»onych (algorytmem MODLEM-C modykuj cym strategi klasy- kacyjn, algorytmem RISE który mo»na uzna za bardziej dostosowany do danych niezrównowa»onych ni» standardowe podej±cia, oraz najlepszym wedªug poprzedniego eksperymentu klasykatorem reguªowym PART po- ª czonym z metodami na poziomie danych - SMOTE i SMOTE-ENN). Wyniki eksperymentu ponownie wykazaªy wy»szo± algorytmu BRACID. Jedynie ró»nica mi dzy nim a poª czeniem PART i SMOTE-ENN nie byªa statystycznie istotna. Analiza zbioru reguª pokazaªa,»e BRACID tworzy wi cej reguª dla klasy mniejszo±ciowej ni» inne algorytmy konstruuj ce nieuporz dkowany zbiór reguª. Jednocze±nie, reguªy te pokrywaj ±rednio wi cej przykªadów ucz - cych. W rezultacie mog one bardziej efektywnie uczestniczy w procesie klasykacji nowych przykªadów. Ostatni eksperyment miaª na celu okre±lenie zakresu kompetencji algorytmu BRACID z punktu widzenia typów przykªadów mniejszo±ciowych. Zauwa»ono,»e BRACID poprawia rozpoznanie wszystkich czterech typów przykªadów, jednak najwi ksz popraw obserwowano dla przykªadów typu borderline. Przykªady typu rare oraz, w szczególno±ci, outlier, byªy nieznacznie lepiej rozpoznawane przez poª czenia algorytmu PART z ze SMOTE- ENN. 11
Tablica 6.1: Rozpoznawanie klasy mniejszo±ciowej (Sensitivity) Zbiór BRACID RISE knn C45rules CN2 Part Ripper Modlem AB 0.474 0.128 0.137 0.339 0.160 0.188 0.184 0.245 AP 0.782 0.711 0.775 0.695 0.658 0.726 0.602 0.657 BS 0.565 0.000 0.004 0.018 0.018 0.000 0.000 0.000 BC 0.572 0.356 0.261 0.330 0.276 0.411 0.288 0.319 BW 0.989 0.959 0.968 0.917 0.886 0.947 0.896 0.887 CA 0.781 0.596 0.031 0.753 0.544 0.900 0.530 0.787 CL 0.483 0.147 0.042 0.175 0.000 0.252 0.163 0.085 CM 0.631 0.293 0.308 0.404 0.096 0.377 0.071 0.256 CG 0.801 0.359 0.371 0.373 0.260 0.477 0.213 0.365 EC 0.790 0.505 0.578 0.597 0.185 0.420 0.445 0.400 FL 0.840 0.020 0.000 0.308 0.000 0.250 0.190 0.000 HA 0.669 0.224 0.181 0.244 0.184 0.334 0.180 0.240 HE 0.757 0.487 0.475 0.358 0.050 0.457 0.417 0.383 IO 0.976 0.902 0.629 0.837 0.779 0.840 0.818 0.824 NT 0.980 0.928 0.867 0.850 0.866 0.933 0.855 0.812 PI 0.875 0.551 0.558 0.507 0.408 0.591 0.377 0.485 PO 0.577 0.147 0.000 0.000 0.017 0.103 0.037 0.033 SP 0.771 0.544 0.492 0.569 0.432 0.634 0.521 0.547 SF 0.517 0.066 0.000 0.148 0.000 0.187 0.010 0.070 TR 0.738 0.297 0.319 0.386 0.150 0.429 0.088 0.371 VE 0.960 0.831 0.865 0.867 0.329 0.883 0.874 0.859 YE 0.555 0.245 0.194 0.323 0.000 0.267 0.259 0.189 7 Algorytm ABMODLEM W przypadku gdy klasa mniejszo±ciowa charakteryzuje si trudnym rozkªadem danych - jest podzielona na mniejsze podskupienia, granica mi dzy jest skomplikowana lub wyst puj rzadkie i odstaj ce przykªady - standardowe (automatyczne) metody ucz ce maj trudno±ci ze znalezieniem poprawnych denicji reprezentuj cych takie dane. Jak wskazano w [22], wykorzystanie wiedzy eksperckiej mo»e by u»yteczne dla klasy mniejszo±ciowej i rzadkich przykªadów. Wiedza ekspercka pozwala tworzy reguªy zgodne nie tylko z przykªadami ucz cymi, ale tak»e z wiedz dziedzinow (ang. domain knowledge). W rozdziale 7 zaproponowano algorytm indukcji reguª wykorzystuj cy wiedz dziedzinow do poprawy uczenia z danych niezrównowa»onych. Wi kszo± literaturowych rozwi za«opiera si na zaªo»eniu,»e ekspert wyra»a wiedz globaln, obowi zuj c w caªej dziedzinie - na przykªad okre±laj c zale»no±ci mi dzy atrybutami, które musz by prawdziwe dla wszystkich przykªadów ucz cych. Poniewa» przykªady mniejszo±ciowe s cz sto nietypowe i bardzo specyczne, wyra»enie wiedzy globalnej mo»e by bardzo trudne lub niemo»liwe. Z tego powodu, w zaproponowanym rozwi zaniu zdecydowano si wykorzys- 12
ta podej±cie oparte na lokalnej wiedzy, która mo»e obowi zywa tylko dla wybranych przykªadów. W tym podej±ciu, ekspert mo»e dodatkowo wyja±ni, na podstawie których atrybutów warunkowych zostaªa podj ta decyzja dla wybranego, trudnego przykªadu (podaj c tzw. argumenty pozytywne). Mo»e równie» poda, które warto±ci atrybutów zaprzeczaj podj tej decyzji (podaj c argumenty negatywne). Argumenty te s nast pnie uwzgl dniane w procesie indukcji reguª. Podczas konstruowania reguªy pokrywaj cej przykªad, który zostaª dodatkowo uzupeªniony argumentacj eksperta, algorytm stara si zapewni aby skªadana cz ± warunkowa reguªy byªa oparta na atrybutach podanych w argumentach pozytywnych i jednocze±nie nie wykorzystywaªa atrybutów wymienionych w argumentach negatywnych. Lokalno± wiedzy polega tu na tym,»e argumentacja ta nie jest brana pod uwag podczas tworzenia pozostaªych reguª. Idea eksperckich uzasadnie«lokalnych przypadków pochodzi z pracy [14]. Zaproponowany algorytm (ABMODLEM) jest rozszerzeniem istniej cego algorytmu reguªowego, MODLEM [17], który byª wykorzystywany wcze±niej w kontek±cie niezrównowa»enia danych. Algorytm ten rozszerzono o uwzgl dnianie argumentów podanych przez eksperta podczas indukcji. Dostosowano równie» miar oceny reguª, aby reguªy konstruowane z argumentów byªy bardziej ogólne i pokrywaªy mo»liwie du» liczb pozostaªych przykªadów, w tym tych niewyja±nionych przez eksperta. Ponadto, zaproponowano now strategi klasykacyjn, aby zwi kszy wpªyw argumentowanych reguª na podejmowanie decyzji dla nowych przykªadów. Istotn cz ±ci tego rozwi zania jest metoda wyznaczania trudnych przykªadów, które powinny by uzasadnione przez eksperta. Celem byªo zaproponowanie metody, która wyznacza niewielk liczb przykªadów, istotnych z punktu widzenia uczenia w takim sensie,»e podanie dla nich eksperckich uzasadnie«poprawi trafno± klasykacji. Pierwsze rozwi zanie zaproponowane w pracy (CV) opiera si na 10-krotnie powtórzonej ocenie krzy»owej i wyborze przykªadów o najwi kszej liczbie niepoprawnych klasykacji. Wst pna analiza eksperymentalna pokazaªa,»e metoda ta mo»e wskazywa zbyt du»o przykªadów o takiej samej (maksymalnej) liczbie niepoprawnych klasykacji. Dlatego zaproponowano drugie rozwi zanie (DoC), inspirowane metodami aktywnego uczenia (ang. active learning). Opiera si ono na rodzinie typu bagging klasy- katorów skªadowych (zbudowanych algorytmem MODLEM), zbudowanych na niezale»nych próbkach danych, które gªosuj w celu podj cia wspólnej decyzji dla ka»dego przykªadu ucz cego. Je±li ró»nica mi dzy liczb wskaza«pierwszej i kolejnej klasy jest maªa, przykªad jest uznawany za trudny i rekomendowany do wyja±nienia przez eksperta. Procedura powtarzana jest 10-krotnie i przykªady najcz ±ciej rekomendowane przekazywane s do eksperta. Wst pna analiza eksperymentalna pokazaªa,»e metoda DoC ma tendecj do wybierania gªównie przykªadów mniejszo±ciowych, co mo»e powodowa nadmierne ukierunkowanie klasykatora ABMODLEM na t klas. Modykacja tej metody (DoC-b), stara si wybra równie» pewn liczb trudnych przykªadów wi kszo±ciowych, aby zapewni bardziej zrównowa»one zachowanie klasykatora. 13
8 ABMODLEM - studium eksperymentalne W studium eksperymentalnym przebadano wpªyw argumentacji przykªadów na trafno± klasykacji, ze szczególnym uwzgl dnieniem klasy mniejszo±ciowej. Nast pnie, przeanalizowano liczb przykªadów wskazywanych przez 3 metody identykacji trudnych przykªadów (CV, DoC, DoC-b), oraz wpªyw wyboru przykªadów uzasadnianych przez eksperta na trafno± klasykacji. Ocena eksperymentalna zostaªa przeprowadzona na 4 rzeczywistych niezrównowa»onych zbiorach danych o intuicyjnych dziedzinach, dla których mo»liwe byªo samodzielne tworzenie uzasadnie«przykªadów bez udziaªu eksperta dziedzinowego. Wreszcie, oceniono skalowalno± algorytmu ABMODLEM, badaj c czy wraz ze wrostem liczby przykªadów ucz cych, liczba przypadków przekazywanych do uzasadnienia musi rosn analogicznie aby przynie± popraw trafno±ci klasykowania. Najwa»niejsze wnioski z eksperymentów byªy nast puj ce: Wykorzystanie wiedzy eksperckiej zawsze poprawia rozpoznanie klasy mniejszo±ciowej. Zastosowanie nowej miary oceny i nowej strategii klasykacyjnej dodatkowo podnosi globaln trafno± klasykatora. Co istotne, obserwowana poprawa na klasie mniejszo±ciowej nie wi»e si z obni»eniem trafno±ci klasykowania przykªadów wi kszo±ciowych, co jest ograniczeniem wi kszo±ci automatycznych metod uczenia. W rezultacie, ABMODLEM poprawia tak»e globaln trafno± klasykacji w stosunku do MODLEM, przy czym istotno± ró»nic zostaªa potwierdzona za pomoc testów statystycznych. Porównanie metod wyboru trudnych przykªadów wykazaªo wy»szo± podej± DoC nad metod CV - metody te wskazywaªy du»o mniejsz liczb przykªadów, których uzasadnienie prowadziªo do porównywalnej poprawy trafno±ci klasykacji. Rozkªad trudnych przykªadów w klasach ma wpªyw na trafno± klasy- kacji. Metoda DoC, wybieraj ca gªównie przykªady mniejszo±ciowe, prowadzi do najwi kszej poprawy trafno±ci w tej klasie, ale mo»e pogarsza rozpoznanie klasy wi kszo±ciowej. Metoda DoC-b równowa»y rozpoznawanie obu klas, utrzymuj c trafno± klasykacji w klasie wi kszo±ciowej przy (nieznacznie mniejszej w porównaniu do DoC) poprawie klasy mniejszo±ciowej. Wraz ze wzrostem zbioru ucz cego, liczba przykªadów które warto argumentowa nie wzrasta - po uzasadnieniu pewnej liczby przykªadów, trafno± klasykatora stabilizuje si. Oznacza to,»e zaproponowany algorytm mo»e by stosowany równie» dla wi kszych zbiorów. 9 Podsumowanie i wnioski W pracy rozwa»ano problem konstruowania klasykatorów reguªowych z niezrównowa»onych danych. Autorka rozprawy s dzi,»e gªówny cel pracy, a tak»e 14
cele szczegóªowe zdeniowane w rozdziale 1, zostaªy osi gni te. Poni»ej wymieniono gªówne osi gni cia pracy. 1. Przeprowadzono analiz czynników zwi zanych z rozkªadem danych w zbiorach niezrównowa»onych, które powoduj trudno±ci w uczeniu. W tym celu wyró»niono i przebadano wpªyw czterech typów przykªadów ucz cych (safe, borderline, rare, outlier). Ponadto, zaproponowano metod identykacji tych przykªadów w rzeczywistych, wielowymiarowych zbiorach danych. Metoda oparta jest na analizie najbli»szego s siedztwa przykªadów. Przykªady przydzielane s do jednego z czterech typów na podstawie rozkªadu s siadów w klasach. Pokazano równie» zastosowanie metod wizualizacji danych (MDS i t-sne) do oceny rozkªadu przykªadów w zbiorze. Analiza kolekcji zbiorów niezrównowa»onych wykonana przy pomocy obu metod wykazaªa interesuj ce wªasno±ci zbiorów niezrównowa»onych. Przykªady typu safe rzadko wyst puj w klasie mniejszo±ciowej. Przykªady typu borderline s obserwowane w wi kszo±ci zbiorów i mog stanowi wi cej ni» poªow klasy mniejszo±ciowej. Przykªady typu rare i outlier tak»e mog stanowi znaczn cz ± zbioru. Porównano równie» dziaªanie popularnych klasykatorów (J48, PART, RBF, 1NN, 3NN, SVM) oraz metod na poziomie danych (RO, NCR, SMOTE, SPIDER) z uwzgl dnieniem typów przykªadów mniejszo±ciowych. Zaproponowana metoda analizy zbiorów rzeczywistych umo»liwia: wskazanie najbardziej obiecuj cych kierunków rozwoju nowych metod dedykowanych dla danych niezrównowa»onych; analiz kompetencji istniej cych oraz nowo-proponowanych metod uczenia; pomoc w doborze odpowiednich algorytmów ucz cych dla zadanego problemu ucz cego. 2. Przeprowadzono systematyczn analiz technik wykorzystywanych w standardowych algorytmach reguªowych, które mog powodowa trudno±ci w uczeniu z danych niezrównowa»onych. Dokonano tak»e przegl du literaturowych rozwi za«poprawy klasykatorów reguªowych oraz przeprowadzono krytyczn dyskusj ich zalet i ogranicze«. 3. Zaproponowano nowy algorytm uczenia reguª, BRACID, dedykowany dla danych niezrównowa»onych, który zostaª skonstruowany w oparciu o obserwacje poczynione w ramach analizy z punktów 1 i 2. Analiza eksperymentalna wykazaªa skuteczno± tego podej±cia z punktu widzenia rozpoznawania klasy mniejszo±ciowej oraz miar G-mean i F-miary. BRACID poprawia rozpoznanie wszystkich czterech typów przykªadów zdeniowanych w punkcie 1, jednak jest on szczególnie dobrze dostosowany do zbiorów z du» liczb przykªadów borderline. 4. Zaproponowano nowy algorytm uczenia, ABMODLEM, wykorzystuj cy wiedz eksperck do poprawy indukcji reguª z danych niezrównowa»onych. 15
Wa»n cz ±ci tego rozwi zania jest zaproponowanie metod automatycznego wyboru kluczowych trudnych przykªadów, które powinny by uzasadnione przez eksperta. Algorytm ABMODLEM mo»e by szczególnie przydatny dla zbiorów z du» liczb przykªadów typu rare i outlier, które stanowi istotn trudno± dla automatycznych metod uczenia. Co wa»ne, poprawa trafno±ci w klasie mniejszo±ciowej nie odbywa si kosztem rozpoznawania przykªadów wi kszo±ciowych, co jest cech praktycznie wszystkich podej± w peªni automatycznych. Literatura [1] G. Batista, R. C. Prati, and M. C. Monard. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD Explorations Newsletter, 6(1):2029, 2004. [2] J. Blaszczynski, M. Deckert, J. Stefanowski, and Sz. Wilk. Integrating selective pre-processing of imbalanced data with ivotes ensemble. In Proceedings of the RSCTC'10 Conference, volume 6086 of LNAI, pages 148157. Springer Verlag, 2010. [3] C. E. Brodley and M. A. Friedl. Identifying mislabeled training data. Journal of Articial Intelligence Research, 11:131167, 1999. [4] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer. SMOTE: synthetic minority over-sampling technique. J. Artif. Int. Res. (JAIR), 16:321357, 2002. [5] D. A. Cieslak and N. V. Chawla. Learning decision trees for unbalanced data. In Proceedings of the 2008 European Conference on Machine Learning and Knowledge Discovery in Databases - Part I, ECML PKDD'08, pages 241256, Berlin, Heidelberg, 2008. Springer-Verlag. [6] T. Cox and M. Cox. Multidimensional Scaling. Chapman and Hall, 1994. [7] P. Domingos. Unifying instance-based and rule-based induction. Machine Learning, 24:141168, 1996. [8] V. Garcia, J. Sanchez, and R. Mollineda. An empirical study of the behavior of classiers on imbalanced and overlapped data sets. In Proc. of CIARP'07, volume 4756 of LNCS, pages 397406, 2007. [9] J. W. Grzymala-Busse, L. K. Goodwin, W. J. Grzymala-Busse, and X. Zheng. An approach to imbalanced data sets based on changing rule strength. In Proceedings of Learning from Imbalanced Data Sets, AAAI Workshop at the 17th Conference on AI, pages 6974, 2000. 16
[10] R. C. Holte, L. E. Acker, and B. W. Porter. Concept learning and the problem of small disjuncts. In Proceedings of the Eleventh International Joint Conference on Articial Intelligence, pages 813818, 1989. [11] N. Japkowicz. Class imbalance: Are we focusing on the right issue? In Proceedings of 2nd Workshop on Learning from Imbalanced Data Sets (ICML), pages 1723, 2003. [12] T. Jo and N. Japkowicz. Class imbalances versus small disjuncts. ACM SIGKDD Explorations Newsletter, 6(1):4049, 2004. [13] J. Laurikkala. Improving identication of dicult small classes by balancing class distribution. Technical report, University of Tampere, 2001. [14] M. Mozina, I. Bratko, and J. Zabkar. Argument based machine learning. Ariticial Intelligence Journal, 171:922937. [15] R. C. Prati, G. Batista, and M. C. Monard. Learning with class skews and small disjuncts. In Proc. of SBIA'04, pages 296306, 2004. [16] P. Riddle, R. Segal, and O. Etzioni. Representation design and brute-force induction in a boeing manufacturing design. Applied Articial Intelligence, (8):125147, 1994. [17] J. Stefanowski. Rough set based rule induction techniques for classication problems. In Proceedings of 6th European Congress on Intelligent Techniques and Soft Computing, volume 1, pages 109113, 1998. [18] J. Stefanowski and Sz. Wilk. Selective pre-processing of imbalanced data for improving classication performance. In Proceedings of the 10th Int. Conf. DaWaK, volume 5182 of LNCS, pages 283292. Springer, 2008. [19] J. Stefanowski and Sz. Wilk. Extending rule-based classiers to improve recognition of imbalanced classes. In Z. Ras and A. Dardzinska, editors, Advances in Data Management, volume 223 of Studies in Computational Intelligence, pages 131154. Springer Berlin/Heidelberg, 2009. [20] L. van der Maaten and G. Hinton. Visualizing data using t-sne. Journal of Machine Learning Research, 9:25792605, 2008. [21] J. Van Hulse, T. M. Khoshgoftaar, and A. Napolitano. A novel noise ltering algorithm for imbalanced data. In ICMLA'10, pages 914, 2010. [22] G. M. Weiss. Mining with rarity: a unifying framework. ACM SIGKDD Explorations Newsletter, 6 (1):719, 2004. [23] D. L. Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Transactions on Systems, Man, and Communications, 3(2):408421, 1972. 17
[24] D. R. Wilson and T. R. Martinez. Improved heterogeneous distance functions. J. Artif. Intell. Res. (JAIR), 6:134, 1997. [25] J. Zhang, E. Bloedorn, L. Rosen, and D. Venese. Learning rules from highly unbalanced data sets. In Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM '04), pages 571574. IEEE Computer Society, 2004. 18