Odkrywanie wiedzy klasyfikacyjnej inne metody oraz metodyka oceny

Odkrywanie wiedzy klasyfikacyjnej inne metody oraz metodyka oceny Wykład HiED dla specjal. TWO JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Poznań Poznań, grudzien 2010

Wiedza o klasyfikacji obserwacji uczenie nadzorowane Problem określania zasad przydziału obiektów / obserwacji do znanych wstępnie klas na podstawie analizy danych o przykładach klasyfikacji. Obiekty opisane poprzez zbiór atrybutów Wiek Zawód dochód Decyzja 21 26 Prac. fiz. Menedżer 1220 2900 Nie kupi Kupuje Algorytm 44 Inżynier 2600 Kupuje 23 Student 1100 Kupuje 56 45 Nauczyciel Lekarz 1700 2200 Nie kupi Nie kupi Reprezentacja wiedzy: np. reguły R1. Jeżeli student to kupuje komputer R2. Jeżeli dochód > 2400 25 Student 800 Kupuje Przykłady uczące

Podstawowe metody (klasyfikacyjne) Metody symboliczne (drzewa i reguły decyzyjne), Metody oparte na logice matematycznej Teoria zbiorów przybliżonych Indukcyjne programowanie w logice (ILP) Sztuczne sieci neuronowe, Metody k-najbliższych sąsiadów, Klasyfikacja bayesowska (Naive Bayes), Analiza dyskryminacyjna (statystyczna), Metody wektorów wspierających (SVM), Regresja logistyczna, Klasyfikatory genetyczne.... Podejścia złożone i hybrydowe Rodziny klasyfikatorów

Drzewa decyzyjne Wybór miar podziału (entropia, Gini indeks) i redukcja rozmiarów drzewa (pruning), Algorytmy: ID3 i C4.5; CART;, + VFDT J.R.Quinlan Age Car Type Risk 20 Combi High 18 Sports High 40 Sports High 50 Family Low 35 Minivan Low 30 Combi High 32 Family Low 40 Combi Low High Age < 31 Car Type is sports Leo Breiman High Low

Reguły decyzyjne Sequential covering vs. richer search Algorytmy: AQfamily, CN2 PRISM, LEM, MODLEM IREP, GROW, RIPPER, PART training data Ryszard Michalski Uporządkowana lista vs. nieuporządkowany zbiór reguł Age Car Type Risk 20 Combi High 18 Sports High 40 Sports High 50 Family Low 35 Minivan Low 30 Combi High 32 Family Low 40 Combi Low if age < 31 or Car Type =Sports then Risk = High

General schema of inducing minimal set of rules The procedure conducts a general to specific (greedy) search for the best rules (learn-one-rule) guided by the evaluation measures. At each stage add to the current condition part next elementary tests that optimize possible rule s evaluation (no backtracking). Procedure Sequential covering (K j Class; A attributes; E examples, τ - acceptance threshold); begin R := ; {set of induced rules} r := learn-one-rule(y j Class; A attributes; E examples) while evaluate(r,e) >τ do begin R := R r; E := E \[R]; {remove positive examples covered by R} r := learn-one-rule(kj Class; A attributes; E examples); end; return R end.

Przykład indukcji reguł (1) No. 1 2 3 Age m sr m Job u p p Period 0 2 4 Income 500 1400 2600 Purpose K S M Dec. r r d Class (Decision = r) E = {1, 2, 6, 7, 12, 14, 17} List of candidates 4 5 6 7 8 9 10 11 12 13 14 st sr m sr m sr st m m sr m p p u b p p e u b p b 16 14 0 0 3 11 0 0 0 17 0 2300 1600 700 600 1400 1600 1100 1500 1000 2500 700 D M W D D W D D M S D d p r r p d p p r p r (Age=m) {1,6,12,14,17+; 3,8,11,16-} (Age=sr) {2,7+; 5,9,13-} (Job=u) {1,6+; 11-} (Job=p) {2+, 3,4,8,9,13,15,16-} (Job=b) {7,12,14,17+; } (Pur=K) {1,17+; } (Pur=S) {2+;13,15-} {Pur=W} {6+, 9-} {Pur=D} {7,14+; 4,8,10,11-} {Pur=M} {12+;5,16-} 15 st p 21 5000 S d 16 m p 5 3700 M d 17 m b 0 800 K r

Przykład (2) Numerical attributes: Income 500 600 700 800 1000 1100 1400 1500 1600 2300 2500 2600 3700 5000 1+ 7+ 6+ 14+ 17+ 12+ 10-2+ 8-11- 9-5- 4-13- 3-10- 15- (Income < 1050) {1,6,7,12,14,17+; } (Income < 1250) {1,6,7,12,14,17+;10-} (Income < 1450) {1,2,6,7,12,14,17+;8,10-} Period (Period < 1) {1,6,7,14,17+;10,11-} (Period < 2.5) {1,2,6,7,12,14,17+;10,11-}

Przykład (3) - the minimal set of induced rule 1. if (Income<1050) then (Dec=r) [6] 2. if (Age=sr) and (Period<2.5) then (Dec=r) [2] 3. if (Period [3.5,12.5)) then (Dec=d) [2] 4. if (Age=st) and (Job=p) then (Dec=d) [3] 5. if (Age=m) and (Income [1050,2550)) then (Dec=p) [2] 6. if (Job=e) then (Dec=p) [1] 7. if (Age=sr) and (Period 12.5) then (Dec=p) [2] For inconsistent data: Approximations of decision classes (rough sets) Rule post-processing (a kind of post-pruning) or extra testing and earlier acceptance of rules.

Priority decision list (C4.5 rules)

Specific solution RIPPER (Mushroom data)

CN2 unordered rule set

Klasyfikacja podejście statystyczne { p ( ) } N i ci xi R, ci { C1,... Ck} i D = x, = 1 y = y = f ( x i f ( x i f ( x, w) ) > T ) < T x x i i C C 1 2 sir Ronald Fisher x x x x o x x x x x o o o o o o o x o o o o o Binarna klasyfikacja (uogólnienie na więcej klas) Poszukiwanie przybliżenia granicy decyzyjnej ang. decision boundary Obserwacje ponad linią przydziel do klasy x Obserwacje pod linią przydziel do klasy o Przykłady: Fisher-owska analiza dyskryminacyjna, SVM, ANN

Porównanie rozwiązań LDA i QDA Wybrany zbiór danych Iris (za Hastie et al. Elements of Statistical Learning)

Klasyfikacja minimalno-odległościowa k-nn Nearest Neighbours Przykłady punkty w przestrzeni n-wymiarowej Najbliżsi sąsiedzi definiowani funkcją odległości Euklidesowa metryka, HVDM, i inne Pojęcie docelowe wyrażane dyskretnie lub liczbą rzeczywistą k-nn zwraca najczęstsza z decyzji dla k przykładów najbliższych xq + +. xq _ + _ +

Klasyfikacja Bayesowska Dla zbioru uczącego D, prawdopodobięnstwo posteriori hipotezy h, P(h D) wynika z twierdzenia Bayes a: P ( h D) = P( D h) P( h) P( D) MAP (maximum posteriori) hypothesis: h MAP argmaxp( h D) = argmaxp( D h) P( h h H h H Praktyka: założenie znajomości prawdo-podobieństw apriori, duże koszty obliczeniowe. ).

Naiwny klasyfikator bayesowski (I) Założenie upraszczające: niezależność warunkowa atrybutów a j (j=1..n): Znacznie obniża wymogido do estymacji prawdopodobieństw apriori, niższe koszty obliczeniowe. = = n i j i j j C v C C P P V P 1 ) ( ) ( ) (

Naiwny klasyfikator bayesowski (II) Dla danego przykładu, można obliczyć prawdopodobieństwa Outlook P N Humidity P N sunny 2/9 3/5 high 3/9 4/5 overcast 4/9 0 normal 6/9 1/5 rain 3/9 2/5 Tempreature W indy hot 2/9 2/5 true 3/9 3/5 mild 4/9 2/5 false 6/9 2/5 cool 3/9 1/5

Sieci Neuronowe Zalety Często wysoka trafność klasyfikacji Odporne na zaszumione dane Wyjście może być dyskretne, liczbą rzeczywistą, lub wektorem dyskretnym / liczbowym Po nauczeniu, względnie szybki klasyfikator. Krytycyzm Długi i złożony proces uczenia Pozyskana wiedza niemożliwa do wyjaśnienia (wagi). Trudno uwzględniać wiedzę dziedzinową

Neuron - µ k x 0 w 0 x 1 w 1 f output y x n w n Input vector x weight vector w weighted sum Activation function n-wymiarowy wektor x jest odwzorowywany w zmienną y za pomocą iloczynu skalarnego i nieliniowej funkcji przejścia

Multi Layer Perceptron Output vector Output nodes Hidden nodes Input nodes S i p = σ ( v p m α m w l m = h α m= 1 m n f ( ( x l= 1 v m p ) σ ( x) i l 1 = 1 + e w f ( x) :: = δ ( x) m l ) x x e = e x r + m e e ) x x Input vector: x i

Dostępne narzędzia, implementacje metod Open source lub freeware WEKA Waikato MOA Datastreams Waikato Rapid Miner (YALE) Orange Lubljana KNIME Konstanz MLC++ Stanford SSNN Stutgart ROSE i inne (PP Poznań) Systemy komercyjne SAS Institute: Enterprise Miner Statistica Data Miner SPSS : Clementine Oracle 9i Miner IBM: QUEST and Intelligent Miner Silicon Graphics: MineSet Review 10 Top Data Mining Tools Edler

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Dalsza część wykładu Perspektywy odkrywania wiedzy Predykcja klasyfikacji przewidywanie przydziału nowych obiektów do klas / reprezentacja wiedzy wykorzystywana jako tzw. klasyfikator (ocena zdolności klasyfikacyjnej na ogół jedno wybrane kryterium). Opis klasyfikacji obiektów wyszukiwanie wzorców charakteryzujących właściwości danych i prezentacja ich użytkownikowi w zrozumiałej formie (ocena wielokryterialna i bardziej subiektywna). Jak ocenić praktyczną przydatność tworzonych klasyfikatorów

Predykcja nowych faktów - klasyfikatory Poszukiwanie reprezentacji wiedzy o przydziale obiektów do klas na podstawie opisu obiektów za pomocą wartości atrybutów (zbiór uczący). Predykcja klasyfikacji nowych obiektów (zbiór testowy) Zbiór uczący S <x,c> Algorytm uczenia LA Klasyfikator Kl decyzja <x,y> { x c, x, c, L,, } 1, 2 x Przykłady S = 1 2 n c n x i =<x i1,x i2,,x im > opisywane przez m atrybutów Atrybuty różnego typu c i etykieta jednej z klas {C 1,,C K } <x,?> Miara oceny, np: trafność klasyfikowania η = Ν N Eksperymentalna ocena Cross validation c t

Kryteria oceny metod klasyfikacyjnych Trafność klasyfikacji (Classification / Predictive accuracy) Szybkość i skalowalność: czas uczenia się, szybkość samego klasyfikowania Odporność (Robustness) szum (noise), missing values, Zdolności wyjaśniania: np. drzewa decyzyjne vs. sieci neuronowe Złożoność struktury, np. rozmiar drzew decyzyjnego, miary oceny reguły

Tworzenie i ocena klasyfikatorów Jest procesem trzyetapowym: 1. Konstrukcja modelu w oparciu o zbiór danych wejściowych (przykłady uczące). Przykładowe modele - klasyfikatory: drzewa decyzyjne, reguły (IF.. THEN..), sieci neuronowe. 2. Ocena modelu (przykłady testujące) 3. Użycie modelu (np. klasyfikowanie nowych faktów lub interpretacja regularności)

Proces Klasyfikowania (I) Uczenie się Zbiór Uczący Algorytm uczenia się NAME INCOME AGE Rating Mike low 30 no Mary high 36 yes Bill high 45 yes Jim medium 50 yes Dave medium 27 no Anne low 28 no Wiedza o klasyfikacji IF income = high OR age > 35 THEN rating = yes

Proces Klasyfikowania obiektów Klasyfikator Dane Testowe NAME INCOME AGE RATING Tom low 24 no Merlisa medium 33 no George high 33 yes Joseph low 40 yes Nowe dane (Jeff, high, 40) Rating?

Trafność klasyfikowania Użyj przykładów testowych nie wykorzystanych w fazie indukcji klasyfikatora: N t liczba przykładów testowych N c liczba poprawnie sklasyfikowanych przykładów testowych Trafność klasyfikowania (classification accuracy): η = Ν N t Alternatywnie błąd klasyfikowania. ε = Inne możliwości analizy: macierz pomyłek (ang. confusion matrix), koszty pomyłek i klasyfikacja binarna, miary Sensitivity i Specificity / krzywa ROC N t c N t Ν c

Macierz pomyłek Analiza pomyłek w przydziale do różnych klas przy pomocy tzw. macierz pomyłek (ang. confusion matrix) Macierz r r, gdzie wiersze odpowiadają poprawnym klasom decyzyjnym, a kolumny decyzjom przewidywanym przez klasyfikator; na przecięciu wiersza i oraz kolumny j - liczba przykładów n-ij należących oryginalnie do klasy i-tej, a zaliczonej do klasy j-tej Przykład: Oryginalne klasy Przewidywane klasy decyzyjne K 1 K 2 K 1 0 50 0 K 3 K 2 0 48 2 K 3 0 4 46

WEKA Classifier panel

Jak szacować wiarygodnie? Zależy od perspektywy użycia wiedzy: Predykcja klasyfikacji albo opisowa Ocena na zbiorze uczącym nie jest wiarygodna jeśli rozważamy predykcję nowych faktów! Nowe obserwacje najprawdopodobniej nie będą takie same jak dane uczące! Choć zasada reprezentatywności próbki uczącej Problem przeuczenia (ang. overfiting) Nadmierne dopasowanie do specyfiki danych uczących powiązane jest najczęściej z utratą zdolności uogólniania (ang. generalization) i predykcji nowych faktów!

Podejście empiryczne Zasada Train and test Gdy nie ma podziału zadanego przez nauczyciela, to wykorzystaj losowe podziały. Nadal pytanie jak szacować wiarygodnie?

Empiryczne metody estymacji Techniki podziału: hold-out Użyj dwóch niezależnych zbiorów: uczącego (2/3), testowego (1/3) Jednokrotny podział losowy stosuje się dla dużych zbiorów (hold-out) Cross-validation - Ocena krzyżowa Podziel losowo dane w k podzbiorów (równomierne lub warstwowe) Użyj k-1 podzbiorów jako części uczącej i pozostałej jako testującej ( k-fold cross-validation). Oblicz wynik średni. Stosowane dla danych o średnich rozmiarach (najczęściej k = 10) Uwaga opcja losowania warstwowego (ang. stratified sampling). Leaving-one-out Dla małych rozmiarów danych. Leaving-one-out jest szczególnym przypadkiem, dla którego liczba iteracji jest równa liczbie przykładów

Jednokrotny podział (hold-out) duża liczba przykładów (> tysięcy) Wszystkie przykłady 66.7% Podziel losowo 33.3% Training Set Buduj klasyfikator Testing Set Oszacowanie miar, np. trafności

Mniejsza liczba przykładów (od 100 do kilku tysięcy) * cross-validation Powtórz k razy Dostępne przykłady Np. 90% (k=10) 10% Zbiór uczący Zbuduj k niezależnych klasyfikatorów Zbiór testowy Estymuj średnią ocenę

Krzywe uczenia się -learning curve Klasyfikacja tekstów przez Naive Bayes 20 Newsgroups dataset - [McCallum & Nigam, 1998]

Perspektywa opisowa Trudniejsza niż ocena zdolności klasyfikacyjnych. Rozważmy przykład reguł: Klasyfikacyjne (decyzyjne). Asocjacyjne. Pojedyncza reguła oceniana jako potencjalny reprezentant interesującego wzorca z danych W literaturze propozycje tzw. ilościowych miar oceny reguł oraz sposoby definiowania interesujących reguł, także na podstawie wymagań podawanych przez użytkownika.

Opisowe miary oceny reguł Miary dla reguły r (jeżeli P to Q) definiowane na podstawie zbioru przykładów U, z którego została wygenerowana. Tablica kontyngencji dla reguły jeżeli P to Q : Q Q P n PQ n P Q n P P n PQ n P Q n P n Q n Q n Przegląd różnych miar, np.: Yao Y.Y, Zhong N.: An analysis of quantitative measures associated with rules, w: Proc. of the Third Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNAI 1574, Springer, 1999, s. 479-488. Także rozprawa habilitacyjna J.Stefanowski: Algorytmy indukcji reguł w odkrywaniu wiedzy.

Popularne miary oceny reguł Wsparcie reguły (ang. support) zdefiniowane jako: G( P Q) = n PQ n Dokładność (ang. accuracy) / wiarygodność (ang. confidence) reguły (bezwzględne wsparcie konkluzji Q przez przesłankę P): AS ( Q P) = n n PQ P Względne pokrycie (ang. coverage) reguły zdefiniowane jako: AS ( P Q) = n n PQ Q

Inne zaawansowane zagadnienia Klasyfikactory złożone (ang. ensembles) Uczenie się z niezrównoważonych danych (ang. class imbalanced)

Why could we integrate classifiers? Typical research create and evaluate a single learning algorithm; compare performance of some algorithms. Empirical observations or applications a given algorithm may outperform all others for a specific subset of problems There is no one algorithm achieving the best accuracy for all situations! [No free lunch] A complex problem can be decomposed into multiple subproblems that are easier to be solved. Growing research interest in combining a set of learning algorithms / classifiers into one system Multiple learning systems try to exploit the local different behavior of the base learners to enhance the accuracy of the overall learning system - G. Valentini, F. Masulli

Multiple classifiers / ensembles - definitions Multiple classifier a set of classifiers whose individual predictions are combined in some way to classify new examples. Various names: ensemble methods, committee, classifier fusion, combination, aggregation, Integration should improve predictive accuracy. CT example x... Final decision y Classifier C1

Bagging [L.Breiman, 1996] Bagging = Bootstrap aggregation Generates individual classifiers on bootstrap samples of the training set As a result of the sampling-with-replacement procedure, each classifier is trained on the average of 63.2% of the training examples. For a dataset with N examples, each example has a probability of 1-(1-1/N) N of being selected at least once in the N samples. For N, this number converges to (1-1/e) or 0.632 [Bauer and Kohavi, 1999] Bagging traditionally uses component classifiers of the same type (e.g., decision trees), and combines prediction by a simple majority voting across.

More about Bagging Bootstrap aggregating L.Breiman [1996] input S learning set, T no. of bootstrap samples, LA learning algorithm output C* - multiple classifier for i=1 to T do begin S i :=bootstrap sample from S; C i :=LA(S i ); end; * C ( x) = argmax y = 1( Ci ( x) = T i y)

Bagging Empirical Results Misclassification error rates [Percent] Data Single Bagging Decrease waveform 29.0 19.4 33% heart 10.0 5.3 47% breast cancer 6.0 4.2 30% ionosphere 11.2 8.6 23% diabetes 23.4 18.8 20% glass 32.0 24.9 22% soybean 14.5 10.6 27% Breiman Bagging Predictors Berkeley Statistics Department TR#421, 1994

Uczenie się klasyfikatorów z niezrównoważonych danych Zadajmy pytanie o rozkład przykładów w klasach w zbiorze uczącym Standardowe założenie: Dane są zrównoważone rozkłady liczności przykładów w klasach względnie podobne Przykład: A database of sick and healthy patients contains as many examples of sick patients as it does of healthy ones. Czy takie założenie jest realistyczne?

Przykład danych medycznych Chawla et al. SMOTE 2002

Niezrównoważenie rozkładu w klasach Dane są niezrównoważone jeśli klasy nie są w przybliżeniu równo liczne Klasa mniejszościowa (minority class) zawiera wyraźnie mniej przykładów niż inne klasy Przykłady z klasy mniejszościowej są często najważniejsze i ich poprawne rozpoznawanie jest głównym celem. Rozpoznawanie rzadkiej, niebezpiecznej choroby CLASS IMBALANCE powoduje trudności w fazie uczenia i obniża zdolność predykcyjną Class imbalance is not the same as COST sensitive learning. In general cost are unknown! + + + + + + + + + + ++ + + + + + + + + + + + + + +

Przykłady niezrównoważonych problemów Niezrównoważenie jest naturalne w : Medical problems rare but dangerous illness. Helicopter Gearbox Fault Monitoring Discrimination between Earthquakes and Nuclear Explosions Document Filtering Direct Marketing Detection of Oil Spills Detection of Fraudulent Telephone Calls Przegląd innych problemów i zastosowań Japkowicz N., Learning from imbalanced data. AAAI Conf., 2000. Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter,2004. Chawla N., Data mining for imbalanced datasets: an overview. In The Data mining and knowledge discovery handbook, Springer 2005. He H, Garcia, Mining imbalanced data. IEEE Trans. Data and Knowledge 2009.

Miary oceny Jak oceniać klasyfikatory Standardowa trafność bezużyteczna Wyszukiwanie informacji (klasa mniejszościowa 1%) ogólna trafność klasyfikowania 100%, lecz źle rozpoznawana wybrana klasa Miary powinny być z klasą mniejszościową Analiza binarnej macierzy pomyłek confusion matrix Sensitivity i specificity, ROC curve analysis. Actual class Yes No Yes Predicted class TP: True positive FP: False positive No FN: False negative TN: True negative Klasyczne miary: Error Rate: (FP + FN)/N Accuracy Rate: (TP + TN) /N TP Sensitivity = TP + FN TN Specificity = TN + FP

Miary oceny wynikające z macierzy pomyłek G-mean F-miara

Analiza krzywej ROC Każda technika budowy klasyfikatora może być scharakteryzowana poprzez pewne wartości miar sensitivity i specificity. Graficznie można je przedstawić na wykresie sensitivity vs. 1 specificity. Sensitivity 1.0 Sieć neuronowa z param. learning rate = 0.05 Sieć neuronowa z param. learning rate = 0.1 Dlaczego! 0.0 1.0 1 - Specificity

Probabilistyczne podstawy ROC

W czym tkwi trudność? Standardowe algorytmy uczące zakłada się w przybliżeniu zrównoważenie klas Typowe strategie przeszukiwania optymalizują globalne kryteria (błąd, miary entropii, itp.) Przykłady uczące są liczniej reprezentowane przy wyborze hipotez Metody redukcji (pruning) faworyzują przykłady większościowe Strategie klasyfikacyjne ukierunkowane na klasy większościowe

Reguły i niezrównoważenie klas zbiór uczący Ecoli: 336 ob. i 35 ob. w klasie M ; 7 atr. liczbowych MODLEM (noprune) 18 reguł, w tym 7 dla Minority class r1.(a7<0.62)&(a5>=0.11) => (Dec=O); [230,76.41%, 100%] r2.(a1<0.75)&(a6>=0.78)&(a5<0.57) => (Dec=O); [27,8.97%, 100%] r3.(a1<0.46) => (Dec=O); [148, 148, 49.17%, 100%] r4.(a1<0.75)&(a5<0.63)&(a2 [0.49,0.6]) => (Dec=O); [65, 21.59%, 100%] r5.(a1<0.75)&(a7<0.74)&(a2>=0.46) => (Dec=O); [135, 44.85%, 100%] r6.(a2>=0.45)&(a6>=0.75)&(a1<0.69) => (Dec=O); [34, 11.3%, 100%]... r12.(a7>=0.62)&(a6<0.78)&(a2<0.49)&(a1 [0.57,0.68]) => (Dec=M) [6, 17.14%, 100%] r13.(a7>=0.62)&(a6<0.76)&(a5<0.65)&(a1 [0.73,0.82]) => (Dec=M)[7, 20%, 100%] r14.(a7>=0.74)&(a1>=0.47)&(a2>=0.45)&(a6<0.75)&(a5>=0.59) => (Dec=M); [3, 8.57%, 100%] r15.(a5>=0.56)&(a1>=0.49)&(a2 [0.42,0.44]) => (Dec=M); [3, 8.57%, 100%] r16.(a7>=0.74)&(a2 [0.53,0.54]) => (Dec=M); [2, 5.71%, 100%]... A strategia klasyfikacyjna: Niejednoznaczne wielokrotne dopasowanie? Głosowanie większościowe Brak dopasowania? reguły najbliższe

Na czym polega trudność? Łatwiejszy problem Trudniejszy Źródła trudności: Zbyt mało przykładów z klasy mniejszościowej, Zaburzenia brzegu klas, Segmentacja klasy Przeglądowe prace: Klasa większ. nakłada się na mniejszościowe: Niejednoznaczne przykłady brzegowe Wpływ szumu (noisy examples) Japkowicz N., Learning from imbalanced data. AAAI Conf., 2000. Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter,2004.

Czy zawsze niezrównoważenie jest trudnością? Przeanalizuj studia eksperymentalne N.Japkowicz lub przeglądy G.Weiss. Japkowicz The minority class contains small disjuncts sub-clusters of interesting examples surrounded by other examples Niektóre prace eksperymentalne z dysuksją źródeł trudności, e.g: T. Jo, N. Japkowicz. Class imbalances versus small disjuncts. SIGKDD Explorations 6:1 (2004) 40-49 V. García, R.A. Mollineda, J.S. Sánchez. On the k-nn performance in a challenging scenario of imbalance and overlapping. Pattern Anal Applic (2008) 11: 269-280 Stefanowski J et al. Learning from imbalanced data in presence of noisy and borderline examples. RSCTC 2010.

Podstawowe metody Prace przeglądowe Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter, 2004. Chawla N., Data mining for imbalanced datasets: an overview. In The Data mining and knowledge discovery handbook, Springer 2005. He H, Garcia, Mining imbalanced data. IEEE Trans. Data and Knowledge 2009. Dwa podstawowe kierunki działanie Modyfikacje danych (preprocessing) Modyfikacje algorytmów Najbardziej popularne grupy metod Re-sampling or re-weighting, Zmiany w strategiach uczenia się, użycie nowych miar oceny (np. AUC) Nowe strategie eksploatacji klasyfikatora (classification strategies) Ensemble approaches (najczęściej adaptacyjne klasyfikatory złożone typu boosting) Specjalizowane systemy hybrydowe One-class-learning Transformacje do zadania cost-sensitive learning

Metody modyfikujące zbiór uczący Zmiana rozkładu przykładów w klasach przed indukcją klasyfikatora: Proste techniki losowe Over-sampling klasa mniejszościowe Under-sampling - klasa mniejszościowa Specjalizowane nadlosowanie Cluster-oversampling (Japkowicz) Ukierunkowane transformacje Klasa większościowe One-side-sampling (Kubat, Matwin) z Tomek Links Laurikkala s edited nearest neighbor rule Klasa mniejszościowe SMOTE Chawla et al. Borderline SMOTE, Safe Level, Surrounding SMOTE, Podejścia łączone (hybrydowe) SPIDER SMOTE i undersampling Powiązanie z budową klasyfikatorów złożonych

Resampling modyfikacja zbioru uczącego przed budową klasyfikatora Resampling pre-processing; celowa zmiana rozkładu przykładów; balansowanie liczności klas po to aby w kolejnej fazie móc lepiej nauczyć klasyfikator Brak teoretycznej gwarancji znalezienia optymalnej postaci rozkładu Raczej heurystyka ukierunkowana na to add or remove examples with the hope of reaching better distribution of the training examples and thus, realizing the potential ability of classifiers [F.Herrera 2010]. Supervised sample (imbalanced dataset selection (balanced dataset

Resampling the original data sets Undersampling vs oversampling # examples # examples + under-sampling # examples # examples + # examples over-sampling # examples +

Losowe równoważenie klas - dyskusja Random oversampling Kopiowanie przykładów mniejszościowych Czy proporcja 1:1 jest optymalna? Ryzyko przeuczenia Random undersampling: Usuwanie przykładów większośćiowych Utrata informacji

Ukierunkowane modyfikacje danych Focused resampling (Informed approaches): przetwarzaj tylko trudne obszary Czyszczenie borderline, redundant examples: Tomek links i one-side sampling Czyszczenie szumu i borderline: NCR Metoda SPIDER (J.Stefanowski, Sz.Wilk) SMOTE i jej rozszerzenia Czy są to typowe tricki losowania?

SMOTE - Synthetic Minority Oversampling Technique Wprowadzona przez Chawla, Hall, Kegelmeyer 2002 Dla każdego przykładu p z klasy mniejszościowej Znajdź jego k-najbliższych sąsiadów (także z klasy mniejszościowej!) Losowo wybierz j powyższych sąsiadów Losowo stwórz sztuczny przykład wzdłuż lini łączącej p z wybranym losowo jego sąsiadem (j - the amount of oversampling desired) Porównując z simple random oversampling SMOTE rozszerza regiony klasy mniejszościowej starając się robić je mniej specyficzne, paying attention to minority class samples without causing overfitting. SMOTE uznawana za bardzo skuteczną zwłaszcza w połączeniu z odpowiednim undersampling (wyniki Chawla, 2003).

Oversampling klasy mniejszościowej w SMOTE SMOTE analiza WYŁĄCZNIE klasy mniejszościowej : Przykład kl. mniejszościowej : syntetyczny przykład : Przykład kl. większościowej

SMOTE przykład oceny AUC

SMOTE zbiorcza ocena K=5 sąsiadów, różny stopień nadlosowania (np. 100% to dwukrotne zwiększenie liczności klasy mniejszościowej)

Kilka uwag na koniec Odkrywanie wiedzy z danych Potrzeby informacyjne We are drowning in the deluge of data that are being collected world-wide, while starving for knowledge at the same time * Rozwój KDD i pośrednio ML dostarczył wiele metod Badania (tak) choć nadal wiele otwartych problemów, Jak wyglądają zastosowania biznesowe? Rzadkie pojęcia słabo reprezentowane (<10%?) lecz mogą znacząco i negatywnie wpływać na dane zadanie * J. Naisbitt, Megatrends: Ten New Directions Transforming Our Lives.

Uwagi do źródeł Przygotowując wykład korzystałem m.in. z książek: S.Weiss, C.Kulikowski: Computer Systems That Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning and Expert Systems, Morgan Kaufmann 1991. K.Krawiec, J.Stefanowski: Uczenie maszynowe i sieci neuronowe, WPP 2004. J.Han, M.Kember: Data mining. Adison Wesley 2005. Opis pakietu WEKA oraz inspiracji ze slajdów wykładów nt. data mining następujących osób: J.Han; G.Piatetsky-Shapiro; Materiały związane z WEKA i prezentacji W.Kotłowski nt. oceny systemów uczących się.

Dziękuję za uwagę Pytania lub komentarze? Więcej informacji w moich artykułach! Kontakt: Jerzy.Stefanowski@cs.put.poznan.pl Jerzy.Stefanowski@wsb.poznan.pl