Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu

Transkrypt

1 Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji Instytutu Informatyki Politechniki Poznańskiej oraz Sekcji Inteligentnych Systemów Wspomagania Decyzji oraz Obliczeń Elastycznych Komitetu Informatyki PAN Instytut Informatyki, Politechnika Wrocławska 8 listopada 2011

2 Plan prezentacji 1 Klasyfikacja wielo-etykietowa Wprowadzenie Metody klasyfikacji wielo-etykietowej 2 Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq Wprowadzenie do algorytmu Analiza algorytmu Eksperymenty 3 Podsumowanie

4 Wprowadzenie Wprowadzenie X = {x 1, x 2,..., x n } - przestrzeń obserwacji L = {λ 1, λ 2,..., λ m } - skończony zbiór etykiet (x, L x ) X 2 L - krotka obserwacja-etykiety Klasyfikacja jedno-etykietowa obserwacja x X jest skojarzona z pojedynczą etykietą l L cel: nauka klasyfikatora H : X L Klasyfikacja wielo-etykietowa obserwacja x X może być skojarzona z podzbiorem etykiet L 2 L cel: nauka klasyfikatora H : X 2 L

5 Wprowadzenie Przykłady klasyfikacji wielo-etykietowej Kategoryzacja emocjonalna muzyki Model emocji Tellegen-Watson-Clark[1]

6 Wprowadzenie Przykłady klasyfikacji wielo-etykietowej Typ Zadanie Zasoby Opis danych tekst kategoryzacja artykuły Reuters topics (agriculture, fishing) tekst kategoryzacja strony www Yahoo! directory (health, science) tekst kategoryzacja ulubione Bibsonomy tags (sports, science) obrazy annotacja semantyczna obrazy pojęcie(drzewo, zachód słońca) wideo annotacja semantyczndomościami klipy z wia- concepts (tłum, pustynia) dźwięk detekcja szumu dźwięk typ(mowa, szum) dźwięk detekcja emocji klip muzyczny emocje(relaksacyjny, spokojny)

7 Wprowadzenie Realizowane zadania Dwa główne zadania w uczeniu nadzorowanym przy użyciu danych wielo-etykietowych: klasyfikacja wielo-etykietowa odwzorowanie przypisujące obserwacji podzbiór etykiet ranking etykiet odwzorowanie przypisujące uporządkowaną według relewancji listę etykiet

8 Wprowadzenie Taksonomia metod Metody transformujące problem niezależne od algorytmów transformują zadanie uczenia do jednego lub więcej zadań uczenia jedno-etykietowego wspierają się szeroką gamą standardowych algorytmów Metody adaptujące algorytmy rozszerzają poszczególne algorytmy

9 Metody klasyfikacji wielo-etykietowej Metody transformujące problem dane wielo-etykietowe są konwertowane do postaci jedno-etykietowej klasyfikator jedno-etykietowy zwraca rozkład prawdopodobieństwa klas, który można wykorzystać do rankowania etykiet przykładowe dane: L.p. Obserwacja (X) Etykiety(L) 1 x 1 {λ 1, λ 4 } 2 x 2 {λ 3, λ 4 } 3 x 3 {λ 1 } 4 x 4 {λ 2, λ 3, λ 4 }

10 Metody klasyfikacji wielo-etykietowej Metody transformujące problem Proste transformacje kopiowanie kopiowanie z wagami selekcja najczęstszej etykiety selekcja najrzadszej etykiety selekcja losowa pomijanie wielo-etykiet

11 Metody klasyfikacji wielo-etykietowej Metody transformujące problem Label powerset (zbiór potęgowy) każdy istniejący unikatowy podzbiór etykiet stanowi jedną nową etykietę złożoność ograniczona przez min(n, 2 m ) Przykład rankingu: c p(c x) λ 1 λ 2 λ 3 λ 4 λ 1, λ 3, λ λ 2,3, c p(c x)λ j

12 Metody klasyfikacji wielo-etykietowej Metody transformujące problem Pruned problem transformation[2] rozszerzenie metody Label powerset (zbióru potęgowego) odrzuca etykiety występujące rzadziej od zdefiniowanego progu Random k-labelsets (RAkEL)[3] buduje rodzinę klasyfikatorów dla losowo wybranych zbiorów k-elementowych podzbiorów potęgowych etykiet

13 Metody klasyfikacji wielo-etykietowej Metody transformujące problem Binarna relewancja uczenie m binarnych klasyfikatorów, po jednym dla każdej z etykiet w L m zbiorów uczących postaci (x, I(λ j )), gdzie I(λ j ) pozytywne dla obserwacji posiadającej etykietę λ j oraz negatywne wpp. Ranking by pairwise comparison[4] transformuje zbiór wielo-etykietowy do m(m 1) 2 binarnych zbiorów jedno-etykietowych, dla każdej pary (λ i, λ j ), 1 i j m zbiory uczące zawierają obserwacje z etykietami λ i λ j przykład: Multi-label pairwise perceptron (MLPP)[5]

14 Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Zmodyfikowany algorytm C4.5[6] strategia próbkowania obserwacji wielo-etykietowych przy użyciu m-estymacji (generalizacji estymacji Laplace a), biorącej pod uwagę prawdopodobieństwo a priori etykiet wiele etykiet dozwolonych w liściach entropia: m j=1 (p(λ j )logp(λ j ) + q(λ j )logq(λ j )), gdzie p(λ j ) to empiryczna częstość klasy λ j, a q(λ j ) = 1 p(λ j )

15 Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Użycie podejścia CRF (warunkowych pól losowych)[7] dwa modele graficzne parametryzujące współwystępowanie etykiet przez oznacznie klik(czarne kwadraty) (a)-parametryzacja jednej etykiety i jednej cechy, (b)-dodatkowo parametryzacja par etykiet, (c)-parametryzacja dla każdej etykiety, każdej cechy oraz każdej pary etykiet

16 Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Back-propagation perceptron for multi-label learning BP-MLL[8] adaptacja popularnego algorytmu z pętlą zwrotną dla klasyfikacji wielo-etykietowej modyfikacja funkcji błędu, która bierze pod uwagę wiele etykiet Multi-class multi-label perceptron (MMP)[9] rodzina algorytmów dla rankingów etykiet bazująca na perceptronie perceptron dla każdej z etykiet uaktualnianie wag - zgodność rankingu dla wszystkich etykiet

17 Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy Multi-label knn (ML-kNN)[10] wyszukanie k najbliższych sąsiadów agregacja podzbiorów etykiet zgodnie prawdopodobieństwem a posteriori dla każdej z etykiet

18 Metody klasyfikacji wielo-etykietowej Classifier Chain Model (Łańcuch klasyfikatorów)[12]

19 Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy AdaBoost.MH[11] minimalizuje odległość Hamminga AdaBoost.MR[11] szuka hipotez, które prawidłowo umiejscawiają prawdziwe etykiety na szczycie rankingu

20 Metody klasyfikacji wielo-etykietowej Metody adaptujące algorytmy

22 Wprowadzenie do algorytmu Algorytm AdaBoostSeq[13] AdaBoostSeq zmodyfikowany sposób ważenia obserwacji (schemat próbkowania danych uczących) modyfikacja funkcji kosztu klasyfikacja wielo-etykietowa Oznaczenia y µ i { 1, 1}, dla i = 1, 2,..., n i µ = 1, 2,..., m reprezentuje obecność etykiet: odpowiednio λ 1, λ 2,..., λ m m - liczba etykiet n - liczba obserwacji

23 Wprowadzenie do algorytmu AdaBoostSeq Cel Skonstruować m liniowych kombinacji rodziny K klasyfikatorów postaci: µ = 1, 2,..., m F µ (x Pµ ) = K α µ k Φ(xPµ, Θ µ k ) (1) k=1 F µ (x Pµ ) to meta-klasyfikator dla µ-tej etykiety Φ(x Pµ, Θ µ k ) reprezentuje k-ty klasyfikator bazowy z Θµ k parametrami klasyfikujący binarnie każdą obserwację x α µ k waga k-tego klasyfikatora

24 Analiza algorytmu Nieznane wartości otrzymujemy z optymalizacji dla każdej etykiety µ: arg min N α µ k,θµ k,k:1,k i=1 exp( y µ i Fµ (x Pµ i )) (2) bezpośrednia optymalizacja bardzo skomplikowana rozwiązanie z wykorzystaniem iteracyjnej minimalizacji suma częściowa kroku s: F µ s (x Pµ ) = s k=1 α µ k Φ(xPµ, Θ µ k ), s = 1, 2,..., K (3)

25 Analiza algorytmu Z równania 3 mamy naturalną rekursję: F µ s (x Pµ ) = F µ s 1 (xpµ ) + α s Φ(x Pµ, Θ µ s ) (4) przed obliczeniem F µ s (x Pµ ), wartość F µ s 1 (xpµ ) musiała już zostać obliczona problem w kroku s to zatem obliczenie: gdzie funkcja J to koszt (α µ m, Θ µ m) = arg min α µ,θ µ J(αµ, Θ µ ) (5)

26 Analiza algorytmu Funkcja kosztu J(α µ, Θ µ ) = n i=1 exp( y µ i (ξfµ s 1 (xpµ i ) +(1 ξ)y µ i ˆR µ s (x Pµ i ) + α µ Φ(x Pµ i, Θ µ ))) (6) gdzie: ˆR µ s (x Pµ i ) - funkcja wpływająca na koszt, biorąca pod uwagę jakość klasyfikacji poprzedzających etykiet ξ - parametr kontrolujący poziom wpływu, ξ 0, 1

27 Analiza algorytmu gdzie: s 1 ˆR µ s (x Pµ ) = α µ i Rµ (x Pµ ) (7) R µ (x Pµ ) = i=1 µ 1 l=1 yl F l (x Pµ ) K k=1 αl k µ R µ (x Pµ i ) oznacza średnią zgodność klasyfikacji między rzeczywistą etykietą l i F l (x Pµ ) (8)

28 Analiza algorytmu Zakładają stałe α µ (z równania 5 i 6), funkcja kosztu J może być obliczana względem klasyfikatora bazowego Φ(x Pµ i, Θ µ ): gdzie: Θ µ = arg min Θ µ n i=1 w µ i(s) exp( yµ i αµ Φ(x Pµ i, Θ µ )) (9) w µ i ( s) = exp( yµ i (ξfµ s 1 (xpµ i ) + (1 ξ)y µ i ˆR µ s (x Pµ i ))) (10)

29 Analiza algorytmu w µ i ( s) nie zależy od αµ ani od Φ(x Pµ i, Θ µ ) dla każdej obserwacji x Pµ i w µ i ( m) może być zatem wagą obserwacji xpµ i Dla binarnych klasyfikatorów bazowych obliczenie Θ µ możemy wykonać: Θ µ = arg min Θ µ { P µ m = N i=1 w µ i ( m) I(1 yµ i Φ(xPµ i, Θ µ )) } (11) gdzie: I(x) = { 0, if x = 0 1, if x > 0 (12)

30 Analiza algorytmu Dla klasyfikatora bazowego w kroku s: y µ i Φ(xPµ i,θ µ s )<0) w µ i ( s) = Pµ s (13) w µ i ( s) = 1 Pµ s (14) y µ i Φ(xPµ i,θ µ s )>0) wartość α s otrzymujemy z: α µ s = arg min α µ {exp( αµ )(1 P µ s ) + exp(α µ )P µ s } (15)

31 Analiza algorytmu Po obliczeniu równania 15 mamy: α µ s = 1 2 ln 1 Pµ s P µ s Gdy klasyfikator Φ(x Pµ i, Θ µ ) oraz α m µ są już obliczone, wagi w kroku s + 1 wynoszą: w µ i ( s+1) = exp ( y µ i (16) ( ξ Pµ F µ s (x Pµ i ) + (1 ξ)y µ ˆR )) i µ s (x Pµ ) =(17) Z s ) i, Θ µ s ) (1 ξ)α s µ R µ (x Pµ ) = w i ( s) exp ( y µ i ξαµ s Φ(x Pµ gdzie Z s to czynnik normalizujący. N ( ) Z s = w µ i ( s) exp y µ i ξαµ s Φ(x Pµ i, Θ µ s ) (1 ξ)α s µ R µ (x Pµ i ) i=1 Z s (18)

32 Analiza algorytmu

33 Eksperymenty Eksperymenty Tablica: Zbiory danych wielo-etykietowych użyte w eksperymentach Dane Obserwacji Atrybutów Etykiet 1 scene yeast emotions mediamill tmc

34 Eksperymenty Miary ewaluacji odległość Hamminga (Hamming Loss) HL = 1 n n i=1 L xi F(x i ) L xi (19) ( to symetryczna różnica zbiorów) dokładność klasyfikacji (Classification Accuracy) CA = 1 n I(L xi = F(x i )) (20) n i=1

35 Eksperymenty Rysunek: Odległość Hamminga dla wybranych algorytmów klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene, yeast oraz emotions

36 Eksperymenty Rysunek: Dokładność klasyfikacji dla wybranych algorytmów klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene, yeast oraz emotions

37 Eksperymenty Rysunek: Czas pracy wybranych algorytmów klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene, yeast oraz emotions

39 Podsumowanie AdaBoostSeq klasyfikacja wielo-etykietowa zmodyfikowany sposób ważenia obserwacji (schemat próbkowania danych uczących) klasyfikacja etykiet w ustalonej kolejności kolejność uczenia ma znaczenie Wyzwania odzwierciedlenie rzeczywistych zależności występowania etykiet odpowiednie funkcje kosztu złożoność obliczeniowa

40 [Tellegen et al., 1999] Tellegen, A., Watson, D., Clark, L.A. On the dimensional and hierarchical structure of affect, Psychological Science, Vol. 10, No. 4, [Read, 2008] Read, J. A pruned problem transformation method for multi-label classification. In: Proc New Zealand Computer Science Research Student Conference (NZCSRS 2008), pp , 2008 [Tsoumakas et al., 2007] Tsoumakas, G., Vlahavas, I. Random k-labelsets: An ensemble method for multilabel classification. In: Proc. of the 18th European Conference on Machine Learning (ECML 2007), pp , 2007 [Hullermeier et al., 2008] Hullermeier, E., Furnkranz, J., Cheng, W., Brinker, K.

41 Label ranking by learning pairwise preferences. Artificial Intelligence, Vol. 172, pp , 2008 [Loza Mencia et al., 2008] Loza Mencia, E., Furnkranz, J. Pairwise learning of multilabel classifications with perceptrons. In: Proc. of IEEE International Joint Conference on Neural Networks (IJCNN-08), pp , 2008 [Clare et al., 2001] Clare, A., King, R. Knowledge discovery in multi-label phenotype data. In: Proc. of the 5th European Conference on Principles of Data Mining and Knowledge Discovery (PKDD 2001), pp , 2001 [Ghamrawi et al., 2005] Ghamrawi, N., McCallum, A. Collective multi-label classification.

42 In: Proc. of the ACM Conference on Information and Knowledge Management (CIKM 05), pp , 2005 [Zhang et al., 2006] Zhang, M.L., Zhou, Z.H. Multi-label neural networks with applications to functional genomics and text categorization. IEEE Transactions on Knowledge and Data Engineering, Vol. 18, pp , 2006 [Crammer et al., 2003] Crammer, K., Singer, Y. A family of additive online algorithms for category ranking. Journal of Machine Learning Research, Vol. 3, pp , 2003 [Zhang et al., 2007] Zhang, M.L., Zhou, Z.H. Ml-knn: A lazy learning approach to multi-label learning. Pattern Recognition, Vol. 40, pp , 2007 [Schapire et al., 2000] Schapire, R.E. Singer, Y.

43 Boostexter: a boosting-based system for text categorization. Machine Learning, Vol. 39, pp , 2000 [Read et al., 2009] Read, J., Pfahringer, B., Holmes, G., Frank, E. Classifier Chains for Multi-label Classification In: Proc. of European Conference of Machine Learning and Knowledge Discovery in Databases, pp , 2009 [Kajdanowicz et al., 2011] Kajdanowicz T., Kazienko P. Boosting-based Sequence Prediction New Generation Computing, Vol. 29, No. 3, pp , 2011