Selekcja zmiennych w klasyfikacji z wieloma etykietami

Transkrypt

1 Seminarium IPIPAN, Maj 2016 Selekcja zmiennych w klasyfikacji z wieloma etykietami Paweł Teisseyre Instytut Podstaw Informatyki PAN

2 Plan prezentacji Klasyfikacja z wieloma etykietami. Selekcja zmiennych w klasyfikacji z wieloma etykietami. Ogólne podejście do estymacji prawdopodobieństwa aposteriori. Model Isinga i łańcuchy klasyfikatorów. Metoda CCnet: łańcuchy klasyfikatorów + sieć elastyczna: dopasowanie modelu, wybór parametrów sieci elastycznej, wyniki teoretyczne: stabilność i oszacowanie błędu generalizacji. Eksperymenty: wpływ selekcji zmiennych na jakość predykcji, wpływ kolejności budowy modeli w łańcuchu na wybór zmiennych.

3 Klasyfikacja z wieloma etykietami Klasyfikacja z jedną etykietą (binarną) Jedna zmienna odpowiedzi. Zbiór uczący: (x (i), y (i) ), x (i) R p, y (i) {0, 1}. Klasyfikacja z wieloma etykietami (binarnymi) Wiele zmiennych odpowiedzi. Zbiór uczący: (x (i), y (i) ), x (i) R p, y (i) {0, 1} K.

4 Klasyfikacja z jedną etykietą (binarną): x 1 x 2... x p y ? Tabela : Klasyfikacja binarna. y {0, 1}- zmienna odpowiedzi (etykieta).

5 Klasyfikacja z jedną etykietą (dyskretną): x 1 x 2... x p y ? Tabela : Klasyfikacja wieloklasowa (multiclass). y {1, 2,..., G}- zmienna odpowiedzi (etykieta).

6 Klasyfikacja z wieloma etykietami: x 1 x 2... x p y 1 y 2... y K ??...? Tabela : Klasyfikacja wieloetykietowa (mutlilabel). y = (y 1,..., y K ) - wektor zmiennych odpowiedzi (etykiet).

7 Klasyfikacja z wieloma etykietami Przykłady zastosowań: kategoryzacja tekstów (etykiety: różne tematy) anotacja obrazów cyfrowych i filmów (etykiety: różne obiekty na zdjęciu) marketing (etykiety: produkty kupowane przez klientów) genomika (etykiety: funkcje genów) medycyna (etykiety: choroby pacjentów)

8 Klasyfikacja wieloklasowa i wieloetykietowa Przykład: (automatyczna anotacja obrazów) Klasyfikacja wieloklasowa: góra, las czy samochód? Klasyfikacja wieloetykietowa: góra (TAK), las (TAK), samochód (NIE).

9 Klasyfikacja wieloklasowa i wieloetykietowa Transformacja potęgowa (label powerset): X 1 Y 1 Y Tabela : Przed redukcją. X 1 Y Tabela : Po redukcji.

10 Klasyfikacja wieloklasowa i wieloetykietowa Transformacja potęgowa (label powerset): Zalety: 1. Sprowadzamy nasze zadanie do zadania bardziej znanego. 2. Znalezienie meta-klasy o największym prawdopodobieństwie aposteriori jest równoważne wyznaczeniu najbardziej prawdopodobnej kombinacji etykiet. Wady: 1. Tracimy informację o odległościach między wektorami odpowiedzi. 2. Duża liczba możliwych meta-klas. 3. Mało obserwacji (przykładów uczących) dla pewnych meta-klas. 4. W skrajnej sytuacji liczba meta-klas może być równa liczbie obserwacji.

11 Przykład: wielozachorowalność BMI Weight Glucose... Diabetes Hypotension Liver disease Zmienne x: charakterystyki pacjentów. Etykiety y: wystąpienia chorób. Zadanie 1: przewidywanie które choroby wystąpią na podstawie pewnych charakterystyk pacjentów (PREDYCKJA). Zadanie 2: wyznaczenie które zmienne wpływają na występowanie poszczególnych chorób (SELEKCJA ZMIENNYCH).

12 Selekcja zmiennych Problem: Selekcja zmiennych: które spośród zmiennych x wpływają na etykiety y? Interesuje nas sytuacja p- bardzo duże; K- średnie (częsta sytuacja w zastosowaniach medycznych). W sytuacji wielu etykiet pojawiają się nowe problemy: Każda etykieta może zależeć od innego zbioru zmiennych. Etykiety mogą zależeć od zmiennych warunkowo (pod warunkiem innych etykiet). Zmienne mogą wpływać na interakcje między etykietami.

13 Selekcja zmiennych Popularna klasyfikacja: 1. Filtry (filters): indywidualna ocena istotności każdej zmiennej. Na przykład: transformacja LP+ informacja wzajemna. 2. Wrappery (wrappers): ocena istotności podzbiorów zmiennych. 3. Metody z wbudowaną selekcją (embedded methods): selekcja zmiennych wykonywana podczas budowy modelu.

14 Klasyfikacja z wieloma etykietami Naturalne podejście: 1. Oszacowanie prawdopodobieństwa aposteriori: p(y x) 2. Predykcja dla nowej obserwacji x 0 : ŷ(x 0 ) = arg max ˆp(y x 0), y {0,1} K gdzie ˆp(y x 0 ) to oszacowane prawdopodobieństwo aposteriori w x 0.

15 Ogólne podejście: Estymacja prawdopodobieństwa aposteriori: Rozważamy rodzinę rozkładów: {p(y x, θ) : θ Θ}. Estymujemy parametry używając metody NW: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ)}. i=1 Wersja z regularyzacją: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Zaleta regularyzacji l 1 : część współrzędnych ˆθ będzie równa 0 (selekcja zmiennych).

19 Przykład rodziny rozkładów {p(y x, θ) : θ Θ}: Model Isinga 1 2 : p(y x, θ) = 1 K N(x) exp ak T xy k + β k,l y k y l, (1) k=1 k<l gdzie: N(x) = K exp y {0,1} K k=1 a T k xy k + k<l β k,l y k y l (2) oraz θ = (a 1,..., a K, β 1,2, β 1,3,..., β K 1,K ) T. 1 E. Ising, Beitrag zur Theorie des Ferromagnetismus, Zeitschrift für Physik, P. Teisseyre, Feature ranking for multi-label classification using Markov Networks, Neurocomputing, 2016.

20 Model Isinga Rysunek : Sieć Markova odpowiadająca modelowi Isinga.

21 Dlaczego model Isinga? Chcemy znaleźć rozkład g(y x), maksymalizujący entropię: H g (y x) = y g(y x) log(g(y x)) przy założeniach: g(y x) 0, y g(y x) = 1 oraz: g(y x)y k = A k (x), k = 1,..., K, (3) y g(y x)y k y l = B k,l (x), k < l, (4) y gdzie A k (x) i B k,l (x) są ustalone i zależą od x.

22 Dlaczego model Isinga? Twierdzenie Niech g(y x) będzie dowolnym rozkładem spełniającym (3), (4) i niech p(y x) będzie rozkładem danym wzorem Isinga i spełniającym (3), (4). Wtedy: H g (y x) H p (y x).

23 Dlaczego model Isinga? Dowód: Z definicji entropii: H g (y x) = g(y x) log(g(y x)) = y [ ] g(y x) g(y x) log p(y x) p(y x) = y KL(g, p) y g(y x) log(p(y x)) y g(y x) log(p(y x)), gdzie KL(g, p) jest odległością Kullbacka-Leibnera między g i p i ostatnia nierówność wynika z KL(g, p) 0 (nierówność informacyjna). Dalej pokażemy że: y g(y x) log(p(y x)) = y p(y x) log(p(y x)).

24 Dlaczego model Isinga? Korzystając z definicji p i g oraz faktu że p i g muszą spełniać ograniczenia mamy: y y y y g(y x) log(p(y x)) = K g(y x) log(z(x)) + β k,j xy k y j = ak T xy k + k=1 k<j K p(y x) log(z(x)) + ak T xy k + β k,j xy k y j = k=1 k<j p(y x) log(p(y x)), co kończy dowód.

25 Model Isinga: Zalety: Naturalne uogólnienie modelu logistycznego. Łatwa interpretacja zależności między etykietami. Rozkład maksymalnej entropii. Wady: Duża liczba parametrów. Bezpośrednia estymacja metodą największej wiarogodności jest trudna ze względu na stałą normującą Z(x). Predykcja może być problemem w przypadku dużej liczby etykiet.

26 Metoda CCnet Estymacja prawdopodobieństwa aposteriori: Zamiast modelować p(y x, θ) bezpośrednio, używamy wzoru łańcuchowego: p(y x, θ) = p(y 1 x, θ 1 ) K p(y k y k, x, θ k ), k=2 gdzie: y k = (y 1,..., y k 1 ) T, θ = (θ 1,..., θ K ) T.

27 Metoda CCnet Problem: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Rozwiązanie w postaci: ˆθ = (ˆθ 1,..., ˆθ K ) T, gdzie: ˆθ k = arg min{ 1 θ k n dla k = 1,..., K. n i=1 log p(y (i) k y(i) k, x(i), θ k )+λ 1 θ k 1 +λ 2 θ k 2 2},

28 Metoda CCnet Zakładamy że prawdopodobieństwa warunkowe są w postaci: gdzie: z k = (y k, x) T. p(y k z k, θ k ) = exp(θt k z k y k ) 1 + exp(θ T k z k ), Rozważamy parametry regularyzacji λ 1,k and λ 2,k niezależnie, dla każdego k. Rozwiązanie w postaci: ˆθ = (ˆθ 1,..., ˆθ K ) T, gdzie: ˆθ k = arg min{ 1 θ k n dla k = 1,..., K. n [θ T k z (i) i=1 k y (i) k log(1+exp(θt k z (i) k ))]+λ 1,k θ k 1+λ 2,k θ k 2 2},

29 Metoda CCnet Rozwiązanie w postaci: ˆθ = (ˆθ 1,..., ˆθ K ) T, gdzie: ˆθ k = arg min{ 1 θ k n dla k = 1,..., K. n [θ T k z (i) i=1 k y (i) k log(1+exp(θt k z (i) k ))]+λ 1,k θ k 1+λ 2,k θ k 2 2}, K problemów optymalizacji wypukłej: do rozwiązania można użyć algorytmu CCD (funkcja glmnet w R).

30 Wybór parametru regularyzacji Przyjmujemy λ 1,k = αλ k, λ 2,k = (1 α)λ k, gdzie: α [0, 1]. Dla ustalonego α znajdujemy optymalną wartość λ k używając kryterium GIC (Generalized Information Criterion): gdzie: ˆλ k = arg min{ 1 λ k n n i=1 df := {r : ˆθk,r 0}, a(n) = log(n) (BIC) lub a(n) = 2 (AIC). log p(y (i) k z(i) k, ˆθ k ) + a(n) df },

31 Łańcuchy klasyfikatorów Estymacja prawdopodobieństwa aposteriori: Zamiast modelować p(y x) bezpośrednio, używamy wzoru łańcuchowego: p(y x) = p(y 1 x) gdzie: y k = (y 1,..., y k 1 ) T. K p(y k y k, x), k=2 Do oszacowania prawdopodobieństw warunkowych można użyć dowolnego klasyfikatora, traktując y k jako zmienną odpowiedzi, natomiast x, y 1,..., y k 1 jako zmienne objaśniające (atrybuty). W CCnet do oszacowania prawdopodobieństw warunkowych używamy regresji logistycznej z odpowiednią regularyzacją (sieć elastyczna).

32 Łańcuchy klasyfikatorów- predykcja Pełne przeszukiwanie (sprawdzenie wszystkich możliwych kombinacji etykiet) wymaga 2 K operacji. Przeszukiwanie zachłanne: Znajdź: ŷ1 = arg max y {0,1} p(y 1 = y x), Znajdź: ŷ2 = arg max y {0,1} p(y 2 = y ŷ 1, x), Znajdź: ŷ 3 = arg max y {0,1} p(y 3 = y ŷ 1, ŷ 2, x),... wymaga K operacji. Inne możliwości: beam search (Kumar et al. 2013).

33 Łańcuchy klasyfikatorów- predykcja y 1 P (y 1 = 1) P (y 1 = 0) y 2 y 2 P (y 2 = 1 y 1 = 1) P (y 2 = 0 y 1 = 1) P (y 2 = 1 y 1 = 0) P (y 2 = 0 y 1 = 0) y 1 = 1, y 2 = 1 y 1 = 1, y 2 = 0 y 1 = 0, y 2 = 1 y 1 = 0, y 2 = 0

34 Wyniki teoretyczne Stabilność CCnet ze względu na wybraną funkcję straty: niewielka zmiana zbioru treningowego nie wpływa znacząco na wartość funkcji straty dla CCnet. Oszacowanie błędu generalizacji dla CCnet, dla wybranej funkcji straty: używamy pomysłu opisanego w pracy Bousquet & Elisseeff (JMLR 2002), który pozwala udowodnić oszacowanie błędu generalizacji używając stabilności.

35 Funkcje straty Niech: g(x, y, θ) = p(y x, θ) max y y p(y x, θ). Strata 0-1: l(x, y, θ) = { 1 if g(x, y, θ) < 0 0 if g(x, y, θ) 0. (5) Modyfikacja straty 0-1: 1 if g(x, y, θ) < 0 l γ (x, y, θ) = 1 g(x, y, θ)/γ if 0 g(x, y, θ) < γ 0 if g(x, y, θ) γ.

36 Funkcje straty Niech: g(x, y, θ) = p(y x, θ) max y y p(y x, θ). Strata 0-1: l(x, y, θ) = { 1 if g(x, y, θ) < 0 0 if g(x, y, θ) 0. (5) Modyfikacja straty 0-1: 1 if g(x, y, θ) < 0 l γ (x, y, θ) = 1 g(x, y, θ)/γ if 0 g(x, y, θ) < γ 0 if g(x, y, θ) γ.

37 l(x,y,θ) l γ(x,y,θ) g(x,y,θ) 0 γ g(x,y,θ) (a) (b) Rysunek : Porównanie funkcji strat: l(x, y, θ) (a) oraz l γ (x, y, θ) (b).

38 Stabilność CCnet Oryginalny zbiór uczący: D = (x (i), y (i) ), i = 1,..., n Zmodyfikowany zbiór uczący: D l : obserwacja numer l z D została zamieniona przez niezależną kopię. Rozwiązania CCnet: ˆθ oraz ˆθ l wyliczone na podstawie zbiorów: D oraz D l. Twierdzenie (stabilność CCnet) Zakładamy że x 2 L i niech λ 2 > 0. Dla l = 1,..., n mamy: l γ (x, y, ˆθ) l γ (x, y, ˆθ l ) 4K(L2 + K). λ 2 nγ

39 Stabilność CCnet Oryginalny zbiór uczący: D = (x (i), y (i) ), i = 1,..., n Zmodyfikowany zbiór uczący: D l : obserwacja numer l z D została zamieniona przez niezależną kopię. Rozwiązania CCnet: ˆθ oraz ˆθ l wyliczone na podstawie zbiorów: D oraz D l. Twierdzenie (stabilność CCnet) Zakładamy że x 2 L i niech λ 2 > 0. Dla l = 1,..., n mamy: l γ (x, y, ˆθ) l γ (x, y, ˆθ l ) 4K(L2 + K). λ 2 nγ

40 Oszacowanie błędu generalizacji CCnet Błąd oczekiwany: err(ˆθ) = E x,y l γ (x, y, ˆθ), Błąd na danych uczących: Err(ˆθ) = 1 n n l γ (x (i), y (i), ˆθ). i=1 Twierdzenie (oszacowanie błędu generalizacji) Zakładamy że x 2 L oraz λ 2 > 0. Mamy następujące oszacowanie z prawdopodobieństwem co najmniej 1 δ: ( err(ˆθ) Err(ˆθ) 8K(L2 + K) 16K(L 2 ) + K) log(1/δ) λ 2 nγ λ 2 γ 2n

41 Oszacowanie błędu generalizacji CCnet Błąd oczekiwany: err(ˆθ) = E x,y l γ (x, y, ˆθ), Błąd na danych uczących: Err(ˆθ) = 1 n n l γ (x (i), y (i), ˆθ). i=1 Twierdzenie (oszacowanie błędu generalizacji) Zakładamy że x 2 L oraz λ 2 > 0. Mamy następujące oszacowanie z prawdopodobieństwem co najmniej 1 δ: ( err(ˆθ) Err(ˆθ) 8K(L2 + K) 16K(L 2 ) + K) log(1/δ) λ 2 nγ λ 2 γ 2n

42 Eksperymenty Porównanie metod: 1. BRlogit 3, 2. BRtree, 3. BRnet, dla α = 0, 0.5, 1 4, 4. CClogit 5, 5. CCtree, 6. CCnet, dla α = 0, 0.5, 1. 3 Dembczynski et. al Liu Kumar et. al. 2013; Montanes 2014; Dembczynski et. al. 2012

43 Eksperymenty Miary oceny: Dokładność zbioru: Subset accuracy(y, ŷ) = I [y = ŷ]. Miara Hamminga: Hamming measure(y, ŷ) = 1 K K I [y k = ŷ k ]. k=1 Liczba wybranych zmiennych. Czas budowy modelu.

44 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Dokładność zbioru. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

45 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Miara Hamminga. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

46 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Liczba wybranych zmiennych. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

47 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Czas budowy modelu. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

48 Eksperymenty Wnioski: 1. CCnet (z dowolną α) osiąga większą dokładność zbioru niż inne metody. 2. Wartość α nie ma bardzo dużego wpływu na dokładność i miarę Hamminga. Wartość α > 0 jest zalecana ze względu na selekcję zmiennych. 3. BRnet osiąga największe wartości miary Hamminga. 4. Kara lasso (BRnet, α = 1 oraz CCnet, α = 1) pozwala na wybór najmniejszej liczby zmiennych. 5. Najmniejsze czasy dopasowania modelu obserwujemy dla kary lasso (BRnet, α = 1 oraz CCnet, α = 1).

49 Eksperyment 2 Wybrany zbiór zmiennych: Cel eksperymentu: S = K {1 r p : ˆθ k,r 0}. k=1 Kolejność dopasowania modeli w łańcuchu może wpływać na jakość modelu, a co za tym idzie na to które zmienne są wybierane. Sprawdzamy stabilność wyboru zmiennych ze względu na kolejność dopasowania modeli w łańcuchu. Powtarzamy dopasowanie CCnet dla różnych permutacji etykiet i dla każdej wyznaczamy zbiór S.

50 Features 150 Features 150 Features Permutations in CC Permutations in CC Permutations in CC (a)ccnet+aic (b)ccnet+bic (c)cctree Rysunek : Wybrane zmienne dla różnych kolejności dopasowania modeli. Czarne kropki oznaczają wybrane zmienne.

51 Eksperyment 2 Dataset p mean of S sd of S >75% >90% >95% music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex Tabela : Stabilność CCnet dla BIC.

52 Eksperyment 2 Dataset p mean of S sd of S >75% >90% >95% music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex Tabela : Stabilność CCnet dla AIC.

53 Eksperyment 2 Dataset p mean of S sd of S >75% >90% >95% music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex Tabela : Stabilność CCtree.

54 Eksperyment 2 Wnioski: 1. Stabilność zależy od zbioru danych. Dla pewnych zbiorów (np. CCnet+ BIC, zbiór genbase) wybieramy dokładnie te same zmienne dla wszystkich permutacji etykiet. 2. CCnet z BIC działa stabilnie, większość zmiennych jest wybierana dla co najmniej 95% permutacji etykiet. 3. Ostateczny zbiór zmiennych istotnych może być wybierany poprzez uwzględnienie zmiennych które pojawiły się dla większości permutacji (np. dla najmniej 95% permutacji).

55 Narzędzia: Biblioteka MULAN (JAVA): duża liczba zaimplementowanych metod, wykorzystuje bibliotekę WEKA. Biblioteka MEKA (JAVA): posiada interfejs graficzny, wykorzystuje bibliotekę WEKA. Pakiet mldr (R): transformacje BR, LP, wizualizacja danych z wieloma etykietami.

56 Referencje: 1. P. Teisseyre, Joint multi-label classification and feature selection using classifier chains and elastic net regularization, w recenzji, P. Teisseyre, Feature ranking for multi-label classification using Markov Networks, Neurocomputing, 2016, 3. H. Liu et. al., MLSLR: Multilabel Learning via Sparse Logistic Regression, Information Sciences, 2015, 4. K. Dembczyński et. al., On label dependence and loss minimization in multi-label classification, Machine Learning, 2012, 5. E. Ising, Beitrag zur Theorie des Ferromagnetismus, Zeitschrift für Physik, 1925, 6. W. Bian et. al., CorrLog: Correlated Logistic Models for Joint Prediction of Multiple Labels, JMLR Proceedings, 2012.