Klasyfikacja z milionami etykiet

Podobne dokumenty
Optymalizacja ciągła

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Data Mining Wykład 4. Plan wykładu

9. Praktyczna ocena jakości klasyfikacji

Pattern Classification

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

ALGORYTM RANDOM FOREST

Rozpoznawanie obrazów

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Widzenie komputerowe (computer vision)

Metody systemowe i decyzyjne w informatyce

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Wprowadzenie do sieci neuronowych i zagadnień deep learning

Deep Learning na przykładzie Deep Belief Networks

Selekcja zmiennych w klasyfikacji z wieloma etykietami

Wprowadzenie do uczenia maszynowego

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Metody klasyfikacji danych - część 1 p.1/24

Testowanie modeli predykcyjnych

Systemy agentowe. Uwagi organizacyjne. Jędrzej Potoniec

STRATEGIA DOBORU PARAMETRÓW SIECI NEURONOWEJ W ROZPOZNAWANIU PISMA

Drzewa decyzyjne i lasy losowe

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Optymalizacja systemów

Badania w zakresie systemów uczących się w Zakładzie ISWD. Politechnika Poznańska Instytut Informatyki

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Metody klasyfikacji danych zaszumionych. Stanisław Kaźmierczak

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Metody systemowe i decyzyjne w informatyce

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Elementy inteligencji obliczeniowej

Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej

Algorytmy klasyfikacji

Agnieszka Nowak Brzezińska Wykład III

Machine learning Lecture 6

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Klasyfikacja LDA + walidacja

Metody systemowe i decyzyjne w informatyce

Systemy uczące się wykład 2

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Komitety sieci konwolucyjnych w zagadnieniu klasyfikacji przy jednoczesnym zaszumieniu danych wejściowych oraz etykiet klas. Stanisław Kaźmierczak

Agnieszka Nowak Brzezińska

SPOTKANIE 9: Metody redukcji wymiarów

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

SPOTKANIE 2: Wprowadzenie cz. I

2. Empiryczna wersja klasyfikatora bayesowskiego

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do głębokich sieci neuronowych. Paweł Morawiecki IPI PAN

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Mail: Pokój 214, II piętro

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

TEORETYCZNE PODSTAWY INFORMATYKI

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Meta-uczenie co to jest?

Rozpoznawanie obrazów

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Agnieszka Nowak Brzezińska Wykład III

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Metody systemowe i decyzyjne w informatyce

Multiklasyfikatory z funkcją kompetencji

Lokalne klasyfikatory jako narzędzie analizy i

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Rozpoznawanie obrazów

Drzewa decyzyjne. Jak klasyfikować obiekty o cechach nominalnych (opisowych), tj. pochodzących ze skończonego zbioru, bez uporządkowania?

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Rozpoznawanie obrazów

Metody Optymalizacji: Przeszukiwanie z listą tabu

Dariusz Brzeziński. Politechnika Poznańska

Złożoność obliczeniowa algorytmu ilość zasobów komputera jakiej potrzebuje dany algorytm. Pojęcie to

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta


Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Metody systemowe i decyzyjne w informatyce

Wrocław University of Technology. Wprowadzenie cz. I. Adam Gonczarek. Rozpoznawanie Obrazów, Lato 2015/2016

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Elementy modelowania matematycznego

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Transkrypt:

Klasyfikacja z milionami etykiet Krzysztof Dembczyński Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Big Data: Przetwarzanie i eksploracja Poznań, 22 kwietnia 2016 r.

Geoff Hinton Andrew Ng Yann LeCun Yoshua Bengio 1 / 16

Geoff Hinton Andrew Ng Yann LeCun Yoshua Bengio 1 / 16

Geoff Hinton Andrew Ng Yann LeCun Yoshua Bengio 1 / 16

Dwa rodzaje problemów Klasyfikacja wieloklasowa: jedna etykieta przypisana do obiektu. Klasyfikacja wieloetykietowa: żadna, jedna lub więcej etykiet przypisanych do obiektu. x = (x 1, x 2,..., x p ) R p h(x) y = (y 1, y 2,..., y m ) {0, 1} m x 1 x 2... x p y 1 y 2... y m x 4.0 2.5-1.5??? 2 / 16

Dwa rodzaje problemów Klasyfikacja wieloklasowa: jedna etykieta przypisana do obiektu. Klasyfikacja wieloetykietowa: żadna, jedna lub więcej etykiet przypisanych do obiektu. x = (x 1, x 2,..., x p ) R p h(x) y = (y 1, y 2,..., y m ) {0, 1} m x 1 x 2... x p y 1 y 2... y m x 4.0 2.5-1.5 1 1 0 2 / 16

Dwa rodzaje problemów Klasyfikacja wieloklasowa: jedna etykieta przypisana do obiektu. Klasyfikacja wieloetykietowa: żadna, jedna lub więcej etykiet przypisanych do obiektu. x = (x 1, x 2,..., x p ) R p h(x) y = (y 1, y 2,..., y m ) {0, 1} m x 1 x 2... x p y 1 y 2... y m x 4.0 2.5-1.5 1 1 0 m klasyfikacja ekstremalna (ang.extreme classification) 2 / 16

Zbiory danych #etykiet #cech #test. #trening. przk./etyk. etyk./przk. RCV1 2456 47236 155962 623847 1218.56 4.79 AmazonCat 13330 203882 306782 1186239 448.57 5.04 Wiki10 30938 101938 6616 14146 8.52 18.64 Delicious 205443 782585 100095 196606 72.29 75.54 WikiLSHTC 325056 1617899 587084 1778351 17.46 3.19 Amazon 670091 135909 153025 490449 3.99 5.45 Tabela: Zbiory danych z repozytorium XMLRepository. 1 1 http://research.microsoft.com/en-us/um/people/manik/downloads/xc/ XMLRepository.html 3 / 16

Podejście tradycyjne/naiwne 4 / 16

Podejście tradycyjne/naiwne Gęsty model liniowy dla każdej etykiety: X T W = Ŷ 4 / 16

Podejście tradycyjne/naiwne Gęsty model liniowy dla każdej etykiety: Rozmiar problemu WikiLSHTC: X T W = Ŷ # przykładów treningowych: n = 1 778 351 # przykładów testowych: n = 587 084 # cech: d = 1 617 899 # etykiet: m = 325 056 4 / 16

Podejście tradycyjne/naiwne Gęsty model liniowy dla każdej etykiety: Rozmiar problemu WikiLSHTC: X T W = Ŷ # przykładów treningowych: n = 1 778 351 # przykładów testowych: n = 587 084 # cech: d = 1 617 899 # etykiet: m = 325 056 Złożoność pamięciowa: Złożoność obliczeniowa uczenia: 325 056 1 617 899 = 5.26 10 12 1 778 351 325 056 1 617 899 = 9.35 10 17 Złożoność obliczeniowa testowania: 587 084 325 056 1 617 899 = 3.09 10 17 4 / 16

Podejście tradycyjne Nie musi być aż tak źle: 5 / 16

Podejście tradycyjne Nie musi być aż tak źle: Duże dane rzadkie dane (rzadkie cechy i rzadkie etykiety) 5 / 16

Podejście tradycyjne Nie musi być aż tak źle: Duże dane rzadkie dane (rzadkie cechy i rzadkie etykiety) Szybkie algorytmy dla tradycyjnych problemów uczenia maszynowego 5 / 16

Podejście tradycyjne Nie musi być aż tak źle: Duże dane rzadkie dane (rzadkie cechy i rzadkie etykiety) Szybkie algorytmy dla tradycyjnych problemów uczenia maszynowego Duże moce obliczeniowe 5 / 16

Rysunek: Vowpal Wabbit 2 na wykładzie Johna Langforda 3 2 Vowpal Wabbit, http://hunch.net/~vw 3 http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:slides:start 6 / 16

Szybka klasyfikacja binarna 4 Zbiór danych: RCV1 Predykcja kategorii: CCAT # przykładów uczących: 781 265 # cech: 60M Rozmiar: 1.1 GB Linia komend: time vw -sgd rcv1.train.txt -c Czas uczenia: 1-3 sekundy na laptopie. 4 http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:slides:start 7 / 16

Uczenie modeli: Przyśpieszanie modeli liniowych Stochastyczny spadek wzdłuż gradientu. 5 Obsługa rzadkich cech. 6 Negatywne samplowanie. 7 Rozmiar modelu: Regularyzacja: L 1 vs L 2. Haszowanie cech. 8 Dwa kryteria na raz: Projekcja do nisko-wymiarowej przestrzeni X, W, Y, etc. 9 5 Bottou, L. (2010). Large-scale machine learning with stochastic gradient descent. In COMP- STAT. Springer 6 Duchi, J. i Singer, Y. (2009). Efficient online and batch learning using forward backward splitting. JMLR, 10:2899 2934 7 Collobert, R. i Weston, J. (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. In ICML 8 Weinberger, K., Dasgupta, A., Langford, J., Smola, A., i Attenberg, J. (2009). Feature hashing for large scale multitask learning. In ICML 9 Hsu, D., Kakade, S., Langford, J., i Zhang, T. (2009). Multi-label prediction via compressed sensing. In NIPS 8 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... 9 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... Czas predykcji ciągle rośnie linowo z liczbą etykiet! 9 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... Czas predykcji ciągle rośnie linowo z liczbą etykiet! Redukcja złożoności poprzez wykorzystanie odpowiednich struktur danych: 9 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... Czas predykcji ciągle rośnie linowo z liczbą etykiet! Redukcja złożoności poprzez wykorzystanie odpowiednich struktur danych: Funkcje mieszające 9 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... Czas predykcji ciągle rośnie linowo z liczbą etykiet! Redukcja złożoności poprzez wykorzystanie odpowiednich struktur danych: Funkcje mieszające ( grupowanie). 9 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... Czas predykcji ciągle rośnie linowo z liczbą etykiet! Redukcja złożoności poprzez wykorzystanie odpowiednich struktur danych: Funkcje mieszające ( grupowanie). Sortowanie drzewa 9 / 16

Klasyfikacja ekstremalna Wszystkie powyższe techniki poprawiają wydajność, ale... Czas predykcji ciągle rośnie linowo z liczbą etykiet! Redukcja złożoności poprzez wykorzystanie odpowiednich struktur danych: Funkcje mieszające ( grupowanie). Sortowanie drzewa drzewa decyzyjne. drzewa etykiet. 9 / 16

Drzewa decyzyjne dla klasyfikacji ekstremalnej Dwa przykładowe podejścia: FastXML 10 i LomTrees 11 Klasyfikatory liniowe w wierzchołkach drzewa. Szybki podział obiektów na prawe/lewe w wierzchołkach. Jedna ścieżka wzdłuż drzewa podczas predykcji. Predykcja logarytmiczna w liczbie przykładów uczących. w 1 x 0 w 2 x 0 w 3 x 0 η 1(x)=0.6 η 12(x)=0.45... w 4 x 0 η 44(x)=0.46 η 3(x)=0.15 η 102(x)=0.05... η 45(x)=0.45 η 2(x)=0.4... η 3(x)=0.46 η 1(x)=0.15... η 34(x)=0.8 η 45(x)=0.45 η 5(x)=0.15... 10 Prabhu, Y. i Varma, M. (2014). FastXML: A fast, accurate and stable tree-classifier for extreme multi-label learning. In KDD 11 Choromanska, A. i Langford, J. (2015). Logarithmic time online multiclass prediction. In NIPS 29 10 / 16

Drzewa decyzyjne dla klasyfikacji ekstremalnej Dwa przykładowe podejścia: FastXML 10 i LomTrees 11 Klasyfikatory liniowe w wierzchołkach drzewa. Szybki podział obiektów na prawe/lewe w wierzchołkach. Jedna ścieżka wzdłuż drzewa podczas predykcji. Predykcja logarytmiczna w liczbie przykładów uczących. w 1 x 0 w 2 x 0 w 3 x 0 η 1(x)=0.6 η 12(x)=0.45... w 4 x 0 η 44(x)=0.46 η 3(x)=0.15 η 102(x)=0.05... η 45(x)=0.45 η 2(x)=0.4... η 3(x)=0.46 η 1(x)=0.15... η 34(x)=0.8 η 45(x)=0.45 η 5(x)=0.15... 10 Prabhu, Y. i Varma, M. (2014). FastXML: A fast, accurate and stable tree-classifier for extreme multi-label learning. In KDD 11 Choromanska, A. i Langford, J. (2015). Logarithmic time online multiclass prediction. In NIPS 29 10 / 16

Drzewa etykiet Bazują na b-arnych drzewach. 12 0 1 2 3 4 5 6 7 8 y 1 y 2 9 10 y 3 y 4 11 12 y 5 y 6 13 14 y 7 y 8 Każdy liść odpowiada jednej etykiecie. Wewnętrzne klasyfikatory decydują, czy przejść do potomków. Liść może zawierać ostateczny klasyfikator dla danej etykiety. Przykład testowy może odwiedzić wiele ścieżek od korzenia do liści. 12 Bengio, S., Weston, J., i Grangier, D. (2010). Label embedding trees for large multi-class tasks. In NIPS, pages 163-171. Curran Associates, Inc Jasinka, K., Dembczynski, K., Busa-Fekete, R., Pfannschmidt, K., Klerx, T., i Hüllermeier, E. (2016). Extreme F-measure maximization using sparse probability estimates 11 / 16

Drzewa etykiet Bazują na b-arnych drzewach. 12 0 1 2 3 4 5 6 7 1 8 0 9 1 10 0 11 0 12 0 13 0 14 0 Każdy liść odpowiada jednej etykiecie. Wewnętrzne klasyfikatory decydują, czy przejść do potomków. Liść może zawierać ostateczny klasyfikator dla danej etykiety. Przykład testowy może odwiedzić wiele ścieżek od korzenia do liści. 12 Bengio, S., Weston, J., i Grangier, D. (2010). Label embedding trees for large multi-class tasks. In NIPS, pages 163-171. Curran Associates, Inc Jasinka, K., Dembczynski, K., Busa-Fekete, R., Pfannschmidt, K., Klerx, T., i Hüllermeier, E. (2016). Extreme F-measure maximization using sparse probability estimates 11 / 16

Drzewa etykiet Bazują na b-arnych drzewach. 12 0 1 2 3 4 5 6 7 1 8 0 9 1 10 0 11 0 12 0 13 0 14 0 Każdy liść odpowiada jednej etykiecie. Wewnętrzne klasyfikatory decydują, czy przejść do potomków. Liść może zawierać ostateczny klasyfikator dla danej etykiety. Przykład testowy może odwiedzić wiele ścieżek od korzenia do liści. 12 Bengio, S., Weston, J., i Grangier, D. (2010). Label embedding trees for large multi-class tasks. In NIPS, pages 163-171. Curran Associates, Inc Jasinka, K., Dembczynski, K., Busa-Fekete, R., Pfannschmidt, K., Klerx, T., i Hüllermeier, E. (2016). Extreme F-measure maximization using sparse probability estimates 11 / 16

Wyniki eksperymentalne #etykiet #cech #test. #trening. przk./etyk. etyk./przk. RCV1 2456 47236 155962 623847 1218.56 4.79 AmazonCat 13330 203882 306782 1186239 448.57 5.04 Wiki10 30938 101938 6616 14146 8.52 18.64 Delicious 205443 782585 100095 196606 72.29 75.54 WikiLSHTC 325056 1617899 587084 1778351 17.46 3.19 Amazon 670091 135909 153025 490449 3.99 5.45 Tabela: Zbiory danych z repozytorium XMLRepository. 13 13 http://research.microsoft.com/en-us/um/people/manik/downloads/xc/ XMLRepository.html 12 / 16

Wyniki eksperymentalne PLT FastXML P@1 P@3 P@5 P@1 P@3 P@5 RCV1 90.46 72.4 51.86 91.13 73.35 52.67 AmazonCat 91.47 75.84 61.02 92.95 77.5 62.51 Wiki10 84.34 72.34 62.72 81.71 66.67 56.70 Delicious 45.37 38.94 35.88 42.81 38.76 36.34 WikiLSHTC 45.67 29.13 21.95 49.35 32.69 24.03 Amazon 36.65 32.12 28.85 34.24 29.3 26.12 PLT FastXML uczen. test. b wysok. #ilocz. uczen. test. wysok. #ilocz. [min] [ms] drzewa skalar.. [min] [ms] drzewa skalar. RCV1 64 0.22 32 2,25 43,46 78 0.96 14.95 747 AmazonCat 96 0.17 16 3,43 54,39 561 1.14 17.44 871 Wiki10 290 2.66 32 2,98 121,98 16 3.00 10.83 541 Delicious 1327 32.97 2 17,69 11779,65 458 4.01 14.79 739 WikiLSHTC 653 3.00 32 3,66 622,27 724 1.17 18.01 900 Amazon 54 0.99 8 6,45 374,30 422 1.39 15.92 796 13 / 16

Czy szukamy rozwiązania w dobrym miejscu? Rysunek: 14 Podobny rysunek użyty wcześniej przez Aselę Gunawardanę. 15 14 Oryginał: Florence Morning News, Mutt and Jeff Comic Strip, Page 7, Florence, South Carolina,1942 15 Asela Gunawardana, Evaluating Machine Learned User Experiences. Extreme Classification Workshop. NIPS 2015 14 / 16

Wyzwania Redukcja złożoności obliczeniowej: czas vs. pamięć #przykładów vs. #cech vs. #etykiet uczenie vs. walidacja vs. testowanie Poprawa wydajności predykcyjnej: Miary wydajności: błąd Hamminga, prec@k, miara F,.... Statystyczna teoria uczenia dla dużego m. Uczenie rzadkich etykiet. 15 / 16

Koniec Więcej na stronie: http://www.cs.put.poznan.pl/kdembczynski 16 / 16