Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych Probabilistic Topic Models Jakub M. TOMCZAK Politechnika Wrocławska, Instytut Informatyki 30.03.2011, Wrocław
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22
Wstęp Zarys problemu Cele analizy dokumentów i słów: otrzymywanie informacji semantycznej słów na podstawie dokumentów; modelowanie dokumentów mniejszą liczbą parametrów (redukcja długości opisu problemu); SIEĆ RYBA KOMPUTER INFORMATYKA automatyczne rozumienie słów (polisemia wiele znaczeń jednego słowa); RYBOŁÓSTWO możliwość porównywania dokumentów i słów; 3/22
Wstęp Metody tf-idf (ang. term frequency inverse document frequency) dla wybranego zbioru termów i każdego dokumentu liczony jest współczynnik tf-idf LSI (ang. Latent Semantic Indexing) wykorzystanie dekompozycji SVD do wykrycia podprzestrzeni cech tf-idf Modele probabilistyczne: unigramy (ang. unigrams) mieszanina unigramów (ang. mixture of unigrams) probabilistyczna analiza ukrytej semantyki (ang. Probabilistic Latent Semantic Analysis, PLSA) alokacja ukrytej zmiennej Dirichleta (ang. Latent Dirichlet Allocation) hierarchiczny proces Dirichleta (ang. Hierarchical Dirichlet Process) 4/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 5/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 5/22
Modele probabilistyczne Unigramy w N M Zakładamy, że słowa dla każdego dokumentu, m = 1, 2,..., M, losowane są niezależnie z rozkładu wielomianowego: N p(w m ) = p(wm) n gdzie N liczba słów w dokumencie, M liczba dokumentów, w n m słowo. n=1 6/22
Modele probabilistyczne Mieszanina unigramów z w N M Zakładamy, że jednemu dokumentowi odpowiada dokładnie jeden temat. Wówczas słowa losowane są z rozkładu: p(w m ) = N p(z m ) p(wm z n m ) z n=1 gdzie p(z m ) rozkład a priori tematów, p(wm z n m ) prawd. słowa dla zadanego tematu. 7/22
Modele probabilistyczne Probabilistic Latent Semantic Analysis d z w N M Dla wybranego dokumentu d słowo jest zależne od różnych tematów: p(d m, w m ) = p(d m ) N p(wm z n m)p(z n m d n m ) n=1 gdzie p(d m ) rozkład a priori dokumentów, p(w n m) z n m) prawd. słowa dla zadanego tematu, p(z n m d m ) prawd. zawierania kilku tematów przez dokument. z n m 8/22
Modele probabilistyczne Probabilistic Latent Semantic Analysis wady i zalety Zalety: dokument może dotyczyć wielu tematów; Wady: liczba parametrów rośnie liniowo wraz ze wzrostem liczby dokumentów M; nie jest to poprawnie sformułowany model generujący, nie można przyporządkować prawdopodobieństw do wcześniej niezaobserwowanych dokumentów; 9/22
Modele probabilistyczne Model generujący i wnioskowanie z niego 10/22
Modele probabilistyczne Latent Dirichlet Allocation K z w N M p(w m α, η) = [ K N ( p(θ m α) p(β k η) k=1 n=1 z n m )] p(wm z n m, n β k )p(zm θ n m ) dθ m gdzie β zm. losowa o rozkładzie Dirichleta określająca słowa z zadanego słownika w temacie, θ zm. losowa określająca tematy dokumentu 11/22
Modele probabilistyczne Latent Dirichlet Allocation proces generowania dokumentu 1. Wybierz słowa w tematach z symetrycznego rozkładu Dirichleta, β k Dir(η), k = 1, 2,..., K. 2. Dla każdego dokumentu m wybierz proporcje z symetrycznego rozkładu Dirichleta, θ m Dir(α), m = 1, 2,..., M. 3. Dla każdego n-tego słowa w każdym m-tym dokumencie: Wybierz przydzielenie tematu z rozkładu wielomianowego, z n m θ m Multi(θ m). Wybierz słowa z zadanego tematu, w n m z n m, β 1:K Multi(β z n m ). 12/22
Modele probabilistyczne Rozkład Dirichleta x empiryczne obserwacje dokumentów w PLSA, linia ciągła gładki rozkład prawd. w LDA 13/22
Modele probabilistyczne Hierarchical Dirichlet Process H G 0 G m n w n m N M DP(, ) proces Dirichleta, G 0 rozkład podstawowy tematów, H symetryczny rozkład Dirichleta nad simpleksem słów, α > 0, γ > 0 Zastosowanie procesu Dirichleta powoduje, że nie ma potrzeby określania liczby tematów a priori, gdyż wynikają one z danych (nieparametryczne podejście bayesowskie). 14/22
Modele probabilistyczne Hierarchical Dirichlet Process proces generowania dokumentu 1. Wybierz rozkład podstawowy tematów G 0 DP(γ, H). 2. Dla każdego dokumentu m wybierz wstępny rozkład tematów G m DP(α, G 0 ). 3. Dla każdego n-tego słowa w każdym m-tym dokumencie: Wybierz temat dla słowa β n m G m. Wybierz słowo w n m Multi(β n m). 15/22
Modele probabilistyczne Problemy i rozwinięcia Problemy: niemożność wyznaczenia wyrażeń na rozkład p(w m α, η); potrzeba stosowania procedur na wyrażenia przybliżone, np. procedura próbkowania Gibbsa, metody wariacyjne, próbkowanie z użyciem łańcucha Markowa Rozwinięcia: Dynamiczne modelowanie tematów (ang. Dynamic Topic Modeling, DTM) połączenie LDA, gdy β tworzą sekwencję. Dynamiczne hierarchiczne procesy Dirichleta (ang. Dynamic HDP) rozkłady tematów G tworzą sekwencję. 16/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 17/22
Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 17/22
Przykład zastosowania Dokumenty 18/22
Przykład zastosowania Polisemia 19/22
Przykład zastosowania Obrazki 20/22
Literatura Model PLSA: T. Hofmann, Probabilistic latent semantic analysis, in Proc. Uncertainty in Artificial Intelligence, 1999 Model LDA i prostsze: D. Blei, A. Ng, M. I. Jordan, Latent Dirichlet allocation, J. Mach. Learn. Res., Vol. 3, pp. 993 1022, Mar. 2003 Model LDA z algorytmem Gibbsa: M. Steyvers, T. Griffiths, Probabilistic topic models, in: Latent Semantic Analysis: A Road to Meaning, Eds.: T. Landauer, D. McNamara, S. Dennis, oraz W. Kintsch, Lawrence Erlbaum, 2006 Zaawansowane modele graficzne dla analizy tematów: D. Blei, L. Carin. D. Dunson, Probabilistic Topic Models, IEEE Signal Processing Magazine Vol. 55, NOVEMBER 2010 Y.W. Teh, M.I. Jordan, M.J. Beal, D.M. Blei, Hierarchical Dirichlet Processes, Journal of the American Statistical Association, 101(476), 2006 D.M. Blei, J.D. Lafferty, Dynamic topic models, Proceeding ICML 06 Proceedings of the 23rd international conference on Machine learning 21/22
Dziękuję za uwagę! Pytania? 22/22