Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Podobne dokumenty
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

2. Empiryczna wersja klasyfikatora bayesowskiego

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Maszyny wektorów podpierajacych w regresji rangowej

Dynamiczne stochastyczne modele równowagi ogólnej

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Metody systemowe i decyzyjne w informatyce

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Rozpoznawanie obrazów

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Wnioskowanie bayesowskie

Wielowymiarowy próbnik Gibbsa

10. Redukcja wymiaru - metoda PCA

Statystyka i Analiza Danych

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Wykład 9: Markov Chain Monte Carlo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Fuzja sygnałów i filtry bayesowskie

Metody systemowe i decyzyjne w informatyce

Wojciech Skwirz

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

ALGORYTM RANDOM FOREST

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 2: Wprowadzenie cz. I

Algorytmy estymacji stanu (filtry)

Testowanie hipotez statystycznych

Podstawowe modele probabilistyczne

Aproksymacja funkcji a regresja symboliczna

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Optymalizacja. Symulowane wyżarzanie

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Wyszukiwanie informacji w internecie. Nguyen Hung Son

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Możliwości zastosowania dozymetrii promieniowania mieszanego n+γ. mgr inż. Iwona Pacyniak

Metody systemowe i decyzyjne w informatyce

Statystyka Matematyczna Anna Janicka

Metody systemowe i decyzyjne w informatyce

Text mining w programie RapidMiner Michał Bereta

Systemy Wspomagania Decyzji

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Rozpoznawanie obrazów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Jądrowe klasyfikatory liniowe

Algorytmy MCMC i ich zastosowania statystyczne

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

Schemat programowania dynamicznego (ang. dynamic programming)

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

Eksploracja danych mikromacierzowych sieci Bayesa. Inżynieria Danych, 30 listopada 2009, Tomasz Kułaga

STATYSTYKA MATEMATYCZNA

Monte Carlo, bootstrap, jacknife

Geometryczna zbieżność algorytmu Gibbsa

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Analiza danych. TEMATYKA PRZEDMIOTU

Plan prezentacji. Modelowanie Bayesowskie Zastosowania Metody matematyczne Narzędzia Ocena jakości modeli

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Badania w sieciach złożonych

KLASYFIKACJA. Słownik języka polskiego

Technologie Informacyjne

Statystyka matematyczna i ekonometria

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wyszukiwanie tekstów

P(F=1) F P(C1 = 1 F = 1) P(C1 = 1 F = 0) P(C2 = 1 F = 1) P(C2 = 1 F = 0) P(R = 1 C2 = 1) P(R = 1 C2 = 0)

Drzewa decyzyjne i lasy losowe

Spacery losowe generowanie realizacji procesu losowego

WYKŁAD 2. Problem regresji - modele liniowe

Testowanie hipotez statystycznych. Wprowadzenie

Optymalizacja ciągła

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Stanisław Cichocki. Natalia Nehrebecka

Estymatory regresji rangowej oparte na metodzie LASSO

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Wstęp do przetwarzania języka naturalnego

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich

Wykład 2: Tworzenie danych

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Model Perturb-and-MAP Uczenie rozkładów Gibbsa

SPOTKANIE 3: Regresja: Regresja liniowa

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

5. Analiza dyskryminacyjna: FLD, LDA, QDA

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Metody Ilościowe w Socjologii

TEORETYCZNE PODSTAWY INFORMATYKI

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Statystyczna analiza danych

Wydział Inżynierii Lądowej i Środowiska Katedra Mechaniki Budowli Kierownik Katedry prof. dr hab. inż. Paweł Kłosowski

Deep Learning na przykładzie Deep Belief Networks

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Transkrypt:

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych Probabilistic Topic Models Jakub M. TOMCZAK Politechnika Wrocławska, Instytut Informatyki 30.03.2011, Wrocław

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 2/22

Wstęp Zarys problemu Cele analizy dokumentów i słów: otrzymywanie informacji semantycznej słów na podstawie dokumentów; modelowanie dokumentów mniejszą liczbą parametrów (redukcja długości opisu problemu); SIEĆ RYBA KOMPUTER INFORMATYKA automatyczne rozumienie słów (polisemia wiele znaczeń jednego słowa); RYBOŁÓSTWO możliwość porównywania dokumentów i słów; 3/22

Wstęp Metody tf-idf (ang. term frequency inverse document frequency) dla wybranego zbioru termów i każdego dokumentu liczony jest współczynnik tf-idf LSI (ang. Latent Semantic Indexing) wykorzystanie dekompozycji SVD do wykrycia podprzestrzeni cech tf-idf Modele probabilistyczne: unigramy (ang. unigrams) mieszanina unigramów (ang. mixture of unigrams) probabilistyczna analiza ukrytej semantyki (ang. Probabilistic Latent Semantic Analysis, PLSA) alokacja ukrytej zmiennej Dirichleta (ang. Latent Dirichlet Allocation) hierarchiczny proces Dirichleta (ang. Hierarchical Dirichlet Process) 4/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 5/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 5/22

Modele probabilistyczne Unigramy w N M Zakładamy, że słowa dla każdego dokumentu, m = 1, 2,..., M, losowane są niezależnie z rozkładu wielomianowego: N p(w m ) = p(wm) n gdzie N liczba słów w dokumencie, M liczba dokumentów, w n m słowo. n=1 6/22

Modele probabilistyczne Mieszanina unigramów z w N M Zakładamy, że jednemu dokumentowi odpowiada dokładnie jeden temat. Wówczas słowa losowane są z rozkładu: p(w m ) = N p(z m ) p(wm z n m ) z n=1 gdzie p(z m ) rozkład a priori tematów, p(wm z n m ) prawd. słowa dla zadanego tematu. 7/22

Modele probabilistyczne Probabilistic Latent Semantic Analysis d z w N M Dla wybranego dokumentu d słowo jest zależne od różnych tematów: p(d m, w m ) = p(d m ) N p(wm z n m)p(z n m d n m ) n=1 gdzie p(d m ) rozkład a priori dokumentów, p(w n m) z n m) prawd. słowa dla zadanego tematu, p(z n m d m ) prawd. zawierania kilku tematów przez dokument. z n m 8/22

Modele probabilistyczne Probabilistic Latent Semantic Analysis wady i zalety Zalety: dokument może dotyczyć wielu tematów; Wady: liczba parametrów rośnie liniowo wraz ze wzrostem liczby dokumentów M; nie jest to poprawnie sformułowany model generujący, nie można przyporządkować prawdopodobieństw do wcześniej niezaobserwowanych dokumentów; 9/22

Modele probabilistyczne Model generujący i wnioskowanie z niego 10/22

Modele probabilistyczne Latent Dirichlet Allocation K z w N M p(w m α, η) = [ K N ( p(θ m α) p(β k η) k=1 n=1 z n m )] p(wm z n m, n β k )p(zm θ n m ) dθ m gdzie β zm. losowa o rozkładzie Dirichleta określająca słowa z zadanego słownika w temacie, θ zm. losowa określająca tematy dokumentu 11/22

Modele probabilistyczne Latent Dirichlet Allocation proces generowania dokumentu 1. Wybierz słowa w tematach z symetrycznego rozkładu Dirichleta, β k Dir(η), k = 1, 2,..., K. 2. Dla każdego dokumentu m wybierz proporcje z symetrycznego rozkładu Dirichleta, θ m Dir(α), m = 1, 2,..., M. 3. Dla każdego n-tego słowa w każdym m-tym dokumencie: Wybierz przydzielenie tematu z rozkładu wielomianowego, z n m θ m Multi(θ m). Wybierz słowa z zadanego tematu, w n m z n m, β 1:K Multi(β z n m ). 12/22

Modele probabilistyczne Rozkład Dirichleta x empiryczne obserwacje dokumentów w PLSA, linia ciągła gładki rozkład prawd. w LDA 13/22

Modele probabilistyczne Hierarchical Dirichlet Process H G 0 G m n w n m N M DP(, ) proces Dirichleta, G 0 rozkład podstawowy tematów, H symetryczny rozkład Dirichleta nad simpleksem słów, α > 0, γ > 0 Zastosowanie procesu Dirichleta powoduje, że nie ma potrzeby określania liczby tematów a priori, gdyż wynikają one z danych (nieparametryczne podejście bayesowskie). 14/22

Modele probabilistyczne Hierarchical Dirichlet Process proces generowania dokumentu 1. Wybierz rozkład podstawowy tematów G 0 DP(γ, H). 2. Dla każdego dokumentu m wybierz wstępny rozkład tematów G m DP(α, G 0 ). 3. Dla każdego n-tego słowa w każdym m-tym dokumencie: Wybierz temat dla słowa β n m G m. Wybierz słowo w n m Multi(β n m). 15/22

Modele probabilistyczne Problemy i rozwinięcia Problemy: niemożność wyznaczenia wyrażeń na rozkład p(w m α, η); potrzeba stosowania procedur na wyrażenia przybliżone, np. procedura próbkowania Gibbsa, metody wariacyjne, próbkowanie z użyciem łańcucha Markowa Rozwinięcia: Dynamiczne modelowanie tematów (ang. Dynamic Topic Modeling, DTM) połączenie LDA, gdy β tworzą sekwencję. Dynamiczne hierarchiczne procesy Dirichleta (ang. Dynamic HDP) rozkłady tematów G tworzą sekwencję. 16/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 17/22

Plan 1. Wstęp 2. Modele probabilistyczne 3. Przykłady zastosowania 17/22

Przykład zastosowania Dokumenty 18/22

Przykład zastosowania Polisemia 19/22

Przykład zastosowania Obrazki 20/22

Literatura Model PLSA: T. Hofmann, Probabilistic latent semantic analysis, in Proc. Uncertainty in Artificial Intelligence, 1999 Model LDA i prostsze: D. Blei, A. Ng, M. I. Jordan, Latent Dirichlet allocation, J. Mach. Learn. Res., Vol. 3, pp. 993 1022, Mar. 2003 Model LDA z algorytmem Gibbsa: M. Steyvers, T. Griffiths, Probabilistic topic models, in: Latent Semantic Analysis: A Road to Meaning, Eds.: T. Landauer, D. McNamara, S. Dennis, oraz W. Kintsch, Lawrence Erlbaum, 2006 Zaawansowane modele graficzne dla analizy tematów: D. Blei, L. Carin. D. Dunson, Probabilistic Topic Models, IEEE Signal Processing Magazine Vol. 55, NOVEMBER 2010 Y.W. Teh, M.I. Jordan, M.J. Beal, D.M. Blei, Hierarchical Dirichlet Processes, Journal of the American Statistical Association, 101(476), 2006 D.M. Blei, J.D. Lafferty, Dynamic topic models, Proceeding ICML 06 Proceedings of the 23rd international conference on Machine learning 21/22

Dziękuję za uwagę! Pytania? 22/22