Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Podobne dokumenty
deep learning for NLP (5 lectures)

Akademia Morska w Szczecinie. Wydział Mechaniczny

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

SWPS Uniwersytet Humanistycznospołeczny. Wydział Zamiejscowy we Wrocławiu. Karolina Horodyska

POLITECHNIKA WARSZAWSKA. Wydział Zarządzania ROZPRAWA DOKTORSKA. mgr Marcin Chrząścik

Krytyczne czynniki sukcesu w zarządzaniu projektami

Cracow University of Economics Poland. Overview. Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions

Łukasz Reszka Wiceprezes Zarządu

SYMULACYJNA OCENA POTENCJAŁU ROZWOJOWEGO MIAST WOJEWÓDZTWA LUBUSKIEGO W KONTEKŚCIE WSPÓŁPRACY TRANSGRANICZNEJ Z BRANDENBURGIĄ

Updated Action Plan received from the competent authority on 4 May 2017

Innowacje społeczne innowacyjne instrumenty polityki społecznej w projektach finansowanych ze środków Europejskiego Funduszu Społecznego

Unit of Social Gerontology, Institute of Labour and Social Studies ageing and its consequences for society

Ontology-based system of job offers analysis

DOI: / /32/37

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

European Crime Prevention Award (ECPA) Annex I - new version 2014

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

Instrumenty i efekty wsparcia Unii Europejskiej dla regionalnego rozwoju obszarów wiejskich w Polsce

Tychy, plan miasta: Skala 1: (Polish Edition)

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Opis Przedmiotu Zamówienia oraz kryteria oceny ofert. Części nr 10

Cracow University of Economics Poland

Hard-Margin Support Vector Machines

Dominika Janik-Hornik (Uniwersytet Ekonomiczny w Katowicach) Kornelia Kamińska (ESN Akademia Górniczo-Hutnicza) Dorota Rytwińska (FRSE)

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

No matter how much you have, it matters how much you need

OPTYMALIZACJA PUBLICZNEGO TRANSPORTU ZBIOROWEGO W GMINIE ŚRODA WIELKOPOLSKA

ISSN ISSN Aesthetics and ethics of pedagogical action Issue 11

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

tum.de/fall2018/ in2357

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA

Streszczenie rozprawy doktorskiej

QUANTITATIVE AND QUALITATIVE CHARACTERISTICS OF FINGERPRINT BIOMETRIC TEMPLATES

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Improving Customer Relationships

Jak działa grawitacja?

The Overview of Civilian Applications of Airborne SAR Systems

Rozmowa kwalifikacyjna z pracodawcą po angielsku str. 4 Anna Piekarczyk. Od Wydawcy

THEORETICAL STUDIES ON CHEMICAL SHIFTS OF 3,6 DIIODO 9 ETHYL 9H CARBAZOLE

OCENA MOśLIWOŚCI WYKORZYSTANIA HODOWLI ŚWIŃ RASY ZŁOTNICKIEJ

Financial support for start-uppres. Where to get money? - Equity. - Credit. - Local Labor Office - Six times the national average wage (22000 zł)

OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Warsztaty Ocena wiarygodności badania z randomizacją

Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika w Toruniu

OSI Network Layer. Network Fundamentals Chapter 5. ITE PC v4.0 Chapter Cisco Systems, Inc. All rights reserved.

Stargard Szczecinski i okolice (Polish Edition)

Nazwa projektu: Kreatywni i innowacyjni uczniowie konkurencyjni na rynku pracy

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Label-Noise Robust Generative Adversarial Networks

Baptist Church Records

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Planowanie zrównoważonego transportu miejskiego w Polsce. Sustainable Urban Mobility Planning Poland. Wprowadzenie. Introduction

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

Marzec: food, advertising, shopping and services, verb patterns, adjectives and prepositions, complaints - writing

ZASTOSOWANIE SPLOTU FUNKCJI DO OPISU WŁASNOŚCI NIEZAWODNOŚCIOWYCH UKŁADÓW Z REZERWOWANIEM

Towards Stability Analysis of Data Transport Mechanisms: a Fluid Model and an Application

archivist: Managing Data Analysis Results

TRANSPORT W RODZINNYCH GOSPODARSTWACH ROLNYCH

Ewa Pancer-Cybulska, tukasz Olipra, Leszek Cybulski, Agata Suröwka TRANSPORT LOTNICZY A REGIONALNE RYNKI PRACY W POLSCE THE IMPACT OF AIR TRANSPORT

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

OpenPoland.net API Documentation

ETICS: Few words about the Polish market Dr. Jacek Michalak Stowarzyszenie na Rzecz Systemów Ociepleń (SSO), Warsaw, Poland

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

Ekonomiczne i społeczno-demograficzne czynniki zgonów osób w wieku produkcyjnym w Polsce w latach

CEE 111/211 Agenda Feb 17

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

CENTRALNA PRZYCHODNIA REHABILITACYJNO- LECZNICZA POLSKIEGO ZWIĄZKU NIEWIDOMYCH w WARSZAWIE KRZYSZTOF STARZYK

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Extraclass. Football Men. Season 2009/10 - Autumn round

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

INSTRUKCJE JAK AKTYWOWAĆ SWOJE KONTO PAYLUTION

WNZZ /2015 Poznań,

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

PRACA DYPLOMOWA Magisterska

ROZPRAWY NR 128. Stanis³aw Mroziñski

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Sargent Opens Sonairte Farmers' Market

UMOWY WYPOŻYCZENIA KOMENTARZ

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

Klaps za karę. Wyniki badania dotyczącego postaw i stosowania kar fizycznych. Joanna Włodarczyk

Effective Governance of Education at the Local Level

FORMULARZ DLA OGŁOSZENIODAWCÓW. Uniwersytet Mikołaja Kopernika w Toruniu, Wydział Humanistyczny. dziedzina nauk humanistycznych - filozofia,

4 Szczegóły dotyczące konstrukcji portfela aktywów przedstawiono w punkcie 4. 5 Por. Statman M., How Many Stocks Make a Diversified


Strategic planning. Jolanta Żyśko University of Physical Education in Warsaw

SYNTEZA SCENARIUSZY EKSPLOATACJI I STEROWANIA


Wiosna, wiosna. Autor: Dominik Kasperski

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

Analysis of infectious complications inf children with acute lymphoblastic leukemia treated in Voivodship Children's Hospital in Olsztyn

PORTS AS LOGISTICS CENTERS FOR CONSTRUCTION AND OPERATION OF THE OFFSHORE WIND FARMS - CASE OF SASSNITZ

XXIII Konferencja Naukowa POJAZDY SZYNOWE 2018

Mgr Paweł Musiał. Promotor Prof. dr hab. n. med. Hanna Misiołek Promotor pomocniczy Dr n. med. Marek Tombarkiewicz

MoA-Net: Self-supervised Motion Segmentation. Pia Bideau, Rakesh R Menon, Erik Learned-Miller

Instrukcja obsługi User s manual

Transkrypt:

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016 Paweł Lula Cracow University of Economics, Poland pawel.lula@uek.krakow.pl

Latent Dirichlet Allocation (LDA) Documents Latent Dirichlet Allocation completely unsupervised method of topics identification. Topics Paweł Lula, Cracow University of Economics, Poland 2

Latent Dirichlet Allocation (LDA) Documents Latent Dirichlet Allocation completely unsupervised method of topics identification. Topic 1 word i word j word k word l word m word n Topic 2 word i word j word k word l word m word n Topic 3 word i word j word k word l word m word n Topics are described in terms of discrete probabilities over words. Paweł Lula, Cracow University of Economics, Poland 3

Description of topics: Dir(beta) beta=0.1 beta= 1 beta=10 beta=100 Paweł Lula, Cracow University of Economics, Poland 4

Latent Dirichlet Allocation (LDA) Documents Latent Dirichlet Allocation completely unsupervised method of topics identification. Topic 1 word i word j word k word l word m word n Topic 2 word i word j word k word l word m word n Topic 3 word i word j word k word l word m word n Topics are described in terms of discrete probabilities over words. Each document can be modeled as a mixture of topics. Documents are describes in terms of discrete probabilities over topics. Paweł Lula, Cracow University of Economics, Poland 5

Description of documents: Dir(alpha) alpha=0.1 alpha=1 alpha=10 alpha=100 Paweł Lula, Cracow University of Economics, Poland 6

Generating a new document Document: Dir(apha) Topic 1: Dir(beta) Topic 2: Dir(beta) Topic 2: Dir(beta) for i= 1: doclength { choose topic choose word from chosen topic } Paweł Lula, Cracow University of Economics, Poland 7

Assigning the most probable topic to words word Document: Dir(apha) Topic 1: Dir(beta) Topic 2: Dir(beta) Topic 2: Dir(beta) p(word Topic 1) * p(topic 1) p(word Topic 2) * p(topic 2) p(word Topic 3) * p(topic 3) choose max value Paweł Lula, Cracow University of Economics, Poland 8

Evaluation of LDA models There are two main forms of LDA models evaluations: human assessment of model s results, evaluation based on measures calculated during simulation experiments. Paweł Lula, Cracow University of Economics, Poland 9

Measures of quality for LDA models measures of model s ability to dataset reconstruction likelihood function perplexity measures of topic s diversity average Kullback-Leibler divergence Bhattacharyya distance measures of topic s coherence extrinsic coherence (Newman et al., 2010) intrinsic coherence (Mimno et al. 2011) Paweł Lula, Cracow University of Economics, Poland 10

Likelihood MODEL DATASET likelihood(model DATASET) = probability(dataset MODEL) The greater value of likelihood calculated, the better quality of the model Paweł Lula, Cracow University of Economics, Poland 11

Perplexity MODEL p w 1 p w 2 p w LW 1 p w LW perplexity D = LW 1 ς LW i=1 p w i The lower perplexity, the better quality of the model. Paweł Lula, Cracow University of Economics, Poland 12

Topic s diversity Measures for topic s diversity average Kullback-Leibler divergence Bhattacharyya distance Topic 1: Dir(beta) Topic 2: Dir(beta) Topic 2: Dir(beta) The greater diversity, the better model. Paweł Lula, Cracow University of Economics, Poland 13

Topic coherence Topic: word.1 word.2 word.3 word.4 word.5 word.6 word.7 word.8 word.9 word.10 word.11 word.12 n coherence t = association w t t i, w j i=2 n 2 j=1 Association between two words depends on the number of times they appear together in the same document The greater coherence, the better model. Paweł Lula, Cracow University of Economics, Poland 14

Multi-criteria analysis of LDA quality indicators Hellwig development pattern method (Hellwig 1968) Paweł Lula, Cracow University of Economics, Poland 15

Simulation experiment The approach presented here was used for evaluation of abstracts of PhD thesis prepared in Polish language at the Cracow University of Economics in the period 2010-2015. The corpus was composed of 159 documents. Stemming process was performed with the help of Morfologik system. Several LDA models were prepared using topicmodels packet for R system. For every model the analysis of likelihood, perplexity, topic diversity and topic coherence was performed. Next an aggregated quality measure was calculated with Hellwig development pattern method (Hellwig 1968). As a result the LDA model with six topics was chosen. Paweł Lula, Cracow University of Economics, Poland 16

Likelihood function Wiarygodność modelu Wiarygodność -155000-150000 -145000-140000 0 20 40 60 80 100 Liczba tematów Paweł Lula, Cracow University of Economics, Poland 17

Perplexity Wskaźnik nieokreśloności Perplexity 800 900 1000 1100 1200 1300 0 20 40 60 80 100 Liczba tematów Paweł Lula, Cracow University of Economics, Poland 18

Average distance between topics (topics diversity) Średnia odl. Bhattacharyya pomiędzy tematami Średnia odległość Bhattacharyya 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 Liczba tematów Paweł Lula, Cracow University of Economics, Poland 19

Topic 1 Temat 1 gospodarczy wzrost kraj rynek wpływ rok wysoki państwo zmiana pomiędzy polsce publiczny teoria struktura udział lato podatkowy sektor bezrobocie pkb 0.000 0.005 0.010 0.015 0.020 Prawdopodob. Paweł Lula, Cracow University of Economics, Poland 20

Topic 4 Temat 4 finansowy rachunkowość polityk ocena sprawozdanie zakres jakość różny weryfikacja badawczy zmiana informacja olej możliwości wpływ jednostka istotny problem stosowany działalność 0.000 0.010 0.020 0.030 Prawdopodob. Paweł Lula, Cracow University of Economics, Poland 21

Temat 5 Temat 5 zarządzanie system organizacja koszt produkt usługa nieruchomość funkcjonowanie przedsiębiorstwo rynek jakość bezpieczeństwo żywność decyzja grupa konsument zastosowanie narzędzie związać realizować 0.000 0.010 0.020 Prawdopodob. Paweł Lula, Cracow University of Economics, Poland 22

Topic 6 Temat 6 model wynik metoda proces teoretyczny empiryczny dokonać wykorzystanie zaprezentować omówić zagadnienie identyfikacja strategia drugi trzeci charakter czwarty dany wskaźnik pierwszy 0.000 0.010 0.020 0.030 Prawdopodob. Paweł Lula, Cracow University of Economics, Poland 23

An exemplary abstract of PhD thesis Modelowanie rachunku kosztów i dobór metod budżetowania w szpitalu Rozprawę poświęcono zagadnieniom modelowania rachunku kosztów w szpitalu z uwzględnieniem przydatności opracowanych rozwiązań w procesie budżetowania. W rozdziale pierwszym omówiono prawne aspekty funkcjonowania szpitala jako zakładu opieki zdrowotnej. Rozdział drugi poświęcony jest zagadnieniom rachunku kosztów ze szczególnym uwzględnieniem jego specyfiki w szpitalu. Poddano analizie definicje rachunku kosztów zawarte zarówno w literaturze krajowej, jak i zagranicznej, omówiono przekroje ewidencyjne kosztów stosowane w szpitalach identyfikując ośrodki i nośniki kosztów, zwrócono także uwagę na przeobrażenia i rozwój rachunku kosztów w ostatnich latach oraz omówiono kalkulację kosztów procedur medycznych, jako podstawowych nośników kosztów w szpitalu. W rozdziale trzecim poruszone zostały zagadnienia związane z metodą budżetową i jej rolą w procesie zarządzania szpitalem. W rozdziale tym omówiono metody budżetowania i dokonano oceny ich przydatności w sporządzaniu budżetu dla szpitala. Przedstawiono również poszczególne etapy procesu budżetowania w szpitalu zwracając uwagę na zagadnienia problematyczne. Rozdział czwarty zawiera badania empiryczne, których przedmiotem są koszty szpitala specjalistycznego. Koszty te poddane zostały szczegółowej analizie w celu zidentyfikowania czynników wpływających na ich poziom. Rezultatem badań jest wielowymiarowa funkcja opisująca koszty operacyjne szpitala, którą może mieć zastosowanie w procesie budżetowania kosztów. Paweł Lula, Cracow University of Economics, Poland 24

Analysis of the exemplary abstract Dokument 14 0.35 0.30 Prawdopodobieństwo 0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 Temat Paweł Lula, Cracow University of Economics, Poland 25

Conclusions Multifaceted approach to LDA model evaluation allows to take into account many different aspects of models Experiments show that results obtain with the help of this approach can be useful for analysis of real sets of documents. Further research will be focus on methods of introducing domain knowledge into the process of model s evaluation. Paweł Lula, Cracow University of Economics, Poland 26

Thank you for your attention!