Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

Podobne dokumenty
Narzędzia do automatycznego wydobywania kolokacji

Złożoność informacyjna Kołmogorowa. Paweł Parys

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

Rozkłady statystyk z próby

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Narzędzia do automatycznego wydobywania kolokacji

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Statystyka Matematyczna Anna Janicka

Statystyka i Analiza Danych

Wstęp do przetwarzania języka naturalnego

Matematyka ubezpieczeń majątkowych r.

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Matematyka ubezpieczeń majątkowych r.

Zmienne losowe i ich rozkłady

Dyskretne zmienne losowe

Metody Statystyczne. Metody Statystyczne

Ogólnopolska Konferencja Aktuarialna Zagadnienia aktuarialne teoria i praktyka Warszawa, IE SGH 2009

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Analiza korespondencji

Rozkłady zmiennych losowych

Wykład 9 Wnioskowanie o średnich

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Matematyka ubezpieczeń majątkowych r.

ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH

Wprowadzenie do analizy korelacji i regresji

STATYSTYKA MATEMATYCZNA

Elementy statystyki wielowymiarowej

METODY STATYSTYCZNE W BIOLOGII

4. ZNACZENIE ROZKŁADU WYKŁADNICZEGO

Estymacja parametrów w modelu normalnym

Dopasowywanie modelu do danych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Analiza regresji - weryfikacja założeń

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

dr inż. Ryszard Rębowski 1 WPROWADZENIE

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Matematyka ubezpieczeń majątkowych r.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Co wylicza Jasnopis? Bartosz Broda

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Regresja logistyczna (LOGISTIC)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Propensity score matching (PSM)

Prawdopodobieństwo i statystyka r.

Elementy modelowania matematycznego

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Zadanie 1. O rozkładzie pewnego ryzyka X posiadamy następujące informacje: znamy oczekiwaną wartość nadwyżki ponad 20:

Biostatystyka, # 3 /Weterynaria I/

1. Liczby wymierne. x dla x 0 (wartością bezwzględną liczby nieujemnej jest ta sama liczba)

Agata Boratyńska Statystyka aktuarialna... 1

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

METODY STATYSTYCZNE W BIOLOGII

Metody Rozmyte i Algorytmy Ewolucyjne

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Analiza autokorelacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

STATYSTYKA MATEMATYCZNA

Analiza danych. TEMATYKA PRZEDMIOTU

Metody statystyczne w socjologii SYLABUS A. Informacje ogólne Opis

Analiza wariancji - ANOVA

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Wydział Matematyki. Testy zgodności. Wykład 03

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

Wykład 14 Test chi-kwadrat zgodności

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Podstawy systemów kryptograficznych z kluczem jawnym RSA

PDF created with FinePrint pdffactory Pro trial version

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Analiza wariancji. dr Janusz Górczyński

Matematyka ubezpieczeń majątkowych r.

Porównywanie populacji

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Weryfikacja hipotez statystycznych testy t Studenta

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Statystyka Opisowa z Demografią oraz Biostatystyka. Zmienne losowe. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Prawdopodobieństwo i statystyka

Transkrypt:

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL Łukasz Degórski

LT4eL Language Technology for e-learning Wykorzystanie narzędzi językowych oraz technik sieci semantycznej do wspomagania wyszukiwania materiałów dydaktycznych. - Automatyczna ekstrakcja słów kluczowych - Automatyczna ekstrakcja kontekstów definiujących - Podłączenie do ontologii, a dzięki temu: wyszukiwanie materiałów zbliżonych merytorycznie mimo niewystępowania szukanego klucza, oraz wyszukiwanie materiałów w innych językach niż w zapytaniu

Słowa kluczowe punkt wyjścia Kolekcja dokumentów tekstów do badania, być może mocno zróżnicowanej wielkości. Każdy dokument powinien zostać opatrzony słowami kluczowymi, oddającymi jego treść. Słowo nie jest precyzyjnym określeniem, mogą to być ciągi słów (bigramy, trigramy,...) typu analiza numeryczna algorytmu. Dla ustalenia uwagi będziemy mówić jednak o słowach.

Bag of words assumption Przy wielu zastosowaniach metod statystycznych zakłada się, że badana kolekcja dokumentów jest takim workiem i analizuje wyłącznie liczbę wystąpień słowa w całym worku. To się łatwo liczy i modeluje (jednoparametrowy rozkład - Poissona lub dwumianowy), ale próby np. modelowania liczby dokumentów w kolekcji, w jakich dane słowo wystąpi (document frequency) wykazały, że taki prosty model się nie sprawdza. Powstały bardziej dokładne i skomplikowane modele Two Poisson, Negative Binomial, K-mixture, ale...

Nie działa i całe szczęście...efektem ubocznym tych badań było spostrzeżenie, że dla niektórych słów uproszczony model nie działa bardziej, a dla niektórych mniej. Różnica między liczbą dokumentów faktyczną a modelowaną jest dużo większa dla rozkładających się nierównomiernie między dokumentami słów związanych z treścią (content words), niż dla słów funkcyjnych (function words). Słowa mocno związane z treścią są doskonałymi kandydatami na słowa kluczowe (mówiące o czym jest tekst).

Dlaczego tak jest? Im mniej słowo zachowuje się przewidywalnie (czyli da się modelować rozkładem Poissona), tym większe podejrzenie, że mają na to wpływ jakieś ukryte zmienne, take jak tematyka tekstu. Tymczasem rozkład Poissona oraz rozkład dwumianowy zakładają niezależność wystąpień. Dla interesujących słów warunek ten nie jest spełniony. Jedno wystąpienie zwiększa, a nie zmniejsza prawdopodobieństwo kolejnego: jeśli w tekście wystąpią słowa rozkład poissona, to tekst zapewne dotyczy statystyki, a więc powinniśmy bardziej się spodziewać jego kolejnych wystąpień niż w tekście ogólnym.

Konkrety konkretne Mając kolekcję D dokumentów definiujemy dla danego słowa w: df w : liczba dokumentów, w których to słowo wystąpiło (document frequency) IDF: -log 2 (df w / D) (inverse document frequency) Dla wybranego dokumentu, df w / D jest prawdopodobieństwem, że w dokumencie wystąpi przynajmniej raz słowo w.

Konkrety modelowane π( k Prawdopodobieństwo wg rozkładu Poissona z parametrem, że w dokumencie słowo w wystąpi k razy. ma być średnią liczba wystąpień w na dokument, obliczamy ją dzieląc liczbę wystąpień w całej kolekcji cf w przez D. Stąd modelowane IDF równe jest: IDF π = -log 2 (1-π( 0 ) czyli, na mocy powyższego oraz definicji rozkładu Poissona: IDF π = -log 2 (1-e -cf w /D )

Konkrety - podsumowanie Znając D, df w, cf w możemy więc obliczyć IDF oraz IDF π i je porównywać. Analizujemy tzw. residual IDF, czyli różnicę IDF - IDF π Słowa, przy których dostaniemy dużą różnicę (model się wyraźnie pomyli), uznajemy za słowa kluczowe. Można w podobny sposób oprzeć się na innych niż IDF miarach, np. wariancji, entropii, adaptacji.

Problemy badawcze Jak wyraźne zróżnicowanie wielkości dokumentów wpływa na wyniki czyli czy wystąpienie wystąpieniu równe? Które miary najlepiej zastosować do porównania? Czy warto analizować też błędy dokładniejszych modeli? Jaki powinien być próg kluczowości?

Podróż do wnętrza dokumentu Dotychczas przeszliśmy od badania liczby wystąpień w całej kolekcji (bag of words) do badania liczby wystąpień w poszczególnych dokumentach. Kolejnym krokiem jest zbadanie rozmieszczenia kandydatów na słowa kluczowe wewnątrz poszczególnych dokumentów miejsc wystąpień oraz tendencji do ich skupiania. Nawet często występujące słowa funkcyjne nie rozkładają się równomiernie wewnątrz dokumentu; słowa związane z treścią tym bardziej nie.

Modelowanie - odstępy Budujemy osobny model dla konkretnego słowa w w całej kolekcji. Dla każdego dokumentu mamy ciąg w 1...w k odstępów między wystąpieniami tego słowa. Zakładamy, że słowo występuje z bazowym prawdopodobieństwem 1/, ale gdy już wystąpi, prawdopodobieństwo kolejnego wystąpienia w niewielkiej odległości zwiększa się do 1/. Stąd, współczynnik powtarzalności (rate of re-occurence) jest modelowany przez sumę dwóch rozkładów wykładniczych: z dużą średnią (dla pierwszego wystąpienia) oraz z mniejszą (dla powtórzonych).

Model (w j ) = e - w j (w j ) = e - w j Niech p będzie prawdopodobieństwem załapania się do pierwszego rozkładu. Stąd: (w j ) = p + (1 - p)

Warunki brzegowe Przy pierwszym wystąpieniu drugi wykładniczy składnik znika: (w 1 ) = (w 1 ) = e - w 1 Przy ostatnim wystąpieniu: cenzurowanie (technika z badań klinicznych) jeśli obserwacja (kolejne wystąpienie słowa) nie zaszła, zakładamy, że zaszłaby kiedyś, gdyby dokument się nie skończył. Czyli ostatni badany odstęp jest równy odległości ostatniego wystąpienia od końca dokumentu. Podobnie, jeśli słowo nie występuje w ogóle, zakładamy, że wystąpiłoby, gdyby dokument miał nieskończoną długość jedynym badanym odstępem jest długość dokumentu.

Podejście bayesowskie Zamiast zakładać, że parametry dystrybucji są stałe, a dane się zmieniają, przyjmujemy odwrotnie. Rozpoczynając od założeń nie niosących żadnej informacji, w kolejnych krokach otrzymujemy coraz lepsze przybliżenia parametrów. Parametry naszego modelu: p,, Założenia wstępne: p~unifom(0,1) ~Uniform(0,1) gdzie ~Uniform(0,1) - żeby zawsze

Wyniki, interpetacja Po wyliczeniu parametrów (Gibbs sampling) dla każdego słowa otrzymujemy wartości p,, Intuicyjna interpretacja: małe, małe: często występujące, typowe słowo funkcyjne małe, duże: dość częste, ale rozrzucone słowo funkcyjne duże, małe: słowo związane z treścią, skupiające wystąpienia duże, duże: rzadkie i rozrzucone słowo funkcyjne Praktycznie: Należy analizować iloraz i od pewnego przyjętego progu uważać słowo za kluczowe.

Problemy badawcze Jaki dobrać próg? Czy stosować obie techniki naraz, a jeśli tak z jakimi wagami brać pod uwagę ich wyniki)?

Nie tylko statystyka Potencjalne pozastatystyczne modyfikatory oceny kluczowości : - Formatowanie miejsca wystąpienia: dodatkowy bonus za wystąpienie w nagłówku, pogrubieniu,... - Informacja morfosyntaktyczna: zdecydowany bonus dla fraz rzeczownikowych pasujących do wybranych wzorców - Ewentualnie heurystyki, np. TrzyLiteroweSkróty -...

Bibliografia Church, K., Gale, W. Poisson Mixtures Church, K., Gale, W. Inverse Document Frequency (IDF): A Measure of Deviations form Poisson Sarkar, A., Garthwaite, P.H., De Roeck, A. A Bayesian mixture model for term re-occurrence and burstiness Katz, S.M., Distribution of content words and phrases in text and language modelling