Syntaktyczne modelowanie języka

Podobne dokumenty
2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

Obliczenia inspirowane Naturą

Co wylicza Jasnopis? Bartosz Broda

Elementy modelowania matematycznego

Weryfikacja hipotez statystycznych

Układy stochastyczne

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Teoretyczne podstawy informatyki

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

11 Probabilistic Context Free Grammars

Lekcja 9. Pierwsze i drugie prawo Kirchhoffa. 1. I prawo Kirchhoffa

Języki formalne i automaty Ćwiczenia 1

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Matematyka z el. statystyki, # 1 /Geodezja i kartografia I/

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Wyniki procentowe poszczególnych uczniów

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

Planowanie drogi robota, algorytm A*

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Pochodna funkcji c.d.-wykład 5 ( ) Funkcja logistyczna

Prawdopodobieństwo i statystyka

Metody probabilistyczne klasyfikatory bayesowskie

Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

Algorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Pochodna funkcji: zastosowania przyrodnicze wykłady 7 i 8

Elementy modelowania matematycznego

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Lekcja 5. Temat: Prawo Ohma dla części i całego obwodu

Statystyka i eksploracja danych

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów

Języki programowania zasady ich tworzenia

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej. Modele nieliniowe Funkcja produkcji

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Matematyczne Podstawy Informatyki

Aproksymacja funkcji a regresja symboliczna

Pierwsze komputery, np. ENIAC w 1946r. Obliczenia dotyczyły obiektów: o bardzo prostych geometriach (najczęściej modelowanych jako jednowymiarowe)

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Rachunek Prawdopodobieństwa Anna Janicka

Statystyka matematyczna

Statystyka Astronomiczna

Projektowanie układów na schemacie

Wyniki procentowe poszczególnych uczniów

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Rozkład materiału nauczania

Zadanie analizy leksykalnej

AUTOMATYKA INFORMATYKA

Spacery losowe generowanie realizacji procesu losowego

Obliczenia inspirowane Naturą

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

Gramatyki atrybutywne

Wykład 2 Zmienne losowe i ich rozkłady

Algorytmy i złożoności Wykład 5. Haszowanie (hashowanie, mieszanie)

Rozkład materiału nauczania

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

Analiza semantyczna. Gramatyka atrybutywna

Kryteria oceniania z matematyki Klasa III poziom podstawowy

Matematyczne Podstawy Informatyki

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

Logika Matematyczna (1)

Katalog wymagań na poszczególne stopnie szkolne klasa 3

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Rachunek prawdopodobieństwa

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Algorytm. a programowanie -

166 Wstęp do statystyki matematycznej

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Opisy efektów kształcenia dla modułu

Metody systemowe i decyzyjne w informatyce

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Hierarchia Chomsky ego Maszyna Turinga

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Rozmyte systemy doradcze

LUBELSKA PRÓBA PRZED MATURĄ 2018 poziom podstawowy

Kolokwium I z Makroekonomii II Semestr zimowy 2014/2015 Grupa I

STATYSTYKA MATEMATYCZNA

Automatyzacja procesu tworzenia sprzętowego narzędzia służącego do rozwiązywania zagadnienia logarytmu dyskretnego na krzywych eliptycznych

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

RACHUNEK PRAWDOPODOBIEŃSTWA - POJĘCIA WSTĘPNE MATERIAŁY POMOCNICZE - TEORIA

Hierarchia Chomsky ego

Maciej Piotr Jankowski

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Monoidy wolne. alfabetem. słowem długością słowa monoidem wolnym z alfabetem Twierdzenie 1.

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Narzędzia do automatycznego wydobywania kolokacji

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Transkrypt:

Syntaktyczne modelowanie języka Bartosz Ziółko Wykorzystano materiały Dawida Skurzoka, MIT i Wikipedii 304

Gramatyka/ modelowanie syntaktyczne Parsery Analizatory morfologiczne / POS tagery n-grams Wygładzanie modeli Filtry Blooma 305

Nadmiarowość w językach Konieczna z tego samego powodu co w kodach transmisyjnych Prawdopodobnie stopień nadmiarowości zależy od warunków geograficznych Demo z Mathematica (RedundancyInWrittenLanguage) 306

Powody modelowania syntaktycznego Niektóre zdania mogą brzmieć bardzo podobnie: I helped Apple wreck a nice beach. I helped Apple recognise speech. W języku polskim nawet identycznie: może / morze 307

Noam Chomsky Gramatyka formalna składa się z: skończonego zbioru symboli końcowych skończonego zbioru symboli niekońcowych skończonego zbioru reguł produkcji na lewo i prawo składających się z sekwencji tych symboli symbol startowy 308

Hierarchia Chomskiego 309

MIT Regina Barzilay Michael Collins N = noun, V = verb, D = determiner 310

311

312

313

Disambiguity in parsing 314

Analizator morfologiczny / POS tager Proces zaznaczania słów w tekście jako odpowiadających szczególnym częściom mowy, oparty zarówno na ich definicjach, jak i ich kontekstach. 315

Sekwencje słów są przewidywalne Mathematica demo: Nonsense sentence generator 316

1-gramy słów (wybrane korpusy) 1) się 1 780 825 (2,6%) 2) i 1 632 596 (2,4%) 3) w 1 569 027 (2,3%) 4) nie 1 445 832 (2,1%) 5) na 1 283 268 (1,9%) 6) z 1 116 819 (1,6 %) 7) do 816 874 (1,2 %) 8) to 801 472 (1,2 %) 9) że 760 078 10) a 479 713 11) o 396 011 12) jak 368 386 13) ale 343 482 14) po 330 381 15) co 329 270 16) jest 302 011 17) tak 279 877 18) za 263 700 19) od 225 843 20) jego 219 587 21) go 217 036 22) już 201 735 23) tym 199 894 24) czy 196 565 317

2-gramy słów (wybrane korpusy) 1) się w 116 446 (0,17%) 2) się na 93 751 (0,14%) 3) się z 83 610 (0,12%) 4) się do 83 524 (0,12%) 5) się że 57 126 (0,08%) 6) że nie 50 222 (0,07%) 7) w tym 48 035 (0,07%) 8) nie ma 43 633 (0,06%) 9) o tym 42 041 (0,06%) 10) to nie 39 087 11) się i 38 772 12) się nie 38 622 13) i nie 38 177 14) ale nie 35 241 15) na to 34 259 16) że to 34 171 17) mi się 33 441 19) nie jest 31 615 20) a potem 31 196 21) nigdy nie 31 082 22) mu się 27 209 23) po prostu 26 047 24) w tej 25 461 25) to co 24 661 26) w końcu 23 863 18) nie było 3168227) co się 23 762 318

3-gramy słów (wybrane korpusy) 1) w ten sposób 10 119 (0,015%) 2) na to że 8 619 (0,012%) 3) w tej chwili 8 121 (0,012%) 4) w każdym razie 7 587 (0,011%) 5) po raz pierwszy 7 266 (0,010%) 6) mi się że 6 395 (0,009%) 7) sobie sprawę że 5 514 (0,008%) 8) mam nadzieję że 5 499 (0,008%) 9) w takim razie 5 462 (0,008%) 10) zwrócił się do 5 349 11) wydaje mi się 4 855 12) od czasu do 4 742 13) się z nim 4 609 14) to nie jest 4 538 15) czasu do czasu 4 470 16) w tym momencie 4 455 17) po drugiej stronie 4 445 18) w ogóle nie 4 309 319

Naprawianie n-gram 320

Zastosowanie n-gramów N-gramy są najpopularniejszym sposobem modelowania języka w rozpoznawaniu mowy: Z powodów obliczeniowych, zależność jest ograniczana do n słów wstecz. Prawdopodobnie najpopularniejszym jest model trigramowy ponieważ zależność od dwóch poprzednich słów jest bardzo silna, podczas gdy komplikacja modelu jest dość mała a zapotrzebowanie na statystyki realizowalne. 321

Siatka słów prezydent wejście strefy rezydent aportuje dwieście to do o trafi szelkę prezydium aprobuje nieście stepy szogun operuje dom schengen 322

Siatka słów z zaznaczonym prawidłowym zdaniem prezydent wejście strefy rezydent prezydium aportuje aprobuje dwieście nieście to do o trafi stepy szelkę szogun operuje dom schengen 323

Podkreślmy szczególnie prawdopodobne 1- i 2-gramy prezydent wejście strefy rezydent aportuje dwieście to trafi szelkę prezydium aprobuje nieście do o stepy szogun operuje dom schengen 324

Ponownie nałóżmy poprawne zdanie prezydent wejście strefy rezydent aportuje dwieście to o trafi szelkę prezydium aprobuje nieście do stepy szogun operuje dom schengen 325

Usuńmy mało prawdopodobne 2-gramy prezydent wejście strefy rezydent prezydium aportuje aprobuje dwieście nieście do to o trafi stepy szelkę szogun schengen operuje dom 326

i nałóżmy zdanie prezydent wejście strefy rezydent prezydium aportuje aprobuje dwieście nieście do to o trafi stepy szelkę szogun operuje dom schengen 327

Zbiory tekstów języka polskiego Źródło MBajty Mil. słów Różnych słów Różnych dwójek Różnych trójek Rzeczpospolita 879 104 856 349 18 115 373 43 414 592 Wikipedia 754 97 2 623 358 31 139 080 61 865 543 Literatura 490 68 1 151 043 23 830 490 50 794 854 Transkrypcje 325 32 381 166 6 848 729 16 283 781 Literatura 2 6500 949 6 162 530 153 152 158 441 284 743 Literatura 3 285 181 1 229 331 36 297 382 93 751 340 W Literatura 2 : Słowa występujące więcej niż 10 razy to 951 844 Dwójki słów występujące więcej niż 10 razy to 6 426 198 Trójki słów występujące więcej niż 10 razy to 5 166 537 328

Problemy z n-gramami - Różne pisowanie (np. u - ó), - błędne formaty, - sprawdzanie ze słownikiem, np. myspell?,

Histogram n-gramów 330

Przykład wyliczeń modelu n-gramowego 331

Przykład wyliczeń modelu n-gramowego \begin{equation} E(s,h)=\frac{N(s,h)}{N(h)} \;, \end{equation} 332

Przykład wyliczeń modelu n-gramowego 333

Przykład wyliczeń modelu n-gramowego 334

Algorytm Dijkstry 335

Przykład wyliczeń modelu n-gramowego Licząc ścieżkę nie sumujemy dystansów tak jak w telekomunikacji, a mnożymy prawdopodobieństwa (ze względu na regułę Bayesa) lub sumujemy logarytmy! 336

Wyszukiwanie najlepszych ścieżek z użyciem 3-gramów. Ala ale ma ładnego kota. Złamała łapie keta Ala ma ładnego kota

Klasyczny algorytm Dijkstry (bigramy) koszt = 0.1 koszt = 1. Ala 0.1 ale 1 Złamała 1 ma 0.2 ładnego 0.3 łapie 1.2 kota 0.4 keta 1.3. 0.5

Zipf Law Demo Mathematica 339

Back-off 340 0 ), ( ) ( ) ( 0 ), ( ) ( ) ( w h N if h w h w h N if h w h w p N liczba zliczeń słowa z danych statystycznych β bardziej ogólna dystrybucja niż α - czynnik normalizacyjny zapewniający spełnianie przez p(w h) aksjomatu sumowania do jedności, określony jednoznacznie przez α i β: 0 ), ( : 0 ), ( : ˆ) ( ) ( 1 ) ( w h w N w h w N h w h w h jest 3-gramem a jest 2-gramem

Metoda Floor ( w h) N( w, h) ( w N h) N liczba słów w danych statystycznych - parametr, często równy liczbie słów w słowniku Metoda przeszacowuje prawdopodobieństwa wydarzeń z małą liczbą zliczeń. 341

Przykład ciemny zielony materiał 3-gram C = 0 ciemny zielony 2-gram C > 0 zielony materiał 2-gram C > 0 => wygładzony model ciemny zielony materiał P > 0 ufortyfikowany zamek nierdzewny 3-gram C = 0 ufortyfikowany zamek 2-gram C > 0 zamek nierdzewny 2-gram C > 0 => wygładzony model ufortyfikowany zamek nierdzewny P > 0 342

Wygładzanie modeli statystycznych Statystyki wyliczone ze zbiorów danych, opisują ściśle, rzecz biorąc te zbiory a nie rzeczywistość, jak na przykład język jako całokształt. Z tego powodu model n-gramowy można wygładzić w celu uzyskania większej efektywności poprzez zmniejszenie zależności od specyfiki wykorzystanych zbiorów. 343

Przykład wygładzania modelu n- gramowego Add-one 344

Przykład wygładzania modelu n- gramowego Add-one 345

Model interpretacji liniowej z parametrem interpolacyjnym Zdefiniujmy parametr N gdzie 0 1, Wówczas otrzymujemy równanie interpolacyjne Jelinka N( w, h) ( w h) (1 ) ( w hˆ) N Małe zliczenia nie są aż tak bardzo podbijane dzięki interpolacji. 346

Wygładzanie Katz a Katz wprowadził ogólną funkcję dyskontującą d : w d( w) i zależną od niej dyskontowaną masę prawdopodobieństwa Q[ d] 1 N W w1 d( w) Równanie wygładzające wygląda N( w, h) d( w) ( w h) Q[ d] ( w h) N 347

Rozkład brzegowy n i = P(X = i). n i = P(X = i,y = j). j Rozkład brzegowy podzbioru zmiennych losowych jest rozkładem prawdopodobieństw zmiennych zawartych w tym podzbiorze. 348

Przykład wyliczania rozkładu brzegowego Prawdopodobieństwo bycia potrąconym pod warunkiem określonego światła p(w S), gdzie W oznacza wypadek, a S oznacza typ światła na sygnalizatorze. 349

Przykład wyliczania rozkładu brzegowego 350

Wygładzanie Kneser-Ney z rozkładem brzegowym jako ograniczeniem W metodzie Katza, całkowita zniżka powoduje, że N( w, h) d( w) ( w h) gdzie 0 d 1 N Zdefiniujmy Maximum Likelihood Estimation (MLE) dla rozkładu brzegowego N( w, hˆ) N( hˆ, g) p( w hˆ) i p( g hˆ) N N gdzie połączona liczba wystąpień N ( hˆ, g) jest równa N(g) jeśli hˆ gˆ i 0 w przeciwnym przypadku. Wówczas ( w hˆ) v N( w, hˆ) [ N( hˆ, v) g: gˆ hˆ, N ( g, w) 0 [ N( g, w) d] g: gˆ hˆ, N ( g, v) 0 [ N( g, v) d]] 351

Leaving-one-out (również Kneser-Ney) Przygotowujemy model korzystając z danych, tak jakby nie zawierały konkretnego zdarzenia, które wystąpiło tylko raz. W przypadku n-gramów, wyliczamy model, pomijając na przykład jeden trigram, który wystąpił w zbiorach tekstów tylko raz. Następnie wykorzystujemy model, aby estymować prawdopodobieństwo usuniętego zdarzenia. Procedurę powtarzamy wielokrotnie używając rożnych trigramów. Suma logarytmów wszystkich wyliczonych w ten sposób prawdopodobieństw daje nam logarytm podobieństwa leaving-one-out, który następnie służy jak kryterium optymalizacji F ( g, v): N ( g, v) 1 ln[ ( g) ( v gˆ)] const({ ( v gˆ)}). 352

Trigramy z Dijkstry Koszt dotarcia do poprzedniego węzła z punku widzenia wyróżnionego węzła Ala 0.1 ale 1 ma ładnego łapie Koszt dotarcia do danego węzła w zależności od następnego węzła następny koszt ładnego 0.2 łapie 1.1

Wyróżnione trigramy. Ala ma Ala ma ładnego ma ładnego kota koszt = 0.1 ładnego kota.. Ala ma ładnego kota. koszt = 0.4

Wyszukiwanie najlepszych ścieżek. Ala ładnego ma 3-gram koszt. Ala ma 0.1. Ala ładnego 1 następny poprzedni koszt ładnego. 1 ma. 0.1

Wyszukiwanie najlepszych ścieżek 3-gram koszt. ale ma. ale ma 1 następny poprzedni ma. 1 koszt

Wyszukiwanie najlepszych ścieżek Ala 0.1 ale 1 ma ładnego łapie 3-gram koszt Ala ma ładnego 0.1 ale ma ładnego 0.1 Ala ma łapie 1 ale ma łapie 1 następny poprzedni koszt ładnego łapie Ala 0.1+0.1 = 0.2 ale 1 + 0.1 = 1.1 Ala 0.1 + 1 = 1.1 ale 1 + 1 = 2

Wyszukiwanie najlepszych ścieżek Ala ma 1 0.2 Złamała 1 kota ładnego keta następny poprzedni koszt Ala 1 + 1 = 2 kota ma 0.2 + 0.1 = 0.3 Złamała 1 + 1 = 2 Ala 1 + 1 = 2 keta ma 1 + 1 = 2 Złamała 1 + 1 = 2 3-gram koszt Ala ładnego kota 1 Ala ładnego keta 1 ma ładnego kota 0.1 ma ładnego keta 1 Złamała ładnego kota 1 Złamałą ładnego keta 1

Wyszukiwanie najlepszych ścieżek ładnego łapie 0.3 2 kota. 3-gram koszt ładnego kota. 0.1 łapie kota. 1 następny poprzedni koszt ładnego 0.3 + 0.1 = 0.4. łapie 2 + 1 = 3 dodajemy koszt bigramów dla kropki

Wyszukiwanie najlepszych ścieżek. Ala ale ma ładnego kota. Złamała łapie keta 10 węzłów 17 krawędzi 26 możliwych 3-gramów

Rzeczywisty przypadek

Funkcja haszująca Funkcja haszująca jest każdą, dobrze definiowaną procedurą lub funkcją matematyczną, która zamienia dużą ilość danych, które mogą mieć niestałą długość, na małą reprezentację, często w postaci jednego integera, który może służyć na przykład za indeks. 362

Filtr Blooma 363

Podsumowanie Hierarchia Chomskyego Parser Tagger N-gram model Stosowanie n-gramów Algorytm Dijkstry Właściwości n-gramów (Zipf, histogram, konieczność wygładzania) Filtr Blooma 364