Indukcja reguł gramatyki j. polskiego

Podobne dokumenty
WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Matematyczne Podstawy Informatyki

Poszukiwanie struktury w danych naprzykładzieanalizykorespondencji

Matematyczne Podstawy Informatyki

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Hierarchia Chomsky ego Maszyna Turinga

JĘZYKIFORMALNE IMETODYKOMPILACJI

Gramatyka operatorowa

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Języki formalne i automaty Ćwiczenia 3

JAO - Wprowadzenie do Gramatyk bezkontekstowych

11 Probabilistic Context Free Grammars

Automat ze stosem. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Zadanie analizy leksykalnej

Bank częściowo ujednoznacznionych struktur LFG

Testowanie hipotez statystycznych

3.4. Przekształcenia gramatyk bezkontekstowych

Hierarchia Chomsky ego

JĘZYKI FORMALNE I METODY KOMPILACJI

Języki formalne i automaty Ćwiczenia 1

j INSTYTUT PODSTAW INFORMATYKI

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Modelowanie sieci złożonych

GRAMATYKI BEZKONTEKSTOWE

Wprowadzenie: języki, symbole, alfabety, łańcuchy Języki formalne i automaty. Literatura

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Języki formalne i automaty Ćwiczenia 2

Języki formalne i automaty Ćwiczenia 4

Krzysztof Rykaczewski. Szeregi

Języki formalne i automaty Ćwiczenia 9

Analizator syntaktyczny

Generowanie i optymalizacja harmonogramu za pomoca

Algorytmy klasyfikacji

1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie

Twierdzenia graniczne fluktuacji procesów przebywania dla układów gałazkowych

Gradacyjna analiza danych korpusowych

Gramatyka TAG dla języka polskiego

Gramatyki rekursywne

Języki formalne i automaty Ćwiczenia 6

Gramatyki atrybutywne

Metody automatycznego wykrywania błędów w bankach drzew

Biostatystyka, # 3 /Weterynaria I/

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

JĘZYKI FORMALNE I METODY KOMPILACJI

Gramatyka Kategorialna Języka Polskiego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Języki, automaty i obliczenia

Tworzenie języków specyfikacji dla zagadnień numerycznych

Generatory analizatorów

O pewnych związkach teorii modeli z teorią reprezentacji

Entropia Kodowanie. Podstawy kompresji. Algorytmy kompresji danych. Sebastian Deorowicz

Efektywna analiza składniowa GBK

Realizacja zasady integralności danych w zatrudnieniu zgodnie z podejściem PbD

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Efektywność Procedur Obliczeniowych. wykład 5

Języki, automaty i obliczenia

Metoda najmniejszych kwadratów

Aproksymacja funkcji a regresja symboliczna

Marcin Miłkowski IFiS PAN

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Jaki język zrozumie automat?

Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie

KATEDRA INFORMATYKI TECHNICZNEJ. Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych. ćwiczenie 204

Obliczenia inspirowane Naturą

WYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Spacery losowe generowanie realizacji procesu losowego

(j, k) jeśli k j w przeciwnym przypadku.

Estymacja w regresji nieparametrycznej

Detekcja rozkładów o ciężkich ogonach

Topologia zbioru Cantora a obwody logiczne

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

10. Translacja sterowana składnią i YACC

Temat: Zastosowanie wyrażeń regularnych do syntezy i analizy automatów skończonych

Statystyczna analiza danych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Hurtownie danych - przegląd technologii

Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wydział Informatyki. mgr inż. Marcin Pietras

LEM wydobywanie statystyk z korpusów

7. Identyfikacja defektów badanego obiektu

Analiza zmienności czasowej danych mikromacierzowych

Metody Rozmyte i Algorytmy Ewolucyjne

Gramatyki grafowe. Dla v V, ϕ(v) etykieta v. Klasa grafów nad Σ - G Σ.

Metodologie programowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Symbol, alfabet, łańcuch

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład5,str.1. Maszyny ze stosem ... 1,0 λ r. λ,z λ

Maszyna Turinga. Algorytm. czy program???? Problem Hilberta: Przykłady algorytmów. Cechy algorytmu: Pojęcie algorytmu

Rodzinę spełniającą trzeci warunek tylko dla sumy skończonej nazywamy ciałem (algebrą) w zbiorze X.

Komputerowa Analiza Danych Doświadczalnych

Prawdopodobieństwo i statystyka

Transkrypt:

Indukcja reguł gramatyki języka polskiego dr inż. m.golebski@elka.pw.edu.pl Instytut Informatyki Politechnika Warszawska 25 lutego 2008

Plan prezentacji 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

(rok 1967) E. M. Gold. Language identification in the limit. Information and Control, 10(5):447 474, 1967. Twierdzenie Klasa gramatyk zawierająca wszystkie języki skończone i przynajmniej jeden język nieskończony nie jest identyfikowalna wyłącznie z pozytywnych przykładów.

Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Gramatyka transformacyjna (Σ, S, V, P) gdzie: Σ alfabet, S symbol początkowy, V skończony zbiór symboli nieterminalnych takich, że V Σ = φ, P (V Σ) (V Σ) zbiór reguł produkcji.

Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

(rok 1997) Definicja Gramatyka reversible context-free jest gramatyką bezkontekstową G = (V, Σ, P, S) taką, że: 1 A α i B α znajdują się w zbiorze produkcji P implikuje, że A = B, 2 A αbβ i A αcβ znajdują się w zbiorze produkcji P implikuje, że B = C, gdzie A, B i C są symbolami nieterminalnymi, a α, β (N Σ).

(rok 1997) Twierdzenie Klasa gramatyk reversible context-free jest identyfikowalna w granicy z użyciem pozytywnej reprezentacji ustrukturalizowanych łańcuchów, takich, które zostałyby wygenerowane przez gramatykę reversible context-free nieznanego języka bezkontekstowego.

Przykład ustrukturalizowanej reprezentacji zdania Duży pies goni małą dziewczynkę

Przykład ustrukturalizowanej reprezentacji zdania < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 N 3 < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 3 N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 3 N 3 AN N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 3 N 3 AN N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 1 N 1 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >

Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

tokenizacja, wydzielanie zdań, analiza morfologiczna, ujenoznacznianie Duży pies goni małą dziewczynkę acc m2 fin acc acc adj nom imperf adj f m3 sg sg pos sg pos subst ter sg subst sg

Informacja morfologiczna Liczba etykiet w systemie CLAWS 5 76 etykiet w Korpusie IPI PAN 2953 (778) etykiet Metoda odwzorowania umożliwiająca redukcje liczby etykiet możliwy dobór ewolucyjny i manualny intuicyjna umożliwi zbadanie wpływu liczby etykiet na jakość generowanej gramatyki Szczegóły odwzorowania

Liczba etykiet w funkcji odwzorowania Język System etykiet/odwzorowanie efektywna liczba etykiet w badanym korpusie maksymalna liczba etykiet EN CLAWS-5-76 PL Korpus IPI/map-flexeme-simple 17 19 PL Korpus IPI/map-flexeme-one 30 32 PL Korpus IPI/map-gi-flexeme-simple 31 32 PL Korpus IPI/map-gi-flexeme-one 44 45 PL Korpus IPI/map-gi-flexeme-simple-eos 60 64 PL Korpus IPI/map-gi-flexeme-one-eos 83 87 PL Korpus IPI/map-ipi-one 778 2953 PL Korpus IPI/map-ipi-one-eos 955 2985 PL Korpus IPI/map-one 982 2998

Odwzorowanie informacji morfologicznej Przykładowy fragment odwzorowania map-gi-flexeme-simple subst depr num numcol adj adja adjp adv ppron12 ppron3 siebie... subst... depr... num... numcol... adj... adja... adjp... adv... ppron12... ppron3... siebie..................

Plan prezentacji Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990) Informacja wzajemna MI(S 1, S 2 ) = log P(S) P(S 1 )P(S 2 )

Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990)

Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990) Uogólniona informacja wzajemna GMI(x 1,..., x i, y 1,..., y i ) = X zakończone x i Y rozpoczęte y 1 1 σ XY MI(X, Y)

Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990)

Badania wstępne Wartość średnia MI Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego

Badania wstępne Wartość wariancji MI Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego

Badania wstępne Wartość średnia MI Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego

Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Liczba wystąpień podsekwencji w funkcji długości

Plan prezentacji Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium MI MI(x, y) = log P XY (xy) P X (x)p Y (y)

Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium G I MI G I MI(x,..., y) = log P X...Y(x,..., y) P X (x)... P Y (y)

Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium G I MI Norm G I MI Norm (x,..., y) = log P X...Y (x,...,y) N X...Y P X (x) N X PY(y) N Y N l współczynnik dany wzorem: N l = x X l P 2 X l (x)

Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium SF SF(x,..., y) = log P X (x) N X 1 PY(y) N Y N l współczynnik dany wzorem: N l = x X l P 2 X l (x)

Przykład Aktualny stan wiedzy Przykładowe zdanie Duży pies goni małą dziewczynkę

Ocena podziału pierwszego rzędu

Podziały pierwszego rzędu Nr Ocena Podział 1. 0.95123 <Duży pies><goni><małą dziewczynkę> 2. 0.95036 <Duży pies><goni małą dziewczynkę>... 11. 0.02321 <Duży><pies goni małą dziewczynkę>...

Ocena szkieletu

Ocena szkieletu

Wybrane szkielety Ocena addytywna szkieletów Nr Ocena Podział 2. 1.02120 <<Duży><pies>><<goni><<małą><dziewczynkę>>> 11. 0.97754 <Duży><<pies><<goni><<małą><dziewczynkę>>>>... 1. 0.61665 <<Duży><pies>><goni><<małą><dziewczynkę>>...

Wygenerowana struktura szkieletowa <Duży pies> <goni <małą dziewczynkę>>

Kryterium podziału Eksperymenty potwierdziły, że możliwe jest sformułowanie statystycznego kryterium oceny wielopunktowych podziałów zdań, które nie preferuje konkretnej długości podsekwencji.

System eksperymentalny zbudowano system eksperymentalny rozwiązujący podstawowe problemy jakie pojawiaja się podczas wykonywania eksperymentów: dostęp do plików, raporty, obsługa sytuacji wyjątkowych, batch mode vs. interakcja z użytkownikiem, skrypty, wielowątkowość, etc. zaimplementowano kryteria: MI GMI G I MI G I MI Norm SF zaimplementowano algorytmy (m.in.): wykrywania struktury zdania generowania najlepszych podziałów generowania reguł gramatyki RCFG

Schemat systemu eksperymentalnego

Porównanie SF z ABL i EMILE

Porównanie SF z ABL i EMILE

Porównanie SF z ABL i EMILE

Skuteczność kryterium (struktury szkieletowe) Eksperymenty potwierdzają skuteczność tego kryterium do oceny jakości struktur szkieletowych przy budowie anotowanych strukturalnie korpusów języka naturalnego.

Pokrycie korpusu 15 i 30

Liczba reguł i symboli nieterminalnych

Pokrycie zbioru reguł

Liczba reguł

Plan prezentacji Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Wyniki przeprowadzonych prac Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań wykryto zjawiska zaniku różnorodności i gwałtownego spadku ogólnej liczby sekwencji ze wzrostem ich długości opracowano metodę oceny podziałów wielopunktowych niewrażliwą na długość sekwencji kryterium SF opracowano metodę oceny struktur szkieletowych na podstawie oceny podziałów tę strukturę definiujących opracowano metodę zawężania i poszerzania informacji morfologicznej opracowano efektywny algorytm generowania struktur szkieletowych udoskonalono metody generowania gramatyki RCFG

Plan prezentacji Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Zastosowanie Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań identyfikacja autora (wykrywanie plagiatów) wykrywanie błędów w korpusach anotowanych strukturalnie wykrywanie zjawisk w języku budowa efektywnych parserów Semantic Web

Plan prezentacji Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań

Dalsze kierunki badań Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań metody analizy otrzymanych reguł gramatyki metody automatycznego nazywania wykrytych kategorii syntaktycznych efektywne estymowanie prawdopodobieństw występowania sekwencji w korpusie

Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań Dziękuję za uwagę

Dodatek Informacja morfologiczna Kolejność etykiet użyta w odwzorowaniu nr etykieta nr etykieta nr etykieta nr etykieta nr etykieta 1. subst 18. inf 35. nom 52. sup 69. lbrt 2. depr 19. pcon 36. gen 53. imperf 70. rbrt 3. num 20. pant 37. dat 54. perf 71. comma 4. numcol 21. ger 38. acc 55. aff 72. fstp 5. adj 22. pact 39. inst 56. neg 73. ast 6. adja 23. ppas 40. loc 57. akc 74. pls 7. adjp 24. winien 41. voc 58. nakc 75. mns 8. adv 25. pred 42. m1 59. praep 76. cln 9. ppron12 26. prep 43. m2 60. npraep 77. scln 10. ppron3 27. conj 44. m3 61. congr 78. qst 11. siebie 28. qub 45. f 62. rec 79. sie 12. fin 29. xxs 46. n 63. nagl 80. nie 13. bedzie 30. xxx 47. pri 64. agl 81. eos 14. aglt 31. ign 48. sec 65. wok 15. praet 32. interp 49. ter 66. nwok 16. impt 33. sg 50. pos 67. excl 17. imps 34. pl 51. comp 68. quot Powrót