Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Transkrypt

1 Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008

2 O czym będzie mowa 1 Wprowadzenie 2 Przetwarzanie morfo-syntaktyczne 3 Stan badań 4 Propozycja 5 Podsumowanie 2 / 24

3 Wprowadzenie Zadania przetwarzania tesktu (1) Wydobywanie informacji z tekstu Duży zbiór dokumentów tekstowych, np. raportów medycznych Potrzeba informacyjna użytkownika Automatyczne wypełnienie rekordów, np. P, O, S, C : Pacjent P przyjęty na oddział O szpitala S po rozpoznaniu jednostki chorobowej C Maszynowe tłumaczenie Wejście: tekst w języku J Wyjście: tekst w języku K Automatyczne streszczanie Wejście: tekst w języku J Wyjście: krótszy tekst w języku J zawierający najistotniejsze informacje z tekstu wejściowego 3 / 24

4 Wprowadzenie Zadania przetwarzania tesktu (2) Trudne i złożone zadania Wstępne przetworzenie tekstu wejściowego pozwala abstrahować od cech morfologicznych i składniowych Redukcja niejednoznaczności ogromna przepaść jak można tak przepaść Ustalenie ról pełnionych przez wyrazy Prezydent odwiedził ministra Prezydenta odwiedził minister 4 / 24

5 Wprowadzenie Zadania przetwarzania tesktu (3) Dziedzina: przetwarzanie języka naturalnego Rozpatrywane poziomy: morfologia i składnia Dążymy do opracowania uniwersalnych metod przetwarzania języka polskiego, które ułatwią wykonywanie innych zadań Zastosowanie praktyczne: stworzenie narzędzi do przetwarzania języka polskiego potrzebnych w ramach projektów realizowanych w instytucie Common Language Resources and INfrastructure Wspomaganie decyzji systemy nowej generacji 5 / 24

6 Przetwarzanie morfo-syntaktyczne Analiza morfologiczna (1) Klasyfikacja każdego wystąpienia jednostki leksykalnej (tokenu) Realizowana jest poprzez przypisanie znacznika określającego: klasę słowa (część mowy), wybrane własności wyrazu (głównie związane z odmianą) Analiza morfologiczna M : W 2 T T skończony ustalony zbiór znaczników, które mogą być przypisane jednostce leksykalnej. W zbiór tokenów 6 / 24

7 Przetwarzanie morfo-syntaktyczne Analiza morfologiczna (2) Nie patrzymy na kontekst wystąpienia Analiza morfologiczna jest wieloznaczna M : W 2 T przepaść czasownik, bezokolicznik rzeczownik, mianownik, rodzaj żeński, l. poj. rzeczownik, biernik, rodzaj żeński, l. poj. Kilka analizatorów dla języka polskiego Morfeusz Marcina Wolińskiego rozpoznaje form Odgadywacz ponad 70% dokładności [Piasecki, Radziszewski 2007] 7 / 24

8 Przetwarzanie morfo-syntaktyczne Ujednoznacznianie morfo-syntaktyczne (1) Wybieramy właściwy w danym kontekście znacznik Uzyskujemy przypisanie każdemu tokenowi dokładnie jednego znacznika Narzędzia ujednoznacznianiające nazywane są tagerami Aby ocenić jakość tagera, potrzebujemy wzorcowego tekstu oznakowanego ręcznie Trafność tagera (accuracy): procent tokenów oznaczonych prawidłowo 8 / 24

9 Przetwarzanie morfo-syntaktyczne Ujednoznacznianie morfo-syntaktyczne (2) Po analizie morfologicznej wielka przymiotnik, mianownik, rodzaj żeński, l. poj. przepaść czasownik, bezokolicznik rzeczownik, mianownik, rodzaj żeński, l. poj. rzeczownik, biernik, rodzaj żeński, l. poj. 9 / 24

10 Przetwarzanie morfo-syntaktyczne Ujednoznacznianie morfo-syntaktyczne (3) Po ujednoznacznieniu morfo-syntaktycznym wielka przymiotnik, mianownik, rodzaj żeński, l. poj. przepaść czasownik, bezokolicznik rzeczownik, mianownik, rodzaj żeński, l. poj. rzeczownik, biernik, rodzaj żeński, l. poj. 10 / 24

11 Przetwarzanie morfo-syntaktyczne Kontekst a ujednoznacznianie morfo-syntaktyczne Tybetańskie władze na wygnaniu przekonują, że liczba ofiar jest o wiele większa i sięga ponad 150 osób. * * * Tybetańskie władze na wygnaniu * * Tybetańskie władze na wygnaniu przekonują * Tybetańskie władze na wygnaniu przekonują, Tybetańskie władze na wygnaniu przekonują, że władze na wygnaniu przekonują, że liczba Lewy kontekst K L = <M(władze), M(na), M(wygnaniu)> Prawy kontekst K P = <M(,), M(że), M(liczba)> Pozycja p 5 = <K L, K P, M(przekonują)> p 5 Poz Poz = Kon Kon 2 T Ujednoznacznianie D: Poz T 11 / 24

12 Przetwarzanie morfo-syntaktyczne Analiza składniowa Pełna analiza składniowa: pełna struktura zdania Najczęściej: drzewo rozbioru składniowego Dokładny opis wszystkich fraz, pełen stopień zagnieżdżenia Istniejące analizatory składniowe dla języka polskiego są niepraktyczne Dla wielu zdań nie potrafią dać żadnej analizy Dla wielu zdań dają tysiące alternatywnych analiz Mają charakter eksperymentalno-badawczy Płytka analiza składniowa (ang. shallow parsing) Rezygnujemy z dokładności opisu na rzecz pewności Ograniczony stopień zagłębienia lub struktura płaska Ograniczony zestaw wyróżnianych fraz lub całostek 12 / 24

13 Przetwarzanie morfo-syntaktyczne Całostki składniowe Całostka (ang. chunk) [Abney, 1996] Nierekursywny rdzeń frazy wewnątrzzdaniowej rozciągający się od początku frazy do jej elementu nadrzędnego. Przykłady całostek rzeczownikowych [ Tybetańskie władze ] na [ wygnaniu ] przekonują, że [ liczba ] [ ofiar ] jest o wiele większa i sięga ponad 150 [ osób ]. Całostkowanie (znakowanie całostek) można sprowadzić do klasyfikacji tokenów. Tokenowi możemy przypisać znacznik określający: do jakiego typu całostki należy (lub nie należy do żadnej z rozpatrywanych), czy stanowi początek całostki 13 / 24

14 Stan badań Ujednoznacznianie języków słowiańskich (1) Swobodny szyk wyrazów oraz mnogość form w językach słowiańskich czynią metody czysto statystyczne bezużytecznymi [Sharoff, 2004] Język polski Tager TaKIPI [Piasecki, Godlewski 2006] Trafność 93,44% Drzewa decyzyjne, niewielka liczba reguł pisanych ręcznie Ręcznie dobierane atrybuty dla drzew decyzyjnych Język czeski Reguły ręczne i model Markowa: 95,16% [Hajič et al. 2001] ILP: 1% błędu przy ok. 50-procentowej redukcji niejednoznaczności [Nepil et al. 2001] 14 / 24

15 Stan badań Ujednoznacznianie języków słowiańskich (2) Tager TaKIPI: trafność 93,44% Dużą część tekstu stanowią jednostki jednoznaczne (50,0% tokenów korpusu znakowanego ręcznie) Dla jednostek wieloznacznych: 86,3% Zastosowania pokazują, że dokładność ta jest niewystarczająca Eksperymenty z automatycznym wydobywaniem synonimii Wyniki: synonimem słowa robot są robota, praca, urządzenie Błąd tagera: robota jako dopełniacz słowa robot 15 / 24

16 Stan badań Płytka analiza składniowa Formalizm dla języka polskiego prace Przepiórkowskiego Jednoczesne ujednoznacznianie i płytka analiza składniowa Założenie: wszystkie reguły pisane ręczne Brak wyników i systematyki planowanych typów fraz Formalizm wydaje się zbyt skomplikowany dla maszynowego uczenia całostkowania Gramatyki regularne pisane ręcznie [Przepiórkowski 1997] Brak uniwersalnego płytkiego parsera dla języka polskiego Znakowanie całostek rzeczownikowym w słoweńskich instrukcjach użytkownika: 77% [Tanev, Mitkov 2002] 16 / 24

17 Propozycja Cel i zakres Cel pracy Opracowanie metody znakowania całostek składniowych dla języka polskiego, która umożliwi jednoczesne ujednoznacznianie morfo-syntaktyczne. Poprawa trafności ujednoznaczniania w stosunku do znanych metod. Zakres 1 Metoda ma ujednoznaczniać tekst poddany analizie morfologicznej. 2 Zestaw całostek będzie ograniczony do kilku (1 4). 3 Badania prowadzone będą w kierunku metod pozyskujących wiedzę z dostępnego tekstu oznakowanego ręcznie. 17 / 24

18 Propozycja Schemat Tybetańskie władze na wygnaniu przekonują, że... Analizator morfologiczny Tybetańskie {adj,...} władze {...} na {...} wygnaniu {...} przekonują {...}, {interp} że {...}... Ujednoznacznianie i całostkowanie Tekst (ciąg tokenów) Tekst poddany analizie morfologicznej [Tybetańskieadj władze] subst na prep [wygnaniu] subst przekonują fin, interp że conj... Tekst ujednoznaczniony z oznaczonymi całostkami 18 / 24

19 Propozycja Propozycja kształtu rozwiązania (1) Złączenie ujednoznaczniania z płytką analizą składniową Informacja potrzebna do ujednoznacznienia ma charakter składniowy Oznaczenie całostki pociąga za sobą ograniczenie możliwych znaczników Znacznikom morfo-syntaktycznym przypisujemy typowe znaczniki całostek za [Karlsson 1990] W tekście nieujednoznacznionym część tokenów jest jednoznaczna Część tokenów należy jednoznacznie do pewnej całostki Oznaczamy takie tokeny, po czym stosujemy reguły 19 / 24

20 Propozycja Propozycja kształtu rozwiązania (2) Indukcja reguł ujednoznaczniających, które ingerują również w całostki Reguły powiększają całostki w lewo lub w prawo, ograniczając jednocześnie możliwe znaczniki morfo-syntaktyczne Reguły nie mogą zawęzić całostki, mogą jednak określać miejsca, przez które nie może przechodzić całostka Szablony reguł definiują wiedzę lingwistyczną podaną ręcznie Swobodny szyk wyrazów w zdaniu W tekście występują tokeny, które nie mają większego wpływu na ujednoznacznianie pozostałych Ma sens utworzenie pośredniej reprezentacji zdania pomijającej takie tokeny Zdanie złożone może być podzielone na więcej niż jedną pośrednią reprezentację 20 / 24

21 Propozycja Propozycja kształtu rozwiązania (3) Władze wielokrotnie zapewniały, że zginęło jedynie 22 demonstrantów. Władze wielokrotnie zapewniały, że zginęło jedynie 22 demonstrantów. Władze wielokrotnie zapewniały, zginęło jedynie 22 demonstrantów. A: Władze wielokrotnie zapewniały, że zginęło jedynie 22 demonstrantów. B: Władze zapewniały, C: zginęło 22 demonstrantów. 21 / 24

22 Podsumowanie Podsumowanie Przetwarzanie morfo-syntaktyczne języka polskiego Analiza morfologiczna: istnieją narzędzia o wysokiej trafności Ujednoznaczanie morfo-syntaktyczne: istnieją narzędzia, warto poprawić ich trafność Płytka analiza składniowa: praktycznie brak narzędzi Wyzwania Bogata fleksja języków słowiańskich, duży zbiór znaczników Szyk wyrazów nie determinuje funkcji przez nie pełnionych Szyk jest swobodny, występują długodystansowe zależności Możliwe korzyści Poprawa jakości istniejących i przyszłych systemów przetwarzania języka naturalnego Poprawa oznakowania korpusu języka polskiego IPI PAN Możliwość przetestowania opracowanych metod na innych językach 22 / 24

23 Podsumowanie Literatura (1) Dębowski, Tagowanie i dezambiguacja morfosyntaktyczna. Przegląd metod i oprogramowania Piasecki, Godlewski, Effective Architecture of the Polish Tagger. Piasecki, Radziszewski, Polish morphological guesser based on a statistical a tergo index. Sharoff, What is at stake: a case study of Russian expressions starting with a preposition Hajič, Hladka, Tagging inflective languages. Hajič et al., Serial combination of rules and statistics: a case study in Czech tagging. 23 / 24

24 Podsumowanie Literatura (2) Abney, Parsing by chunks. Abney, Chunk stylebook. Bird et al, Natural language processing in Python. Karlsson, Constraint Grammar as a Framework for Parsing Running Text. Nepil et al., Part-of-Speech Tagging by Means of Shallow Parsing, ILP and Active Learning Przepiórkowski, Slavic Information Extraction and Partial Parsing. Tanev, Mitkov, Shallow language processing architecture for Bulgarian. 24 / 24