Wizualizacja wyników analizy syntaktycznej



Podobne dokumenty
Analizator syntaktyczny

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

KATEGORIA OBSZAR WIEDZY

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

Metody Kompilacji Wykład 3

Matematyczne Podstawy Informatyki

WSKAZÓWKI WYDAWNICZE DLA AUTORÓW

Wymagania dotyczące pracy dyplomowej

Instrukcja dla autorów monografii

Gramatyki atrybutywne

Sprawdzenie i ocena pracy z wykorzystaniem Archiwum Prac Dyplomowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Jak się nie zgubić w lesie, czyli o wynikach analizy składniowej według gramatyki Świdzińskiego

Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku

Dodawanie grafiki i obiektów

Języki formalne i automaty Ćwiczenia 2

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Polcode Code Contest PHP-10.09

3.4. Opis konfiguracji layoutów.

Programowanie komputerów

Forex PitCalculator INSTRUKCJA UŻYTKOWNIKA

11 Probabilistic Context Free Grammars

Sylabus Moduł 2: Przetwarzanie tekstów

Spis treści. spis treści wygenerowany automatycznie

Języki programowania zasady ich tworzenia

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

Praca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk

Instrukcja rejestrowania pracy dyplomowej w Archiwum Prac Dyplomowych przez studenta

QUERY język zapytań do tworzenia raportów w AS/400

Metody Kompilacji Wykład 1 Wstęp

Wsparcie dla czasopism naukowych w POL-index podręcznik użytkownika

Jak uzupełnić sylabus przedmiotu w systemie USOS?

Wprowadzenie. Teoria automatów i języków formalnych. Literatura (1)

Imię Nazwisko, Imię Nazwisko 1 Uczelnia/Firma. Imię Nazwisko 2 Uczelnia/Firma. Tytuł artykułu

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W SANDOMIERZU (18)

Instrukcja rejestrowania pracy dyplomowej w Archiwum Prac Dyplomowych przez studenta

Jak uzupełnić sylabus przedmiotu w systemie USOS?

Przeglądanie wyników podległych pracowników i jednostek z Ankiety Oceny Zajęć w systemie USOSweb

KONFERENCJA NAUKOWO TECHNICZNA WARSZTAT PRACY RZECZOZNAWCY BUDOWLANEGO. Wytyczne do materiałów konferencyjnych

Atmosfera. IT Works S.A. Instrukcja dla użytkownika końcowego. Mariusz Sokalski Wersja 1.1

Przewodnik Użytkownika systemu PBN. dodawanie publikacji w formie artykułu

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

Archiwum Prac Dyplomowych.

Analiza semantyczna. Gramatyka atrybutywna

Legislator Opis zmian w wersji SP 37 ABC PRO Sp. z o.o.

JLR EPC. Szybki start. Spis treści. Polish Version 2.0. Przewodnik krok po kroku Przewodnik po ekranach

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Parsery LL(1) Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Uproszczony schemat działania kompilatora

Zasady redakcji pracy dyplomowej w Wyższej Szkole Kultury Fizycznej i Turystyki w Pruszkowie

ARCHIWUM PRAC DYPLOMOWYCH

Zadanie analizy leksykalnej

System Wymiany Informacji. Instrukcja obsługi mapy

1. Narzędzia główne: WORD 2010 INTERFEJS UŻYTKOWNIKA. wycinamy tekst, grafikę

Gramatyka operatorowa

Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone

WYMOGI EDYTORSKIE. Edytor tekstu Microsoft Word, format *.doc lub *.docx.

Import danych z plików Excel. (pracownicy, limity urlopowe i inne)

Pisanie prac empirycznych z psychologii instrukcja. Tomasz Smoleń

MODUŁ AM3: PRZETWARZANIE TEKSTU

Wyniki operacji w programie

Zalogowanie generuje nowe menu: okno do wysyłania plików oraz dodatkowe menu Pomoc

NORMY REDAKCYJNE. ReVue

ZASADY PISANIA ARTYKUŁÓW

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

OPIS PRZEDMIOTU. gramatyka opisowa języka polskiego (składnia) Humanistyczny. Instytut Filologii Polskiej i Kulturoznawstwa.

Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Uniwersytet Kazimierza Wielkiego Wydział Humanistyczny Katedra Germanistyki

TYTUŁ ARTYKUŁU W JĘZYKU POLSKIM

EGZAMIN MATURALNY 2012 INFORMATYKA

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

INSTRUKCJA ARCHIWIZOWANIA W USOS TECZEK PRZEWODÓW DOKTORSKICH

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Uproszczony schemat działania kompilatora

Przewodnik po serwisie INFORLEX.PL BIZNES

Napisy w PHP. Drukowanie napisów instrukcją echo

Tytuł: Język angielski metodą skojarzeń. Autorzy - Michael Gruneberg, Patrycja Kamińska. Opracowanie i skład - Joanna Kozłowska, Patrycja Kamińska

AKADEMIA im. JANA DŁUGOSZA w CZĘSTOCHOWIE

Programowanie w języku Python. Grażyna Koba

Zasady i wskazówki pisania prac dyplomowych

Instrukcja obsługi dla studenta

Instrukcja rejestrowania pracy dyplomowej w Archiwum Prac Dyplomowych przez promotora i recenzenta

Modelowanie diagramów klas w języku UML. Łukasz Gorzel @stud.umk.pl 7 marca 2014

Samodzielnie wykonaj następujące operacje: 13 / 2 = 30 / 5 = 73 / 15 = 15 / 23 = 13 % 2 = 30 % 5 = 73 % 15 = 15 % 23 =

ARCHIWUM PRAC DYPLOMOWYCH

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

Definiowanie języka przez wyrażenie regularne(wr)

Instrukcja obsługi dla studenta

Podręcznik użytkownika

Efektywna analiza składniowa GBK

Sylabus Moduł 4: Grafika menedżerska i prezentacyjna

KATEGORIA OBSZAR WIEDZY

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

I. Program II. Opis głównych funkcji programu... 19

Instrukcja dostępu do usługi Google Scholar

SPAWALNICTWO DRÓG SZYNOWYCH

Komputer. Komputer (computer) jest to urządzenie elektroniczne służące do zbierania, przechowywania, przetwarzania i wizualizacji informacji

Platforma e-learningowa

Transkrypt:

Janusz S. Bień Wizualizacja wyników analizy syntaktycznej Reprezentacja struktur syntaktycznych za pomocą wykresów nazywanych technicznie grafami ma długą tradycję. Najczęściej stosuje się drzewa, czyli grafy o pewnych szczególnych własnościach. Jedną z tych własności jest możliwość przedstawienia drzewa na płaszczyźnie, w szczególności na papierze lub ekranie. W konsekwencji istnieje wiele konwencji drukowania i wyświetlania drzewiastych struktur, zarówno lingwistycznych, jak i tych używanych w innych dziedzinach. W szczególności zaimplementowany przez Marcina Wolińskiego analizator syntaktyczny Świgra [4, 5] będący komputerową realizacją gramatyki formalnej Marka Świdzińskiego przedstawionej w książce [3] produkuje drzewa rozbioru w kilku formatach. Jeden z tych zaprojektowanych przez Wolińskiego formatów ilustrują rysunki 1 i 2. Analiza czysto syntaktyczna rzadko jest jednoznaczna, typowym wynikiem analizy nie jest więc pojedyncze drzewo, lecz las drzew o wspólnych liściach. Prezentowana w artykule [6] modyfikacja formatu ułatwia przeglądanie kolejnych analiz, ale moim zdaniem nie rozwiązuje problemu do końca. Las drzew jest bowiem obiektem trójwymiarowym i może być przedstawiony na płaszczyźnie tylko za pomocą odpowiednich transformacji (ustalonych mniej lub bardziej arbitralnie). W literaturze lingwistycznej nie natknąłem się dotąd na żadną propozycję takiej transformacji przedstawiona w niniejszym artykule notacja jest być może pierwszą tego typu. Potrzeba sformułowania takiej notacji wynikła z dostępności wspomnianego wyżej analizatora syntaktycznego Świgra. Na potrzeby niniejszego artykułu była wykorzystywana odmiana tego systemu przygotowana przez Macieja Ogrodniczuka, nazywana Świgra Live [2]. Jako przykład posłuży nam wynik analizy zdania «Ala ma kota» (celowo pomijamy końcową kropkę dla uproszczenia wykresu). Świgra dostarcza poszczególne drzewa składające się na wynik w określonej kolejności, w związku z tym można się odwoływać do ich numerów. Wynikowe drzewa zapisujemy w tabeli, w której każda kolumna odpowiada jednemu słowu analizowanego zdania (dokładniej jednemu segmentowi, por. [4] s. 50). W poszczególnych wierszach zapisujemy wszystkie interpretacje tych słów i ich sekwencji. Jeśli wierszy jest dużo, tabelę dzielimy na strony (np. w miejscach zmiany liczby kolumn) dodając dla wygody czytelników główki i stopki przypominające analizowane zdanie. Dla uproszczenia zakładamy tutaj, że szerokość tabeli nie przekracza szerokości strony. Każda komórka tabeli ma następujące wspólne elementy: Identyfikator komórki w postaci jej kolejnego numeru, umieszczony w lewym górnym rogu. Liczba drzew zawierających przestawioną w komórce interpretację oraz liczba wszystkich drzew wynikowych, umieszczone w prawym górnym rogu. Numery drzew zawierających przedstawioną w komórce interpretację, podane kursywą w ostatnim wierszu komórki. Skrótowy opis przedstawionego w komórce elementu drzewa. Tytułem przykładu, w komórce nr 9 jest to symbol «fw/mian» reprezentujący element fw(np(mian),_,nd,ter,żeń/poj,tak,ni,np) występujący w analizach nr 1, 2 i 3 (pełną listę takich elementów można znaleźć w [4] na s. 122). Artykuł ukazał się w marcu 2007 r. w Poradniku Językowym w zeszycie nr 9 (638) datowanym na listopad 2006 r.; numer ten jest dedykowany Profesorowi Markowi Świdzińskiemu z okazji jubileuszu 35 lat działalności zawodowej. Dodatkowe informacje na ostatniej stronie tekstu. 1

Wykaz komórek tabeli, które opisują nadrzędne elementy drzewa. Elementy opisane w komórkach nr 22 i 25 są nadrzędne w stosunku do elementu z komórki 9, dlatego w komórce 9 znajduje się zapis «22,25» (strzałka wskazuje w dół, bo element nadrzędny znajduje się w tabeli poniżej elementu podrzędnego). Lista symboli reguł gramatyki, które posłużyły do utworzenia danego elementu z elementu lub elementów podrzędnych. W komórce nr 22 będzie to więc tylko jeden symbol e5, natomiast w komórce nr 9 ciąg symboli no45,wy8,wy1 Odesłania do elementów podrzędnych, które dla większej przejrzystości mają dość rozbudowaną postać. Zamiast szczegółowo opisywać budowę tabeli, lepiej jest pokazać na przykładach sposób jej odczytywania. Patrząc na komórki nr 1 i 2 widzimy, że słowo «ma» zostało zinterpretowane jako forma czasownika mieć, przy czym w 8 drzewach dzięki odpowiednim uzgodnieniem rodzaj formy został określony jako żeński, a w pozostałych 14 drzewach rodzaju nie udało się ustalić. Patrząc na komórki nr 1, 4 i 7 widzimy, że słowo «Ala» 3 razy zostało zinterpretowane jako forma żeńskiego imienia Ala, a 19 razy jako forma męskiego imienia Al, w tym 8 razy jako forma dopełniacza, a 11 razy jako forma biernika. Korzystając ze znajdujących się w komórce odsyłaczy, przechodzimy do komórek nr 12 i 17 widzimy obecnie, że biernik rzeczownika Al pełni 3 razy rolę frazy wymaganej (fw) i 8 razy frazy luźnej (fl). Korzystając z kolejnych odsyłaczy, możemy sprawdzić, że «Ala» jako biernikowa fraza luźna jest składnikiem m.in. zdania elementarnego (, por. [1] s. 396 i [2] s. 123) przedstawionego w komórce nr 23. W komórce tej jeden z wierszy opisuje strukturę zdania elementarnego możemy przeczytać, że jego pierwszym składnikiem jest trzykrotnie konstrukcja ze wspomnianej komórki 17 i trzykrotnie konstrukcja z komórki 15 czyli fraza luźna dopełniaczowa. Drugim składnikiem tego zdania jest zawsze fraza finitywna przedstawiona w komórce nr 19. Wielość analiz syntaktycznych zdania wynika m.in. z tego, że pewne drzewa rozbioru reprezentują struktury właściwe dla innych treści leksykalnych, np. «Ala czyta godzinę», «Godzinę czyta Ala». W naszym przypadku jedyne poprawne semantycznie interpretacje zdania «Ala ma kota» znajdziemy w komórce nr 25. Odczytywanie tabeli może wydawać się trudne, ale wyniki analizy dokonanej na podstawie skomplikowanej gramatyki są z natury rzeczy skomplikowane i ich interpretacja w konsekwencji nie może być łatwa. Dla porównania, podajemy niżej dwa drzewa dla zdania «Ala ma kota.» wychwycenie różnic między nimi jest istotnie trudniejsze, zwłaszcza gdybyśmy chcieli porównać wszystkie 22 drzewa. Proponowana notacja która może służyć zarówno do wydruków na papierze, jak i do tworzenia dokumentów elektronicznych z odpowiednimi hiperlinkami może stać się kolejnym krokiem naprzód w popularyzacji w środowisku polonistycznym opracowanej przez Marka Świdzińskiego i największej jak dotąd gramatyki formalnej języka polskiego. 2

Rysunek 1. Drzewo analizy Rysunek 2. Inne drzewo analizy 3

Zbiorcza reprezentacja lasu drzew 1 Ala ma kota 2 1 3/22 2 8/22 3 11/22 n-rz1 9 n-cz1 10,13 n-rz1 11,18 Ala/mian mieć/żeń kot/bier 1,2,3 1,2,3,4,5,6,7,8 1,2,3,9,11,13,14,17,19,21,22 3 4 8/22 5 14/22 6 6/22 n-rz1 15 n-cz1 10,13 n-rz1 16 Al/dop mieć/r kot/dop 6,8,14,15,16,19,20,22 9,10,11,12,13,14,15,16,17,18,19,20,21,22 10,12,15,16,18,20 4 7 11/22 8 5/22 n-rz1 12,17 n-rz1 14 Al/bier kota/mian 4,5,7,9,10,11,12,13,17,18,21 4,5,6,7,8 5 9 3/22 10 10/22 11 5/22 fw/mian 22,25 ff 20,25,26 fw/bier 20 no45,wy8,wy1 we30n,we29,we26,we22e,fi4,fi1 no46,wy10,wy1 n-rz1: 1 n-cz1: 2 [6], 5 [4] n-rz1: 3 1,2,3 3,4,5,6,7,8,13,16,21,22 3,13,16,21,22 6 12 3/22 13 12/22 14 5/22 fw/bier 25 ff1 10,19 fw/mian 20,25,26 no46,wy10,wy1 we30n,we29,we26,we22e,fi4,fi1 no46,wy8,wy1 n-rz1: 7 n-cz1: 2 [2], 5 [10] n-rz1: 8 4,9,10 1,2,9,10,11,12,14,15,17,18,19,20 4,5,6,7,8 7 15 8/22 16 6/22 fl/dop 23,24,26 fl/dop n-rz1: 4 n-rz1: 6 6,8,14,15,16,19,20,22 2,10,12,15,18,20 8 17 8/22 18 6/22 fl/bier 23,24,26 fl/bier 19 n-rz1: 7 n-rz1: 3 5,7,11,12,13,17,18,21 1,9,11,14,17,19 9 19 12/22 ff 21 fi3 ff1: 13 fw: 16,18 1,2,9,10,11,12,14,15,17,18,19,20 10 20 4/22 24 e6 ff: 10 fw: 11,14 5,6,13,16 11 21 4/22 24 e6 ff: 19 11,12,14,15 Ala ma kota 4

1 Ala ma kota 12 22 2/22 e5 fw: 9 ff: 19 1,2 13 23 6/22 e5 fl: 15 [3], 17 [3] ff: 19 9,10,17,18,19,20 14 24 8/22 el8 fl: 15 [4], 17 [4] zd: 20,21 5,6,11,12,13,14,15,16 15 25 2/22 e5 fw: 9 [1], 12 [1] ff: 10 fw: 14 3,4 16 26 4/22 e4 fl: 15 [2], 17 [2] ff: 10 fw: 14 7,8,21,22 Ala ma kota Literatura [1] M. Ogrodniczuk. An extension of Świdziński s grammar of Polish. Archives of Control Sciences Vol. 15 (LI), 2005 No 3, pp. 393-402. [2] M. Ogrodniczuk. Weryfikacja korpusu wypowiedników polskich (z wykorzystaniem gramatyki formalnej Świdzińskiego). Praca doktorska, Wydział Neofilologii UW, 2006. http://www.mimuw.edu.pl/~jsbien/mo/dr/mo06-dr.pdf. [3] M. Świdziński. Gramatyka formalna języka polskiego. Wydawnictwa UW: Warszawa 1992. [4] M. Woliński. Komputerowa weryfikacja gramatyki Świdzińskiego. Praca doktorska, Instytut Podstaw Informatyki PAN, 2005. http://www.ipipan.waw.pl/ ~wolinski/publ/mw-phd.pdf. [5] M. Woliński. An efficient implementation of a large grammar of Polish. Archives of Control Sciences Vol. 15 (LI), 2005) No 3, pp. 481-488. [6] M. Woliński. Jak się nie zgubić w lesie, czyli o wynikach analizy składniowej według gramatyki Świdzińskiego. Poradnik Językowy nr 9 (638), listopad 2006, s. 102-114. 5

Uwagi o wersji elektronicznej Niniejszy artykuł jest obecnie dostępny w formacie PDF pod adresem http://bc.klf.uw.edu.pl/72/ Plik ma objętość około 200 KB. Artykuł ukazał się w marcu 2007 r. w Poradniku Językowym w zeszycie nr 9 (638) datowanym na listopad 2006 r, na stronach 24-29. Numer ten jest dedykowany Profesorowi Markowi Świdzińskiemu z okazji jubileuszu 35 lat działalności zawodowej. Podział na strony i ich numery w wersji elektronicznej nie są zgodne z wersją drukowaną. Streszczenie angielskie (adjustacja M. Kołodzińska): Visualization of Parsing Results Syntactic structures obtained as parsing results are usually represented as trees. If the analysis is ambiguous, then the result has the form of a forest instead of a single tree. A transformation is proposed to represent such a 3-dimensional forest on a plane (for printing or displaying). It is intended to be used for the results of Woliński s parser Świgra, which implements Świdziński s grammar of Polish. Rekomendowany sposób cytowania niniejszego artykułu w formacie L A TEX2e: \bibitem{jsb-pj06n9} Janusz S. Bień. Wizualizacja wyników analizy syntaktycznej % Visualization of Parsing Results \textit{poradnik Językowy} % ISSN 0551-5343 z. 9 (638), listopad 2006, % marzec 2007 s.~24--29. \url{http://bc.klf.uw.edu.pl/72/} Metadane artykułu w formacie BibTEX: @article{bc72, number = {9 (638)}, month = {November}, author = {Janusz S. Bie\ n}, title = {Wizualizacja wynik\ ow analizy syntaktycznej}, publisher = {Wydawnictwa Uniwersytetu Warszawskiego}, journal = {Poradnik J\k{e}zykowy}, pages = {24--29}, year = {2006}, url = {http://bc.klf.uw.edu.pl/72/} }