Modelowanie treści sumeryjskich tekstów gospodarczych z epoki Ur III.

Podobne dokumenty
Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

MATEMATYKA DYSKRETNA, PODSTAWY LOGIKI I TEORII MNOGOŚCI

Efektywna analiza składniowa GBK

Języki programowania zasady ich tworzenia

Metody Kompilacji Wykład 3

Parsowanie semantyczne wypowiedzi w języku polskim z użyciem parsera ENIAM

KATEDRA INFORMATYKI TECHNICZNEJ. Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych. ćwiczenie 204

Matematyczne Podstawy Informatyki

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

Składnia rachunku predykatów pierwszego rzędu

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

10. Translacja sterowana składnią i YACC

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Języki formalne i automaty Ćwiczenia 6

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Analiza semantyczna. Gramatyka atrybutywna

Metody Kompilacji Wykład 1 Wstęp

Map Reduce Proste zliczanie słów i zapytania SQL

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

PODSTAWY SZTUCZNEJ INTELIGENCJI

Rachunek logiczny. 1. Język rachunku logicznego.

Matematyczne Podstawy Informatyki

Lokalizacja Oprogramowania

Wprowadzenie do logiki Zdania, cz. III Język Klasycznego Rachunku Predykatów

Wstęp do logiki. Semiotyka cd.

GRAMATYKI BEZKONTEKSTOWE

Wykład 10. Translacja sterowana składnią

Matematyczne Podstawy Informatyki

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

Np. Olsztyn leży nad Łyną - zdanie prawdziwe, wartość logiczna 1 4 jest większe od 5 - zdanie fałszywe, wartość logiczna 0

JAO - Wprowadzenie do Gramatyk bezkontekstowych

Klasyczny rachunek zdań 1/2

Reguły gry zaliczenie przedmiotu wymaga zdania dwóch testów, z logiki (za ok. 5 tygodni) i z filozofii (w sesji); warunkiem koniecznym podejścia do

Semantyka rachunku predykatów

Programowanie w Logice Gramatyki metamorficzne. Przemysław Kobylański na podstawie [CM2003] i [SS1994]

Podstawowe Pojęcia. Semantyczne KRZ

Schematy Piramid Logicznych

Języki formalne i automaty Ćwiczenia 1

Gramatyki (1-2) Definiowanie języków programowania. Piotr Chrząstowski-Wachjtel

Zadanie analizy leksykalnej

Hierarchia Chomsky ego

Rachunki relacji. Rachunki relacji. RRK Relacyjny Rachunek Krotek

Plan wykładu. Kompilatory. Literatura. Translatory. Literatura Translatory. Paweł J. Matuszyk

Kultura logiczna Klasyczny rachunek zdań 1/2

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Klasyczny rachunek predykatów

Języki formalne i automaty Ćwiczenia 7

Parsowanie semantyczne i jego zastosowania

Predykat. Matematyka Dyskretna, Podstawy Logiki i Teorii Mnogości Barbara Głut

Tworzenie języków specyfikacji dla zagadnień numerycznych

Wykład 5. Jan Pustelnik

Logika Matematyczna (2,3)

Rachunek predykatów. Formuły rachunku predykatów. Plan wykładu. Relacje i predykaty - przykłady. Relacje i predykaty

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Model semistrukturalny

Zasady Nazewnictwa. Dokumentów XML Strona 1 z 9

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Świat rzeczywisty i jego model

Program warsztatów CLARIN-PL

Języki i gramatyki formalne

Wyrażenia regularne.

Z punktu widzenia kognitywisty: język naturalny

Logika Matematyczna (1)

Spis treści Informacje podstawowe Predykaty Przykłady Źródła RDF. Marek Prząda. PWSZ w Tarnowie. Tarnów, 6 lutego 2009

Metoda Tablic Semantycznych

Internet Semantyczny i Logika I

Programowanie komputerów

Generatory analizatorów

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Wprowadzenie do kompilatorów

Obliczenia inspirowane Naturą

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Wprowadzenie do Prologa

Indukowane Reguły Decyzyjne I. Wykład 3

Hierarchia Chomsky ego Maszyna Turinga

Wydział Zarządzania AGH. Katedra Informatyki Stosowanej. Podstawy VBA cz. 1. Programowanie komputerowe

Temat: Zastosowanie wyrażeń regularnych do syntezy i analizy automatów skończonych

Języki formalne i automaty Ćwiczenia 3

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Podstawy Sztucznej Inteligencji (PSZT)

Diagram Przepływu Danych - podstawowe bloki składowe i reguły konstrukcji

Tautologia (wyrażenie uniwersalnie prawdziwe - prawo logiczne)

Teoretyczne podstawy informatyki

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Logika Matematyczna (1)

11 Probabilistic Context Free Grammars

Języki formalne i automaty Ćwiczenia 2

Uwagi wprowadzajace do reguł wnioskowania w systemie tabel analitycznych logiki pierwszego rzędu

Wprowadzenie: języki, symbole, alfabety, łańcuchy Języki formalne i automaty. Literatura

0.1 Lewostronna rekurencja

Przykład: Σ = {0, 1} Σ - zbiór wszystkich skończonych ciagów binarnych. L 1 = {0, 00, 000,...,1, 11, 111,... } L 2 = {01, 1010, 001, 11}

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Analiza znaczeniowa sterowana składnią

AUTOMATYKA INFORMATYKA

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

LOGIKA Klasyczny Rachunek Zdań

Obliczenia inspirowane Naturą

Transkrypt:

Modelowanie treści sumeryjskich tekstów gospodarczych z epoki Ur III. Wojciech Jaworski Uniwersytet Warszawski 19 listopada 2007 ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 1 / 38

Plan referatu 1 Język 2 Parsowanie 3 Zastosowania 4 Rozszerzenia ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 2 / 38

Starożytny Sumer w okresie Ur III ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 3 / 38

Korpus tekstów Archeolodzy odkopali ok. 100000 tabliczek pochodzacych z czasów panowania trzeciej dynastii z Ur (2100p.n.e.-2000p.n.e.). Większość z nich zostało napisanych w przeciagu 40 lat i pochodzi z 4 miast. Urzędnicy królewscy dokumentowali na glinianych tabliczkach przekazywanie dóbr, składanie ofiar, opłacanie pracowników, bilanse produkcji w zakładach przemysłowych, wykonana pracę, aprowizowanie wojska, diety podróżne itp. Około 43000 tekstów dostępnych jest w wersji elektronicznej w bazie danych Cuneiform Digital Library Initiative (CDLI) prowadzonej przez Uniwersytet Kalifornijski w Los Angeles i Instytut Historyczny im. Maxa Plancka w Berlinie. Tabliczki sa przechowywane w bazie w postaci tekstowej w formie transliteracji w alfabecie łacińskim. Na potrzeby badań wybrałem korpus ok. 17000 dokumentów dotyczacych dystrybucji zwierzat hodowlanych. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 4 / 38

Tekst gospodarczy Wojciech Jaworski Uniwersytet Warszawski () Modelowanie tres ci sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 5 / 38

Pismo: homonimia Jeden dźwięk może być zapisywany na różne sposoby, przyjmujac różne znaczenia. Na przykład dźwięk gu miał czternaście odpowiadajacych mu znaków graficznych, m.in. gu gu2 len szyja gu3 głos gu4 wół ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 6 / 38

Pismo: polifonia Znak może być różnie czytany w zależności od kontekstu. główne odczyty: an, dingir, d pozostałe odczyty: a11?, am6, ana2, anu, dalhamunx, dibur, digir, dimer, /dimer/, dimir, dimmer, diner, dingira, dinir, dir3, el3, eszszu2, il3, ila, ili, ilu, le4, sa8, szubul, s,a3, usanx, za5 dingir oznacza bóg d (skrót od dingir) jest determinatywem oznaczajacym, że następne słowo jest imieniem bóstwa an to imię boga niebios (jest to jedyny bóg, którego imię jest pisane bez determinatywu) an oznacza niebo, niebiański an może być czytany fonetycznie jako sylaba an, wykorzystywany w zapisie afiksów gramatycznych i oraz słów (nazw własnych) pochodzenia pozasumeryjskiego. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 7 / 38

Transliteracja &P123831 = OIP 121, 101 @tablet @obverse 1. 1(disz) sila4 ur-mes ensi2 2. 1(disz)# sila4 da-da dumu lugal 3. 1(disz)# sila4 id-da-a @reverse 1. u4 2(u) 3(asz@t)-kam $ 1 line blank 3. mu-du 4. ab-ba-sa6-ga i3-dab5 5. iti sze-kin-ku5 6. mu en dinanna ba-hun @left 1. 3(disz) ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 8 / 38

Ontologia Diagram komponentów znaczeniowych. Relacje bycia częścia, bycia cecha. Ontologia jest domknięta za pomoca specjalnej kategorii zawierajacej wszystkie obiekty nie mieszczace się w kategoriach przedstawionych na diagramie. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z epoki 19 listopada Ur III. 2007 9 / 38

Język reprezentacji znaczenia Fraza Język reprezentacji znaczenia składa się ze stałych oraz predykatów, które sa łaczone ze soba za pomoca alternatywy i koniunkcji. Nazwy predykatów sa kategoriami ontologicznymi. Pierwszym argumentem predykatu jest stała reprezentujaca obiekt należacy do kategorii wyznaczonej przez predykat. Pozostałe argumenty sa stałymi reprezentujacymi części (cechy) obiektu. ur-mes ensi2 zapisana w języku reprezentacji znaczenia będzie miała postać Name-Job(a 1, a 2, a 3 ) Name(a 2, a 4, a 5 ) Job(a 3, a 6 ) JobName(a 6, a 7 ) ur(a 4 ) mes(a 5 ) ensi2(a 7 ). ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 10 / 38

Semantyka języka reprezentacji znaczenia Name-Job(a 1, a 2, a 3 ) Name(a 2, a 4, a 5 ) Job(a 3, a 6 ) JobName(a 6, a 7 ) ur(a 4 ) mes(a 5 ) ensi2(a 7 ) Predykaty definiuja kategorię ontologiczna swojego pierwszego argumentu oraz wiaż a pierwszy argument z pozostałymi za pomoca relacji bycia częścia, badź opisem. Interpretacjami predykatów ur, mes, ensi2 sa sylaby lub wyrazy elementy języka. Interpretacja predykatu Name jest zbiór imion rozumianych jako elementy języka. Interpretacja predykatu JobName jest zbiór nazw zawodów rozumianych jako elementy języka. Interpretacjami stałych sa konkretne obiekty. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 11 / 38

Plan referatu 1 Język 2 Parsowanie 3 Zastosowania 4 Rozszerzenia ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 12 / 38

Segmentacja Tekst Podział tekstu na znaki. Odróżnienie tekstu sumeryjskiego od oznaczeń edytorskich, Brak jednolitej konwencji oznaczania struktury i uszkodzeń tekstów. CDLI stopniowo ujednolica teksty. W wyniku segmentacji tekst może utracić strukturę listy {gesz}asalx( A.TU.NIR )!(A.TU) du3-a po segmentacji ma postać grafu ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 13 / 38

Składnia dokumentów gospodarczych Niemal wszystkie słowa sa rzeczownikami albo liczebnikami. Afiksy deklinacyjne i słowotwórcze niemalże nie występuja, a sens tekstu jest wyznaczony przez kolejność fraz. Badania empiryczne wykazały, że język sumeryjskich tekstów gospodarczych jest regularny. Dokument gospodarczy jest pojedynczym zdaniem w szyku OSV, z bardzo rozbudowana częścia O; zaopatrzonym w datę. Schemat prostego pokwitowania ((Number Animal)+ Man)+ Day Receiver Month Year Summary. Schemat miesięcznego zestawienia (((Number Animal) + Man) + Summary Day) + SzuLagab Receiver Month Year. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 14 / 38

Gramatyka reguły gramatyczne maja postać A α 1,..., α n A β+ gdzie α 1,..., α n, β sa symbolami. Reguła A β+ jest równoważna zbiorowi reguł A β, A ββ, A βββ,.... w gramatyce nie ma rekurencji Gramatyka jest semantyczna większości symboli z gramatyki odpowiadaja kategorie ontologiczne. Przykładowe reguły Name ::= ur mes Name-Job ::= Name Job Name-Job ::= Name Name-Job ::= Job Number-Animal ::= Number Animal Number-AnimalList ::= NumberAnimal + ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 15 / 38

Analizator składniowy: reprezentacja danych Częściowo zinterpretowany tekst reprezentujemy za pomoca skierowanego grafu acyklicznego, którego. krawędzie etykietujemy symbolami z gramatyki. Graf ten będziemy nazywać grafem rozbioru składniowego. Parsowanie przebiega z dołu do góry. Aplikacja reguły polega na znalezieniu ścieżki w grafie i dodaniu do niego nowej krawędzi etykietowanej produkcja reguły. Gramatyka nie musi być kompletna. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 16 / 38

Wieloznaczność Wieloznaczność wynikajaca z niewiedzy: zabar-dab5. Wieloznaczność wynikajaca ze skrótowego zapisu: mu en {d}inanna. Wieloznaczność wynikajaca z braku nawiasowania: NAList Man NAList Man Middleman NAList Man Middleman. Możliwe sa dwie interpretacje: (NAList Man NAList Man) Middleman NAList Man Middleman, NAList Man (NAList Man Middleman) NAList Man Middleman. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 17 / 38

Wieloznaczność Wieloznaczność wynikajaca z braku znaków rozdzielajacych słowa 1(disz) sila4 ga ga mu ga-ga-mu i ga-mu to imiona, a ga jest określeniem zwierzęcia. NumberAnimalName można uzyskać na dwa sposoby. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 18 / 38

Analiza semantyczna Formuły języka reprezentacji znaczenia powiazane sa z grafem rozbioru składniowego. Pozwala to w zwarty sposób zapamiętać treść niejednoznacznych dokumentów. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 19 / 38

Analiza semantyczna Formuły języka reprezentacji znaczenia powiazane sa z grafem rozbioru składniowego. Pozwala to w zwarty sposób zapamiętać treść niejednoznacznych dokumentów. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 20 / 38

Analiza semantyczna Z każdym symbolem gramatyki wiażemy zbiór predykatów. Zbiór przypisany do symbolu utworzonego podczas segmentacji zawiera jeden jednoargumentowy predykat. Nazwa predykatu jest tożsama z nazwa symbolu. Semantyka krawędzi grafu [[ga]] 3,4 = ga(a ga,3,4 ) Argument predykatu jest stała, której indeksy identyfikuja krawędź grafu. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 21 / 38

Analiza semantyczna Formuły języka reprezentacji znaczenia powiazane sa z grafem rozbioru składniowego. Pozwala to w zwarty sposób zapamiętać treść niejednoznacznych dokumentów. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 22 / 38

Analiza semantyczna Postać predykatu utworzonego w wyniku parsowania określa reguła semantyczna przypisana do reguły gramatycznej. Indeksy stałych wiaż a ze soba predykaty [[Name]] 4,6 = Name(a Name,4,6, a ga,4,5, a mu,5,6 ) [[ga]] 4,5 [[mu]] 5,6 = = Name(a Name,4,6, a ga,4,5, a mu,5,6 ) ga(a ga,4,5 ) mu(a mu,5,6 ) Powiazanie to odpowiada relacji bycia częścia lub bycia opisem. Odniesienie przedmiotowe stałej jest tożsame z odniesieniem przedmiotowym frazy wskazywanej przez indeksy stałej. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 23 / 38

Analiza semantyczna Formuły języka reprezentacji znaczenia powiazane sa z grafem rozbioru składniowego. Pozwala to w zwarty sposób zapamiętać treść niejednoznacznych dokumentów. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 24 / 38

Analiza semantyczna Semantyka krawędzi majacej dwa znaczenia ( [[NumberAnimalName]] 1,6 = NumberAnimalName(a NumberAnimalName,1,6, a NumberAnimal,1,3, a Name,3,6 ) ) ( [[NumberAnimal]] 1,3 [[Name]] 3,6 NumberAnimalName(a NumberAnimalName,1,6, a NumberAnimal,1,4, a Name,4,6 ) [[NumberAnimal]] 1,4 [[Name]] 4,6 ) Stała a NumberAnimalName,1,6 identyfikuje oba znaczenia. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 25 / 38

Gramatyka semantyczna korpusu tekstów gospodarczych Semantyka jest konstruowana w sposób kompozycjonalny, tzn. reguły semantyczne sa zwiazane z regułami składniowymi. Aplikacja reguły składniowej pociaga za soba aplikację przypisanej do niej reguły semantycznej, która z semantyk symboli rozpoznanych przez regułę konstruuje semantykę produkcji reguły. Gramatyka zawiera 3427 reguł (3 akumulacyjne). Z 3055 tabliczek parser wygenerował formułę logiczna majac a 271499 stałych (Liczba stałych jest równa sumie ilości krawędzi grafów rozbioru składniowego). ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 26 / 38

Typy reguł Reguły pełniace rolę leksykonu (1724) Name ::= ur mes Name(var Name,var ur,var mes ) Reguły opisujace strukturę tekstu (241) Name-Job ::= Name Job Name-Job(var Name-Job,var Name,var Job ) Name-Job ::= Name Name-Job(var Name-Job,var Name ) Name-Job ::= Job Name-Job(var Name-Job,var Job ) Reguły wprowadzajace wiedzę dziedzinowa (liczby, określenia roczne itp) w tych regułach sa zawarte algorytmy (1459) YearGod ::= d inanna {AS04(var YearGod ), AS05(var YearGod ))} Year ::= mu en YearGod Verb {p(var Year ) : p val YearGod val Verb } var Name jest zmienna, której indeksem jest krawędź grafu zwiazana z symbolem Name val YearGod jest zbiorem nazw predykatów zwiazanych z symbolem YearGod. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 27 / 38

Generowanie zbioru reguł Tworzenie gramatyki, semantyki i ontologii odbywa się jednocześnie. Zastosowana jest metodologia active learning. System posiada interfejs wizualizujacy grafy rozbioru składniowego i ułatwiajacy pisanie reguł. System pozwala użytkownikowi odszukiwać często powtarzajace się ciagi symboli i tworzyć reguły na ich podstawie. Pozwala to szybko stworzyć gramatykę obejmujac a typowe fragmenty tekstów. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 28 / 38

Plan referatu 1 Język 2 Parsowanie 3 Zastosowania 4 Rozszerzenia ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 29 / 38

Wyszukiwanie tekstów w korpusie Wyszukiwanie tekstów zawierajacych dany ciag odczytów znaków. Wyszukiwanie tekstów zawierajacych dany ciag znaków. Wyszukiwanie tekstów wg. wzorca semantycznego: znajdowanie tekstów, które posiadaja frazę o zadanym znaczeniu. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 30 / 38

Model gospodarki sumeryjskiej Podział tekstów na transakcje, zbudowanie na ich podstawie modelu gospodarki sumeryjskiej Data Ilość Towar Dostawca Odbiorca 23-11-AS05 1 sila4 ur-mes ensi2 ab-ba-sa6-ga 23-11-AS05 1 sila4 da-da dumu lugal ab-ba-sa6-ga 23-11-AS05 1 sila4 id-da-a ab-ba-sa6-ga Prosopographia, czyli ustalenie tożsamości osobowej urzędników sumeryjskich. Sklasyfikowanie typów dokumentów generowanych przez administrację sumeryjska. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 31 / 38

Model gospodarki sumeryjskiej ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 32 / 38

Znajdowanie par powiazanych tekstów ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 33 / 38

Plan referatu 1 Język 2 Parsowanie 3 Zastosowania 4 Rozszerzenia ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 34 / 38

Niewiedza Bogactwo języka naturalnego powoduje, że treść pewne liczby fraz nie daje się wyrazić za pomoca powszechnie występujacych kategorii ontologicznych. Frazy te sa rzadkie, nieregularne i pozbawione charakterystycznych kontekstów. Jest ich zbyt dużo, by je przejrzeć i dodać do ontologii pojęcia w nich zawarte. Aby parsować częściowo niezrozumiałe teksty domykam gramatykę i ontologię wprowadzajac kategorię nieznane. Poczatek i koniec nieznanej frazy określam uznajac, że każda nieznana fraza zajmuje jeden wers (Koniec wersu jest końcem słowa, zwykle też końcem frazy). Otrzymuję system zdolny sparsować tekst niezależnie swojej znajomości języka. Stan zrozumienia decyduje o ilości informacji z niego wydobytych. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 35 / 38

Akumulacja Semantyka produkcji reguły akumulacyjnej jest grafem, którego wierzchołkami sa zmienne wskazujace na semantyki symboli rozpoznanych przez ta regułę, a każda jego ścieżka jest możliwa semantyka produkcji reguły. Formuła dla grafu struktury logicznej symbolu akumulacyjnego jest alternatywa po wszystkich ścieżkach grafu predykatów, których argumentami sa zmienne zawarte w danej ścieżce. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 36 / 38

Uszkodzenia Techniki analizy uszkodzeń: Uznawanie uszkodzonych wersów jako nieznanych. Interpretacja poszczególnych nieczytelnych znaków jako symboli, do których parser może dopasować dowolny symbol. Zastapienie uszkodzonego wersu przez listę wersów typowych. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 37 / 38

Analizator składniowy Analizator składniowy jest podobny do parserów tablicowych. Podobnie jak one reprezentuje tekst za pomoca grafu skierowanego acyklicznego. Różnica polega na dostosowaniu mojego parsera do języków regularnych (z rozszerzeniem na bezkontekstowe moga być problemy wydajnościowe) oraz dostosowaniu do korzystania z niekompletnych gramatyk, co ułatwia uczenie. ojciech Jaworski Uniwersytet Warszawski ()Modelowanie treści sumeryjskich tekstów gospodarczych z 19 epoki listopada Ur III. 2007 38 / 38