Narzędzia inżynierii lingwistycznej w analizie dialogów



Podobne dokumenty
CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Open Access w technologii językowej dla języka polskiego

JĘZYK Wiesław Gdowicz

Wprowadzenie do składni

Analiza znaczeniowa sterowana składnią

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Evolution plus 1 PLAN WYNIKOWY UNIT 1. Środki językowe. Umiejętności językowe wg NPP. Macmillan Polska 2014

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Cele kształcenia wymagania ogólne

Wstęp do Językoznawstwa

Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń Co lubisz robić? Czym się interesujesz?

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Programowanie komputerów

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Kryteria oceniania z języka angielskiego, obejmujące zakres umiejętności ucznia na poszczególne oceny:

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Technologie informacyjne - wykład 12 -

IDEOLOGIA, POSTAWA A KOMUNIKACJA

Kryteria oceniania obejmujące zakres umiejętności ucznia na poszczególne oceny cząstkowe w klasach VII-VIII z Języka Hiszpańskiego

WYMAGANIA EDUKACYJNE

Eksploracja Zasobów Internetu

Przedmiotowy system oceniania z języka angielskiego

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4. Ocena celująca (6): Ocena bardzo dobra (5): Otrzymuje uczeń, który:

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Lokalizacja Oprogramowania

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS IV-VIII

Ontologie, czyli o inteligentnych danych

AUTOMATYKA INFORMATYKA

Semantic Web Internet Semantyczny

Wymagania edukacyjne z języka polskiego w klasie V

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO KLASA CZWARTA SZKOŁY PODSTAWOWEJ Zespół Edukacyjny w Płotach

Nazywanie zwierząt domowych. Opisywanie ludzi. Rozmawianie o przedmiotach szkolnych. Opisywanie sposobów spędzania wolnego czasu.

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY 4 SZKOŁY PODSTAWOWEJ. Podręcznik: English Class. Etap edukacyjny: II. Poziom: A1 TREŚCI NAUCZANIA

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III GIMNAZJUM

Wprowadzenie do morfologii

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Dialogowe akty mowy w modelach sztucznej inteligencji

WYMAGANIA EDUKACYJNE

Narzędzia do automatycznego wydobywania kolokacji

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

2

Opisy efektów kształcenia dla modułu

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

Rozdział 0 OCENA DOPUSZCZAJĄCA DOSTATECZNA DOBRA BARDZO DOBRA

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Z punktu widzenia kognitywisty: język naturalny

Mówienie. Rozumienie ze słuchu

Język jako hierarchiczny system dwuklasowy

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III SZKOŁY PODSTAWOWEJ

Maszynowe tłumaczenie Polskiego Języka Migowego

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa III Magdalena Pajor GRAMATYKA I SŁOWNICTWO. Poziomy wymagań:

Język niemiecki. Kryteria oceny biegłości językowej w zakresie szkolnych wymagań edukacyjnych: podstawowym i ponadpodstawowym

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY II GIMNAZJUM

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLAS CZWARTYCH

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO NA POSZCZEGÓLNE OCENY ŚRÓDROCZNE/ROCZNE KLASA 4 SZKOŁA PODSTAWOWA

Program warsztatów CLARIN-PL

Cele uczenia się Język Niemiecki Poziom A2 Celem nauki języka niemieckiego na poziomie A2 jest nabycie sprawności słuchania, mówienia, czytania oraz

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)

Główne problemy kognitywistyki: Reprezentacja

Umysł-język-świat 2012

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO.

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

WYMAGANIA EDUKACYJNE Z J. ANGIELSKIEGO DLA KLASY IV SZKOŁY PODSTAWOWEJ POZIOM KOMPETENCJI JĘZYKOWEJ WG CEF A1. Rozdział Starter

Wymagania edukacyjne na poszczególne oceny (poziom IV.0-2 godziny tygodniowo) Język francuski- Danuta Kowalik kl. 1c

JĘZYK NIEMIECKI liceum

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Wymagania na poszczególne oceny z języka hiszpańskiego dla klasy siódmej. Podręcznik GENTE JOVEN 1

System Korekty Tekstu Polskiego

Kontrola i ocena pracy ucznia.

ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO w klasach IV-VII

Analiza wyników egzaminu gimnazjalnego. Test język obcy nowożytny język angielski (poziom podstawowy) Test GA-P1-122

Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI

Parsowanie semantyczne wypowiedzi w języku polskim z użyciem parsera ENIAM

Cele uczenia się Język Angielski Poziom A1+ Celem nauki języka angielskiego na poziomie elementary jest nabycie sprawności słuchania, mówienia,

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH IV - VI

Narzędzia do automatycznego wydobywania kolokacji

Wymagania edukacyjne z języka angielskiego dla klasy II gimnazjum. Ocenę dopuszczającą otrzymuje uczeń, który: OSIĄGNIĘCIA

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO KLASA IV

New Matura Success: Elementary - kryteria oceniania

Transkrypt:

Narzędzia inżynierii lingwistycznej w analizie dialogów Agnieszka Mykowiecka PJWSTK, agn@pjwstk.edu.pl Instytut Podstaw Informatyki PAN Argumentacja, krytyczne myślenie, dialog, preswazja, grudzień 2009 1

Wiedza o języku a realizacja wyznaczonego celu Open the pod bay doors, HAL. I'm sorry Dave, I m afraid I can t do that. Stanley Kubrick i Arthur C. Clarke, 2001: A Space Odyssey zrozumienie polecenia analiza językowa (identyfikacja słów, form, związków między nimi) odniesienie do rzeczywistości wybór odpowiedzi (odrzucenie polecenia mimo możliwości wykonania) sformułowanie odpowiedzi wybór słów, ich form, porządku pragmatyka: uprzejma odmowa (I m sorry...) odniesienie do poprzedniej części dialogu (that) październik, 2005 2

Co musimy zrobić? We can only see a short distance ahead, but we can see plenty there that needs to be done. Alan Turing Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych) Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania. INL, 2009 3

Literatura ogólna Daniel Jurafsky, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson Education Inc. 2nd Edition James Allen, Natural Language Understanding, Benjamin Cummings, 1987, Second Edition, 1994. Christopher D. Manning, Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press. Frederick Jelinek. Statistical Methods for Speech Recognition Cambridge 1999 MIT Press. INL, 2009 4

Czym zajmuje się inżynieria lingwistyczna? Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego. Etapy przetwarzania: (wypowiedź) tekst w języku naturalnym reprezentacja semantyczna (np. logiczna) reakcja (wykonanie operacji, sformułowanie odpowiedzi) (synteza mowy) INL, 2009 5

Wiedza o języku naturalnym nazwa dziedziny fonetyka fonologia ortografia morfologia składnia semantyka pragmatyka obszar zainteresowania dźwięki dźwięki należące do języka zasady pisowni struktura/formy wyrazów zależności strukturalne między słowami (budowa fraz) znaczenie pojedynczego zdania znaczenie w kontekście +zależności międzyzdaniowe 6

Najważniejsze problemy Niejednoznaczności Ten sam (dosłownie lub w sensie struktury) tekst (sygnał) może mieć wiele interpretacji, na ogół człowiek automatycznie wybiera właściwą, ale informacje, które do tego wykorzystuje są bardzo różnorodne i trudne do zawarcia w programach komputerowych (problem rozumienia języka jest AI zupełny) Ania wsiadła do samolotu z dwoma silnikami Ania wsiadła do samolotu z dwiema walizkami. Bogactwo języka, ciągła ewolucja, nieostre reguły poprawności grudzień, 2009 7

Fonetyka i fonologia Rozpoznanie sygnału mowy: fonemy odpowiadające tym samym dźwiękom - fragmentom słów, wypowiadane przez różne osoby, w różnym czasie, różnym otoczeniu są inne z powodu różnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami praktycznie zawsze otrzymujemy sieć możliwych interpretacji rozpoznanie słów - potrzebujemy słownika i modelu języka problemy, np. kwiat -> [ k f i a t] niejednoznaczności fonologiczne, np. [m o rz e] -> może, morze 8

Rozpoznawanie mowy, zadanie łatwe czy trudne? spróbujmy zgadnąć, co znaczy następujący ciąg fonemów: ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih maj, 2007 9

Rozpoznawanie mowy, zadanie łatwe czy trudne? ciąg fonemów: ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih to I just heard something about moving recently łatwiejszy przykład [aa n iy dh ax ] I need the

Analiza morfologiczna Morfologia: nauka o budowie słów Analiza morfologiczna: Przypisywanie formom fleksyjnym opisów zawierających wartości cech morfologicznych i formy podstawowe (rozpoznawanie słów po ich formach fleksyjnych), np. psem ciem pies (l.poj, narzędnik) Synteza morfologiczna: ćma (l. mnoga, dopełniacz) generowanie form na podstawie opisu morfologicznego, np. iść, czas przeszły, 3osoba l.poj., rodzaj żeński szła 11

Analiza morfologiczna Rozwiązanie: przybliżone (stemmery dla angielskiego) lub słownik form, Problemy: niepełność słownika, niejednoznaczności: szafy szafa (N, l. poj, dopełniacz czy N,l. mn., mianownik) chłopca mam chłopiec (N,l. poj. dopełniacz czy N,l. poj. biernik) mieć (V,1 osoba, l. poj., czas teraźniejszy) czy mamić (V, tryb rozkazujący, l.poj. ) czy mama (N, l.mnoga, dopełniacz) albo albo (Conj) czy alba (N,l.poj., wołacz) lub lub (Conj.) czy lubić (V, tryb rozkazujący, l.poj. ) lewa lewy (Adj, r. żeński) czy lewa (N, mianownik, l. poj) 12

Analiza składniowa Analiza składniowa (syntaktyczna) to rozpoznanie struktury zdania, czyli zbudowanie drzewa rozbioru syntaktycznego dla gramatyk struktur frazowych lub drzewa zależności pomiędzy poszczególnymi elementami zdania dla gramatyk zależnościowych Pozwala na ustalenie wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np. pożyczył aparat koleżance [pożyczyć] 3os,cz. przeszły [aparat] mianownik lub biernik [koleżanka] celownik [pożyczyć] 3os,cz. przeszły [aparat] biernik koleżanka] celownik INL, 2009 13

Analiza składniowa, problemy Dwa typy fraz: wymagania składniowe (mogą być stosunkowo łatwo opisane w słownikach gramatycznych) i modyfikatory, które są dowolne praktycznie przy każdym czasowniku Jan widzi kota. Mój starszy brat Jan, który od niedawna mieszka w Krakowie, idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada. Niejednoznaczności składniowe, np. pokazała siostrze Jana album [pokazać] [siostra Jana] dopełnienie [album] dopełnienie [pokazać] [siostra] dopełnienie [Jana album] dopełnienie 14

Analiza składniowa realizowana przez analizatory składniowe/parsery, które korzystają z analizatorów morfologicznych i słowników walencyjnych (opisujących wymagania składniowe) problemy: małe pokrycie języka (wiele zdań nie ma żadnego rozbioru) duża liczba rezultatów (nawet krótkie zdania mają dziesiątki analiz) rozwiązania: parsery częściowe (płytkie), parsery probabilistyczne (brak dla polskiego) Jan chodzi [do kina] [z przyjaciółmi] Jan chodzi [do kina] [z nudów] Jan chodzi tylko do [kina z największym ekranem] DiaArg, grudzień 2009 15

Parsowanie powierzchniowe (shallow parsing) Wykorzystywanie gramatyk regularnych (implementowanych jako automaty) do rozpoznawania niektórych elementów tekstów, np. rozpoznawanie granic fraz, przykład NG (noun group) zaimek, określenie czasu (np. yesterday), data NG -> Pronoun Time-NP Date-NP head noun poprzedzone opcjonalnie przedimkiem), frazy z formą -ing, oraz kompletne frazy przedimkowe, np. only five, this NG -> (DETP) (Adjs) HdNns DETP Ving HdNns DETP-CP (and HdNns) ( powierzchniowość analizy widać po tym, że nie sprawdzamy żadnych uzgodnień, nie wiążemy analiz poszczególnych fragmentów) Rozpoznanie liczb pisanych słownie, dat, nazw własnych,... marzec, 2007 16

Semantyka ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi,...) Piotr lubi książki detektywistyczne --> [Piotr] podmiot lubić orzeczenie {składnia} [ książki detektywistyczne mod ] dopełnienie --> [Piotr] aktor lubić akcja {semantyka} [ książki detektywistyczne] obiekt 17

Semantyka, problemy Co to właściwie jest znaczenie wyrażenia w języku naturalnym? jak budować znaczenie zdania ze znaczenia fraz? niepełność wszystkich dostępnych sposobów opisu znaczenia (zawsze spotkamy sytuację, dla której nie mamy dobrej reguły) kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki) i jak zawsze niejednoznaczności 18

Zapis znaczenia, przypadki głębokie Jeśli zbudujemy drzewo budowy syntaktycznej zdania, to możemy pokusić się o przyporządkowanie poszczególnych elementów składniowych (wymagań i modyfikatorów) do ról semantycznych (przypadków głębokich), jakie poszczególne obiekty pełnią w sytuacji opisywanej przez czasownik. Liczba przypadków głębokich i ich nazwy nie są ściśle ustalone, a ich użycie zależy od konkretnego czasownika. Podstawowe role semantyczne są ustalone (choć czasami inaczej nazywane), ale na potrzeby różnych teorii czy dla konkretnych zastosowań wprowadza się różne zestawy ról rozróżniających istotne z punktu widzenia tego zastosowania funkcje.

Zapis znaczenia, przypadki głębokie S (Na strychu Jan zobaczył potwora) PP (modyfikator) NP (podmiot) VP Prep NP N V NP (dopełnienie) na N Jan zobaczył potwora strychu predykat: zobaczyć aktor Jan obiekt potwór miejsce strych

Zapis znaczenia, przypadki głębokie Rola znaczenie przykład AGENT wykonawca Kot rozlał mleko. EXPERIENCER doświadczający zdarzenia Jana boli głowa. FORCE siła wywołująca (niecelowo) Wiatr złamał drzewo. THEME obiekt Kiedy rozbił lód. RESULT rezultat Wybudował dom. CONTENT cytat/treść Jan spytał Byłeś tam sam?''. INSTRUMENT użyte narzędzie Uderzył go kijem. BENEFICIARY ktoś na rzecz kogo Kupił mu dom. or RECIPENT odbyła się akcja SOURCE miejsce początkowe Przyleciał z Paryża. GOAL miejsce docelowe Poszedł do kina.

Rachunek pred. I rzędu e Isa(e, Picie) Pijący(e, Filemnon) Pity(e, Mleko) S NP Filemon VP x. e Isa(e, Picie) Pijący(e, x) Pity(e, Mleko)} NP Mleko Proper-Noun Filemon Verb Mass-Noun Mleko Filemon pije mleko yx. e Isa(e, Picie) Pijący(e, x) Pity(e, y)}

Pragmatyka interpretacja wypowiedzi w konkretnym kontekście, w odniesieniu do wiedzy o świecie Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np. Pacjent opuścił salę operacyjną w dobrym stanie 2 1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali (doświadczenie przemawia za interpretacją 1) 23

Dialog, tekst ciągły wyrażenia wskazujące nawiązania do poprzedniego dialogu urwane zdania zmiany tematu zmiany stanowiska rozmówców (dynamiczny model wiedzy rozmówców) DiaArg, grudzień 2009 24

Wyrażenia wskazujące Ograniczenia syntaktyczne i semantyczne, preferencje Trudno sformalizować wszystkie ograniczenia syntaktyczne i semantyczne, tak by zawsze dawały poprawne odpowiedzi (w tym wieloznaczne). Lepiej więc stosować zbiór preferencji, dopuszczając wyjątki bliskość Anna lubi westerny. Maria lubi komedie. Jan też je lubi. większe prawdopodobieństwo odwołań do podmiotu Anna zaprosiła Marię do filharmonii. Lubi tam chodzić. zgodność liczby i rodzaju grudzień, 2003 25

typ Przebieg dialogu - akty dialogowe turn-taking grounding core speech acts przykład take-turn, keep-turn, release-turn, assign-turn initiate, continue, acknowledge, repair,cancel inform, yes/no question, suggest, request, accept, reject argumentation elaborate, summarize, clarify, question-answer, convince INL, 2009 26

RST - teoria opisu struktury wypowiedzi Teoria struktury retorycznej RST (Rhetorical Structure Theory) (Mann, 1988). określenie funkcji pełnionych przez poszczególne elementy składowe tekstu poprzez zbudowanie hierarchii ich wzajemnych zależności. formalizm ten stał się podstawą kilku praktycznych rozwiązań problemu generowania wypowiedzi (m.in. Hovy, 1990; Moore & Swartout, 1991), ponowne zainteresowanie w stosunku do metody opisu tekstów za pomocą schematów RST zapewnia większą różnorodność tworzonych konstrukcji, umożliwia też bezpośrednie uzależnienie postaci wypowiedzi od celu, jaki chce osiągnąć rozmówca. listopad, 2005 27

Relacja RST RST opisuje teksty w kategoriach relacji pomiędzy ich elementami składowymi. Każda relacja dotyczy dwóch obiektów, z których jeden traktowany jest jako główny ( nucleus), a drugi jako zależny (satelite). Element główny może wystąpić samodzielnie, natomiast użycie w wypowiedzi tylko elementu zależnego jest niewłaściwe. relacja nucleus satelite zdania 1-n n+1 - m element zależny można zastąpić innym bez szkody dla spójności tekstu, zamiana elementu głównego ma zazwyczaj zasadniczy wpływ na sens całości. np. wyjaśnienie jakiegoś faktu może zawierać jeden z wielu możliwych sposobów tłumaczenia, różne argumenty, ale temat wyjaśnień jest stały. grudzień, 2009 28

Składowe relacji RST warunki, które musi spełniać obiekt główny, warunki, które powinien spełniać element zależny, zależności pomiędzy obydwoma obiektami, efekty powodowane przez zastosowanie opisywanej relacji (obl.) Przykładowo relacja świadectwa (evidence) dotyczy sytuacji, w której budowane zdanie ma przekonać odbiorcę o prawdziwości jakiegoś faktu. Obiektem głównym relacji jest głoszona teza, a elementami zależnymi argumenty ją potwierdzające. Odpowiednie warunki zdefiniowane są następująco: odbiorca nie jest pewny prawdziwości faktu, odbiorca jest przekonany o słuszności argumentu, zrozumienie argumentu powiększy wiarę odbiorcy w fakt. Efektem zastosowania powyższej relacji jest wzrost przekonania odbiorcy o prawdziwości faktu. listopad, 2005 29

Analiza tekstu w terminach RST Analiza tekstu to określenie relacji zachodzących między sąsiadującymi ze sobą blokami tekstu; utworzona w ten sposób struktura musi być drzewem. Zdefiniowane w powyższy sposób relacje stanowią element składowy schematów reprezentujących budowę większych fragmentów tekstu. Przykładowe schematy to: okoliczność, tło, uwiarygodnienie, warunek, interpretacja. Poszczególne schematy mogą zawierać jedną lub więcej relacji. W wersji oryginalnej teoria zawierała definicje następujących relacji: okoliczność, rozwinięcie, umożliwienie, świadectwo, zamierzona przyczyna, zamierzony rezultat, antyteza, warunek, interpretacja, ponowne stwierdzenie, następstwo, rozwiązanie, tło, motywacja, potwierdzenie, niezamierzona przyczyna, niezamierzony rezultat, ustępstwo, inaczej, ewaluacja, podsumowanie, kontrast, sposób, porównanie, wkład, połączenie (ang. circumstance, elaboration, enablement, evidence, volitional cause, volitional result, antithesis, condition, interpretation, restatement, sequence, solutionhood, background, motivation, justify, non-volitional cause, nonvolitional result, concession, otherwise, evaluation, summary, contrast, means, comparison, contribution, disjunction). listopad, 2005 30

Przykładowa analiza tekstu 1. W opinii X spadek cen na giełdzie był przesadny. 2. Przyczyną tego był wzrost stóp procentowych wielu banków amerykańskich. 3. Ale sceptycyzm jest nadal wysoki. 4. Trudno jest teraz przekonać kogoś do inwestycji na Wall Street. 5. Możliwe jednak, że rynek zareaguje pozytywnie na wystąpienie przew. BRF, 6. który podkreślił, że bank rezerw nie wzmocni swoich warunków kredytowych. concession 1-2 3-6 cause backgroud 3 4 5-6 bacground elaboration 1 2 5 6 listopad, 2005 31

Uwagi ogólne Struktury RST zawierają jedynie część informacji związanej z danym tekstem są reprezentowane powiązania między poszczególnymi frazami wchodzącymi w skład wypowiedzi. brak - danych dotyczących użycia konkretnych konstrukcji językowych, kolejności poszczególnych elementów, zasad uzgadniania cech gramatycznych. Pierwotną funkcją RST było opisywanie struktury już istniejących tekstów. Przy generowaniu wymagane jest narzucenie pewnych warunków na zasady łączenia relacji tak, by tworzony tekst był spójny. Jednym z podstawowych problemów związanych z RST jest ustalenie listy relacji, które mogą zachodzić między poszczególnymi fragmentami tekstu (próba systematyki: Hovy (1990), około 350 różnych relacji pochodzących z prac 25 osób) listopad, 2005 32

Podstawowe narzędzia lingwistyczne tokenizator z podziałem tekstu na zdania analizator morfologiczny (Morfeusz, http://nlp.ipipan.waw.pl/~wolinski/morfeusz/, Amor) tagger (ew. ze zgadywaczem form) TAKIPI (http://nlp.ipipan.waw.pl/takipi/) płytki analizator składniowy (spejd http://nlp.ipip an.waw.pl/spejd/, uproszczona wersja Świgry) głęboki analizator składniowy (Świgra http://nlp.ipipan.waw.pl/~wolinski/swigra/) analizator semantyczny DiaArg, grudzień 2009 33

Zasoby lingwistyczne słowniki form (ogólne, dziedzinowe) słowniki wymagań składniowych słowniki zawierające informacje semantyczne WordNet gramatyki formalne (podstawa budowy analizatorów składniowych) statystyczne modele języka (zależne od dziedziny i charakteru aplikacji) korpusy tekstowe z różnego typu oznaczeniami (dane do trenowania modeli statystycznych) DiaArg, grudzień 2009 34

WordNet - baza danych o znaczeniach słów Utworzona ręcznie baza zawierająca opisy i powiązania semantyczne dla słów danego języka (pierwszy był angielski, dla polskiego jest w trakcie budowy) zakres WordNet 2.0 dla angielskiego liczba form liczba znaczeń pary słowo-znacz. rzeczowniki 114648 79689 141690 czasowniki 11306 24632 24632 przymiotniki 21436 18563 31015 przysłówki 4669 3664 5808 Suma 152059 115424 203145 WordNet nie zawiera słów z klas zamkniętych, np. spójników w praktyce mało słów ma wiele znaczeń

WordNet - baza danych o znaczeniach słów w praktyce mało słów ma wiele znaczeń, w angielskim współczynnik wieloznaczności jest najwyższy dla czasowników jedno znaczenie wiele znaczeń rzeczowniki 99524 15124 czasowniki 6256 5050 przymiotniki 16103 5333 przysłówki 3901 768 Suma 125784 26275

maj, 2008 37 WordNet słownik z wyróżnieniem znaczeń i powiązań między znaczeniami

Słowosieć Polski WordNet plwordnet. pwr.wroc.pl 38

Korpus IPIPAN maj, 2007 39

Przykład analizy danych językowych projekt LUNA Projekt w ramach FP6, polscy partnerzy: IPI PAN, PJWSTK dane: 500 rzeczywistych dialogów nagranych w punkcie informacyjnym ZTM (PJWSTK, wiosna 2007) 5 grup tematycznych: jak dojechać, czy jedzie przez, kiedy, przystanki, zniżki transliteracja i anotacja pewnych informacji dotyczących sposobu wymowy analiza syntaktyczna i semantyczna ręczna, wspomagana automatycznie eksperymenty statystyczne z anotacja semantyczną (w toku) DiaArg, grudzień 2009 40

Proces budowy korpusu data recording and manual transliteration automatic creation of files with information about speakers' turns automatic morphological analysis) manual (computer-aided) disambiguation of forms automatic annotation of elementary syntactic chunks borders, Morphological Analyzer AMOR Proper Names Lexicon automatic annotation at the level of domain attributes manual verification and correction Semantic Rules automatic annotation at the predicate (frames) level annotation at coreference and dialog acts levels (planned).

Przykład transliterowanego dialogu DiaArg, grudzień 2009 42

Dialog z anotacjami DiaArg, grudzień 2009 43

Anotacja semantyczna model dziedziny ontologia opisująca transport miejski oraz dialogi anotacja tekstu parami atrybut-wartość (klasa-wartość cechy lub klasa-podklasa) słownik nazw własnych (najwięcej nazw ulic): 3883 jedno-wyrazowych i 100 wielowyrazowych nazw, reguły zdefiniowane na podstawie analizy części danych manual) - 130 concepts, 950 rules, anotacja ram (predykat-argumenty) reguły przyporządkowujące wszystkie możliwości plus ręczne ujednoznacznianie

Przykład anotacji na poziomie pojęć Moja córka musi jutro dojechać stamtąd aż na Kabaty <concept id="53" span="word_105" attribute="person" value="child" /> <concept id="54" span="word_107" attribute="action" value="approach" /> <concept id="55" span="word_108" attribute="time_rel" value="tomorrow" /> <concept id="56" span="word_109" attribute="source_rel" value="fromthere" /> <concept id="57" span="word_111..word_112" attribute="goal_td" value="kabaty" />

Wybrane pojęcia - statystyki Nazwa wartość przykłady REACTION Confirmation 3848 aha, dobra, dobrze, dokładnie, dokładnie tak, jak najbardziej, jasne, jest, mogą, na pewno, na sto procent, okey, prawda, rozumiem, spokojnie, tak (2220), tak, dokładnie, tak jest, zgadza się REACTION Irrelevant 2 nie ma znaczenia, REACTION Negation 1196 nie (1183), nie ma, nie podlega, niestety nie DiaArg, grudzień 2009 46

Q_CONF Q_CONF Confirmation tak 2 Q_CONF Connection a jakieś jeszcze inne połączenie 1 Q_CONF Connection a później jeszcze jakiś znajdę 1 Q_CONF IsIt dobrze (?) 10 Q_CONF IsIt dobrze zrozumiałem 1 Q_CONF IsIt nie 8 Q_CONF IsIt prawda 36 Q_CONF IsIt tak 435 Q_CONF Route to jeszcze 1 Q_CONF YesNoQuestion czy 546 DiaArg, grudzień 2009 47

Analiza semantyczna jako etykietowanie zaanotowany korpus może służyć jako dane treningowe dla metod uczenia się maszynowego w szczególności wynik analizy można potraktować jako etykiety przypisywane z pewnym prawdopodobieństwem do ciągu słów tekstu wejściowego program wykorzystujący wyuczony model do nowego tekstu wybiera najbardziej prawdopodobny ciąg etykiet Wykorzystywane typowe metody np. HMM, CRF Wyniki CRF dla prezentowanych danych F-miara powyżej 0.85 nawet bez wykorzystania danych morfologicznych! DiaArg, grudzień 2009 48

Dziękuję za uwagę