Narzędzia inżynierii lingwistycznej w analizie dialogów Agnieszka Mykowiecka PJWSTK, agn@pjwstk.edu.pl Instytut Podstaw Informatyki PAN Argumentacja, krytyczne myślenie, dialog, preswazja, grudzień 2009 1
Wiedza o języku a realizacja wyznaczonego celu Open the pod bay doors, HAL. I'm sorry Dave, I m afraid I can t do that. Stanley Kubrick i Arthur C. Clarke, 2001: A Space Odyssey zrozumienie polecenia analiza językowa (identyfikacja słów, form, związków między nimi) odniesienie do rzeczywistości wybór odpowiedzi (odrzucenie polecenia mimo możliwości wykonania) sformułowanie odpowiedzi wybór słów, ich form, porządku pragmatyka: uprzejma odmowa (I m sorry...) odniesienie do poprzedniej części dialogu (that) październik, 2005 2
Co musimy zrobić? We can only see a short distance ahead, but we can see plenty there that needs to be done. Alan Turing Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych) Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania. INL, 2009 3
Literatura ogólna Daniel Jurafsky, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson Education Inc. 2nd Edition James Allen, Natural Language Understanding, Benjamin Cummings, 1987, Second Edition, 1994. Christopher D. Manning, Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press. Frederick Jelinek. Statistical Methods for Speech Recognition Cambridge 1999 MIT Press. INL, 2009 4
Czym zajmuje się inżynieria lingwistyczna? Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego. Etapy przetwarzania: (wypowiedź) tekst w języku naturalnym reprezentacja semantyczna (np. logiczna) reakcja (wykonanie operacji, sformułowanie odpowiedzi) (synteza mowy) INL, 2009 5
Wiedza o języku naturalnym nazwa dziedziny fonetyka fonologia ortografia morfologia składnia semantyka pragmatyka obszar zainteresowania dźwięki dźwięki należące do języka zasady pisowni struktura/formy wyrazów zależności strukturalne między słowami (budowa fraz) znaczenie pojedynczego zdania znaczenie w kontekście +zależności międzyzdaniowe 6
Najważniejsze problemy Niejednoznaczności Ten sam (dosłownie lub w sensie struktury) tekst (sygnał) może mieć wiele interpretacji, na ogół człowiek automatycznie wybiera właściwą, ale informacje, które do tego wykorzystuje są bardzo różnorodne i trudne do zawarcia w programach komputerowych (problem rozumienia języka jest AI zupełny) Ania wsiadła do samolotu z dwoma silnikami Ania wsiadła do samolotu z dwiema walizkami. Bogactwo języka, ciągła ewolucja, nieostre reguły poprawności grudzień, 2009 7
Fonetyka i fonologia Rozpoznanie sygnału mowy: fonemy odpowiadające tym samym dźwiękom - fragmentom słów, wypowiadane przez różne osoby, w różnym czasie, różnym otoczeniu są inne z powodu różnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami praktycznie zawsze otrzymujemy sieć możliwych interpretacji rozpoznanie słów - potrzebujemy słownika i modelu języka problemy, np. kwiat -> [ k f i a t] niejednoznaczności fonologiczne, np. [m o rz e] -> może, morze 8
Rozpoznawanie mowy, zadanie łatwe czy trudne? spróbujmy zgadnąć, co znaczy następujący ciąg fonemów: ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih maj, 2007 9
Rozpoznawanie mowy, zadanie łatwe czy trudne? ciąg fonemów: ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih to I just heard something about moving recently łatwiejszy przykład [aa n iy dh ax ] I need the
Analiza morfologiczna Morfologia: nauka o budowie słów Analiza morfologiczna: Przypisywanie formom fleksyjnym opisów zawierających wartości cech morfologicznych i formy podstawowe (rozpoznawanie słów po ich formach fleksyjnych), np. psem ciem pies (l.poj, narzędnik) Synteza morfologiczna: ćma (l. mnoga, dopełniacz) generowanie form na podstawie opisu morfologicznego, np. iść, czas przeszły, 3osoba l.poj., rodzaj żeński szła 11
Analiza morfologiczna Rozwiązanie: przybliżone (stemmery dla angielskiego) lub słownik form, Problemy: niepełność słownika, niejednoznaczności: szafy szafa (N, l. poj, dopełniacz czy N,l. mn., mianownik) chłopca mam chłopiec (N,l. poj. dopełniacz czy N,l. poj. biernik) mieć (V,1 osoba, l. poj., czas teraźniejszy) czy mamić (V, tryb rozkazujący, l.poj. ) czy mama (N, l.mnoga, dopełniacz) albo albo (Conj) czy alba (N,l.poj., wołacz) lub lub (Conj.) czy lubić (V, tryb rozkazujący, l.poj. ) lewa lewy (Adj, r. żeński) czy lewa (N, mianownik, l. poj) 12
Analiza składniowa Analiza składniowa (syntaktyczna) to rozpoznanie struktury zdania, czyli zbudowanie drzewa rozbioru syntaktycznego dla gramatyk struktur frazowych lub drzewa zależności pomiędzy poszczególnymi elementami zdania dla gramatyk zależnościowych Pozwala na ustalenie wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np. pożyczył aparat koleżance [pożyczyć] 3os,cz. przeszły [aparat] mianownik lub biernik [koleżanka] celownik [pożyczyć] 3os,cz. przeszły [aparat] biernik koleżanka] celownik INL, 2009 13
Analiza składniowa, problemy Dwa typy fraz: wymagania składniowe (mogą być stosunkowo łatwo opisane w słownikach gramatycznych) i modyfikatory, które są dowolne praktycznie przy każdym czasowniku Jan widzi kota. Mój starszy brat Jan, który od niedawna mieszka w Krakowie, idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada. Niejednoznaczności składniowe, np. pokazała siostrze Jana album [pokazać] [siostra Jana] dopełnienie [album] dopełnienie [pokazać] [siostra] dopełnienie [Jana album] dopełnienie 14
Analiza składniowa realizowana przez analizatory składniowe/parsery, które korzystają z analizatorów morfologicznych i słowników walencyjnych (opisujących wymagania składniowe) problemy: małe pokrycie języka (wiele zdań nie ma żadnego rozbioru) duża liczba rezultatów (nawet krótkie zdania mają dziesiątki analiz) rozwiązania: parsery częściowe (płytkie), parsery probabilistyczne (brak dla polskiego) Jan chodzi [do kina] [z przyjaciółmi] Jan chodzi [do kina] [z nudów] Jan chodzi tylko do [kina z największym ekranem] DiaArg, grudzień 2009 15
Parsowanie powierzchniowe (shallow parsing) Wykorzystywanie gramatyk regularnych (implementowanych jako automaty) do rozpoznawania niektórych elementów tekstów, np. rozpoznawanie granic fraz, przykład NG (noun group) zaimek, określenie czasu (np. yesterday), data NG -> Pronoun Time-NP Date-NP head noun poprzedzone opcjonalnie przedimkiem), frazy z formą -ing, oraz kompletne frazy przedimkowe, np. only five, this NG -> (DETP) (Adjs) HdNns DETP Ving HdNns DETP-CP (and HdNns) ( powierzchniowość analizy widać po tym, że nie sprawdzamy żadnych uzgodnień, nie wiążemy analiz poszczególnych fragmentów) Rozpoznanie liczb pisanych słownie, dat, nazw własnych,... marzec, 2007 16
Semantyka ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi,...) Piotr lubi książki detektywistyczne --> [Piotr] podmiot lubić orzeczenie {składnia} [ książki detektywistyczne mod ] dopełnienie --> [Piotr] aktor lubić akcja {semantyka} [ książki detektywistyczne] obiekt 17
Semantyka, problemy Co to właściwie jest znaczenie wyrażenia w języku naturalnym? jak budować znaczenie zdania ze znaczenia fraz? niepełność wszystkich dostępnych sposobów opisu znaczenia (zawsze spotkamy sytuację, dla której nie mamy dobrej reguły) kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki) i jak zawsze niejednoznaczności 18
Zapis znaczenia, przypadki głębokie Jeśli zbudujemy drzewo budowy syntaktycznej zdania, to możemy pokusić się o przyporządkowanie poszczególnych elementów składniowych (wymagań i modyfikatorów) do ról semantycznych (przypadków głębokich), jakie poszczególne obiekty pełnią w sytuacji opisywanej przez czasownik. Liczba przypadków głębokich i ich nazwy nie są ściśle ustalone, a ich użycie zależy od konkretnego czasownika. Podstawowe role semantyczne są ustalone (choć czasami inaczej nazywane), ale na potrzeby różnych teorii czy dla konkretnych zastosowań wprowadza się różne zestawy ról rozróżniających istotne z punktu widzenia tego zastosowania funkcje.
Zapis znaczenia, przypadki głębokie S (Na strychu Jan zobaczył potwora) PP (modyfikator) NP (podmiot) VP Prep NP N V NP (dopełnienie) na N Jan zobaczył potwora strychu predykat: zobaczyć aktor Jan obiekt potwór miejsce strych
Zapis znaczenia, przypadki głębokie Rola znaczenie przykład AGENT wykonawca Kot rozlał mleko. EXPERIENCER doświadczający zdarzenia Jana boli głowa. FORCE siła wywołująca (niecelowo) Wiatr złamał drzewo. THEME obiekt Kiedy rozbił lód. RESULT rezultat Wybudował dom. CONTENT cytat/treść Jan spytał Byłeś tam sam?''. INSTRUMENT użyte narzędzie Uderzył go kijem. BENEFICIARY ktoś na rzecz kogo Kupił mu dom. or RECIPENT odbyła się akcja SOURCE miejsce początkowe Przyleciał z Paryża. GOAL miejsce docelowe Poszedł do kina.
Rachunek pred. I rzędu e Isa(e, Picie) Pijący(e, Filemnon) Pity(e, Mleko) S NP Filemon VP x. e Isa(e, Picie) Pijący(e, x) Pity(e, Mleko)} NP Mleko Proper-Noun Filemon Verb Mass-Noun Mleko Filemon pije mleko yx. e Isa(e, Picie) Pijący(e, x) Pity(e, y)}
Pragmatyka interpretacja wypowiedzi w konkretnym kontekście, w odniesieniu do wiedzy o świecie Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np. Pacjent opuścił salę operacyjną w dobrym stanie 2 1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali (doświadczenie przemawia za interpretacją 1) 23
Dialog, tekst ciągły wyrażenia wskazujące nawiązania do poprzedniego dialogu urwane zdania zmiany tematu zmiany stanowiska rozmówców (dynamiczny model wiedzy rozmówców) DiaArg, grudzień 2009 24
Wyrażenia wskazujące Ograniczenia syntaktyczne i semantyczne, preferencje Trudno sformalizować wszystkie ograniczenia syntaktyczne i semantyczne, tak by zawsze dawały poprawne odpowiedzi (w tym wieloznaczne). Lepiej więc stosować zbiór preferencji, dopuszczając wyjątki bliskość Anna lubi westerny. Maria lubi komedie. Jan też je lubi. większe prawdopodobieństwo odwołań do podmiotu Anna zaprosiła Marię do filharmonii. Lubi tam chodzić. zgodność liczby i rodzaju grudzień, 2003 25
typ Przebieg dialogu - akty dialogowe turn-taking grounding core speech acts przykład take-turn, keep-turn, release-turn, assign-turn initiate, continue, acknowledge, repair,cancel inform, yes/no question, suggest, request, accept, reject argumentation elaborate, summarize, clarify, question-answer, convince INL, 2009 26
RST - teoria opisu struktury wypowiedzi Teoria struktury retorycznej RST (Rhetorical Structure Theory) (Mann, 1988). określenie funkcji pełnionych przez poszczególne elementy składowe tekstu poprzez zbudowanie hierarchii ich wzajemnych zależności. formalizm ten stał się podstawą kilku praktycznych rozwiązań problemu generowania wypowiedzi (m.in. Hovy, 1990; Moore & Swartout, 1991), ponowne zainteresowanie w stosunku do metody opisu tekstów za pomocą schematów RST zapewnia większą różnorodność tworzonych konstrukcji, umożliwia też bezpośrednie uzależnienie postaci wypowiedzi od celu, jaki chce osiągnąć rozmówca. listopad, 2005 27
Relacja RST RST opisuje teksty w kategoriach relacji pomiędzy ich elementami składowymi. Każda relacja dotyczy dwóch obiektów, z których jeden traktowany jest jako główny ( nucleus), a drugi jako zależny (satelite). Element główny może wystąpić samodzielnie, natomiast użycie w wypowiedzi tylko elementu zależnego jest niewłaściwe. relacja nucleus satelite zdania 1-n n+1 - m element zależny można zastąpić innym bez szkody dla spójności tekstu, zamiana elementu głównego ma zazwyczaj zasadniczy wpływ na sens całości. np. wyjaśnienie jakiegoś faktu może zawierać jeden z wielu możliwych sposobów tłumaczenia, różne argumenty, ale temat wyjaśnień jest stały. grudzień, 2009 28
Składowe relacji RST warunki, które musi spełniać obiekt główny, warunki, które powinien spełniać element zależny, zależności pomiędzy obydwoma obiektami, efekty powodowane przez zastosowanie opisywanej relacji (obl.) Przykładowo relacja świadectwa (evidence) dotyczy sytuacji, w której budowane zdanie ma przekonać odbiorcę o prawdziwości jakiegoś faktu. Obiektem głównym relacji jest głoszona teza, a elementami zależnymi argumenty ją potwierdzające. Odpowiednie warunki zdefiniowane są następująco: odbiorca nie jest pewny prawdziwości faktu, odbiorca jest przekonany o słuszności argumentu, zrozumienie argumentu powiększy wiarę odbiorcy w fakt. Efektem zastosowania powyższej relacji jest wzrost przekonania odbiorcy o prawdziwości faktu. listopad, 2005 29
Analiza tekstu w terminach RST Analiza tekstu to określenie relacji zachodzących między sąsiadującymi ze sobą blokami tekstu; utworzona w ten sposób struktura musi być drzewem. Zdefiniowane w powyższy sposób relacje stanowią element składowy schematów reprezentujących budowę większych fragmentów tekstu. Przykładowe schematy to: okoliczność, tło, uwiarygodnienie, warunek, interpretacja. Poszczególne schematy mogą zawierać jedną lub więcej relacji. W wersji oryginalnej teoria zawierała definicje następujących relacji: okoliczność, rozwinięcie, umożliwienie, świadectwo, zamierzona przyczyna, zamierzony rezultat, antyteza, warunek, interpretacja, ponowne stwierdzenie, następstwo, rozwiązanie, tło, motywacja, potwierdzenie, niezamierzona przyczyna, niezamierzony rezultat, ustępstwo, inaczej, ewaluacja, podsumowanie, kontrast, sposób, porównanie, wkład, połączenie (ang. circumstance, elaboration, enablement, evidence, volitional cause, volitional result, antithesis, condition, interpretation, restatement, sequence, solutionhood, background, motivation, justify, non-volitional cause, nonvolitional result, concession, otherwise, evaluation, summary, contrast, means, comparison, contribution, disjunction). listopad, 2005 30
Przykładowa analiza tekstu 1. W opinii X spadek cen na giełdzie był przesadny. 2. Przyczyną tego był wzrost stóp procentowych wielu banków amerykańskich. 3. Ale sceptycyzm jest nadal wysoki. 4. Trudno jest teraz przekonać kogoś do inwestycji na Wall Street. 5. Możliwe jednak, że rynek zareaguje pozytywnie na wystąpienie przew. BRF, 6. który podkreślił, że bank rezerw nie wzmocni swoich warunków kredytowych. concession 1-2 3-6 cause backgroud 3 4 5-6 bacground elaboration 1 2 5 6 listopad, 2005 31
Uwagi ogólne Struktury RST zawierają jedynie część informacji związanej z danym tekstem są reprezentowane powiązania między poszczególnymi frazami wchodzącymi w skład wypowiedzi. brak - danych dotyczących użycia konkretnych konstrukcji językowych, kolejności poszczególnych elementów, zasad uzgadniania cech gramatycznych. Pierwotną funkcją RST było opisywanie struktury już istniejących tekstów. Przy generowaniu wymagane jest narzucenie pewnych warunków na zasady łączenia relacji tak, by tworzony tekst był spójny. Jednym z podstawowych problemów związanych z RST jest ustalenie listy relacji, które mogą zachodzić między poszczególnymi fragmentami tekstu (próba systematyki: Hovy (1990), około 350 różnych relacji pochodzących z prac 25 osób) listopad, 2005 32
Podstawowe narzędzia lingwistyczne tokenizator z podziałem tekstu na zdania analizator morfologiczny (Morfeusz, http://nlp.ipipan.waw.pl/~wolinski/morfeusz/, Amor) tagger (ew. ze zgadywaczem form) TAKIPI (http://nlp.ipipan.waw.pl/takipi/) płytki analizator składniowy (spejd http://nlp.ipip an.waw.pl/spejd/, uproszczona wersja Świgry) głęboki analizator składniowy (Świgra http://nlp.ipipan.waw.pl/~wolinski/swigra/) analizator semantyczny DiaArg, grudzień 2009 33
Zasoby lingwistyczne słowniki form (ogólne, dziedzinowe) słowniki wymagań składniowych słowniki zawierające informacje semantyczne WordNet gramatyki formalne (podstawa budowy analizatorów składniowych) statystyczne modele języka (zależne od dziedziny i charakteru aplikacji) korpusy tekstowe z różnego typu oznaczeniami (dane do trenowania modeli statystycznych) DiaArg, grudzień 2009 34
WordNet - baza danych o znaczeniach słów Utworzona ręcznie baza zawierająca opisy i powiązania semantyczne dla słów danego języka (pierwszy był angielski, dla polskiego jest w trakcie budowy) zakres WordNet 2.0 dla angielskiego liczba form liczba znaczeń pary słowo-znacz. rzeczowniki 114648 79689 141690 czasowniki 11306 24632 24632 przymiotniki 21436 18563 31015 przysłówki 4669 3664 5808 Suma 152059 115424 203145 WordNet nie zawiera słów z klas zamkniętych, np. spójników w praktyce mało słów ma wiele znaczeń
WordNet - baza danych o znaczeniach słów w praktyce mało słów ma wiele znaczeń, w angielskim współczynnik wieloznaczności jest najwyższy dla czasowników jedno znaczenie wiele znaczeń rzeczowniki 99524 15124 czasowniki 6256 5050 przymiotniki 16103 5333 przysłówki 3901 768 Suma 125784 26275
maj, 2008 37 WordNet słownik z wyróżnieniem znaczeń i powiązań między znaczeniami
Słowosieć Polski WordNet plwordnet. pwr.wroc.pl 38
Korpus IPIPAN maj, 2007 39
Przykład analizy danych językowych projekt LUNA Projekt w ramach FP6, polscy partnerzy: IPI PAN, PJWSTK dane: 500 rzeczywistych dialogów nagranych w punkcie informacyjnym ZTM (PJWSTK, wiosna 2007) 5 grup tematycznych: jak dojechać, czy jedzie przez, kiedy, przystanki, zniżki transliteracja i anotacja pewnych informacji dotyczących sposobu wymowy analiza syntaktyczna i semantyczna ręczna, wspomagana automatycznie eksperymenty statystyczne z anotacja semantyczną (w toku) DiaArg, grudzień 2009 40
Proces budowy korpusu data recording and manual transliteration automatic creation of files with information about speakers' turns automatic morphological analysis) manual (computer-aided) disambiguation of forms automatic annotation of elementary syntactic chunks borders, Morphological Analyzer AMOR Proper Names Lexicon automatic annotation at the level of domain attributes manual verification and correction Semantic Rules automatic annotation at the predicate (frames) level annotation at coreference and dialog acts levels (planned).
Przykład transliterowanego dialogu DiaArg, grudzień 2009 42
Dialog z anotacjami DiaArg, grudzień 2009 43
Anotacja semantyczna model dziedziny ontologia opisująca transport miejski oraz dialogi anotacja tekstu parami atrybut-wartość (klasa-wartość cechy lub klasa-podklasa) słownik nazw własnych (najwięcej nazw ulic): 3883 jedno-wyrazowych i 100 wielowyrazowych nazw, reguły zdefiniowane na podstawie analizy części danych manual) - 130 concepts, 950 rules, anotacja ram (predykat-argumenty) reguły przyporządkowujące wszystkie możliwości plus ręczne ujednoznacznianie
Przykład anotacji na poziomie pojęć Moja córka musi jutro dojechać stamtąd aż na Kabaty <concept id="53" span="word_105" attribute="person" value="child" /> <concept id="54" span="word_107" attribute="action" value="approach" /> <concept id="55" span="word_108" attribute="time_rel" value="tomorrow" /> <concept id="56" span="word_109" attribute="source_rel" value="fromthere" /> <concept id="57" span="word_111..word_112" attribute="goal_td" value="kabaty" />
Wybrane pojęcia - statystyki Nazwa wartość przykłady REACTION Confirmation 3848 aha, dobra, dobrze, dokładnie, dokładnie tak, jak najbardziej, jasne, jest, mogą, na pewno, na sto procent, okey, prawda, rozumiem, spokojnie, tak (2220), tak, dokładnie, tak jest, zgadza się REACTION Irrelevant 2 nie ma znaczenia, REACTION Negation 1196 nie (1183), nie ma, nie podlega, niestety nie DiaArg, grudzień 2009 46
Q_CONF Q_CONF Confirmation tak 2 Q_CONF Connection a jakieś jeszcze inne połączenie 1 Q_CONF Connection a później jeszcze jakiś znajdę 1 Q_CONF IsIt dobrze (?) 10 Q_CONF IsIt dobrze zrozumiałem 1 Q_CONF IsIt nie 8 Q_CONF IsIt prawda 36 Q_CONF IsIt tak 435 Q_CONF Route to jeszcze 1 Q_CONF YesNoQuestion czy 546 DiaArg, grudzień 2009 47
Analiza semantyczna jako etykietowanie zaanotowany korpus może służyć jako dane treningowe dla metod uczenia się maszynowego w szczególności wynik analizy można potraktować jako etykiety przypisywane z pewnym prawdopodobieństwem do ciągu słów tekstu wejściowego program wykorzystujący wyuczony model do nowego tekstu wybiera najbardziej prawdopodobny ciąg etykiet Wykorzystywane typowe metody np. HMM, CRF Wyniki CRF dla prezentowanych danych F-miara powyżej 0.85 nawet bez wykorzystania danych morfologicznych! DiaArg, grudzień 2009 48
Dziękuję za uwagę