Uzgodnienia 3. Formalny opis j zyka naturalnego Składnia. Gramatyki bezkontekstowe Zapis wymagań i modyfikatorów październik, 2004 1 Cechy języków naturalnych, których opis w gramatykach bezkontekstowych jest trudny, a co najmniej uciąŝliwy, to przykładowo uzgodnienia i wymagania. Jaki problem powstaje w wyniku zastosowania następujących reguł? S -> NP VP NP -> Det Nominal Odpowiedź: nadmiarowośćgramatyki generującej przykładowo następujące zdania i frazy: *They sleeps. czy *Oni śpi. *this dogs *ten psy. październik, 2004 2 Gramatyki CFG z atrybutami (features, attributes) Potraktowanie symboli nieterminalnych jako symboli złoŝonych z przypisanymi własnościami (cechami, atrybutami). Pozwala to przykładowo na ograniczenie stosowania reguły: S -> NP VP tylko do sytuacji, gdy liczba, rodzaj i osoba frazy rzeczownikowej NP i czasownikowej VP sątakie same (czyli reprezentacjęuzgodnień podmiot-orzeczenie) S -> NP(case-nom,gender,nb,person) VP (gender,nb,person) NP(case,gender,number) -> Noun(case,gender,number) Uzgodnienia rzeczownik-przymiotnik Rzeczownik i modyfikujący go przymiotnik musząmiećtaką samąliczbę, przypadek i rodzaj: NP(case-nom,gender,nb,person) -> AdjP(case, gender,nb) NP(case,gender,nb,person) NP(case,gender,number) -> Noun(case,gender,number) małego psa, ostatni film Felliniego październik, 2004 3 październik, 2004 4 Podstawowe problemy składniowe - wymagania Wymagania (dopełnienia) czasownika: (typ frazy, przypadek frazy rzeczownikowej) szukam miejsca (czego? fraza rzeczownikowa w dopełniaczu), chcęspać(co? fraza czasownikowa bezokolicznikowa), mówięo pogodzie; mówię, Ŝe pada dajęmu cukierki przyimka: (przypadek) w domu na dom /na domu październik, 2004 5 Elementy wymagane np. czasownik powiedziećmoŝe łączyćsięz fraząrzeczownikową Czasowniki określająfrazy, które sąniezbędne do utworzenia poprawnego wyraŝenia, przy czym ten sam czasownik moŝe dopuszczaćróŝne zestawy wymagań(dopełnień), w bierniku, ze zdaniem podrzędnym rozpoczynającym sięod Ŝe, lub z dowolnym wypowiedzeniem stanowiącym cytat: *Ewa powiedziała (brak frazy wymaganej) *Ewa powiedziała na morzem (fraza przyimkowa) *Ewa powiedziała ładny (fraza przymiotnikowa) Ewa powiedziała wiersz (fraza rzeczownikowa w bierniku) Ewa powiedziała, Ŝe przyjdzie. (zdanie Ŝe ) Ewa powiedziała Dość! * oznacza wypowiedzenia niepoprawne październik, 2004 6 1
Problemy z CFG - wymagania Jaki problem powstaje w wyniku stosowania następujących reguł? VP -> V VP -> V NP PP -> Prep NP Odpowiedź nadmiarowość, czyli tworzenie rozbiorów konstrukcji niepopoprawnych: *He took. *He slept the cat. *She disappeared the elephant. *na stołem *w worka *On spał kota. CFG z atrybutami, zapis wymaga przyimki łącząsiętylko z frazami rzeczownikowymi (nie musimy więc traktowaćtypu frazy jak atrybutu), narzucając im przypadek (który powinien byćzatem atrybutem dla przyimka) frazy przyimkowe sąwymagane przez czasowniki i wtedy musimy znaćzarówno przypadek jak i sam przyimek (np. prosićo coś, czyli przyimek o i fraza w bierniku `o +NP acc, ale nie prosićo czymś( o + NP loc ) *prosićo bajce ani nie prosićz co ( z +NP acc) *prosićz bajkę czyli prep (form, case), np. prep( o, acc) -> o październik, 2004 7 październik, 2004 8 CFG z atrybutami, zapis wymaga Przyimek z moŝe łączyćsięz frazami rzeczownikowymi w dopełniaczu lub narzędniku: PP (Form, Case) -> Prep (Form, Case) NP (Case,Gender, Number,Person) Prep (z, gen) -> z Prep (z, ins) -> z z domu, z domem, z moim domem... (gen czyli genetive czyli dopełniacz) (ins czyli instrumental czyli narzędnik) * Wartości argumentów pisane od wielkiej litery zmienne, zaczynające październik, 2004 9 sięod małej litery - stałe CFG z atrybutami, zapis wymaga, I Wprowadzenie podziału na klasy, w zaleŝności od typu i liczby wymagań: 1) czasowniki bez wymagań(tylko podmiot), np. iść, biec, stać VP(Gender,Num,Person,Tense) -> V1(Gender, Num,Person,Tense) V1(masc, sg,3rd,past) -> szedł 2) czasowniki z wymaganiem frazy rzeczownikowej w bierniku, np. widzieć VP(Gender,Num,Person,Tense) -> V2(Gender, Num,Person,Tense) NP(acc,Gender,Numb,Person) V2(fem, sg,3rd,past) -> widziała itd. październik, 2004 10 CFG z atrybutami, zapis wymaga WaŜne! II zapis wymaga II, cd Nie dzielimy czasowników na klasy, ale zapisujemy odpowiednie informacje w słowniku (leksykalizacja gramatyki) ustalamy maksymalnąliczbęwymagań(3-4), tu przyjmiemy 3 ustalamy symbol dla pustego wymagania (null) VP (Gend,Num,Pers,tense) -> V (Gend, Num,Pers,Tense,W1,W2,W3) Arg (W1) Arg (W2) Arg (W3) {Arg - argument - dopełnienie/wymaganie} Arg(null) -> ε V(masc, sg,3rd,past, null, null, null) -> szedł Arg(np-acc) -> NP(acc,gend, numb,pers) V(fem, sg,3rd,past, np-acc, null, null) -> widziała październik, 2004 11 Aby wprowadzić nowy typ wymagań naleŝy: 1. wprowadzić nazwę wymagania (wx) i uŝyć jej w definicji odpowiedniego czasownika 2. dopisać regule definiującą, co rozumiemy przez dane wymaganie, czyli regułę Arg(wx) ->. Wymagnie będące fraząrzeczownikowąw celowniku 1) Nazwa wymagania: np-dat uŝycie dla czasownika dać(daćkogo/co? komu/czemu?) V(fem, pl, 3, past, np-acc, np-dat, null) -> dały 2) Arg(np-dat) -> NP(dat, Gend, Num,Pers,) październik, 2004 12 2
zapis wymaga II, cd zapis wymaga II, cd. Aby dopuścić swobodny szyk definiujemy dodatkowe reguły: a) VP(Gend,Num,Pers,Tense) -> V(gend, Num,Pers,Tense,W1,W2,W3) Arg(W2) Arg(W1)Arg(W3) b) VP(gend,num,pers,tense) -> Arg(W1) V(Gend, Num,Pers,Tense,W1,W2,W3) Arg(W2) Arg(W3)... Jeśli V(masc, sg,3rd,past, np-acc, np-instr, null) -> wbił to reguła a) pozwala na analizęfrazy: wbił młotkiem gwóźdź a reguła b) gwóźdźwbił młotkiem Dla dopuszczenia podmiotu przeplecionego z dopełnieniami traktujemy podmiot takŝe jako wymaganie (argument), które zapisujemy na pierwszej pozycji (tu jako np-nom3fsg, bo wtedy trzeba teŝpamiętaćo uzgodnieniu podmiotu i orzeczenia) VP(gend,num,pers,tense) -> V(gend, num,pers,tense,w1,w2,w3) Comp(w1) Comp(w2) Comp(w3) Comp(null) -> ε V(masc, sg,3rd,past, np-nom3msg, null, null) -> szedł Comp(np-nom) -> NP(nom, Gend, Numb, Pers) Comp(np-acc) -> NP(acc, Gend, Numb, Pers) V(fem, sg,3rd,past, np-nom3fsg, np-acc, null) -> widziała październik, 2004 13 październik, 2004 14 Elementy opcjonalne (modyfikatory) Frazy moŝna (teoretycznie) dowolnie rozszerzać o elementy opcjonalne, przy czym typ tych elementów zaleŝy od typu frazy: frazy rzeczownikowe mogą być modyfikowane frazami przymiotnikowymi: mały biały pies gładki szeroki skórzany pas frazy czasownikowe i przymiotnikowe mogą być modyfikowane frazami przysłówkowymi: spał niespokojnie latał niebezpiecznie wysoko przeraźliwie głośno bardzo mało zabawny październik, 2004 15 (nie rozwaŝamy tu ograniczeń semantycznych) Opis frazy przymiotnikowej AdjP -> Adj AdjP -> Adj AdjP AdjP -> AdvP AdjP AdvP -> Adv Adv AdvP AdjP -> Adj PP PP -> Prep NP AdjP -> AdjP Conj AdjP AdjP -> AdjP Coma AdjP Conj -> i lub Coma ->, biały biały mały wesoły bardzo biały biały z połyskiem biały i ciemno niebieski biały, zielony i brązowy październik, 2004 16 Opis frazy przymiotnikowej AdjP (C, G, N) -> Adj (C, G, N) biały AdjP (C, G, N) -> Adj (C, G, N) AdjP (C, G, N) AdjP (C, G, N) -> AdvP AdjP (C, G, N) bardzo biały AdvP -> Adv Adv AdvP AdjP (C, G, N) -> Adj (C, G, N) PP (F,C1) biały z połyskiem AdjP (C, G,N) -> AdjP (C, G, N) Conj AdjP (C, G, N) AdjP(C,G,N) -> AdjP (C, G, N) Coma AdjP (C,G,N) biały i ciemno niebieski, biały, zielony i brązowy Conj -> i lub Coma ->, Zapis modyfikacji Fraza rzeczownikowa modyfikowana frazą przymiotnikową NP (C, G, N, P) -> AdjP (C,G, N) NP (C,G,N,P) NP (C, G, N, P) -> NP (C,G,N,P) AdjP (C,G, N) Problem: wiele rozbiorów mały piec kaflowy: [mały piec] kaflowy mały [piec kaflowy] październik, 2004 17 październik, 2004 18 3
Elementy opcjonalne (modyfikatory), 2 frazy rzeczownikowe i czasownikowe mogą być modyfikowane frazami przyimkowymi: bułka z masłem czytał z uwagą pojechał w piątek, po porannym spotkaniu, przed obiadem sukienka ze sztruksu w niebieskie pasy z krótkimi rękawkami z białymi mankietami frazy rzeczownikowe mogą być modyfikowane zdaniami względnymi: człowiek, który wie wszystko Konstrukcje współrz dne Wszystkie typy konstrukcji moŝna łączyć spójnikami tworząc konstrukcje współrzędne (czasem moŝna łączyć teŝ konstrukcje róŝnych typów) idzie i śpiewa goło i wesoło do tańca i do róŝańca po południu i wieczorem to, co zostało po wczorajszym przyjęciu październik, 2004 20 październik, 2004 19 Zapis modyfikacji Fraza rzeczownikowa modyfikowana frazą przyimkową NP (C, G, N, P) -> NP (C,G,N,P) PP (Form, C1) Fraza czasownikowa modyfikowana frazą przyimkową VP ( G, N, P, W1, W2, W3) -> VP ( G, N, P, W1, W2, W3) PP (Form, C1) Dlaczego CFG? wyraŝenia regularne - zbyt słabe (ograniczenia: np. a n b n), zalety: Wzajemna odpowiedniość: gramatyki regularne wyraŝenia regularne FSA Efektywność parsowania: Pamięć- stała Czas parsowania liniowy (~ długość ciągu wejściowego) gramatyki kontekstowe, gramatyki klasy 0: łatwo wyraŝa się róŝne skomplikowane własności języka, nieefektywne obliczeniowo. październik, 2004 21 październik, 2004 22 Parsowanie,, gramatyki bezkontekstowe CFG często uŝywane do opisu struktury frazowej, a zwłaszcza kolejności składników Potrzebna pamięć: stos (czasami stos stosów) o wielkości zaleŝnej od stopnia zagnieŝdŝenia rekurencji Czas parsowania: w ogólnym przypadku O(n 3 ) Parsowanie gramatyk CFG, podej cie top-down S -> NP VP Aux NP VP VP NP -> Det Nom PropNoun Nom -> Noun Nom Noun VP -> V V NP Det -> a this that Noun -> flight I morning book Aux -> does V -> prefer book Book that flight. Top-down.ps Adobe Acrobat Document Ograniczenia: np. a n b n c n (gramatyka kontekstowa) rozpoczynamy od symbolu początkowego i rozwijamy reguły analiza tylko tych reguł, które mają szansę być zastosowane sugerowanie hipotez niezgodnych z analizowanym ciągiem słów nie moŝe być reguł z lewostronną rekurencją październik, 2004 23 październik, 2004 24 4
Parsowanie gramatyk CFG, podej cie bottom-up S -> NP VP Aux NP VP VP NP -> Det Nom PropNoun Nom -> Noun Nom Noun VP -> V V NP Det -> a this that Noun -> flight I morning book Aux -> does V -> prefer book Book that flight. bottom-up.ps Adobe Acrobat 7.0 Document staramy się znaleźć analizy poszczególnych elementów ciągu wejściowego i sklejamy je formułowanie hipotez zgodnych z danymi (lokalnie) sugerowanie hipotez bezsensownych w kontekście problemy z rekurencją październik, 2004 25 Problemy dla analizy top-down Nie moŝna uŝywać gramatyk, w których pierwszy symbol prawej strony jest taki sam jak symbol po lewej stronie produkcji: struktury rekurencyjne NP -> NP PP (lot do ParyŜa) VP -> VP PP (wystartował w piątek po południu) struktury współrzędne S -> S Conj S (Piotr wyjechał do Krakowa, a Ania jest chora) NP -> NP Conj NP (Ania i Piotr wyszli wcześniej) październik, 2004 26 Parsowanie gramatyk CFG, podej cie top-down with bottom-up S -> NP VP Aux NP VP VP NP -> Det Nom PropNoun Nom -> Noun Nom Noun VP -> V V NP Det -> a this that Noun -> flight morning book Aux -> does PropNoun -> I V -> prefer book up filtering Book that flight Noun/Verb Det Noun Nie rozpatrujemy reguł, dla których nie istnieje takie dalsze rozwinięcie, które da w wyniku pierwszy symbol z analizowanego wejścia dla kaŝdej kategorii sporządzamy odpowiednia listę typów słów S Det, PropNoun, Aux,Verb NP Det, PropNoun Nominal Noun październik, VP 2004 Verb 27 Problemy z opisem przy u yciu CFG Niejednoznaczno ci - wielo rozbiorów. Najczęstsze przyczyny niejednoznaczności: frazy przyimkowe mogą być dołączane na róŝnym poziomie, np. spytaj o [samolot z Krakowa do Warszawy w piątek ] spytaj [ o samolot z Krakowa do Warszawy ] w piątek róŝne interpretacje koordynacji: [ [ksiąŝka lub film] o impresjonistach ] [ksiąŝka Sztuka w zarysie ] lub [ film o impresjonistach] róŝny podział fraz rzeczownikowych (na ogól niepotrzebne): lot z [ ParyŜa do Warszawy] [ lot z ParyŜa ] do Warszawy NP -> NP PP październik, 2004 28 Problemy z opisem CFG, cd Tradycyjny podział na frazę podmiotu i orzeczenia dla polskiego ma mały sens: Jana Piotr zobaczył od razu. Nieciągłości: Jan się znowu bardzo duŝo spóźnił Starego nie lubię chleba Tyś tego nie wiedział! Próby zaradzenia problemom: droga teoretyczna- silniejsze formalizmy droga praktyczna - ograniczanie rekurencji, ręczne sterowanie październik, 2004 29 Parsowanie powierzchniowe (shallow parsing) Wykorzystywanie gramatyk regularnych (implementowanych jako automaty) do rozpoznawania niektórych elementów tekstów, np. rozpoznawanie granic fraz, przykład NG (noun group) zaimek, określenie czasu (np. yesterday), data NG -> Pronoun Time-NP Date-NP head noun poprzedzone opcjonalnie przedimkiem), frazy z formą -ing, oraz kompletne frazy przedimkowe, np. only five, this NG -> (DETP) (Adjs) HdNns DETP Ving HdNns DETP-CP (and HdNns) ( powierzchniowość analizy widać po tym, Ŝe nie sprawdzamy Ŝadnych uzgodnień, nie wiąŝemy analiz poszczególnych fragmentów) Rozpoznanie liczb pisanych słownie, dat, nazw własnych,... październik, 2004 30 5
regularna Hierarchia gramatyk/j zyków (Chomsky,, 1959) (Regular) X α Y gdzie X,Y są symbolami nieterminalnym, α ciągiem terminali; Y moŝe być pominięte bezkontekstowa (Context-free) X γ, X -symbol nieterminalny, γ ciąg dowolnych symboli kontekstowa (Context-sensitive) αxβ αγβ, X - symbol nieterminany, α,β,γ ciągi symboli terminalych i nieterminalnych, γ nie moŝe być pusty rekurencyjnie przeliczalna (Turing Equivalent, Type 0) α β; α,β ciągi symboli terminalych i nieterminalnych październik, 2004 31 J zyki regularne i metody ich rozpoznawania/generowania Język regularny to język generowany przez wyraŝenie regularne (wykorzystanie: Perl, emacs, Word, sed, awk, grep, vi, netscape) WyraŜenie regularne to: a) wyraŝenie stałe φ (język pusty φ ) b) wyraŝenie Λ (język składający się ze słowa pustego Λ) c) wyraŝenie będące pojedynczą zmienną y 1,..., y n d) jeŝeli U i W są wyraŝeniami regularnymi opisującymi języki U i W, to (U W), (U W) i (U)* są wyraŝeniami regularnymi opisującymi odpowiednio języki U W, U W i U * kaŝde wyraŝenie regularne moŝna uzyskać z wyraŝeń opisanych w a)- c) za pomocą skończonej liczby operacji z d). (* - oznacza 0 lub więcej razy) październik, 2004 32 Wyra enia regularne Jakie j zyki s regularne? Przykłady języków regularnych: język owcy: be! bee! beee! beeee! gramatyka: S -> bee E ->! E -> ee (zapis: E ->! ee ) wyraŝenie regularne: bee*! (be +!) liczby całkowite gramatyka: S -> 0S 1S 9S 0 1 2 9 JeŜeli L jest językiem regularnym, to istnieją ciągi symboli teminalnych x,y,z, takie, Ŝe y ε i xy n z L dla n 0 np. a n b n nie jest regularny (nie moŝna pompować ani a k, ani b k ani (ab) k (jest to język bezkontekstowy: S-> a S b S-> ε ) Języki naturalne nie są regularne, w szczególności nie jest regularny angielski. wyraŝenie regularne [0..9][0..9]* ([0..9] + ) październik, 2004 33 październik, 2004 34 Angielski nie jest j zykiem regularnym Chomsky (1956,1957), Partee (1990) The cat likes tuna fish. The cat the dog chases likes tuna fish. The cat the dog the rat bit chases likes tuna fish. The cat the dog the rat the elephant admired bit chases likes tuna fish. (the + noun) n (transitive verb) n-1 likes tuna fish - L1, nie jest regularny Idea dowodu: budujemy język regularny L2, którego przecięcie z językiem angielskim da w wyniku L1. PoniewaŜ przecięcie dwóch języków regularnych jest regularne, a L1 nie, oznacza to, Ŝe angielski teŝ nie jest regularny. L2 = zbiór wyraŝeń A* B* likes tuna fish, gdzie A = { the cat, the dog, the elephant, the rat,...} B = { chased, admires, bit, ate...} październik, 2004 35 Do jakiej klasy nale naturalne? j zyki Długa dyskusja o tym, do której kategorii naleŝą poszczególne języki naturalne. Wiele dowodów na to, Ŝe angielski jest językiem kontekstowym. Obecny stan wiedzy: składnia i morfologia angielskiego jest bezkontekstowa szwajcarski dialekt niemieckiego ma składnię kontekstową morfologia języka Bambara (Mali) kontekstowa Co nie znaczy, Ŝe j.naturalny daje się łatwo opisać za pomocą gramatyki bezkontekstowej,ani e jego podzbioru nie moŝna opisywać za pomocą gramatyk regularnych październik, 2004 36 6
Automaty Istnieje wzajemnie jednoznaczna odpowiedniość między gramatykami regularnymi a automatami skończonymi Automat skończony Urządzenie sekwencyjne mogące znajdować się w skończonej liczbie stanów, czytające symbol po symbolu. Przeczytanie symbolu zmienia stan urządzenia na inny i przesuwa taśmę wejściową o jedną klatkę na lewo. Automat skończony zupełny (niekoniecznie deterministyczny) - automat Rabina Scotta (kaŝdy automat skończony jest równowaŝny deterministycznemu automatowi Rabina-Scotta). Definicja automatu Automat skończony to piątka < Q,, δ, qs, Qf >, gdzie Q - skończony zbiór stanów q0,q1,... qn Σ skończony zbiór symboli wejściowych (alfabet) qs - stan początkowy Q Qf Q zbiór stanów końcowych (akceptujących) δ(q,i) tablica przejść Q Σ -> Q ; dla danego symbolu wejściowego i stanu wartością jest stan automatu październik, 2004 37 październik, 2004 38 Przykład automatu język owcy: be! bee! beee! beeee! gramatyka: S -> bee E ->! E -> ee wyraŝenie regularne: bee*! (be +!) automat: Q={q0,q1,q2,q3} ={a,b,c,...,z,!,?} e b e! q0 q1 q2 q3 (jeśli alfabet jest duŝy (tu wszystkie litery) dla zwiększenia czytelności pomija się często przejścia dla symboli uniemoŝliwiających dojście do stanów akceptujących) Przykład automatu, 2 Formy słowa owca: owca, owcy, owcy, owcę, owcą, owcy gramatyka: S -> owce E -> a y ę ą wyraŝenie regularne: owc[ayęą] automat: q2 q3 ę a q4 owc y q0 q1 q5 ą (tu zakladamy, Ŝe mamy juŝ rozpoznany początek i koniec słowa) październik, 2004 39 październik, 2004 40 Transducery Transducery to automaty skończone, na łukach których znajdują się pary symboli. Dla kaŝdego przejścia przez automat otrzymujemy wiec parę powiązanych ze sobą słów. Transducer wiąŝe ze sobą dwa języki regularne. Prosty przykład zamiana symboli 0 i 1 (tzn. 0110 -> 1001) q0 1:0 0:1 październik, 2004 41 zamiana ciągów ab na x Transducery? oznacza dowolny, nie wymieniony na innych łukach symbol pojedynczy symbol na łuku oznacza, Ŝe go kopiujemy, np. a oznacza a:a Słowo: a a b a a a b b Wejście: a a b a a a b b Ciąg stanów: 0 1 (1) 2 0 1 1 (1) 2 0 0 Wyjście: a (a) x a a (a) x b a x a a x b (n) oznacza ścieŝkę, z której siętrzeba październik, 2004 było wycofać 42 7
Automaty, rozszerzenia Automat z wyjściem: Automat Moore a nad alfabetem wejściowym T i wyjściowym Y nazyamy trójkę <S, M, G>, gdzie S - skończony zbiór stanów, M - funkcja przejścia S x T -> S, G: S -> Y. Automat ze stosem automat z taśmą wejściową i taśmą (stosem) roboczym Maszyna Turinga automat z taśmą wejściową prawostronnie nieograniczoną i obustronnie nieograniczoną taśmą roboczą, która moŝe być przesuwana w obu kierunkach październik, 2004 43 J zyki formalne język (gramatyka) rozpoznawany przez problem x L regularny automat Rabina-Scotta rozstrzygalny (FSA) bezkontekstowy automat ze stosem rozstrzygalny (PSG) kontekstowy dwutaśmowa maszyna Turinga rozstrzygalny (TAG) o ograniczonej długości taśmy rekurencyjnie dwutaśmowa maszyna Turinga nierozstrzygalny przeliczalny (ATN, HPSG) październik, 2004 44 Dziękujęza uwagę. październik, 2004 45 8