Uzgodnienia. Uzgodnienia. 3. Formalny opis j zyka naturalnego. Gramatyki CFG z atrybutami (features, attributes) rzeczownik-przymiotnik



Podobne dokumenty
Podstawy Informatyki Gramatyki formalne

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Automatyka. Etymologicznie automatyka pochodzi od grec.

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

WYKŁAD 8. Postacie obrazów na różnych etapach procesu przetwarzania

ZASADY REPRODUKCJI SYMBOLI GRAFICZNYCH PRZEDMOWA

Harmonogramowanie projektów Zarządzanie czasem

Promocja i identyfikacja wizualna projektów współfinansowanych ze środków Europejskiego Funduszu Społecznego

Podstawy programowania

Zadanie 1. Liczba szkód w każdym z trzech kolejnych lat dla pewnego ubezpieczonego ma rozkład równomierny:

1. Podstawy budowania wyra e regularnych (Regex)

Podstawowe działania w rachunku macierzowym

Jednotaśmowa, deterministyczna maszyna Turinga :

Zamawiający potwierdza, że zapis ten należy rozumieć jako przeprowadzenie audytu z usług Inżyniera.

Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

Jak wytresować swojego psa? Częs ć 1. Niezbędny sprzęt przy szkoleniu psa oraz procesy uczenia

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Umowa o pracę zawarta na czas nieokreślony

1. Rozwiązać układ równań { x 2 = 2y 1

Architektura komputerów

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

Metoda LBL (ang. Layer by Layer, pol. Warstwa Po Warstwie). Jest ona metodą najprostszą.

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Co do zasady, obliczenie wykazywanej

7. REZONANS W OBWODACH ELEKTRYCZNYCH

Edycja geometrii w Solid Edge ST

tel/fax lub NIP Regon

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Komentarz do prac egzaminacyjnych w zawodzie technik administracji 343[01] ETAP PRAKTYCZNY EGZAMINU POTWIERDZAJĄCEGO KWALIFIKACJE ZAWODOWE

Gramatyka i słownictwo

KONWENCJA NR 16. sporządzona w Wiedniu dnia 8 września 1976 r. dotycząca wydawania wielojęzycznych odpisów skróconych aktów stanu cywilnego

WYMAGANIA EDUKACYJNE DLA KLASY III GIMNAZJUM POZIOM ROZSZERZONY

WOJEWÓDZKI KONKURS FIZYCZNY

Elementy typografii. Technologia Informacyjna Lekcja 22

Wypełniają je wszystkie jednostki samorządu terytorialnego, tj. gminy, powiaty, województwa, miasta na prawach powiatu oraz związki komunalne.

KLAUZULE ARBITRAŻOWE

Umowa - wzór. Zawarta w dniu roku w Świątkach pomiędzy :

Praca w grupie. UMIEJĘTNOŚCI: Kompetencje kluczowe w uczeniu się

Objaśnienia do Wieloletniej Prognozy Finansowej na lata

Wiedza niepewna i wnioskowanie (c.d.)

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI KLASA IV

Regulamin konkursu na logo POWIATU ŚREDZKIEGO

5. Źródła i sposoby finansowania

Praca za granicą. Emerytura polska czy zagraniczna?

USTAWA z dnia 29 listopada 1990 r. o paszportach

Evolution plus 1 KRYTERIA OCENIANIA

KOMISJA WSPÓLNOT EUROPEJSKICH, uwzględniając Traktat ustanawiający Wspólnotę Europejską, ROZDZIAŁ 1

Stanowisko Rzecznika Finansowego i Prezesa Urzędu Ochrony Konkurencji i Konsumentów w sprawie interpretacji art. 49 ustawy o kredycie konsumenckim

2.Prawo zachowania masy

Wskazówki dotyczące przygotowania danych do wydruku suplementu

Zintegrowane Systemy Zarządzania Biblioteką SOWA1 i SOWA2 SKONTRUM

Umowa kredytu. zawarta w dniu. zwanym dalej Kredytobiorcą, przy kontrasygnacie Skarbnika Powiatu.

PROGRAM ZAPEWNIENIA I POPRAWY JAKOŚCI AUDYTU WEWNĘTRZNEGO

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Zarządzenie nr 538 Wójta Gminy Zarszyn z dnia 9 czerwca 2014 r.

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Jak spersonalizować wygląd bloga?

1. MONITOR. a) UNIKAJ! b) WYSOKOŚĆ LINII OCZU

Proces certyfikacji ISO 9001:2015. Wydanie normy ISO 9001:2015 dotyczące systemów zarządzania jakością obowiązuje od 15 września 2015 roku.

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

System Informatyczny CELAB. Przygotowanie programu do pracy - Ewidencja Czasu Pracy

Uchwała nr O III Krajowej Rady Izby Architektów RP z dnia 20 marca 2012 r. w sprawie wprowadzenia wzoru kontraktu menedżerskiego

Zarząd Dróg Wojewódzkich. Wytyczne Techniczne. Zbigniew Tabor Kraków,

Zasady rachunkowości i planu kont dla prowadzenia ewidencji podatków i opłat.

ROZGRANICZENIE NIERUCHOMOŚCI

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

D wysokościowych

ROZPORZĄDZENIE MINISTRA PRACY I POLITYKI SPOŁECZNEJ 1)

ASD - ćwiczenia III. Dowodzenie poprawności programów iteracyjnych. Nieformalnie o poprawności programów:

TOM II ISTOTNE DLA STRON POSTANOWIENIA UMOWY. Opis przedmiotu zamówienia opis techniczny + schematy przedmiar robót

Formularz Zgłoszeniowy propozycji zadania do Szczecińskiego Budżetu Obywatelskiego na 2016 rok

ZAPYTANIE OFERTOWE. Nr sprawy 15/2016r.

Licencję Lekarską PZPN mogą uzyskać osoby spełniające następujące wymagania:

Zarządzenie Nr 1469/2012

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

KONCEPCJA NAUCZANIA PRZEDMIOTU RACHUNKOWOŚĆ SKOMPUTERYZOWANA" NA WYDZIALE ZARZĄDZANIA UNIWERSYTETU GDAŃSKIEGO

WZÓR SKARGI EUROPEJSKI TRYBUNAŁ PRAW CZŁOWIEKA. Rada Europy. Strasburg, Francja SKARGA. na podstawie Artykułu 34 Europejskiej Konwencji Praw Człowieka

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Komentarz technik dróg i mostów kolejowych 311[06]-01 Czerwiec 2009

REGULAMIN TURNIEJU SPORTOWEJ GRY KARCIANEJ KANASTA W RAMACH I OGÓLNOPOLSKIEGO FESTIWALU GIER UMYSŁOWYCH 55+ GORZÓW WLKP R.

PROCEDURA AWANSU ZAWODOWEGO NA STOPIEŃ NAUCZYCIELA MIANOWANEGO W ZESPOLE SZKÓŁ INTEGRACYJNYCH NR 1 W KATOWICACH

- 70% wg starych zasad i 30% wg nowych zasad dla osób, które. - 55% wg starych zasad i 45% wg nowych zasad dla osób, które

Budowa systemów komputerowych

PAKIET MathCad - Część III

wzór Załącznik nr 5 do SIWZ UMOWA Nr /

UMOWA SPRZEDAŻY NR. 500 akcji stanowiących 36,85% kapitału zakładowego. AGENCJI ROZWOJU REGIONALNEGO ARES S.A. w Suwałkach

PREZENTUJ FLAGĘ!!! BARWY RZECZYPOSPOLITEJ POLSKIEJ. Stowarzyszenie Przyjaciół Zespołu Szkół Zawodowych im. Kard. Stefana Wyszyńskiego w Dynowie

Przygotowały: Magdalena Golińska Ewa Karaś

Regulamin Obrad Walnego Zebrania Członków Stowarzyszenia Lokalna Grupa Działania Ziemia Bielska

REGULAMIN WNOSZENIA WKŁADÓW PIENIĘŻNYCH W FORMIE POŻYCZEK NA RZECZ SPÓŁDZIELNI I ZASAD ICH OPROCENTOWANIA

DE-WZP JJ.3 Warszawa,

Bazy danych. Andrzej Łachwa, UJ, /15

Mapa umiejętności czytania, interpretacji i posługiwania się mapą Polski.

Techniki korekcyjne wykorzystywane w metodzie kinesiotapingu

1) w 1 pkt 4 otrzymuje brzmienie:

ROZPORZĄDZENIE KOMISJI (UE) NR

KARY ZA NIEPRZESTRZEGANIE PRZEPISÓW ROZPORZĄDZEŃ REACH I CLP. Żanna Jaśniewska Biuro do Spraw Substancji i Preparatów Chemicznych

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

Transkrypt:

Uzgodnienia 3. Formalny opis j zyka naturalnego Składnia. Gramatyki bezkontekstowe Zapis wymagań i modyfikatorów październik, 2004 1 Cechy języków naturalnych, których opis w gramatykach bezkontekstowych jest trudny, a co najmniej uciąŝliwy, to przykładowo uzgodnienia i wymagania. Jaki problem powstaje w wyniku zastosowania następujących reguł? S -> NP VP NP -> Det Nominal Odpowiedź: nadmiarowośćgramatyki generującej przykładowo następujące zdania i frazy: *They sleeps. czy *Oni śpi. *this dogs *ten psy. październik, 2004 2 Gramatyki CFG z atrybutami (features, attributes) Potraktowanie symboli nieterminalnych jako symboli złoŝonych z przypisanymi własnościami (cechami, atrybutami). Pozwala to przykładowo na ograniczenie stosowania reguły: S -> NP VP tylko do sytuacji, gdy liczba, rodzaj i osoba frazy rzeczownikowej NP i czasownikowej VP sątakie same (czyli reprezentacjęuzgodnień podmiot-orzeczenie) S -> NP(case-nom,gender,nb,person) VP (gender,nb,person) NP(case,gender,number) -> Noun(case,gender,number) Uzgodnienia rzeczownik-przymiotnik Rzeczownik i modyfikujący go przymiotnik musząmiećtaką samąliczbę, przypadek i rodzaj: NP(case-nom,gender,nb,person) -> AdjP(case, gender,nb) NP(case,gender,nb,person) NP(case,gender,number) -> Noun(case,gender,number) małego psa, ostatni film Felliniego październik, 2004 3 październik, 2004 4 Podstawowe problemy składniowe - wymagania Wymagania (dopełnienia) czasownika: (typ frazy, przypadek frazy rzeczownikowej) szukam miejsca (czego? fraza rzeczownikowa w dopełniaczu), chcęspać(co? fraza czasownikowa bezokolicznikowa), mówięo pogodzie; mówię, Ŝe pada dajęmu cukierki przyimka: (przypadek) w domu na dom /na domu październik, 2004 5 Elementy wymagane np. czasownik powiedziećmoŝe łączyćsięz fraząrzeczownikową Czasowniki określająfrazy, które sąniezbędne do utworzenia poprawnego wyraŝenia, przy czym ten sam czasownik moŝe dopuszczaćróŝne zestawy wymagań(dopełnień), w bierniku, ze zdaniem podrzędnym rozpoczynającym sięod Ŝe, lub z dowolnym wypowiedzeniem stanowiącym cytat: *Ewa powiedziała (brak frazy wymaganej) *Ewa powiedziała na morzem (fraza przyimkowa) *Ewa powiedziała ładny (fraza przymiotnikowa) Ewa powiedziała wiersz (fraza rzeczownikowa w bierniku) Ewa powiedziała, Ŝe przyjdzie. (zdanie Ŝe ) Ewa powiedziała Dość! * oznacza wypowiedzenia niepoprawne październik, 2004 6 1

Problemy z CFG - wymagania Jaki problem powstaje w wyniku stosowania następujących reguł? VP -> V VP -> V NP PP -> Prep NP Odpowiedź nadmiarowość, czyli tworzenie rozbiorów konstrukcji niepopoprawnych: *He took. *He slept the cat. *She disappeared the elephant. *na stołem *w worka *On spał kota. CFG z atrybutami, zapis wymaga przyimki łącząsiętylko z frazami rzeczownikowymi (nie musimy więc traktowaćtypu frazy jak atrybutu), narzucając im przypadek (który powinien byćzatem atrybutem dla przyimka) frazy przyimkowe sąwymagane przez czasowniki i wtedy musimy znaćzarówno przypadek jak i sam przyimek (np. prosićo coś, czyli przyimek o i fraza w bierniku `o +NP acc, ale nie prosićo czymś( o + NP loc ) *prosićo bajce ani nie prosićz co ( z +NP acc) *prosićz bajkę czyli prep (form, case), np. prep( o, acc) -> o październik, 2004 7 październik, 2004 8 CFG z atrybutami, zapis wymaga Przyimek z moŝe łączyćsięz frazami rzeczownikowymi w dopełniaczu lub narzędniku: PP (Form, Case) -> Prep (Form, Case) NP (Case,Gender, Number,Person) Prep (z, gen) -> z Prep (z, ins) -> z z domu, z domem, z moim domem... (gen czyli genetive czyli dopełniacz) (ins czyli instrumental czyli narzędnik) * Wartości argumentów pisane od wielkiej litery zmienne, zaczynające październik, 2004 9 sięod małej litery - stałe CFG z atrybutami, zapis wymaga, I Wprowadzenie podziału na klasy, w zaleŝności od typu i liczby wymagań: 1) czasowniki bez wymagań(tylko podmiot), np. iść, biec, stać VP(Gender,Num,Person,Tense) -> V1(Gender, Num,Person,Tense) V1(masc, sg,3rd,past) -> szedł 2) czasowniki z wymaganiem frazy rzeczownikowej w bierniku, np. widzieć VP(Gender,Num,Person,Tense) -> V2(Gender, Num,Person,Tense) NP(acc,Gender,Numb,Person) V2(fem, sg,3rd,past) -> widziała itd. październik, 2004 10 CFG z atrybutami, zapis wymaga WaŜne! II zapis wymaga II, cd Nie dzielimy czasowników na klasy, ale zapisujemy odpowiednie informacje w słowniku (leksykalizacja gramatyki) ustalamy maksymalnąliczbęwymagań(3-4), tu przyjmiemy 3 ustalamy symbol dla pustego wymagania (null) VP (Gend,Num,Pers,tense) -> V (Gend, Num,Pers,Tense,W1,W2,W3) Arg (W1) Arg (W2) Arg (W3) {Arg - argument - dopełnienie/wymaganie} Arg(null) -> ε V(masc, sg,3rd,past, null, null, null) -> szedł Arg(np-acc) -> NP(acc,gend, numb,pers) V(fem, sg,3rd,past, np-acc, null, null) -> widziała październik, 2004 11 Aby wprowadzić nowy typ wymagań naleŝy: 1. wprowadzić nazwę wymagania (wx) i uŝyć jej w definicji odpowiedniego czasownika 2. dopisać regule definiującą, co rozumiemy przez dane wymaganie, czyli regułę Arg(wx) ->. Wymagnie będące fraząrzeczownikowąw celowniku 1) Nazwa wymagania: np-dat uŝycie dla czasownika dać(daćkogo/co? komu/czemu?) V(fem, pl, 3, past, np-acc, np-dat, null) -> dały 2) Arg(np-dat) -> NP(dat, Gend, Num,Pers,) październik, 2004 12 2

zapis wymaga II, cd zapis wymaga II, cd. Aby dopuścić swobodny szyk definiujemy dodatkowe reguły: a) VP(Gend,Num,Pers,Tense) -> V(gend, Num,Pers,Tense,W1,W2,W3) Arg(W2) Arg(W1)Arg(W3) b) VP(gend,num,pers,tense) -> Arg(W1) V(Gend, Num,Pers,Tense,W1,W2,W3) Arg(W2) Arg(W3)... Jeśli V(masc, sg,3rd,past, np-acc, np-instr, null) -> wbił to reguła a) pozwala na analizęfrazy: wbił młotkiem gwóźdź a reguła b) gwóźdźwbił młotkiem Dla dopuszczenia podmiotu przeplecionego z dopełnieniami traktujemy podmiot takŝe jako wymaganie (argument), które zapisujemy na pierwszej pozycji (tu jako np-nom3fsg, bo wtedy trzeba teŝpamiętaćo uzgodnieniu podmiotu i orzeczenia) VP(gend,num,pers,tense) -> V(gend, num,pers,tense,w1,w2,w3) Comp(w1) Comp(w2) Comp(w3) Comp(null) -> ε V(masc, sg,3rd,past, np-nom3msg, null, null) -> szedł Comp(np-nom) -> NP(nom, Gend, Numb, Pers) Comp(np-acc) -> NP(acc, Gend, Numb, Pers) V(fem, sg,3rd,past, np-nom3fsg, np-acc, null) -> widziała październik, 2004 13 październik, 2004 14 Elementy opcjonalne (modyfikatory) Frazy moŝna (teoretycznie) dowolnie rozszerzać o elementy opcjonalne, przy czym typ tych elementów zaleŝy od typu frazy: frazy rzeczownikowe mogą być modyfikowane frazami przymiotnikowymi: mały biały pies gładki szeroki skórzany pas frazy czasownikowe i przymiotnikowe mogą być modyfikowane frazami przysłówkowymi: spał niespokojnie latał niebezpiecznie wysoko przeraźliwie głośno bardzo mało zabawny październik, 2004 15 (nie rozwaŝamy tu ograniczeń semantycznych) Opis frazy przymiotnikowej AdjP -> Adj AdjP -> Adj AdjP AdjP -> AdvP AdjP AdvP -> Adv Adv AdvP AdjP -> Adj PP PP -> Prep NP AdjP -> AdjP Conj AdjP AdjP -> AdjP Coma AdjP Conj -> i lub Coma ->, biały biały mały wesoły bardzo biały biały z połyskiem biały i ciemno niebieski biały, zielony i brązowy październik, 2004 16 Opis frazy przymiotnikowej AdjP (C, G, N) -> Adj (C, G, N) biały AdjP (C, G, N) -> Adj (C, G, N) AdjP (C, G, N) AdjP (C, G, N) -> AdvP AdjP (C, G, N) bardzo biały AdvP -> Adv Adv AdvP AdjP (C, G, N) -> Adj (C, G, N) PP (F,C1) biały z połyskiem AdjP (C, G,N) -> AdjP (C, G, N) Conj AdjP (C, G, N) AdjP(C,G,N) -> AdjP (C, G, N) Coma AdjP (C,G,N) biały i ciemno niebieski, biały, zielony i brązowy Conj -> i lub Coma ->, Zapis modyfikacji Fraza rzeczownikowa modyfikowana frazą przymiotnikową NP (C, G, N, P) -> AdjP (C,G, N) NP (C,G,N,P) NP (C, G, N, P) -> NP (C,G,N,P) AdjP (C,G, N) Problem: wiele rozbiorów mały piec kaflowy: [mały piec] kaflowy mały [piec kaflowy] październik, 2004 17 październik, 2004 18 3

Elementy opcjonalne (modyfikatory), 2 frazy rzeczownikowe i czasownikowe mogą być modyfikowane frazami przyimkowymi: bułka z masłem czytał z uwagą pojechał w piątek, po porannym spotkaniu, przed obiadem sukienka ze sztruksu w niebieskie pasy z krótkimi rękawkami z białymi mankietami frazy rzeczownikowe mogą być modyfikowane zdaniami względnymi: człowiek, który wie wszystko Konstrukcje współrz dne Wszystkie typy konstrukcji moŝna łączyć spójnikami tworząc konstrukcje współrzędne (czasem moŝna łączyć teŝ konstrukcje róŝnych typów) idzie i śpiewa goło i wesoło do tańca i do róŝańca po południu i wieczorem to, co zostało po wczorajszym przyjęciu październik, 2004 20 październik, 2004 19 Zapis modyfikacji Fraza rzeczownikowa modyfikowana frazą przyimkową NP (C, G, N, P) -> NP (C,G,N,P) PP (Form, C1) Fraza czasownikowa modyfikowana frazą przyimkową VP ( G, N, P, W1, W2, W3) -> VP ( G, N, P, W1, W2, W3) PP (Form, C1) Dlaczego CFG? wyraŝenia regularne - zbyt słabe (ograniczenia: np. a n b n), zalety: Wzajemna odpowiedniość: gramatyki regularne wyraŝenia regularne FSA Efektywność parsowania: Pamięć- stała Czas parsowania liniowy (~ długość ciągu wejściowego) gramatyki kontekstowe, gramatyki klasy 0: łatwo wyraŝa się róŝne skomplikowane własności języka, nieefektywne obliczeniowo. październik, 2004 21 październik, 2004 22 Parsowanie,, gramatyki bezkontekstowe CFG często uŝywane do opisu struktury frazowej, a zwłaszcza kolejności składników Potrzebna pamięć: stos (czasami stos stosów) o wielkości zaleŝnej od stopnia zagnieŝdŝenia rekurencji Czas parsowania: w ogólnym przypadku O(n 3 ) Parsowanie gramatyk CFG, podej cie top-down S -> NP VP Aux NP VP VP NP -> Det Nom PropNoun Nom -> Noun Nom Noun VP -> V V NP Det -> a this that Noun -> flight I morning book Aux -> does V -> prefer book Book that flight. Top-down.ps Adobe Acrobat Document Ograniczenia: np. a n b n c n (gramatyka kontekstowa) rozpoczynamy od symbolu początkowego i rozwijamy reguły analiza tylko tych reguł, które mają szansę być zastosowane sugerowanie hipotez niezgodnych z analizowanym ciągiem słów nie moŝe być reguł z lewostronną rekurencją październik, 2004 23 październik, 2004 24 4

Parsowanie gramatyk CFG, podej cie bottom-up S -> NP VP Aux NP VP VP NP -> Det Nom PropNoun Nom -> Noun Nom Noun VP -> V V NP Det -> a this that Noun -> flight I morning book Aux -> does V -> prefer book Book that flight. bottom-up.ps Adobe Acrobat 7.0 Document staramy się znaleźć analizy poszczególnych elementów ciągu wejściowego i sklejamy je formułowanie hipotez zgodnych z danymi (lokalnie) sugerowanie hipotez bezsensownych w kontekście problemy z rekurencją październik, 2004 25 Problemy dla analizy top-down Nie moŝna uŝywać gramatyk, w których pierwszy symbol prawej strony jest taki sam jak symbol po lewej stronie produkcji: struktury rekurencyjne NP -> NP PP (lot do ParyŜa) VP -> VP PP (wystartował w piątek po południu) struktury współrzędne S -> S Conj S (Piotr wyjechał do Krakowa, a Ania jest chora) NP -> NP Conj NP (Ania i Piotr wyszli wcześniej) październik, 2004 26 Parsowanie gramatyk CFG, podej cie top-down with bottom-up S -> NP VP Aux NP VP VP NP -> Det Nom PropNoun Nom -> Noun Nom Noun VP -> V V NP Det -> a this that Noun -> flight morning book Aux -> does PropNoun -> I V -> prefer book up filtering Book that flight Noun/Verb Det Noun Nie rozpatrujemy reguł, dla których nie istnieje takie dalsze rozwinięcie, które da w wyniku pierwszy symbol z analizowanego wejścia dla kaŝdej kategorii sporządzamy odpowiednia listę typów słów S Det, PropNoun, Aux,Verb NP Det, PropNoun Nominal Noun październik, VP 2004 Verb 27 Problemy z opisem przy u yciu CFG Niejednoznaczno ci - wielo rozbiorów. Najczęstsze przyczyny niejednoznaczności: frazy przyimkowe mogą być dołączane na róŝnym poziomie, np. spytaj o [samolot z Krakowa do Warszawy w piątek ] spytaj [ o samolot z Krakowa do Warszawy ] w piątek róŝne interpretacje koordynacji: [ [ksiąŝka lub film] o impresjonistach ] [ksiąŝka Sztuka w zarysie ] lub [ film o impresjonistach] róŝny podział fraz rzeczownikowych (na ogól niepotrzebne): lot z [ ParyŜa do Warszawy] [ lot z ParyŜa ] do Warszawy NP -> NP PP październik, 2004 28 Problemy z opisem CFG, cd Tradycyjny podział na frazę podmiotu i orzeczenia dla polskiego ma mały sens: Jana Piotr zobaczył od razu. Nieciągłości: Jan się znowu bardzo duŝo spóźnił Starego nie lubię chleba Tyś tego nie wiedział! Próby zaradzenia problemom: droga teoretyczna- silniejsze formalizmy droga praktyczna - ograniczanie rekurencji, ręczne sterowanie październik, 2004 29 Parsowanie powierzchniowe (shallow parsing) Wykorzystywanie gramatyk regularnych (implementowanych jako automaty) do rozpoznawania niektórych elementów tekstów, np. rozpoznawanie granic fraz, przykład NG (noun group) zaimek, określenie czasu (np. yesterday), data NG -> Pronoun Time-NP Date-NP head noun poprzedzone opcjonalnie przedimkiem), frazy z formą -ing, oraz kompletne frazy przedimkowe, np. only five, this NG -> (DETP) (Adjs) HdNns DETP Ving HdNns DETP-CP (and HdNns) ( powierzchniowość analizy widać po tym, Ŝe nie sprawdzamy Ŝadnych uzgodnień, nie wiąŝemy analiz poszczególnych fragmentów) Rozpoznanie liczb pisanych słownie, dat, nazw własnych,... październik, 2004 30 5

regularna Hierarchia gramatyk/j zyków (Chomsky,, 1959) (Regular) X α Y gdzie X,Y są symbolami nieterminalnym, α ciągiem terminali; Y moŝe być pominięte bezkontekstowa (Context-free) X γ, X -symbol nieterminalny, γ ciąg dowolnych symboli kontekstowa (Context-sensitive) αxβ αγβ, X - symbol nieterminany, α,β,γ ciągi symboli terminalych i nieterminalnych, γ nie moŝe być pusty rekurencyjnie przeliczalna (Turing Equivalent, Type 0) α β; α,β ciągi symboli terminalych i nieterminalnych październik, 2004 31 J zyki regularne i metody ich rozpoznawania/generowania Język regularny to język generowany przez wyraŝenie regularne (wykorzystanie: Perl, emacs, Word, sed, awk, grep, vi, netscape) WyraŜenie regularne to: a) wyraŝenie stałe φ (język pusty φ ) b) wyraŝenie Λ (język składający się ze słowa pustego Λ) c) wyraŝenie będące pojedynczą zmienną y 1,..., y n d) jeŝeli U i W są wyraŝeniami regularnymi opisującymi języki U i W, to (U W), (U W) i (U)* są wyraŝeniami regularnymi opisującymi odpowiednio języki U W, U W i U * kaŝde wyraŝenie regularne moŝna uzyskać z wyraŝeń opisanych w a)- c) za pomocą skończonej liczby operacji z d). (* - oznacza 0 lub więcej razy) październik, 2004 32 Wyra enia regularne Jakie j zyki s regularne? Przykłady języków regularnych: język owcy: be! bee! beee! beeee! gramatyka: S -> bee E ->! E -> ee (zapis: E ->! ee ) wyraŝenie regularne: bee*! (be +!) liczby całkowite gramatyka: S -> 0S 1S 9S 0 1 2 9 JeŜeli L jest językiem regularnym, to istnieją ciągi symboli teminalnych x,y,z, takie, Ŝe y ε i xy n z L dla n 0 np. a n b n nie jest regularny (nie moŝna pompować ani a k, ani b k ani (ab) k (jest to język bezkontekstowy: S-> a S b S-> ε ) Języki naturalne nie są regularne, w szczególności nie jest regularny angielski. wyraŝenie regularne [0..9][0..9]* ([0..9] + ) październik, 2004 33 październik, 2004 34 Angielski nie jest j zykiem regularnym Chomsky (1956,1957), Partee (1990) The cat likes tuna fish. The cat the dog chases likes tuna fish. The cat the dog the rat bit chases likes tuna fish. The cat the dog the rat the elephant admired bit chases likes tuna fish. (the + noun) n (transitive verb) n-1 likes tuna fish - L1, nie jest regularny Idea dowodu: budujemy język regularny L2, którego przecięcie z językiem angielskim da w wyniku L1. PoniewaŜ przecięcie dwóch języków regularnych jest regularne, a L1 nie, oznacza to, Ŝe angielski teŝ nie jest regularny. L2 = zbiór wyraŝeń A* B* likes tuna fish, gdzie A = { the cat, the dog, the elephant, the rat,...} B = { chased, admires, bit, ate...} październik, 2004 35 Do jakiej klasy nale naturalne? j zyki Długa dyskusja o tym, do której kategorii naleŝą poszczególne języki naturalne. Wiele dowodów na to, Ŝe angielski jest językiem kontekstowym. Obecny stan wiedzy: składnia i morfologia angielskiego jest bezkontekstowa szwajcarski dialekt niemieckiego ma składnię kontekstową morfologia języka Bambara (Mali) kontekstowa Co nie znaczy, Ŝe j.naturalny daje się łatwo opisać za pomocą gramatyki bezkontekstowej,ani e jego podzbioru nie moŝna opisywać za pomocą gramatyk regularnych październik, 2004 36 6

Automaty Istnieje wzajemnie jednoznaczna odpowiedniość między gramatykami regularnymi a automatami skończonymi Automat skończony Urządzenie sekwencyjne mogące znajdować się w skończonej liczbie stanów, czytające symbol po symbolu. Przeczytanie symbolu zmienia stan urządzenia na inny i przesuwa taśmę wejściową o jedną klatkę na lewo. Automat skończony zupełny (niekoniecznie deterministyczny) - automat Rabina Scotta (kaŝdy automat skończony jest równowaŝny deterministycznemu automatowi Rabina-Scotta). Definicja automatu Automat skończony to piątka < Q,, δ, qs, Qf >, gdzie Q - skończony zbiór stanów q0,q1,... qn Σ skończony zbiór symboli wejściowych (alfabet) qs - stan początkowy Q Qf Q zbiór stanów końcowych (akceptujących) δ(q,i) tablica przejść Q Σ -> Q ; dla danego symbolu wejściowego i stanu wartością jest stan automatu październik, 2004 37 październik, 2004 38 Przykład automatu język owcy: be! bee! beee! beeee! gramatyka: S -> bee E ->! E -> ee wyraŝenie regularne: bee*! (be +!) automat: Q={q0,q1,q2,q3} ={a,b,c,...,z,!,?} e b e! q0 q1 q2 q3 (jeśli alfabet jest duŝy (tu wszystkie litery) dla zwiększenia czytelności pomija się często przejścia dla symboli uniemoŝliwiających dojście do stanów akceptujących) Przykład automatu, 2 Formy słowa owca: owca, owcy, owcy, owcę, owcą, owcy gramatyka: S -> owce E -> a y ę ą wyraŝenie regularne: owc[ayęą] automat: q2 q3 ę a q4 owc y q0 q1 q5 ą (tu zakladamy, Ŝe mamy juŝ rozpoznany początek i koniec słowa) październik, 2004 39 październik, 2004 40 Transducery Transducery to automaty skończone, na łukach których znajdują się pary symboli. Dla kaŝdego przejścia przez automat otrzymujemy wiec parę powiązanych ze sobą słów. Transducer wiąŝe ze sobą dwa języki regularne. Prosty przykład zamiana symboli 0 i 1 (tzn. 0110 -> 1001) q0 1:0 0:1 październik, 2004 41 zamiana ciągów ab na x Transducery? oznacza dowolny, nie wymieniony na innych łukach symbol pojedynczy symbol na łuku oznacza, Ŝe go kopiujemy, np. a oznacza a:a Słowo: a a b a a a b b Wejście: a a b a a a b b Ciąg stanów: 0 1 (1) 2 0 1 1 (1) 2 0 0 Wyjście: a (a) x a a (a) x b a x a a x b (n) oznacza ścieŝkę, z której siętrzeba październik, 2004 było wycofać 42 7

Automaty, rozszerzenia Automat z wyjściem: Automat Moore a nad alfabetem wejściowym T i wyjściowym Y nazyamy trójkę <S, M, G>, gdzie S - skończony zbiór stanów, M - funkcja przejścia S x T -> S, G: S -> Y. Automat ze stosem automat z taśmą wejściową i taśmą (stosem) roboczym Maszyna Turinga automat z taśmą wejściową prawostronnie nieograniczoną i obustronnie nieograniczoną taśmą roboczą, która moŝe być przesuwana w obu kierunkach październik, 2004 43 J zyki formalne język (gramatyka) rozpoznawany przez problem x L regularny automat Rabina-Scotta rozstrzygalny (FSA) bezkontekstowy automat ze stosem rozstrzygalny (PSG) kontekstowy dwutaśmowa maszyna Turinga rozstrzygalny (TAG) o ograniczonej długości taśmy rekurencyjnie dwutaśmowa maszyna Turinga nierozstrzygalny przeliczalny (ATN, HPSG) październik, 2004 44 Dziękujęza uwagę. październik, 2004 45 8