13. Statistical Alignment and Machine Translation



Podobne dokumenty
TTIC 31190: Natural Language Processing

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Model zaszumionego kanału

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Tłumaczenie maszynowe. Zasady działania. Autorzy: Josef van Genabith (DFKI), Krzysztof Łoboda (Uniwersytet Jagielloński)

Praktyczna nauka drugiego języka obcego II

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Metody przeszukiwania

Word sense disambiguation dokończenie

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Przedmiotowy system oceniania z języka angielskiego dla klasy I-III

Prawdopodobieństwo czerwonych = = 0.33

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO

WYMAGANIA EDUKACYJNE W KLASACH 1-3 Z JĘZYKA ANGIELSKIEGO ROK SZKOLNY 2015/2016, 2016/2017, 2017/2018

Metoda eliminacji Gaussa

System Korekty Tekstu Polskiego

Mówienie. Rozumienie ze słuchu

Przedmiotowy system oceniania z języka niemieckiego

PRZYRÓWNANIE SEKWENCJI

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

Urównoleglanie Tekstów. Dwujęzycznych. Na Poziomie Zdania

WYMAGANIA EDUKACYJNE Z JĘZ. NIEMIECKIEGO W KL.III GIM

Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego

Oprogramowanie typu CAT

Analiza stanów gry na potrzeby UCT w DVRP

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

Wymagania edukacyjne - język angielski - klasa IV- SP nr 7

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

11 Probabilistic Context Free Grammars

OCENA CELUJĄCA SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO. - wypowiedź pisemna odpowiada założonej formie,

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wymagania edukacyjne z języka niemieckiego dla klas I-II gimnazjum (język mniejszości narodowej)

Konfiguracja programu

Matematyka Dyskretna. Andrzej Szepietowski. 25 czerwca 2002 roku

PRZEDMIOTOWE ZASADY OCENIANIA

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III

Kryteria oceniania z języka angielskiego w klasie 2 według sprawności językowych GRAMATYKA I SŁOWNICTWO

Przedmiotowy system nauczania Das ist Deutsch! Kompakt

PRZEDMIOTOWE OCENIANIE Z JĘZYKA ANGIELSKIEGO

OCENA CELUJĄCA SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO GIMNAZJUM

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY II SZKOŁY PODSTAWOWEJ NR. 319 IM. MARII KANN W WARSZAWIE

PLAN WYNIKOWY Z J.FRANCUSKIEGO DLA ODDZIAŁU VIb

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA W CHORZEWIE. Spis treści

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Przedmiotowy system oceniania języka angielskiego kl. 4-6

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Lokalizacja Oprogramowania

Optymalizacja ciągła

lekcja 8a Gry komputerowe MasterMind

JĘZYK NIEMIECKI liceum

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK ANGIELSKI W NAUCZANIU ZINTEGROWANYM W KLASACH I-III

CZYTANIE CICHE ZE ZROZUMIENIEM

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK ANGIELSKI W NAUCZANIU ZINTEGROWANYM W KLASACH I-III W SZKOLE PODSTAWOWEJ NR 3 W LUBLINIE

Od rozpoznawania do tłumaczenia mowy polskiej

Wymagania edukacyjne na poszczególne oceny z języka niemieckiego dla klasy I

System Korekty Tekstu Polskiego

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Nierówność Krafta-McMillana, Kodowanie Huffmana

INSTRUKCJA DO PROGRAMU

Porównanie Heap Sort, Counting Sort, Shell Sort, Bubble Sort. Porównanie sortowao: HS, CS, Shs, BS

Przedmiotowy system oceniania z języka angielskiego dla uczniów klas I III. Przy ocenianiu bieżącym w klasach I III oprócz oceny opisowej stosuje się:

Kryteria oceniania wiadomości i umiejętności z języka angielskiego klasy IV-VI

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Teacher s Notes Unit 9

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Wymagania edukacyjne - język angielski - klasa VI SP nr 7

Szkoła Podstawowa im. Sebastiana Fabiana Klonowicza w Sulmierzycach WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO W KLASACH I-III

Przedmiotowe Zasady Oceniania. Das ist Deutsch. KOMPAKT Klasa I OCENA CELUJĄCA

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO I ETAP EDUKACYJNY KLASY I-III

Okręgowa Komisja Egzaminacyjna w Poznaniu Egzamin gimnazjalny z języka rosyjskiego poziom rozszerzony Analiza poziomu umiejętności uczniów na

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

Podstawą w systemie dwójkowym jest liczba 2 a w systemie dziesiętnym liczba 10.

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I - III

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej

WYMAGANIA EDUKACYJNE

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Systemy liczbowe używane w technice komputerowej

PyPy's Approach to Virtual Machine Construction

ANALIZA EGZAMINU GIMNAZJALNEGO Z JĘZYKA NIEMIECKIEGO W GIMNAZJUM IM. JANA PAWŁA II W BUDZOWIE

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY 2 KRYTERIA NA POSZCZEGO LNE OCENY :

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów użytkowych Angielski Język Biznesu

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Wymagania edukacyjne z matematyki w klasie VIII

Przeliczanie cen walutowych na dokumentach

Metody Kompilacji Wykład 3

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE VI

OCENA OPISOWA OCENA OPISOWA - KLASA I

PLAN METODYCZNY LEKCJI JĘZYKA ANGIELSKIEGO W KLASIE IV C

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów ogólnych Angielski Język Biznesu

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE MEINE DEUTSCHTOUR KL.II gimnazjum

Grafika 2D. Animacja Zmiany Kształtu. opracowanie: Jacek Kęsik

Transkrypt:

13. Statistical Alignment and Machine Translation MT najważniejsze zastosowanie NLP. Obecnie nie m dobrych systemów MT poza bardzo specyficznymi, np. tłumaczącymi prognozy pogody. Różne podejścia do MT: Word for word każdy wie ze tak jest źle. Syntactic transfer approach parsujemy tekst źródłowy, transformujemy sparsowane drzewko w drzewko syntaktyczne w języku docelowym (przy użyciu odpowiednich reguł), następnie z tego tworzymy tekst. Problemem jest założenie, że potrafimy jednoznacznie sparsowad tekst. Semantic transfer approach tworzymy reprezentacje sensu zdania, a następnie z tej reprezentacji próbujemy stworzyd twkst w języku docelowym. Problem: wygenerowane zdanie często jest nienaturalne. Interlingua formalizm reprezentacji wiedzy. Przy dużej liczbie języków tradycyjnie trzebaby zrobid n 2 systemów, a przy tym rozwiązaniu wystarczy jedynie n. 13.1 Text Alignment Nie jest samo w sobie częścią MT, ale pomaga w poprawianiu wyników. Używane jest do tworzenia zasobów językowych takich jak słowniki dwujęzyczne czy równoległe gramatyki (?) TA polega na analizie tekstów dwujęzycznych i dopasowywaniu do siebie odpowiadających fragmentów z obu tekstów.

13.1.1 Aligning sentences and paragraphs Teksty dwujęzyczne nie zawsze wyglądają tak, że jest tłumaczenie zdanie do zdania, tzn. czasem jedno zdanie w tekście oryginalnym to 2 zdania w tłumaczeniu, itp., często zmienia się np. szyk zdania aby tłumaczenie było bardziej naturalne. Zatem ustala się, że jeśli jakiś kawałek określonej długości się zgadza, to zdania zostają uznane za odpowiadające sobie. W wypadku, gdy kolejnośd zdao w dwu tekstach się różni (np. 2 zdania zostały zamienione miejscami, tzw. crossing dependencies), zakłada się że takie bloki są sobie odpowiadające, i zdania dopasowuje się do siebie wewnątrz tych bloków. 13.1.2 Length-based methods Są to dośd stare metody biorące pod uwagę jedynie długośd dopasowywanych zdao. Gale and Church (1993) Ich rozwiązanie opierało się na prostym algorytmie dynamicznym obliczającym najlepsze dopasowanie, przy założeniu że dopuszczane jest jedynie 6 typów dopasowao kolejnych fragmentów: Ten algorytm ma kwadratową złożonośd, ale oni najpierw liczyli dopasowania paragrafów, a potem zdao w paragrafach, więc działało to szybko również dla długich tekstów. Dopasowania pojedynczych zdao były determinowane na podstawie długości zdao liczonych w znakach. Brown et al. (1991c) Metoda podobna do poprzedniej, ale długości zdao były liczone jako ilośd wyrazów w zdaniu, a nie liter. Wu (1994) Wykazał przydatnośd metody Gale a i Church a na przykładzie języków: English i Cantonese, które są w stosunku do siebie bardzo różne. 13.1.3 Offset alignment by signal processing techniques Te metody próbują ustalid, w których miejscach teksty się zgadzają. Church (1993) W tekstach pochodzących np. z OCRa pojawiają się problemy np. z nagłówkami, stopkami, zgubionymi kropkami itp., więc nawet dopasowanie paragrafów nie jest trywialnym zadaniem. Church zaproponował użycie tzw. cognates (=słów podobnie wyglądających w obu językach), na tej podstawie dopasowując fragmenty tekstu.

Metoda Churcha, dot plot, polega na skonkatenowaniu tekstu źródłowego i tłumaczenia, umieszczeniu ich na osiach X i Y oraz zaznaczaniu punktów w miejscach, gdzie te teksty są podobne (podobieostwo = identycznośd 4-znakowych sekwencji) powstaje bitext map. Charakterystyczne cechy takiej mapy: na przekątnej są same punkty, bo to linia (x,x), tzn. wszystko na niej się zgadza. Prawie przekątne mniejszych kwadracików: powstają z nakładania się cognates. Po stworzeniu takiej mapy uruchamia się wyszukiwanie heurystyczne, które znajduje najlepszą ścieżkę na tych prawie przekątnych, czyli dopasowanie. Fung and McKeown (1994) Jest to metoda, która w założeniu ma stworzyd mini słownik dwujęzyczny. W tej metodzie bierze się kolejne słowa, zlicza odległości pomiędzy wystąpieniami tego słowa w tekście i porównuje z analogicznymi odległościami z tekstu w drugim języku (za pomocą Dynamic Time Warping standardowego algorytmu dynamicznego używanego w rozpoznawaniu mowy). Jeśli te odległości są w miarę podobne to dana para wyrazów trafia do słownika. Dalej, na podstawie słownika, algorytmem dynamicznym takim jak wcześniej, dopasowuje się teksty do siebie. 13.1.4 Lexical methods of sentence alignment Kay and Riischeisen (1993) Metoda polega na wyszukiwaniu słów o podobnych znaczeniach, łączenia ich ze sobą, następnie dopasowywaniu najbardziej oczywistych zdao. Jeśli pozostały niedopasowane zdania, to w dopasowanych zdaniach wyszukiwane są kolejne słowa o podobnych znaczeniach, i wykonywana jest kolejna iteracja tego algorytmu. Chen (1993) Chen dopasowuje zdania konstruując prosty model dopasowujący słowa. Najlepsze dopasowanie to takie, które maksymalizuje prawdopodobieostwo wygenerowania korpusu przy użyciu danego modelu. Model generalnie jest podobny do zaproponowanego przez Gale and Church. Chen chciał

stworzyd prosty model, dlatego nawet nie brał pod uwagę np. tego, że jedno słowo może zostad przetłumaczone na dwa. Algorytm wygląda tak, że najpierw zakłada się, że dopasowania są typu 1:0 oraz 0:1 (tzn. słowo z tekstu oryginalnego nie pojawia się w tłumaczeniu, oraz że w tłumaczeniu pojawia się słowo nowe). Następnie zachłannie zamienia się 1:0 i 0:1 na 1:1 tam, gdzie taka zmiana daje największy zysk, i tak do momentu kiedy wszystkie możliwe pary zostaną pozamieniane. Haruno and Yamazaki (1996) Ich metoda to przeróbka metody Kay and Roscheisen (1993), która działa dla krótkich tekstów i istotnie różnych języków. Odrzucają z analizy function words, do dopasowywania słów używają m.in. part of speech taggerów, używają słownika do znajdowania odpowiadających słów. 13.2 Word Alignment Może służyd np. do tworzenia słowników dwujęzycznych. Słowa są dobierane np. na podstawie częstotliwości ich użycia. Pojawiają się problemy ze słowami, które nie mają odpowiadających znaczeo, ale pojawiają się w porównywanych tekstach w podobnych miejscach. Większośd algorytmów odnajdujących błędne dopasowania bazuje na EM. 13.3 Statistical Machine Translation Do MT można użyd noisy channel model. Na wejściu podajemy zdanie e z języka angielskiego, transformujemy je do francuskiego f, które następnie wysyłamy do dekodera który determinuje angielskie zdanie e dla którego prawdopodobieostwo otrzymania f jest największe (nie musi to byd dokładnie to samo co e). Trzeba więc zbudowad 3 komponenty do tłumaczenia z jednego języka do drugiego: language model, translation model i decoder. Trzeba też ustalid parametry modelu (translation probabilities). Language model Model określa prawdopodobieostwo P(e) zdania e. O takich modelach było w rozdziałach 6, 11 i 12. Translation model Prosty model bazujący na dopasowywaniu słów: Gdzie e to zdanie z języka angielskiego, f z francuskiego, f j to j-ty wyraz w słowie f, a j to indeks w e słowa odpowiadającego słowu f j. P(w f w e ) to prawdopodobieostwo wystąpienia w f słowa w f jeśli wystąpiło słowo w e w e (translation probability).zakłada się tu niezależnośd indywidualnych tłumaczeo, tzn. że np. P (Jean aime Marie l John loves Mary) = P(Jean l John) x P(aime loves ) x P(Marie l Mary) Decoder Wykonuje się tu maksymalizację:

Problemem jest tu nieskooczona przestrzeo rozwiązao, więc potrzeba heurystycznego wyszukiwania (które nie gwarantuje odnalezienia optymalnego rozwiązania), np. wyszukiwanie przyrostowe (doklejanie kolejnych najbardziej pasujących słów). Translation probabilities Prawdopodobieostwa szacuje się algorytmem EM, zakładając że posiada sie korpus dopasowanych zdao. Jeśli jakiś wyraz jest mocno dopasowany do jakiegoś innego, to staje się niedostępny do dopasowania do innych wyrazów, co zapobiega dopasowywaniu tego samego wyrazu do 2 różnych. Algorytm zaczyna się od losowego ustalenia wag P(w f w e ). Następnie liczona jest oczekiwana ilośd wystąpieo w f jeśli w angielskim odpowiedniku wystąpiło w e. Sumowanie odbywa się po wszystkich parach skojarzonych zdao, w których występują odpowiednio w f oraz w e. Następnie oblicza się prawdopodobieostwa translacji: Sumując po wszystkich angielskich słowach v. Mało prawdopodobne dopasowania są karane (np. dla dopasowanych słów z początku i kooca zdania). Żyznośd (fertility) ilośd słów, na które tłumaczy się dane słowo (np. farmer (en) = les agriculteurs (fr)) fertility = 2. W większości przypadków żyznośd = 1 lub 2. W praktyce taki model ma skutecznośd około 48% poprawnie przetłumaczonych zdao. Najczęściej pojawiające się błędy to błędne lub niegramatyczne tłumaczenie: Analiza tego modelu wskazuje kilka jego błędów: Fertility is asymmetric np. to go = aller jest tłuczone jako to oraz go aller, co nie jest poprawne i dalej może powodować błędy. Independence Assumption założenia dotyczące niezależności kolejnych wyrazów w zdaniu promują krótkie zdania.

Sensitivity to training data małe zmiany korpusu powodują duże zmiany estymowanych parametrów Efficiency dekodowanie zdao składających się z około 30 słów już jest zbyt czasochłonne Główne problemy tego modelu wywodzą się z braku wykorzystania wiedzy lingwistycznej. No notion of phrases (przykład z to go ) Non-local dependencies nielokalne zależności są trudne do wychwycenia przy zastosowaniu n-gramów. Morphology różne formy tego samego wyrazu są traktowane jako różne wyrazy Sparse data problems oszacowania dla rzadkich słów będą błędne Podsumowując, podstawowym problemem noisy channel model jest brak wykorzystania wiedzy o języku naturalnym. Nielingwistyczne modele są dobre do dopasowywania słów, ale nie nadają się do MT (trzeba dodad wiedzę lingwistyczną).