Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim



Podobne dokumenty
Zadanie 1. Liczba szkód w każdym z trzech kolejnych lat dla pewnego ubezpieczonego ma rozkład równomierny:

2.Prawo zachowania masy

1. Rozwiązać układ równań { x 2 = 2y 1

1. Podstawy budowania wyra e regularnych (Regex)

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Metoda LBL (ang. Layer by Layer, pol. Warstwa Po Warstwie). Jest ona metodą najprostszą.

Warunki formalne dotyczące udziału w projekcie

Zadania. SiOD Cwiczenie 1 ;

Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

Harmonogramowanie projektów Zarządzanie czasem

Rudniki, dnia r. Zamawiający: PPHU Drewnostyl Zenon Błaszak Rudniki Opalenica NIP ZAPYTANIE OFERTOWE

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Instrukcja obsługi platformy zakupowej e-osaa (klient podstawowy)

14.Rozwiązywanie zadań tekstowych wykorzystujących równania i nierówności kwadratowe.

Podstawy Informatyki Gramatyki formalne

Ogólna charakterystyka kontraktów terminowych

Materiały szkoleniowe dla partnerów. Prezentacja: FIBARO a system grzewczy.

Logowanie do systemu Faktura elektroniczna

Uchwała nr 21 /2015 Walnego Zebrania Członków z dnia w sprawie przyjęcia Regulaminu Pracy Zarządu.

OFERTA WYKŁADÓW, WARSZTATÓW I LABORATORIÓW DLA UCZNIÓW KLAS IV- VI SZKÓŁ PODSTAWOWYCH, GIMNAZJALNYCH I ŚREDNICH

ZAPYTANIE OFERTOWE PRZEDMIOT ZAMÓWIENIA: DOSTAWA UŻYWANEGO SAMOCHODU DOSTAWCZEGO DLA ZAKŁADU WODOCIĄGÓW I KANALIZACJI W PACZKOWIE

Roczne zeznanie podatkowe 2015

Umowa o pracę zawarta na czas nieokreślony

Niniejszy ebook jest własnością prywatną.

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Praca na wielu bazach danych część 2. (Wersja 8.1)

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

TEORIA GIER W EKONOMII WYKŁAD 1: GRY W POSTACI EKSTENSYWNEJ I NORMALNEJ

ZAPYTANIE OFERTOWE. Nr sprawy 15/2016r.

Egzamin na tłumacza przysięgłego: kryteria oceny

Akademickie Centrum Informatyki PS. Wydział Informatyki PS

Kurs wyrównawczy dla kandydatów i studentów UTP

REGULAMIN TURNIEJU SPORTOWEJ GRY KARCIANEJ KANASTA W RAMACH I OGÓLNOPOLSKIEGO FESTIWALU GIER UMYSŁOWYCH 55+ GORZÓW WLKP R.

ZAPYTANIE OFERTOWE. Nazwa zamówienia: Wykonanie usług geodezyjnych podziały nieruchomości

Na podstawie art.4 ust.1 i art.20 lit. l) Statutu Walne Zebranie Stowarzyszenia uchwala niniejszy Regulamin Zarządu.

ASD - ćwiczenia III. Dowodzenie poprawności programów iteracyjnych. Nieformalnie o poprawności programów:

Cennik reklam na Nyskim Portalu Internetowym

WYKŁAD 8. Postacie obrazów na różnych etapach procesu przetwarzania

Matematyka ubezpieczeń majątkowych r.

raceboard-s Szybki start

Rodzaj środka technicznego

Jan Olek. Uniwersytet Stefana Kardynała Wyszyńskiego. Procesy z Opóźnieniem. J. Olek. Równanie logistyczne. Założenia

Podstawowe działania w rachunku macierzowym

REGULAMIN PISEMNEGO PRZETARGU NA SPRZEDAŻ PRAW DO NIERUCHOMOŚCI ZABUDOWANEJ położonej w Skawinie przy ul. Piłsudskiego 23

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Bielsko-Biała, dn r. Numer zapytania: R WAWRZASZEK ISS Sp. z o.o. ul. Leszczyńska Bielsko-Biała ZAPYTANIE OFERTOWE

Rekompensowanie pracy w godzinach nadliczbowych

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

WSTĘP DO PROGRAMOWANIA

Jak korzystać z Group Tracks w programie Cubase na przykładzie EWQLSO Platinum (Pro)

Umowa nr.. /. Klient. *Niepotrzebne skreślić

API transakcyjne BitMarket.pl

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

ZP Obsługa bankowa budżetu Miasta Rzeszowa i jednostek organizacyjnych

Państwa członkowskie - Zamówienie publiczne na usługi - Ogłoszenie o zamówieniu - Procedura otwarta. PL-Warszawa: Usługi hotelarskie 2011/S

Przedmiotowe Zasady Oceniania

Elementy cyfrowe i układy logiczne

INSTRUKCJA DLA INSPEKTORÓW DS. REJESTRACJI

Zapytanie ofertowe nr 3

ZAPYTANIE OFERTOWE nr 4/KadryWM13

ZMIANA SPECYFIKACJI ISTOTNYCH WARUNKÓW ZAMÓWIENIA I OGŁOSZENIA O ZAMÓWIENIU

KLAUZULE ARBITRAŻOWE

WZÓR SKARGI EUROPEJSKI TRYBUNAŁ PRAW CZŁOWIEKA. Rada Europy. Strasburg, Francja SKARGA. na podstawie Artykułu 34 Europejskiej Konwencji Praw Człowieka

KRYTERIA OCENIANIA WYPOWIEDZI PISEMNYCH KRÓTKA I DŁUŻSZA FORMA UŻYTKOWA

Wykonanie podziału geodezyjnego działek na terenie powiatu gryfińskiego z podziałem na 2 zadania.

Wyznaczanie współczynnika sprężystości sprężyn i ich układów

Wtedy wystarczy wybrać właściwego Taga z listy.

Promocja i identyfikacja wizualna projektów współfinansowanych ze środków Europejskiego Funduszu Społecznego

ŚWIATOWA FEDERACJA PŁYWANIA

Instrukcja obsługi platformy zakupowej PHU VECTOR SP. Z O.O.

Podstawy programowania

MATEMATYKA 4 INSTYTUT MEDICUS FUNKCJA KWADRATOWA. Kurs przygotowawczy na studia medyczne. Rok szkolny 2010/2011. tel

EGZAMIN MATURALNY Z INFORMATYKI

Dokonamy analizy mającej na celu pokazanie czy płeć jest istotnym czynnikiem

DE-WZP JJ.3 Warszawa,

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

ECDL Advanced Moduł AM3 Przetwarzanie tekstu Syllabus, wersja 2.0

Polskie Towarzystwo Stwardnienia Rozsianego Oddział Warszawski

Stypendia USOS Stan na semestr zimowy 2013/14

W N I O S E K. o przyznanie dofinansowania wynagrodzenia za zatrudnienie skierowanego bezrobotnego, który ukończył 50 rok życia

Umowa kredytu. zawarta w dniu. zwanym dalej Kredytobiorcą, przy kontrasygnacie Skarbnika Powiatu.

Leasing regulacje. -Kodeks cywilny umowa leasingu -UPDOP, UPDOF podatek dochodowy -ustawa o VAT na potrzeby VAT

Podatek przemysłowy (lokalny podatek od działalności usługowowytwórczej) :02:07

Grupa bezpieczeństwa kotła KSG / KSG mini

7. OPRACOWYWANIE DANYCH I PROWADZENIE OBLICZEŃ powtórka

Kurs z matematyki - zadania

Regulamin Zarządu Pogórzańskiego Stowarzyszenia Rozwoju

Regulamin Projektów Ogólnopolskich i Komitetów Stowarzyszenia ESN Polska

Opracowała: Karolina Król-Komarnicka, kierownik działu kadr i płac w państwowej instytucji

DEMERO Automation Systems

1. Od kiedy i gdzie należy złożyć wniosek?

XIII KONKURS MATEMATYCZNY

PROE wykład 7 kontenery tablicowe, listy. dr inż. Jacek Naruniec

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

REGULAMIN OCENY ZACHOWANIA W I LICEUM OGÓLNOKSZTAŁCĄCYMW SWARZĘDZU

Uniwersytet Warszawski Organizacja rynku dr Olga Kiuila LEKCJA 12

Procedura uzyskiwania awansu zawodowego na stopień nauczyciela mianowanego przez nauczycieli szkół i placówek

FUNDACJA PRO POMERANIA SŁUPSK ul. Dominikańska 5-9

FORMULARZ OFERTOWY. a) nazwa Wykonawcy... b) kod, miejscowość... d) ..., internet:

Transkrypt:

Motywacja Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim Seminarium IPI PAN, 03.01.2011

Outline Motywacja 1 Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna 2 Zasada działania 3 sposoby Metody statystyczne 3 Wykresy Liczby

Motywacja Poziomy anotacji w NKJP Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Rozważamy następujace poziomy anotacji: anotacja morfosyntaktyczna, anotacja składniowa małe grupy, co wyżej?

Anotacja składniowa Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Gramatyka w Spejdzie (wersja z 16 sierpnia; wizualizacja wyników działania gramatyki w TrEdzie):

Definicja Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Porzadana własność: równoważność dystrybucyjna. Jeżeli grupę zastapić jej głowa, zdanie nie powino stracić sensu i powinno pozostać poprawne. α = Jesteśmy na (bardzo interesujacym seminarium).

Definicja Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Porzadana własność: równoważność dystrybucyjna. Jeżeli grupę zastapić jej głowa, zdanie nie powino stracić sensu i powinno pozostać poprawne. α = Jesteśmy na (bardzo interesujacym seminarium). β = Jesteśmy na seminarium. Rzeczywiście, w każdym modelu, w którym spełnione jest α, zachodzi też β.

Język płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Np. frazeologizmy cechuje tak zwana nieciagłość składu. Rozważmy: α = Wygłoszenie tej prezentacji to dla mnie (bułka z masłem).

Język płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Np. frazeologizmy cechuje tak zwana nieciagłość składu. Rozważmy: α = Wygłoszenie tej prezentacji to dla mnie (bułka z masłem). β = Wygłoszenie tej prezentacji to dla mnie bułka.

Podział płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Źródłem problemów może być też zły podział na obiekty powierzchniowe. α = Jesteśmy na bardzo (interesujacym seminarium).

Podział płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Źródłem problemów może być też zły podział na obiekty powierzchniowe. α = Jesteśmy na bardzo (interesujacym seminarium). β = Jesteśmy na bardzo seminarium.

Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Anotacja składniowa wynik wzorcowy ujednoznacznienie wykonane przez anotatorów

Motywacja Obiekt powierzchniowy Zasada działania 3 sposoby Metody statystyczne Obiekt powierzchniowy x (mała grupę lub wyraz składniowy) reprezentujemy jako rekord złożony z jego głów składniowej i semantycznej, a głowa to forma hasłowa leksemu i informacja morfosyntaktyczna. Np. { synh={base=przez, tag=prep:acc:nwok}, semh={base=balkon, tag=noun:sg:acc:m3} } Ponadto możemy te obiekty rozważać z różna dokładnościa. Np. uogólniamy je do poziomu leksemów, synsetów lub form morfosyntaktycznych.

Motywacja Zasada działania 3 sposoby Metody statystyczne Klasy abstrakcji obiektów powierzchniowych Uściślijmy: dzielimy zbiór obiektów przez pewna relację równoważności. Przykładowo, jeżeli wybierzemy relację przynależenia głowy semantycznej do jednego leksemu a lex b wtw, gdy a.semh.base = b.semh.base, lub równoważnie lex def = ker(π semh.base ) to otrzymamy algorytm wyszukiwania kolokacji (w pewnym sensie).

Motywacja Frekwencja współwystapień Zasada działania 3 sposoby Metody statystyczne Będziemy odnotowywali współwystapienia w jednym zdaniu par obiektów powierzchniowych. Pierwszy element pary odnotowujemy jako nadrzędnik drugiego elementu. Przyjmijmy, że nadrzędniki zapamiętujemy z dokładnościa do relacji r, a podrzędniki s. Wtedy ilość współwystapień x i y oznaczmy przez ϕ r,s (x, y). Aby wyliczyć tę funkcję, analizujemy pewien korpus treningowy i dla każdej pary obiektów x 1 i y 1, które współwystępuja w jednym zdaniu, aktualizujemy wartości funkcji w następujacy sposób: ϕ r,s (x, y) := ϕ r,s (x, y) + υ(dist(x, y)).

Motywacja Ograniczenie łaczliwośći Zasada działania 3 sposoby Metody statystyczne O takim zdaniu jak Jadę szybko pociagiem. wiemy nie tylko, że jest fałszywe, lecz także że nawet nie znajac jego prawdziwej struktury, możemy pewne możliwości z góry wyeliminować. Mianowicie, szybko nie może być podrzędnikiem pociagiem, bo przysłówki nie określaja rzeczowników.

Reguły łaczliwości Motywacja Zasada działania 3 sposoby Metody statystyczne Aby uniknać wprowadzania niepotrzebnego szumu informacyjnego ograniczono zbieranie informacji za pomoca reguł łaczliwość. Np. <!-- dopelnienie--> <rule> <head> <synh ctag="verbfin Ppas ppas Imps imps"/> </head> <child> <synh ctag="noun subst Ger ger Ppron12 ppron12 Ppron3 ppron3:*:gen dat acc inst:*"/> </child> </rule>

Kolokacje Motywacja Zasada działania 3 sposoby Metody statystyczne Pewne wyrazy się lubia i ich przyjaźni nie da się wyrazić w terminach zwiazków między większymi klasami. nie zasypiać gruszek w popiele zjeść konia z kopytami Aby wychwycić takie przyjaźnie spamiętujemy współwystapienia za pomoca funkcji ϕ lex, lex. Taka procedurę nazywamy spamiętywaniem na poziomie kolokacji

Semantyka Motywacja Zasada działania 3 sposoby Metody statystyczne Innym razem wydaje się, że relacja zachodzi na poziomie klas semantyki, nie poszczególnych leksemów: kobieta w kapeluszu pieczeń z dzika

Semantyka Motywacja Zasada działania 3 sposoby Metody statystyczne Innym razem wydaje się, że relacja zachodzi na poziomie klas semantyki, nie poszczególnych leksemów: kobieta w kapeluszu pieczeń z dzika Używamy klas semantycznych ze Słowosieci. Funkcja przyjmuje postać ϕ lex, sem, gdzie sem def = ker(klasa_semantyczna π semh.base ) ker(π synth.tag )

Składnia Motywacja Zasada działania 3 sposoby Metody statystyczne Wiele regularnych połaczeń nie ma charakteru semantycznego: wysłać do Sopotu zobaczyć konia (kolegę, korelację, kowadło) Funkcja przyjmuje postać ϕ lex, synt, gdzie synt def = ker(π synth.tag )

Algorytm część 1. Motywacja Zasada działania 3 sposoby Metody statystyczne Dla każdego zdania Z w korpusie roboczym i każdego obiektu powierzchniowego x w zadaniu z niech P Z x = {y Z y x, poss(y, x)} Φ(Z, x, ξ) def = max ξ(y,x) λy. Px Z dist(y,x))

Algorytm część 2. Motywacja Zasada działania 3 sposoby Metody statystyczne for i := 1 to n do y := Φ(Z, x, ξ i ); if ξ i (y,x) próg i then return y;

Miary Motywacja Zasada działania 3 sposoby Metody statystyczne Skad wziać funkcję ξ. Wypróbowałem następujace miary: chi-kwadrat log likehood ratio pointwise mutual information z-score t-score frekwencja dystans Najlepsze wyniki daje oczywiście...

Miary Motywacja Zasada działania 3 sposoby Metody statystyczne Skad wziać funkcję ξ. Wypróbowałem następujace miary: chi-kwadrat log likehood ratio pointwise mutual information z-score t-score frekwencja dystans Najlepsze wyniki daje oczywiście... dystans

Algorytm część 3. Motywacja Zasada działania 3 sposoby Metody statystyczne Dlatego ostatecznie: for i := 1 to n do y := Φ(Z, x, ξ i ); if ξ i (y,x) próg i then return y; return Φ(Z, x, λx.1)

kolokacje chi-kwadrat

kolokacje llr

kolokacje z-score

kolokacje t-score

kolokacje pmi

semantyka chi-kwadrat

semantyka llr

semantyka z-score

semantyka t-score

semantyka pmi

składnia chi-kwadrat

składnia llr

składnia z-score

składnia t-score

składnia pmi

Motywacja Wykresy Liczby Dystans (dummy) osiaga wyniki dokładność: 0.6826 pełność: 0.8489 F:0.7567. Znalazł 8825 nadrzędników, z czego 7525 poprawnie. W 862 przypadkach wskazał nadrzędnik, choć żadna z możliwości nie była poprawna odpowiedzia (Px Z = )

Motywacja Wykresy Liczby Dystans (dummy) osiaga wyniki dokładność: 0.6826 pełność: 0.8489 F:0.7567. Znalazł 8825 nadrzędników, z czego 7525 poprawnie. W 862 przypadkach wskazał nadrzędnik, choć żadna z możliwości nie była poprawna odpowiedzia (Px Z = ) Najlepszy osiagnięty dotad wynik to: 0.6890 0.8574 0.7639. Zwycięski układ: kolokacje pmi 2.57264, semantyka z-score 0.821513, składnia pmi 1.98427.

Szczegółowe wyniki Motywacja Wykresy Liczby Szczegółowe wyniki: kolokacje: 84, semantyka: 494, składnia:185. W sumie 7551 dobrze rozpoznanych nadrzędników.

Szczegółowe wyniki Motywacja Wykresy Liczby Szczegółowe wyniki: kolokacje: 84, semantyka: 494, składnia:185. W sumie 7551 dobrze rozpoznanych nadrzędników. Ale jeśli policzyć tylko te, których nie rozpoznałby dummy: kolokacje: 8, semantyka: 49, składnia: 26.

Motywacja Pozytywny akcent na koniec Wykresy Liczby Spójrzmy od tej strony: jeśli nie brać pod uwagę tych 861 przypadków, gdy reguły wpuszczaja algorytm w maliny, to najlepszy układ daje w wyniku 94,76% dobrych przyporzadkowań.

Motywacja Pozytywny akcent na koniec Wykresy Liczby Spójrzmy od tej strony: jeśli nie brać pod uwagę tych 861 przypadków, gdy reguły wpuszczaja algorytm w maliny, to najlepszy układ daje w wyniku 94,76% dobrych przyporzadkowań. Dziękuję za uwagę!