Motywacja Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim Seminarium IPI PAN, 03.01.2011
Outline Motywacja 1 Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna 2 Zasada działania 3 sposoby Metody statystyczne 3 Wykresy Liczby
Motywacja Poziomy anotacji w NKJP Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Rozważamy następujace poziomy anotacji: anotacja morfosyntaktyczna, anotacja składniowa małe grupy, co wyżej?
Anotacja składniowa Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Gramatyka w Spejdzie (wersja z 16 sierpnia; wizualizacja wyników działania gramatyki w TrEdzie):
Definicja Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Porzadana własność: równoważność dystrybucyjna. Jeżeli grupę zastapić jej głowa, zdanie nie powino stracić sensu i powinno pozostać poprawne. α = Jesteśmy na (bardzo interesujacym seminarium).
Definicja Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Porzadana własność: równoważność dystrybucyjna. Jeżeli grupę zastapić jej głowa, zdanie nie powino stracić sensu i powinno pozostać poprawne. α = Jesteśmy na (bardzo interesujacym seminarium). β = Jesteśmy na seminarium. Rzeczywiście, w każdym modelu, w którym spełnione jest α, zachodzi też β.
Język płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Np. frazeologizmy cechuje tak zwana nieciagłość składu. Rozważmy: α = Wygłoszenie tej prezentacji to dla mnie (bułka z masłem).
Język płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Np. frazeologizmy cechuje tak zwana nieciagłość składu. Rozważmy: α = Wygłoszenie tej prezentacji to dla mnie (bułka z masłem). β = Wygłoszenie tej prezentacji to dla mnie bułka.
Podział płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Źródłem problemów może być też zły podział na obiekty powierzchniowe. α = Jesteśmy na bardzo (interesujacym seminarium).
Podział płata figle Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Źródłem problemów może być też zły podział na obiekty powierzchniowe. α = Jesteśmy na bardzo (interesujacym seminarium). β = Jesteśmy na bardzo seminarium.
Motywacja Poziomy anotacji Równoważność dystrybucyjna Anotacja ręczna Anotacja składniowa wynik wzorcowy ujednoznacznienie wykonane przez anotatorów
Motywacja Obiekt powierzchniowy Zasada działania 3 sposoby Metody statystyczne Obiekt powierzchniowy x (mała grupę lub wyraz składniowy) reprezentujemy jako rekord złożony z jego głów składniowej i semantycznej, a głowa to forma hasłowa leksemu i informacja morfosyntaktyczna. Np. { synh={base=przez, tag=prep:acc:nwok}, semh={base=balkon, tag=noun:sg:acc:m3} } Ponadto możemy te obiekty rozważać z różna dokładnościa. Np. uogólniamy je do poziomu leksemów, synsetów lub form morfosyntaktycznych.
Motywacja Zasada działania 3 sposoby Metody statystyczne Klasy abstrakcji obiektów powierzchniowych Uściślijmy: dzielimy zbiór obiektów przez pewna relację równoważności. Przykładowo, jeżeli wybierzemy relację przynależenia głowy semantycznej do jednego leksemu a lex b wtw, gdy a.semh.base = b.semh.base, lub równoważnie lex def = ker(π semh.base ) to otrzymamy algorytm wyszukiwania kolokacji (w pewnym sensie).
Motywacja Frekwencja współwystapień Zasada działania 3 sposoby Metody statystyczne Będziemy odnotowywali współwystapienia w jednym zdaniu par obiektów powierzchniowych. Pierwszy element pary odnotowujemy jako nadrzędnik drugiego elementu. Przyjmijmy, że nadrzędniki zapamiętujemy z dokładnościa do relacji r, a podrzędniki s. Wtedy ilość współwystapień x i y oznaczmy przez ϕ r,s (x, y). Aby wyliczyć tę funkcję, analizujemy pewien korpus treningowy i dla każdej pary obiektów x 1 i y 1, które współwystępuja w jednym zdaniu, aktualizujemy wartości funkcji w następujacy sposób: ϕ r,s (x, y) := ϕ r,s (x, y) + υ(dist(x, y)).
Motywacja Ograniczenie łaczliwośći Zasada działania 3 sposoby Metody statystyczne O takim zdaniu jak Jadę szybko pociagiem. wiemy nie tylko, że jest fałszywe, lecz także że nawet nie znajac jego prawdziwej struktury, możemy pewne możliwości z góry wyeliminować. Mianowicie, szybko nie może być podrzędnikiem pociagiem, bo przysłówki nie określaja rzeczowników.
Reguły łaczliwości Motywacja Zasada działania 3 sposoby Metody statystyczne Aby uniknać wprowadzania niepotrzebnego szumu informacyjnego ograniczono zbieranie informacji za pomoca reguł łaczliwość. Np. <!-- dopelnienie--> <rule> <head> <synh ctag="verbfin Ppas ppas Imps imps"/> </head> <child> <synh ctag="noun subst Ger ger Ppron12 ppron12 Ppron3 ppron3:*:gen dat acc inst:*"/> </child> </rule>
Kolokacje Motywacja Zasada działania 3 sposoby Metody statystyczne Pewne wyrazy się lubia i ich przyjaźni nie da się wyrazić w terminach zwiazków między większymi klasami. nie zasypiać gruszek w popiele zjeść konia z kopytami Aby wychwycić takie przyjaźnie spamiętujemy współwystapienia za pomoca funkcji ϕ lex, lex. Taka procedurę nazywamy spamiętywaniem na poziomie kolokacji
Semantyka Motywacja Zasada działania 3 sposoby Metody statystyczne Innym razem wydaje się, że relacja zachodzi na poziomie klas semantyki, nie poszczególnych leksemów: kobieta w kapeluszu pieczeń z dzika
Semantyka Motywacja Zasada działania 3 sposoby Metody statystyczne Innym razem wydaje się, że relacja zachodzi na poziomie klas semantyki, nie poszczególnych leksemów: kobieta w kapeluszu pieczeń z dzika Używamy klas semantycznych ze Słowosieci. Funkcja przyjmuje postać ϕ lex, sem, gdzie sem def = ker(klasa_semantyczna π semh.base ) ker(π synth.tag )
Składnia Motywacja Zasada działania 3 sposoby Metody statystyczne Wiele regularnych połaczeń nie ma charakteru semantycznego: wysłać do Sopotu zobaczyć konia (kolegę, korelację, kowadło) Funkcja przyjmuje postać ϕ lex, synt, gdzie synt def = ker(π synth.tag )
Algorytm część 1. Motywacja Zasada działania 3 sposoby Metody statystyczne Dla każdego zdania Z w korpusie roboczym i każdego obiektu powierzchniowego x w zadaniu z niech P Z x = {y Z y x, poss(y, x)} Φ(Z, x, ξ) def = max ξ(y,x) λy. Px Z dist(y,x))
Algorytm część 2. Motywacja Zasada działania 3 sposoby Metody statystyczne for i := 1 to n do y := Φ(Z, x, ξ i ); if ξ i (y,x) próg i then return y;
Miary Motywacja Zasada działania 3 sposoby Metody statystyczne Skad wziać funkcję ξ. Wypróbowałem następujace miary: chi-kwadrat log likehood ratio pointwise mutual information z-score t-score frekwencja dystans Najlepsze wyniki daje oczywiście...
Miary Motywacja Zasada działania 3 sposoby Metody statystyczne Skad wziać funkcję ξ. Wypróbowałem następujace miary: chi-kwadrat log likehood ratio pointwise mutual information z-score t-score frekwencja dystans Najlepsze wyniki daje oczywiście... dystans
Algorytm część 3. Motywacja Zasada działania 3 sposoby Metody statystyczne Dlatego ostatecznie: for i := 1 to n do y := Φ(Z, x, ξ i ); if ξ i (y,x) próg i then return y; return Φ(Z, x, λx.1)
kolokacje chi-kwadrat
kolokacje llr
kolokacje z-score
kolokacje t-score
kolokacje pmi
semantyka chi-kwadrat
semantyka llr
semantyka z-score
semantyka t-score
semantyka pmi
składnia chi-kwadrat
składnia llr
składnia z-score
składnia t-score
składnia pmi
Motywacja Wykresy Liczby Dystans (dummy) osiaga wyniki dokładność: 0.6826 pełność: 0.8489 F:0.7567. Znalazł 8825 nadrzędników, z czego 7525 poprawnie. W 862 przypadkach wskazał nadrzędnik, choć żadna z możliwości nie była poprawna odpowiedzia (Px Z = )
Motywacja Wykresy Liczby Dystans (dummy) osiaga wyniki dokładność: 0.6826 pełność: 0.8489 F:0.7567. Znalazł 8825 nadrzędników, z czego 7525 poprawnie. W 862 przypadkach wskazał nadrzędnik, choć żadna z możliwości nie była poprawna odpowiedzia (Px Z = ) Najlepszy osiagnięty dotad wynik to: 0.6890 0.8574 0.7639. Zwycięski układ: kolokacje pmi 2.57264, semantyka z-score 0.821513, składnia pmi 1.98427.
Szczegółowe wyniki Motywacja Wykresy Liczby Szczegółowe wyniki: kolokacje: 84, semantyka: 494, składnia:185. W sumie 7551 dobrze rozpoznanych nadrzędników.
Szczegółowe wyniki Motywacja Wykresy Liczby Szczegółowe wyniki: kolokacje: 84, semantyka: 494, składnia:185. W sumie 7551 dobrze rozpoznanych nadrzędników. Ale jeśli policzyć tylko te, których nie rozpoznałby dummy: kolokacje: 8, semantyka: 49, składnia: 26.
Motywacja Pozytywny akcent na koniec Wykresy Liczby Spójrzmy od tej strony: jeśli nie brać pod uwagę tych 861 przypadków, gdy reguły wpuszczaja algorytm w maliny, to najlepszy układ daje w wyniku 94,76% dobrych przyporzadkowań.
Motywacja Pozytywny akcent na koniec Wykresy Liczby Spójrzmy od tej strony: jeśli nie brać pod uwagę tych 861 przypadków, gdy reguły wpuszczaja algorytm w maliny, to najlepszy układ daje w wyniku 94,76% dobrych przyporzadkowań. Dziękuję za uwagę!