Porównywanie tagerów dopuszczajacych niejednoznaczności

Podobne dokumenty
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1


Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Testowanie hipotez statystycznych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Ekonometria. Zajęcia

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS VII-VIII

Część XVII C++ Funkcje. Funkcja bezargumentowa Najprostszym przypadkiem funkcji jest jej wersja bezargumentowa. Spójrzmy na przykład.

29. Poprawność składniowa i strukturalna dokumentu XML

Wymagania edukacyjne. Opracowano na podstawie planu wynikowego nauczania języka włoskiego w szkole ponadgimnazjalnej na

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Wyszukiwanie binarne

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

Priorytetyzacja przypadków testowych za pomocą macierzy

BADANIE DIAGNOSTYCZNE W ROKU SZKOLNYM 2011/2012

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Co wylicza Jasnopis? Bartosz Broda

Wymagania edukacyjne język włoski

Komentarz Sesja letnia zawód: zawód: technik elektronik 311 [07] 1. Treść zadania egzaminacyjnego wraz z załącznikami.

Barycentryczny układ współrzędnych

Poprawność semantyczna

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

Scoring kredytowy w pigułce

KASK by CTI. Instrukcja

Rozszerzanie ontologii nazw geograficznych

Agnieszka Nowak Brzezińska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Przykład 1: Funkcja jest obiektem, przypisanie funkcji o nazwie function() do zmiennej o nazwie funkcja1

Wymagania edukacyjne Klasa I liceum język włoski

III. ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

ZASADY WEWNĄTRZSZKOLNEGO OCENIANIA Z JĘZYKA WŁOSKIEGO W VII KLASIE SZKOŁY PODSTAWOWEJ

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Przedmiotowe Zasady Oceniania z Informatyki w Szkole Podstawowej nr 4 z Oddziałami Dwujęzycznymi im. Wojciecha Korfantego w Mysłowicach

Zapisywanie w wybranej notacji algorytmów z warunkami i iteracyjnych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

NA PODSTAWIE PODRĘCZNIKA DAS IST DEUTSCH

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++

Język rachunku predykatów Formuły rachunku predykatów Formuły spełnialne i prawdziwe Dowody założeniowe. 1 Zmienne x, y, z...

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKÓW OBCYCH OKREŚLENIE WYMOGÓW I SPOSOBY SPRAWDZANIA OSIĄGNIĘĆ EDUKACYJNYCH Z JĘZYKÓW OBCYCH

Lab 9 Podstawy Programowania

SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Sprawozdanie z laboratoriów HTK!

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Po uruchomieniu programu nasza litera zostanie wyświetlona na ekranie

Język niemiecki PRZEDMIOTOWY SYSTEM OCENIANIA realizowanego w oparciu o podręcznik Das ist Deutsch

Statystyka i eksploracja danych

Rachunek prawdopodobieństwa i statystyka

biegle i poprawnie posługuje się terminologią informatyczną,

Modele długości trwania

Rozdział 4 KLASY, OBIEKTY, METODY

Wymagania dotyczące sprawozdań. Proszę przeczytać uważnie i zastosować się do niżej wymienionych wskazówek.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Zmienna losowa i jej rozkład Dystrybuanta zmiennej losowej Wartość oczekiwana zmiennej losowej

EGZAMIN MAGISTERSKI, czerwiec 2015 Biomatematyka

JEZYKOZNAWSTWO. I NAUKI O INFORMACJI, ROK I Logika Matematyczna: egzamin pisemny 11 czerwca Imię i Nazwisko:... FIGLARNE POZNANIANKI

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

EKSPERYMENT PRACODAWCA PRACOWNIK oparty na eksperymencie Gift Exchange Game (Fehr, Kirchsteiger and Riedl 1993)

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Matematyka ubezpieczeń majątkowych r.

Statystyka. Wykład 11. Magdalena Alama-Bućko. 21 maja Magdalena Alama-Bućko Statystyka 21 maja / 31

Agnieszka Nowak Brzezińska Wykład III

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska

Języki programowania zasady ich tworzenia

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Zarządzanie ryzykiem finansowym

Oprogramowanie ILUO Biznes pozwala na jednoczesne zarządzanie wieloma sklepami Internetowymi zbudowanymi na oprogramowaniu różnych producentów.

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Wymagania edukacyjne z przedmiotu: JĘZYK NIEMIECKI dla klas trzecich. Klasy 3

Przedmiotowy System Oceniania z języka niemieckiego. Systemem Oceniania Gimnazjum nr 3 im. Marszałka Józefa Piłsudskiego w Warszawie.

Zmienność wiatru w okresie wieloletnim

Analiza efektywności przetwarzania współbieżnego

Charakterystyki oraz wyszukiwanie obrazów cyfrowych

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Przedmiotowy system oceniania - ocenianie na lekcjach języka niemieckiego w LO Sióstr Prezentek im. Jana Pawła II w Rzeszowie

Program warsztatów CLARIN-PL


SZTUCZNA INTELIGENCJA

Instrukcja dla Uczelnianego Administratora Systemu Antyplagiatowego Plagiat.pl

Wymagania edukacyjne - język francuski Grupa FIII/1 Podręcznik: Le Nouveau Taxi 2 jednostki 5-9

Transkrypt:

Porównywanie tagerów dopuszczajacych niejednoznaczności (na przykładzie tagerów wykorzystanych w Korpusie IPI PAN) 3 listopad 2008

Plan prezentacji 1 Wprowadzenie Problem niejednoznaczności Poprawna interpretacja 2 3 Omówienie

Intepretacje morfosyntktyczne Problem niejednoznaczności Poprawna interpretacja Każdemu segmentowi w tekście możemy przypisać znacznik (lub, w wypadku segmentów o kilku możliwych interpretacjach, kilka znaczników) morfosyntaktyczny interpretujacy dany segment np.: a Pamiętam go pijanego (Biernik) b Widziałam ja pijana. (Biernik, Narzędnik)

Oznaczenia Problem niejednoznaczności Poprawna interpretacja Wprowadźmy następujace oznaczenia: - s - segment, t - intepretacja morfosyntaktyczna, - S s - zbiór wszystkich segmentów w danym tekście - S (s,t) -zbiór wszystkich par segment - interpretacja, - I X (s) - zbiór intepretacji morfosyntaktycznych przypisanych segmentowi s przez metodę X, { 1 jeśli t IX (s) - i X (s, t) =, 0 wpp - ZS - złoty standard - Ti - tager Ti

Problem niejednoznaczności Poprawna interpretacja Przypisywanie segmentom intepretacji morfosyntaktycznych przez tager Załóżmy, że zarówno złoty standard jak i tager dopuszczaja kilka znaczników. Rozpatrzmy następujace przypadki: s t ZS T1 T2 T3 pijanego gen 0 0 1 1 acc 1 1 0 1 s t ZS T1 T2 T3 T4 pijana ppas 0 0 0 1 1 adj:acc 1 1 0 1 1 adj:inst 1 1 1 1 0

Problem niejednoznaczności Poprawna interpretacja Przypisywanie segmentom intepretacji morfosyntaktycznych przez tager Możliwe przypisanie interpretacji przez tager Ti : I ZS (s) = I Ti (s) I ZS (s) I Ti (s) I ZS (s) I Ti (s) I ZS (s) I Ti (s) I ZS (s) I Ti (s) =

Poprawna intepretacja Problem niejednoznaczności Poprawna interpretacja Oczywiście chcemy, aby nasz tager dla każdego segmentu s zachowywał się tak, że I ZS (s) = I Ti (s). Co z pozostałymi sytuacjami? Czy możemy je czasem uznać za wystarczajaco dobre? tager jest baza dla parsera składniowego (I ZS (s) I Ti (s)) tager regułowy jest baza dla tagera stochastycznego (I ZS (s) I Ti (s))

Poprawna intepretacja Problem niejednoznaczności Poprawna interpretacja Oczywiście chcemy, aby nasz tager dla każdego segmentu s zachowywał się tak, że I ZS (s) = I Ti (s). Co z pozostałymi sytuacjami? Czy możemy je czasem uznać za wystarczajaco dobre? tager jest baza dla parsera składniowego (I ZS (s) I Ti (s)) tager regułowy jest baza dla tagera stochastycznego (I ZS (s) I Ti (s))

Poprawna intepretacja Problem niejednoznaczności Poprawna interpretacja Oczywiście chcemy, aby nasz tager dla każdego segmentu s zachowywał się tak, że I ZS (s) = I Ti (s). Co z pozostałymi sytuacjami? Czy możemy je czasem uznać za wystarczajaco dobre? tager jest baza dla parsera składniowego (I ZS (s) I Ti (s)) tager regułowy jest baza dla tagera stochastycznego (I ZS (s) I Ti (s))

Definicje miar Poprawność (ang. correctness) c(ti, S s ) = {s S s : I ZS (s) = I Ti (s)} S s Trafność (ang. accuracy) 100% acc(ti, S (s,t) ) = {(s, t) S (s,t) : i ZS (s, t) = i Ti (s, t)} 100% S (s,t) Dokładność (ang. precision) P(Ti, S (s,t) ) = {(s, t) S (s,t) : i ZS (s, t) = 1 i Ti (s, t) = 1} {(s, t) S (s,t) : i Ti (s, t) = 1}

Definicje miar (2) Pełność (ang. recall) R(Ti, S (s,t) ) = {(s, t) S (s,t) : i ZS (s, t) = 1 i Ti (s, t) = 1} {(s, t) S (s,t) : i ZS (s, t) = 1} F 1 F(α, Ti, S (s,t) ) = 1 α P(Ti,S (s,t) ) + (1 α) 1 R(Ti,S (s,t) ) F(2, Ti, S (s,t) ) = 2P(Ti, S (s,t))r(ti, S (s,t) ) P(Ti, S (s,t) ) + R(Ti, S (s,t) )

Najczęśćiej stosowane miary Miary najczęśćiej stosowane przy ewaluacji tagerów dopuszczajacych niejednoznaczności: Przy ewaluacji korpusu Penn Treebank Brown (dopuszcza niejednoznaczności) stosowano miarę poprawność. Do ewaluacji tagerów wykorzystywanych w korpusie IPI PAN stosowano najczęściej miarę trafność.

Przykład 1 s t ZS T1 T2 s1 z1 1 1 1 z2 1 0 1 z3 0 0 0 s2 x1 0 0 1 x2 1 1 0 x3 1 0 0 s3 y1 0 0 1 y2 1 1 0 Y3 1 0 0 c(t 1, S s ) = 0% < c(t 2, S s ) = 33, (3)% acc(t 1, S (s,t) ) = 66, (6)% > acc(t 2, S (s,t) ) = 33, (3)%

Przykład 2 s t ZS T1 T2 liczba s1 z1 1 0 1 2 z2 0 1 0 z3 0 1 0 z4 0 1 0 s2 x1 0 0 1 3 x2 1 1 0 c(t 1, S s ) = 60% > c(t 2, S s ) = 40% acc(t 1, S (s,t) ) = 6/14 100% < acc(t 2, S (s,t) ) = 8/14 100%

Przykład 1 (jeszcze raz) s t ZS T1 T2 s1 z1 1 1 1 z2 1 0 1 z3 0 0 0 s2 x1 0 0 1 x2 1 1 0 x3 1 0 0 s3 y1 0 0 1 y2 1 1 0 Y3 1 0 0 P(T 1, S (s,t) ) = 1 > P(T 2, S (s,t) ) = 1 2 R(T 1, S (s,t) ) = 1 2 > R(T 2, S (s,t)) = 1 3 F (1/2, T 1, S (s,t) ) = 2 3 > F(1/2, T 2, S (s,t)) = 2 5

Przykład 2 (jeszcze raz) s t ZS T1 T2 liczba s1 z1 1 0 1 2 z2 0 1 0 z3 0 1 0 z4 0 1 0 s2 x1 0 0 1 3 x2 1 1 0 P(T 1, S (s,t) ) = 1 3 < P(T 2, S (s,t)) = 2 5 R(T 1, S (s,t) ) = 3 5 > R(T 2, S (s,t)) = 2 5 F (1/2, T 1, S (s,t) ) = 3 7 > F(1/2, T 2, S (s,t)) = 2 5

Przykład 3a s t ZS T1 T2 s1 z1 1 0 1 z2 1 1 1 z3 0 1 0 s2 x1 0 0 1 x2 1 1 0 c(t 1, S s ) = c(t 2, S s ) = 50% acc(t 1, S (s,t) ) = acc(t 2, S (s,t) ) = 60% P(T 1, S (s,t) ) = P(T 2, S (s,t) ) = 2 3 R(T 1, S (s,t) ) = R(T 2, S (s,t) ) = 2 3 F (1/2, T 1, S (s,t) ) = F(1/2, T 2, S (s,t) ) = 2 3

Przykład 3b s t ZS T1 T2 liczba s1 z1 1 0 1 10 z2 1 1 1 z3 0 1 0 s2 x1 0 0 0 80 x2 1 1 1 s3 x1 0 0 1 10 x2 1 1 0 c(t 1, S s ) = c(t 2, S s ) = 90% acc(t 1, S (s,t) ) = acc(t 2, S (s,t) ) = 190 210 100% P(T 1, S (s,t) ) = P(T 2, S (s,t) ) = 100 110 R(T 1, S (s,t) ) = R(T 2, S (s,t) ) = 100 110 F (1/2, T 1, S (s,t) ) = F(1/2, T 2, S (s,t) ) = 100 110

Spostrzeżenia Przykłady 1 i 2 pokazuja, że miary trafność i poprawność moga dawać mylace wyniki. Na trafność duży wpływ maja poprawnie rozpoznane błędne interpretacje. Dokładność i pełność sa czułe na małe zmiany poprawnie rozpoznanych jako dobre i błednie rozpoznanych interpretacji. Sterujac parametrem α możemy decydować czy bardziej zależy nam na dokładności czy na pełności. Przykłady 3a i 3b pokazuja, że zdefiniowane miary okazuja się czasami niewystarczajace.

Wnioski Czy fakt, że zdefiniowane miary okazuja się niewystarczajace, stanowi problem? Tak: jeśli segmentów, dla których dopuszczamy więcej niż jedna poprawna interpretację, jest istotnie dużo.

Wnioski Czy fakt, że zdefiniowane miary okazuja się niewystarczajace, stanowi problem? Tak: jeśli segmentów, dla których dopuszczamy więcej niż jedna poprawna interpretację, jest istotnie dużo.

Dokładność i pełność segmentów Dokładność segmentu Pełność segmentu P(Ti, s) = I Ti(s) I ZS (s) I Ti (s) R(Ti, s) = I Ti(s) I ZS (s) I ZS (s)

Przykład 3b (jeszcze raz) s t ZS T1 T2 liczba s1 z1 1 0 1 10 z2 1 1 1 z3 0 1 0 s2 x1 0 0 0 80 x2 1 1 1 s3 x1 0 0 1 10 x2 1 1 0 P(T 1, s) P(T 2, s) R(T 1, s) R(T 2, s) s1 1/2 1 1/2 1 s2 1 1 1 1 s3 1 0 1 0 E( ) 95/100 90/100 95/100 90/100

Potraktujmy P(Ti, ) i R(Ti, ) jako zmienne losowe. Możemy wtedy m.in. policzyć: jaki procent segmentów ma R(Ti, s) > 0.5 E(P(Ti, s)), E(R(Ti, s)) oraz Var(P(Ti, s)), Var(P(Ti, s)) Porównywać dystrybuanty (np.: metoda QQ plot) Porównywać interesujace nas warunkowe zmienne losowe

Czemu policzenie dokładności i pełności segmentów może być interesujace? Na miary dokładność i pełność duży wpływ maja segmenty, dla których dopuszczamy więcej niż jedna poprawna iterpretację Miary pełność i dokładność segmentu nie sa czułe na segmenty z wieloma poprawnymi interpretacjami Kiedy tworzymy nowe narzędzie korzystajace z tagera chcielibyśmy wiedzieć np. czy błędy sa skupione (Var(P(Ti, s)) większa) Pozwalaja odpowiedzieć na pytanie czy średnio I ZS (s) I Ti (s)?

Wyniki (całość) Omówienie Plik etc: Plik frek:

Omówienie Wyniki (bez znaków interpunkcyjnych) Plik etc: Plik frek:

Wyniki (POS) Omówienie Plik etc: Plik frek:

Uwagi Omówienie Aby tagsety stosowane przez tagery i złoty standard był takie same rzutowaliśmy je Przy obliczeniach uwzględniamy tylko te segmenty, które sa takie same wg. złotego standardu i danego tagera Obliczenia zostana powtórzone, gdy na nowo wytrenuje się tagery

KONIEC DZIEKUJ E ZA UWAGE