Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP



Podobne dokumenty
Analiza danych tekstowych i języka naturalnego

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznej analizy odniesień w tekstach

Lokalizacja Oprogramowania

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Program warsztatów CLARIN-PL

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Aproksymacja funkcji a regresja symboliczna

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Marcin Miłkowski IFiS PAN

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Szczegółowy opis przedmiotu zamówienia

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

WebSty otwarty webowy system do analiz stylometrycznych

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Projekt i implementacja systemu wspomagania planowania w języku Prolog

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Narzędzia do automatycznego wydobywania kolokacji

Inforex - zarządzanie korpusami i ich anotacja

Narzędzia do automatycznego wydobywania kolokacji

Porównywanie tagerów dopuszczajacych niejednoznaczności

Sprzętowo wspomagane metody klasyfikacji danych

System Korekty Tekstu Polskiego

AUTOMATYKA INFORMATYKA

Metody Kompilacji Wykład 1 Wstęp

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Maszynowe tłumaczenie Polskiego Języka Migowego

Metody Inżynierii Wiedzy

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Algorytmy klasyfikacji

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Informatyka wspomaga przedmioty ścisłe w szkole

Indukcja reguł gramatyki j. polskiego

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

POZYCJONOWANIE STRONY SKLEPU

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

11 Probabilistic Context Free Grammars

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Stronicowanie w systemie pamięci wirtualnej

Architektura komputerów

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Algorytmika i pseudoprogramowanie

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Tadeusz Pankowski

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Czytelnik w bibliotece cyfrowej

Pattern Classification

Uczenie sieci radialnych (RBF)

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Analiza znaczeniowa sterowana składnią

Semantyczne podobieństwo stron internetowych

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Kurs języka Python Wykład 8. Przetwarzanie tekstu Wyrażenia regularne Biblioteka urllib Parsowanie html'a XML

Zadanie projektowe nr 1

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Elementy modelowania matematycznego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Ocena pozycji szachowych w oparciu o wzorce

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

WYKŁAD 6. Reguły decyzyjne

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

Nierówność Krafta-McMillana, Kodowanie Huffmana

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI

Model semistrukturalny

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Wprowadzenie do baz danych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Złożoność obliczeniowa zadania, zestaw 2

Widzenie komputerowe (computer vision)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Zasady programowania Dokumentacja

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Transkrypt:

Outline 1 Narzędzia NLP Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus 2 Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego

Analiza morfosyntaktyczna Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Biblioteka OpenNLP (model Maximum Entropy). Korpus NKJP. Samo tagowanie, bez detekcji lematu. Modyfikacja algorytmu wyszukiwania najlepszego dopasowania (Beam search): ograniczenie pamięci do jednego najlepszego wyboru - sekwencyjne przypisywanie tagów, optymalizacja kodu - ograniczenie przeszukiwania przestrzeni tylko do tagów wskazanych jako poprawne przez słownik Polimirf-a.

Analiza morfosyntaktyczna Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Modelowanie kontekstu: Zdanie: Premiera spektaklu w teatrze. Wygenerowany kontekst (dla słowa spektaklu): default, w=spektaklu, suf=u, suf=lu, suf=klu, suf=aklu, pre=s, pre=sp, pre=spe, pre=spek, p=premiera, t=subst:sg:nom:f, pp=*sb*, n=w, nn=teatrze (MaxEnt - 50 iteracji): Algorytm PW PS PPW PPS W/s S/s Standard 0.913 0.117 0.930 0.140 4148.4 101.0 Standard-validated 0.979 0.663 0.992 0.982 8820.3 214.1 Optimized-validated 0.946 0.298 0.966 0.417 52236.0 1262.4 Czas uczenia (procesor Intel 4.5 GHz): ok 48 min.

Wyszukiwarka a formy podstawowe słów Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Potrzeba wyszukiwania bez uwzględnienia formy ortograficznej słów. premier, premiera, premierowi,... -> premier Duży wpływ błędnego przypisania formy podstawowej na wyniki wyszukiwania. Bardzo krótkie zapytania, często niezgodne ze składnia języka (lista słów kluczowych). W wielu przypadkach sprowadzanie do form podstawowych jest zadaniem ujednoznaczniania sensów słów.

Przykład Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Odmiana słowa damy damy dać fin:pl:pri:perf pospolita damy dama subst:pl:nom:f pospolita Przykład użycia damy brylowały na parkiecie damy podręczniki Odmiana słowa premier premiera premier subst:sg:acc:m1 pospolita premiera premiera subst:sg:nom:f pospolita Przykład użycia spotkanie premiera polski premiera spektaklu

Rozpoznawanie nazw własnych Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Projekt Liner2 - bazujacy na CRF (ang. Conditional Random Fields). Zastosowanie: indeksowanie wykrytych nazw własnych oraz premiowanie ich wystapienia w dokumentach, źródło relacji IS-A (tylko typ OSOBA) dla procesu tworzacego taksonomię. Problemy: niezadowalajaca jakość działania dla klas innych niż OSOBA, wysoka złożoność czasowa algorytmu - najdłużej działajacy proces anotacji dokumentów w systemie NEKST.

Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Wykrywanie fraz rzeczownikowych/czasownikowych Biblioteka OpenNLP (model Maximum Entropy). Dane treningowe: Korpus Języka Polskiego Politechniki Wrocławskiej. Kontekst budowany jedynie w oparciu o części mowy, lematy oraz formy ortograficzne. : Precyzja: 0.729 Przywołanie: 0.695 F-Miara: 0.712 Wynik anotacji wykorzystywany przez algorytm wykrywania faktów typu NP-VP-NP.

Parsowanie zależnościowe Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Zbiór treningowy opracowany w IPI PAN - 8004 zdania. Wykorzystane algorytmy: Malt Parser - szybki algorytm o złożoności liniowej. Mate-tools - lepsza jakość działania, większa złożoność. Zastosowanie: regułowy algorytm wykrywania faktów typu NP-VP-NP, regułowy algorytm wykrywania relacji IS-A (budowa taksonomii), składowa rankingu wyszukiwania, wykrywanie Question Focus w pytaniach.

Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Parsowanie zależnościowe - możliwe ulepszenia Lepsze wyniki po podłaczeniu metod generalizujacych znaczenie słów, np. poprzez grupowanie (brown clusters). Najnowsze podejście: połaczenie tagowania oraz parsowania zależnościowego w jednym algorytmie. Najczęściej realizacja dwuetapowa: wybór kilku najlepszych wariantów tagowania, a następnie wybór jednego maksymalizujacego prawdopodobieństwo rozkładu zależnościowego. Potrzebna spora ilość danych treningowych. Dostępne gotowe oprogramowanie: https://code.google.com/p/deepsyntacticparsing/.

Wykrywanie Question Focus Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus Zadanie: wykrycie w zapytaniu frazy określajacej przedmiot zapytania (ang. Question Focus). Przykład: W którym mieście urodził się Adam Mickiewicz? Zbiór treningowy opracowany w IPI PAN - 583 zdania. Zastosowano CRF (ang. Conditional Random Fields) - projekt Mallet http://mallet.cs.umass.edu/index.php. Kontekst: wynik analizy morfosyntaktycznej + wynik parsowania zależnościowego. Wyniki (precyzja): Idealne dopasowanie: 0.609 Część wspólna/podzbiór: 0.252 Użyteczna anotacja (idealne dopasowanie + Część wspólna/podzbiór): 0.861

Ekstrakcji relacji IS-A Zadanie: ekstrakcja relacji hiperonimii/hiponimii jest typu/należy do klasy z nieustrukturalizowanych danych tekstowych. Trójka (E 1,R,E 2 ), gdzie E 1, E 2 to frazy rzeczownikowe desygnujace obiekty/encje, a R to fraza czasownikowa desygnujaca relację hiperonimii/hiponimii. Podejścia do ekstrakcji relacji IS-A dziela się na dwie kategorie: w oparciu o wzorce tekstowe (najbardziej znane: reguły Hearsta, przykład "W spotkaniu udział wzięli piłkarze tacy jak: Jan Nowak, Jan Kowalski, którzy reprezentowali klub X"), w oparciu o informację statystyczna o współwystępowaniu fraz rzeczownikowych.

Ekstrakcja relacji IS-A w oparciu o wzorce!metody opierajace się na wzorcach pozwalaja uzyskać wyższa precyzję niż metody statystyczne. %Charakteryzuja się niższym przywołaniem (ekstrahowane relacje musza jawnie wystapić w tekście).

Ekstrakcja relacji IS-A w oparciu o wzorce nowe podejście Nowa metoda ekstrakcji relacji IS-A oparta o wzorce wykorzystanie narzędnikowej i mianownikowej odmiany frazy rzeczownikowej do identyfikacji relacji IS-A, wykorzystanie parsera zależnościowego do identyfikacji granic fraz rzeczownikowych bioracych udział w relacji. Liczba ekstrahowanych relacji jest dodatkowo zwiększana przy pomocy nowatorskiej metody nazwanej przez nas wzmacnianie pseudo-podklasami (pseudo-subclass boosting). Jest to metoda niezależna od wykorzystywanych wzorców, więc może być stosowana np. we wspomaganiu ekstrakcji regułami Hearsta.

metoda ekstrakcji Typowe konstrukcje wyrażajace hiperonimię w języku polskim: NP Nom 1 to NP Nom 2, (1) NP Nom 1 jest NP Abl 2. (2) Obie sa sposobami wyrażenia, że fraza rzeczownikowa NP 1 jest podklasą/instancją NP 2. konstrukcja 2 ma swój odpowiednik dla czasu przeszłego: NP Nom 1 był/była/było NP Abl 2. (3)

metoda ekstrakcji Narzędnik i mianownik sa w języku polskim łatwymi" przypadkami dla automatycznej anotacji, ponieważ: w mianowniku rzeczownik występuje w formie podstawowej, odmiana narzędnika dla rzeczowników jest regularna i ma unikalne końcówki: masculine feminine singular -em -a plural -ami (-mi) Tabela: Końcówki narzędnikowej odmiany rzeczownika w j. polskim

metoda ekstrakcji Proponujemy regułowe podejście do ekstrakcji relacji IS-A składajace się z następujacych kroków: 1 anotacja zdań częściami mowy i parsowanie zależnościowe, 2 wstępna selekcja drzew zależnościowych do ekstrakcji, 3 filtrowanie słownikowe głównego rzeczownika frazy NP 2, 4 zastosowanie reguł konstruujacych nazwę instancji z drzewa zależnościowego NP 1 i nazwę klasy z drzewa zależnościowego NP 2, 5 końcowe filtrowanie wyników.

wstępna selekcja drzew zależnościowych do ekstrakcji 1 Golden golden subst subst sg:nom:m3 3 subj 2 retriever retriever subst subst sg:nom:m2 1 app 3 jest być fin fin sg:ter:imperf 0 pred 4 psem pies subst subst sg:inst:m2 3 pd 5 myśliwskim myśliwski adj adj sg:loc:m3:pos 4 adjunct 6.. interp interp _ 3 punct Rysunek: Wynik parsowania zależnościowego dla zdania Golden retriever jest psem myśliwskim", format CoNLL.

Wstępna selekcja drzew zależnościowych do ekstrakcji Wstępna selekcja polega na wyborze tylko tych zdań, których drzewo zależnościowe pasuje do jednego ze zdefiniowanych wzorców. Fraza NP 1 konstruowana jest z lewego poddrzewa, a NP 2 z prawego poddrzewa.

wstępna selekcja drzew zależnościowych do ekstrakcji - konstrukcja mianownikowa form: dep: to pred dep: subj NP 1 pos: subst... dep: pd NP 2 pos: subst:nom... Rysunek: Wzorzec drzewa zależnościowego dla konstrukcji mianownikowej

wstępna selekcja drzew zależnościowych do ekstrakcji - konstrukcja mianownikowa (Malt parser) form: to dep: conjunct NP 1 pos: subst... dep: conjunct NP 2 pos: subst:nom... Rysunek: Wzorzec drzewa zależnościowego dla konstrukcji mianownikowej - błędne przypisanie relacji przez Malt parser

wstępna selekcja drzew zależnościowych do ekstrakcji form: dep: pos: jest pred fin dep: subj NP 1 pos: subst... dep: pd NP 2 pos: subst:inst... Rysunek: Wzorzec drzewa zależnościowego dla konstrukcji narzędnikowej

wstępna selekcja drzew zależnościowych do ekstrakcji - konstrukcja narzędnikowa form: dep: pos: był była było pred praet dep: subj NP 1 pos: subst... dep: pd NP 2 pos: subst:inst... Rysunek: Wzorzec drzewa zależnościowego dla konstrukcji (3)

Filtrowanie słownikowe głównego rzeczownika frazy NP 2 Odfiltrowanie zdań, w których głowa NP 2 jest terminem ogólnym, np.: Polska jest przykładem kraju nadbałtyckiego. Miasto jest tematem, na który można długo dyskutować.

Zastosowanie reguł konstruujacych frazy rzeczownikowe NP 1 [NP1 H -Golden retriever] jest NP 2[NP2 H -psem myśliwskim]. Konstruujemy NP 1 i NP 2 z lematów słów: NP 1 - stwórz listę lematów poczawszy od głowy NP1 H (to/jest), aż do relacji NP 2 - stwórz listę lematów poczawszy od głowy NP2 H a skończywszy na znaku interpunkcji lub słowie którego część mowy nie należy do zbioru {adj,subst,ger} lub część zdania do zbioru {adjunct, app, conjunct, obj}.,

Końcowe filtrowanie wyników Usuwanie relacji IS-A, w których NP 1 zawierajacych zaimki i odniesienia tekstowe typu powyższy/wspomniany (odniesienia do encji wymienionych wcześniej w tekście), zatrzymywanie tylko relacji z liczba wystapień powyżej zadanego progu t lub występujacych zarówno w konstrukcjach narzędnikowych jak i mianownikowych.

Wzmacnianie pseudo-podklasami Liczba ekstrahowanych relacji znaczaco spada przy rosnacym progu t. Równoważenie tej odbywa się przy pomocy metody opartej na następujacej intuicji: Intuicja Niech I IS-A C i I IS-A C będa wyekstrahowanymi relacjami oraz C będzie podciagiem C. Jest prawdopodobne, że, C jest bardziej szczegółowym typem I niż C, a więc C jest pseudo-podklasa C. Jeżeli tak, to możemy zwiększyć nasza pewność, że relacja I IS-A C jest poprawnie wyekstrahowana.

Wzmacnianie pseudo-podklasami przykład 1 Ze zdań: Kraków to najchętniej odwiedzane miasto przez turystów w Polsce. Kraków dawna stolica Polaków jest miastem magicznym. dostajemy relacje Kraków IS-A miasto i Kraków IS-A miasto magiczne, z których druga wspiera poprawność pierwszej.

Wzmacnianie pseudo-podklasami W ogólności, w celu wyliczenia wsparcia pseudo-podklasami dla każdej relacji R = I IS-A C generujemy listę L: list prefiksowych tokenów z C, list sufiksowych tokenów z C, które nie rozpoczynaja się od przymiotnika. W zadaniu Map/Reduce dla każdego R emitujemy (I,C) liczba wystapień R, c L ((I,c) liczba wystapień R) i agregujemy informację o liczbie wystapień podklas.

Wzmacnianie pseudo-podklasami przykład 2 mukowiscydoza IS-A 1. choroba 2. choroba dziedziczna 3. choroba genetyczna 4. choroba genetyczna ludzi rasy białej 5. choroba genetyczna ogólnoustrojowa 6. choroba genetyczna ras biała 7. choroba genetyczna układu pokarmowego 8. choroba monogenowa 9. choroba nieuleczalna 10. choroba przewlekła 11. choroba wielonarządowa 12. choroba wieloukładowa 13. wieloukładowa choroba 14. wieloukładowa choroba monogenowa 15. przyczyna wykonywania 16. przyczyna wykonywania przeszczepu płuca 17. schorzenie 18. schorzenie genetyczne Wiersz 13 jest przykładem wzmacniania lista sufiksowa. Wierze 2 12 wspieraja relację mukowiscydoza IS-A choroba, dodatkowo wierze 4 7 wspieraja relację mukowiscydoza IS-A choroba genetyczny, itd.

Środowisko testowe Eksperymenty przeprowadzono na korpusie 500 milionów dokumentów ściagniętych z polskiej części sieci Internet. Dane były przetwarzane przy pomocy technologii Apache Hadoop Map/Reduce oraz Apache Hive. Do obliczeń wykorzystano klaster 70 maszyn dysponujacy 980 rdzeniami CPU i łaczn a pamięcia operacyjna 4.375TB.

Eksperymenty scenariusz metody została przeprowadzona w czterech eksperymentach z rosnac a wartościa progu odcięcia t. Precyzja była wyliczana w oparciu o ręcza ocenę około 110 relacji wybranych losowo z wyników każdego z eksperymentów.

Eksperymenty wyniki t nom/pcb abl/pcb nom i abl/pcb łacznie zysk z pcb 1 1348993/0 1999418/0 32425/0 3380836 0% 2 95855/16879 198153/44875 32425/14886 403073 23% 3 33085/8361 69097/26083 32425/14886 183937 36% 4 17423/5247 35955/17420 32425/14886 123356 43% Tabela: Liczba ekstrahowanych relacji dla różnych wartości progu t. t 1 2 3 4 precyzja z pcb 0.61 0.72 0.79 0.81 precyzja bez pcb 0.61 0.71 0.87 0.87 Tabela: Szacowana precyzja ekstrakcji dla różnych wartości progu t. pcb - pseudo class boosting

Dla progu t = 2 wzmacnianie pseudo-podklasami daje 23% zysk w liczbie ekstrakcji przy braku widocznego spadku precyzji. Szacowana precyzja metody wzrasta dla rosnacego t, do poziomu około 80%. Dla t = 3 i t = 4 wzrost liczby ekstrakcji dzięki pseudo-podklasom jest okupiony dużym spadkiem precyzji.

analiza błędów Analiza przypadków błędnie zakwalifikowanych jako relacje IS-A wykazała trzy klasy błędów: niejawna koreferencja, błędne wyznaczenie granic fraz rzeczownikowych, stale rosnacy słownik służacy do wstępnego filtrowania.

Opracowana została nowa metoda ekstrakcji relacji IS-A ze wzorców dla języka polskiego, niezależna od popularnych reguł Hearsta. Opracowana została prosta lecz nowatorska metoda zwiększania liczby ekstrahowanych relacji (niezależna od stosowanego mechanizmu ekstrakcji) nazwana wzmacnianiem pseudo-podklasami. Jak wykazały eksperymenty, metoda osiaga zadowalajac a precyzję (chociaż jest pole do poprawy) i umożliwia ekstrahowanie dużej liczby relacji taksonomicznych.