Odpowiadanie na pytania z użyciem automatycznie zgromadzonej bazy pojęć

Podobne dokumenty

Odpowiadanie na pytania w języku polskim

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

WOLNE WYBORY I OKRĄGŁY STÓŁ Autor: Marcin Wierzbicki, kl. III d

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Analiza danych tekstowych i języka naturalnego

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Gramatyka TAG dla języka polskiego

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

Lokalizacja Oprogramowania

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Korpus Dyskursu Parlamentarnego

SQL - Structured Query Language -strukturalny język zapytań SQL SQL SQL SQL

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja

II. Wyszukiwanie złożone poprzez indeksy

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

Przestrzenne bazy danych Podstawy języka SQL

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Program warsztatów CLARIN-PL

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Struktura pliku wejściowego ipko biznes przelewy zagraniczne (MT103 / CSV)

Zasady pisania prac dyplomowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Szkolenie systemu POL-on

Architektury Usług Internetowych. Wyszukiwanie usług w systemie BeesyCluster

k INSTYTUT PODSTAW INFORMATYKI

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

PhD Programme in Sociology

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

SQL (ang. Structured Query Language)

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

APIO. W7 SPECYFIKACJA (UŻYCIA) DOSTĘPU DO DANYCH I SPOSOBU ICH PRZETWARZANIA 1. METODA CRUD 2. LOGIKA FUNKCJI

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO W KLASIE VII PODRĘCZNIK MEINE DEUTSCHTOUR ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE MEINE DEUTSCHTOUR KL.II gimnazjum

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Metody indeksowania dokumentów tekstowych

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

-stopień celujący -stopień bardzo dobry:

Text mining w programie RapidMiner Michał Bereta

INSTRUKCJA DLA NAUCZYCIELA

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Zasady programowania Dokumentacja

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Współczesna problematyka klasyfikacji Informatyki

Strona tytułowa jest standardowa i dostępna na:

SPRAWDZIAN Klucz punktowania zadań. C e n t r a l n a K o m i s j a E g z a m i n a c y j n a. w W a r s z a w i e

Język SQL. Rozdział 2. Proste zapytania

Struktura pliku wejściowego ipko biznes PLA/MT103

Przedstawię teraz tzw. podstawowe symbole wyrażenia regularne (BRE, Basic Regular Expression)

Field of study: Computational Engineering Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

IMIĘ I NAZWISKO... Wykorzystując wyszukiwarkę Google wykonaj poniższe polecenia:

Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA)

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Widzenie komputerowe (computer vision)

Kryteria wymagań na poszczególne oceny z języka niemieckiego dla klasy VII OCENA CELUJĄCA

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Podanym określeniom przyporządkuj wskaźnik bibliometryczny. Wskaźnik oceny czasopism. Wskaźnik oceny czasopism. Wskaźnik oceny czasopism

I PODZIAŁ TREŚCI. 3. Studium przypadku*

Maszynowe tłumaczenie Polskiego Języka Migowego

Zapytanie ofertowe nr 1/2016

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO W SZKOLE PODSTAWOWEJ NR 11 W JAWORZNIE NA PODSTAWIE PODRĘCZNIKA MEINE DEUTSCHTOUR 3

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Narodowe Czytanie - V edycja

INSTRUKCJA DLA NAUCZYCIELA

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Przedmiotowy system oceniania z języków obcych: j. angielski, j. niemiecki, j. włoski, j. hiszpański, j. rosyjski

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Lista ikonek stosowanych do oznaczenia róŝnych nośników:

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLASY 7 W ROKU SZKOLNYM 2017/2018. PODRĘCZNIK Meine Deutschtour.

Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Projektowanie (design) Eurostat

Co wylicza Jasnopis? Bartosz Broda

dr inż. Jarosław Forenc

Metody Kompilacji Wykład 3

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Wymagania edukacyjne na poszczególne oceny z języka niemieckiego MEINE DEUTSCHTOUR 3 OCENA CELUJĄCA GRAMATYKA I SŁOWNICTWO SPRAWNOŚĆ PISANIA

SciFinder Podstawy wyszukiwania

Field of study: Computer Science Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

dr inż. Jacek Naruniec

Identyfikacja znamion ukrytego plagiatu. Z wykorzystaniem IDEA Caseware

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Instrukcja obsługi dla studenta

OCENA CELUJĄCA ROZUMIENIE TEKSTU SPRAWNOŚĆ GRAMATYKA INNE UMIEJĘTNOŚCI I SŁUCHANEGO/ MÓWIENIA SPRAWNOŚĆ PISANIA

Transkrypt:

Odpowiadanie na pytania z użyciem automatycznie zgromadzonej bazy pojęć Piotr Przybyła IPI PAN 16 marca 2015 1 of 40

Plan prezentacji Wstęp System RAFAEL Głębokie rozpoznawanie nazw Ewaluacja Project co-financed by European Union within the framework of European Social Fund 2 of 40

Odpowiadanie na pytania (ang. Question Answering, QA, Q&A) zdolność systemu komputerowego do komunikacji z użytkownikiem w jego języku naturalnym prawie nieograniczone zastosowania przy zadawaniu odpowiednich pytań (Gdzie upadnie pocisk?, Czy jutro będzie padać?), główne problemy w obszarze przetwarzania języka naturalnego (NLP) i wyszukiwania informacji tekstowych (IR & IE), poszukiwana informacja uznawana za daną w bazie wiedzy, postrzegane jako oczywista przyszłość komputerów w kulturze popularnej. 3 of 40

Pytania Pytania o proste fakty (ang. factoids), tj. osoby, miejsca, nazwy, etc. bez rozumowania lub obliczeń (Jaki jest największy kraj spośród tych, które wydają więcej niż 10% PKB na zbrojenia?), poprawne składniowo pytania w języku polskim, odpowiedzi zawarte są (być może przeformułowane) w bazie wiedzy, nie oczekujemy definicji, wyjaśnień czy innych rozbudowanych odpowiedzi (Czym jest globalne ocieplenie?). Niekoniecznie tylko nazwy własne (ang. named entities)! Jeden z dziesięciu Jak nazywa się wzgórze w Paryżu na którym zbudowano bazylikę Sacré-Cœur? Kim zajmuje się wiktymologia? W którym kabarecie występuje Katarzyna Pakosińska? Która roślina w Inwokacji Pana Tadeusza Adama Mickiewicza pałała panieńskim rumieńcem? Jak nazywał się niemiecki teolog, który ogłosił 95 tez, krytykując sprzedawanie odpustów na rzecz budowy bazyliki Św. Piotra? Jak długo trwa prezydencja państwa w Unii Europejskiej? Co jest stolicą Tajwanu? 4 of 40

Przykład konfrontacji Kiedy Albert Einstein opublikował ogólną teorię względności? 25 listopada 1915 r. Einstein opublikował swoją najważniejszą pracę: ogólną teorię względności. Kiedy Albert Einstein opublikował szczególną teorię względności? Rok 1905 jest określany jako Annus mirabilis (cudowny rok) Einsteina. Wtedy ten nieznany w środowisku fizyków szwajcarski urzędnik patentowy opublikował kilka prac przełomowych dla fizyki. Jego publikacja Zur Elektrodynamik bewegter Körper ( O elektrodynamice ciał w ruchu ) wprowadza nową teorię, nazwaną później szczególną teorią względności, która... 5 of 40

Odpowiedzi Cztery poziomy udzielania odpowiedzi: 1. Wskazanie dokumentu zawierającego odpowiedź, (Wikipedia:Albert Einstein) 2. Fragment tekstu, (jedno lub więcej zdań, jak w przykładzie) 3. Tylko jedna nazwa, (25 listopada 1915 r.) 4. Pełne zdanie. (Albert Einstein opublikował ogólną teorię względności 25 listopada 1915 r.) Information Retrieval (IR) vs. Information Extraction (IE). 6 of 40

Odpowiadanie na poziomie nazw W konsekwencji wyższe wymagania względem: analizy pytania, (precyzyjne określenie typu poszukiwanej nazwy) wyboru odpowiedzi, (wyodrębnienie nazwy zadanego typu w tekście źródłowym) ewaluacji. (weryfikacja zgodności odpowiedzi uwzględniająca wielość sformułowań) = główne ograniczenia projektu RAFAELa. 7 of 40

RApid Factoidal Answer Extracting algorithm system odpowiadania na pytania bez ograniczeń dziedziny na podstawie tekstowej bazy wiedzy, opiera się na bazie narzędzi językowych opracowanych wokół NKJP (i nie tylko), budowany dla celów badawczych wielowariantowy, udziela odpowiedzi, podając nazwę poszukiwanego bytu. [Przybyła, 2013b, Przybyła, 2012, Przybyła, 2013a] 8 of 40

Uproszczony schemat architektury RAFAELa DOKUMENTY ZDANIA WZMIANKI WYBÓR WZMIANKI FORMUŁOWANIE ODPOWIEDZI 9 of 40

Analiza pytania Służy przetworzeniu zdania pytającego na model pytania (Stolicą którego państwa jest Chartum?): Typ pytania jaka informacja poszukiwana? Ogólny typ ze względu na sposób szukania odpowiedzi NAMED ENTITY. Typ nazwy własnej do narzędzi rozpoznających nazwy własne CITY. Synset centrum do głębokiego rozpoznawania nazw <stolica.1, miasto stołeczne.1>. Zapytanie do wyszukania dokumentów zgodnych z tematem (stolica państwo jest Chartum) 1. Treść pytania słowa oczekiwane w kontekście odpowiedzi {stolica, jest, Chartum}. 10 of 40

Określenie typu pytania Która rosyjska łódź podwodna zatonęła w 2000 roku wraz z całą załogą? Zaimek pytajny Centrum pytania pierwsza grupa nominalna (rosyjska (łódź podwodna)) przeszukiwanie WordNetu Brak synsetów centrum semantyczne (łódź podwodna) Typ pytania przeszukiwanie WordNetu {łódź podwodna 1} hiperonim Typ ogólny: Typ nazwy własnej: Synset centrum: 11 of 40 NAMED_ENTITY VEHICLE {łódź podwodna 1} hiperonim {środek lokomocji 1, środek transportu 1}...

Budowa zapytania do wyszukiwania 1. Usunięcie elementów konstrukcyjnych (którego,?), 2. Zachowanie centrum pytania (państwa), 3. Połączenie operatorem alternatywy (stolica państwo jest Chartum) 1. 4. Rozmyte dopasowywanie fuzzy term matching w Lucene: dopasowanie, gdy dwa słowa w odległości edycyjnej Levenshteina co najwyżej 3, przy czym pierwsze (n-3) znaków zgodne. Zapytanie skierowane do indeksu Lucene, z listy rankingowej wybieramy pierwszych N dokumentów do dalszej analizy. 12 of 40

Rozpoznawanie nazw 1. Bazujące na wcześniejszym znakowaniu narzędziami NER: 1.1 Nerf 0.1 13 typów nazw (z zagnieżdżeniami) 1.2 Liner2 2.3 56 typów nazw (można zredukować do 5 dla lepszej precyzji) 2. Własne narzędzie do rozpoznawania liczb i wielkości (Quant), 3. Głębokie rozpoznawanie nazw (DeepER), 4. Rozwiązanie hybrydowe, łączące wzmianki ze wszystkich źródeł. 13 of 40

Mapowanie typów (fragment) Typ NE pytania Typ Nerf Typ Liner2 Typ Quant CONTINENT continent nam LAKE MOUNTAIN geogname ARCHIPELAGO SEA sea nam PERSON persname NAME persname:forename person nam SURNAME persname:surname BAND orgname band nam DYNASTY persname:addname ORGANISATION orgname organization nam institution nam political party nam EVENT event nam TIME CENTURY YEAR COUNT date QUANTITY 14 of 40 VEHICLE number quantity

Wybór wzmianki 1. Wybór kontekstu: 1.1 zdanie zawierające wzmiankę, 1.2 usunięta treść wzmianki, 1.3 dodany tytuł dokumentu (anafory). 2. Pomiar podobieństwa treści pytania i kontekstu odpowiedzi. 3. Wybór wzmianki o najwyższej wartości. Indeks podobieństwa Jaccarda: Ważony IDF-ami słów: 15 of 40 J(A, B) = A B A B, i A B Sim w (A, B) = w i i A B w, w i = log D i max log j {d:i d} D {d:j d},

DeepER vs NER Głębokie rozpoznawanie nazw (ang. Deep Entity Recognition, DeepER) uogólnienie rozpoznawania nazw własnych przez zastąpienie kategorii przez precyzyjne synsety WordNet. bardziej precyzyjna selekcja wzmianek: Który europejski monarcha powrócił do kraju jako premier republiki? Symeon II = <car.1> = <monarcha.1, koronowana głowa.1> Nie: NAMED ENTITY:PERSON odpowiadanie na pytania spoza kategorii nazw własnych: 32% w JzD: zwierzęta, rasy, pojęcia abstrakcyjne, rośliny, substancje chemiczne, zwyczaje, procesy, tkanki, procesy historyczne, urządzenia, zjawiska społeczne, przedsiębiorstwa,... 16 of 40

Biblioteka nazw Gromadzi deskryptory bytów w następującym formacie (wpis #9751): główna nazwa: Bronisław Komorowski, inne nazwy (aliasy): Bronisław Maria Komorowski, Komorowski, synsety WordNet: <podsekretarz.1, podsekretarz stanu.1, wiceminister.1>, <wicemarszałek.1>, <polityk.1>, <wysłannik.1, poseł.1, posłaniec.2, wysłaniec.1, posłannik.1>, <marszałek.1>, <historyk.1>, <minister.1>, <prezydent.1, prezydent miasta.1>. Dla potrzeb RAFAELa stworzono bibliotekę składającą się z 809.786 bytów, opisanych przez 1.169.452 nazwy (975.592 różne) i 1.264.918 synsetów (31.545 różnych). 17 of 40

Budowa biblioteki Pozyskiwanie deskryptorów z encyklopedii, korzystając z: definicji: Lech Wałęsa (ur. 29 września 1943 w Popowie) polski polityk i działacz związkowy. Współzałożyciel i pierwszy przewodniczący Solidarności, opozycjonista w okresie PRL. Prezydent Rzeczypospolitej Polskiej w latach 1990 1995, laureat Pokojowej Nagrody Nobla (1983)[1], przez tygodnik Time uznany za Człowieka Roku (1981) oraz za jednego ze 100 najważniejszych ludzi stulecia (1999) stron przekierowań (dodatkowe nazwy), stron ujednoznaczniających (dodatkowe nazwy i definicje): Wałęsa: Lech Wałęsa (ur. 1943) przywódca Solidarności, Prezydent RP w latach 1990 1995, laureat Pokojowej Nagrody Nobla 18 of 40

Przykład Pierwszy akapit artykułu: Lech Wałęsa (ur. 29 września 1943 w Popowie) polski polityk i działacz związkowy. Współzałożyciel i pierwszy przewodniczący Solidarności, opozycjonista w okresie PRL. Prezydent Rzeczypospolitej Polskiej w latach 1990 1995, laureat Pokojowej Nagrody Nobla (1983)[1], przez tygodnik Time uznany za Człowieka Roku (1981) oraz za jednego ze 100 najważniejszych ludzi stulecia (1999). 19 of 40

Przykład Krok 1: usunięcie tekstu w nawiasach i cudzysłowach: Lech Wałęsa (ur. 29 września 1943 w Popowie) polski polityk i działacz związkowy. Współzałożyciel i pierwszy przewodniczący Solidarności, opozycjonista w okresie PRL. Prezydent Rzeczypospolitej Polskiej w latach 1990 1995, laureat Pokojowej Nagrody Nobla (1983)[1], przez tygodnik Time uznany za Człowieka Roku (1981) oraz za jednego ze 100 najważniejszych ludzi stulecia (1999). 20 of 40

Przykład Krok 2: wydobycie definicji na podstawie wzorca: (Lech Wałęsa) (polski polityk i działacz związkowy. Współzałożyciel i pierwszy przewodniczący, opozycjonista w okresie PRL. Prezydent Rzeczypospolitej Polskiej w latach 1990 1995, laureat Pokojowej Nagrody Nobla, przez tygodnik uznany za Człowieka Roku oraz za jednego ze 100 najważniejszych ludzi stulecia.) Oprócz myślników usuwane również wyrażenia takie, jak: jest to, to, jeden z, gatunek, etc. 21 of 40

Przykład Krok 3: podzielenie według separatorów: polski polityk i działacz związkowy. Współzałożyciel i pierwszy przewodniczący, opozycjonista w okresie PRL. Prezydent Rzeczypospolitej Polskiej w latach 1990 1995, laureat Pokojowej Nagrody Nobla, przez tygodnik uznany za Człowieka Roku oraz za jednego ze.... Separatory: średnik, przecinek i kropka (zdania!). 22 of 40

Przykład Krok 4: redukcja każdego fragmentu do grupy nominalnej: polski polityk i działacz związkowy Współzałożyciel i pierwszy przewodniczący opozycjonista w okresie PRL Prezydent Rzeczypospolitej Polskiej w latach 1990 1995 laureat Pokojowej Nagrody Nobla przez tygodnik uznany za Człowieka Roku oraz za jednego ze... Jeśli któryś z fragmentów nie zaczyna się grupą nominalną, to zostaje usunięty z analizy, wraz ze wszystkimi następnikami. 23 of 40

Przykład Krok 5: rozbicie grup koordynacyjnych: polski polityk i działacz związkowy Współzałożyciel i pierwszy przewodniczący opozycjonista Prezydent Rzeczypospolitej Polskiej laureat Pokojowej Nagrody Nobla 24 of 40

Przykład Krok 6: poszukiwanie odpowiedników w WordNecie: polski polityk = <polityk.1> działacz związkowy = <działacz.1, aktywista.1> Współzałożyciel = <współzałożyciel> pierwszy przewodniczący = <przewodniczący.1> opozycjonista = <opozycjonista.1> Prezydent Rzeczypospolitej Polskiej = <prezydent.1, prezydent miasta.1> laureat Pokojowej Nagrody Nobla = <laureat.1> Wykorzystanie głowy semantycznej każdej grupy. 25 of 40

Rozpoznawanie Poszukiwanie na żądanie wystąpień każdej z 1.169.452 nazw w badanym tekście, drzewo prefiksowe PATRICIA: Żródło: Wikipedia/Radix tree Dla odnalezionych nazw sprawdzenie zgodności z synsetem centrum czy zachodzi (pośrednia) hiperonimia? 26 of 40

Rozpoznawanie Problem z nazwami własnymi: często nierozpoznana struktura składniowa, jeszcze częściej błędne lematy. Dlatego trzy źródła nazw: 1. lematy grup składniowych i słów, 2. lematy pojedynczych segmentów, 3. formy ortograficzne słów. Dopasowanie dwóch łańcuchów zachodzi, gdy: wspólny prefiks, niedopasowane sufiksy nie dłuższe niż 3 znaki, wspólny prefiks stanowi większość każdego ze słów. 27 of 40

Automatyczna ewaluacja Problem: niezgodność odpowiedzi oczekiwanej z otrzymaną. Przykład: Kto jest obecnie prezydentem Polski? oczekiwano Bronisław Komorowski, otrzymano Komorowski. Rozwiązanie: głębokie rozpoznawanie nazw: 1. Pobranie listy bytów przypisanej do nazwy oczekiwanej (trzech BK: pisarz, ksiądz i polityk). 2. Pobranie wyniku rozpoznawania nazw na wybranej wzmiance (25 mężczyzn, osiem kobiet i dwie wsie). 3. Wybranie przecięcia zbiorów (dwóch BK: ksiądz i polityk). Niepuste przecięcie = odpowiedź zweryfikowana (nie ujednoznaczniona!). 28 of 40

Ewaluacja Dane: 1. korpus źródłowy: zawartość Wikipedii z 3 marca 2013, 900.000 artykułów, 2. pytania zbioru rozwojowego: 1130 pytań z teleturnieju Jeden z dziesięciu [Karzewski, 1997]. 3. pytania zbioru testowego: 576 pytań zespołu z PWr, na podstawie rubryki Czy wiesz...? Wikipedii [Marcińczuk et al., 2013]. 4. odpowiedzi opracowane ręcznie (+ artykuł źródłowy i typ pytania). Miary oceny: 1. pokrycie: udział pytań, na które udzielono jakiejkolwiek odpowiedzi, 2. precyzja: udział poprawnych odpowiedzi, 3. miara MRR: suma odwrotności pozycji prawidłowej odpowiedzi na liście rankingowej. 29 of 40

Przykładowe pytania z metadanymi Pytanie Typ pytania Artykuł źródłowy Odpowiedź W którym roku umarł Stefan Żeromski? NAMED ENTITY:YEAR Stefan Żeromski 1925 Jakie organella nadają barwę korzeniom marchwi? UNNAMED ENTITY Chromoplast Chromoplasty Jakiego wyznania jest większość mieszkańców Liechtensteinu? UNNAMED ENTITY Liechtenstein Katolicyzm Który z filozofów był twórcą atomizmu? NAMED ENTITY:PERSON Demokryt Demokryt z Abdery Czy Jacques Brel pochodził z Francji? TRUEORFALSE Jacques Brel Nie 30 of 40

Precyzja 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 Precyzja (poprawiony zbiór) Nerf liner2 DeepER 0.2 1 10 100 1000 Precyzja (bez zmian) 0.29 0.28 0.27 0.26 0.25 0.24 0.23 0.22 0.21 0.2 1 10 100 1000 31 of 40

Pokrycie Pokrycie (poprawiony zbiór) 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 1 10 100 1000 Pokrycie (bez zmian) 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 1 10 100 1000 32 of 40

Wyniki końcowe oddzielny zbiór pytań, nieużywany do tej pory, brak korekt, 20 dokumentów, ręczne sprawdzenie poprawności (+1-5% precyzji). Pokrycie Precyzja Miara F1 MRR Nerf 56.25% ± 2.12% 34.88% ± 2.73% 0.4306 ± 0.0213 33.66% ± 2.29% Liner2 45.31% ± 2.05% 39.08% ± 2.90% 0.4197 ± 0.0188 41.36% ± 2.70% DeepER 72.92% ± 1.88% 35.24% ± 2.23% 0.4751 ± 0.0214 32.80% ± 1.99% Hybrid 89.58% ± 1.24% 33.14% ± 2.01% 0.4838 ± 0.0221 35.57% ± 1.88% Odchylenie standardowe 500 prób zbioru testowego ze zwracaniem, obliczenie wariancji otrzymanych 500 wskaźników wydajności. 33 of 40

Wnioski Zgodnie z oczekiwaniami, technika DeepER znacząco polepsza pokrycie zbioru pytań, pytania poza nazwami własnymi, Różnica w precyzji ze zbioru rozwojowego nie utrzymuje się na zbiorze testowym, mniej pytań zawierających centrum, Liner2 zauważalnie lepiej wpływa na precyzję niż Nerf, bardziej szczegółowa kategoryzacja, Metoda hybrydowa obsługuje 90% pytań ze zbioru. pozostają pytania wymagające innych technik: VERIFICATION, WHICH, OTHER NAME, MULTIPLE. 34 of 40

Pytanie o nazwy ogólne Pytanie Centrum Odpowiedź Który żleb uważany jest za najbardziej lawiniasty w całych Karpatach? żleb Pusty Żleb Jaki owad pożera liście owadożernej rosiczki? owad Piórolotek bagniczek Jaki przyrząd pozwala na pomiar współczynnika załamania światła? przyrząd Refraktometr Abbego Jaki związek chemiczny służy do otrzymywania boru o wysokiej czystości? związek chemiczny Jodek boru Jaką metodą łamano szyfry Enigmy przed wynalezieniem cyklometru? metoda Metoda rusztu 35 of 40

Przyczyny błędów DeepER Brak ujednoznaczniania słów: słowa w treści definicji i pytań, nazwy, np. kot: zwierzę, teatr, jezioro, wieś, odznaka, 10 osób, etc. nazwy pozorne, np. nordycki bóg Od, NER Quant: ignorowanie typów wielkości, narzędzi NER: niedostateczna precyzja (małe dane treningowe), inne Rozbicie zwięzłej treści pytania na wiele zdań w artykule, Odmiana nazw własnych (!!!), Brak możliwości wyboru jednej nazwy w modelu bag of words. 36 of 40

Podsumowanie Powstał RAFEL pierwszy polski system QA udzielający odpowiedzi w formie nazw poszukiwanych bytów na podstawie bazy tekstowej. Wiele problemów wynika ze specyfiki języka: część ma proste rozwiązania (zapytania rozmyte przy wyszukiwaniu), część wymaga więcej pracy (dopasowywanie zdań). Uogólnienie modułu rozpoznawania nazw pozwoliło na polepszenie precyzji odpowiedzi i znaczące powiększenie zbioru obsługiwanych pytań, Opracowano metodę automatycznego generowania biblioteki bytów, kojarzącej nazwy z synsetami WordNet, na podstawie encyklopedii. 37 of 40

Efekty uboczne Zasoby powstałe przy okazji projektu, ale posiadające szersze zastosowanie: korpus wikipedii: 895.486 dokumentów, 169 milionów segmentów, 1,06 GB tekstu, znakowany automatycznie na poziomie segmentacji, tagowania, parsowania powierzchniowego i rozpoznawania nazw własnych (Nerf +Liner2), 22,9 GB (skompresowane), zestaw 1706 pytań o proste fakty z odpowiedziami ręcznie opracowanym na podstawie korpusu źródłowego, biblioteka bytów, zawierająca 809.786 pojęć, kojarzących nazwy i synsety WordNet, usprawniona wersja gramatyki lematyzującej grupy nominalne [Degórski, 2012]. 38 of 40

Degórski, L. (2012). Towards the Lemmatisation of Polish Nominal Syntactic Groups Using a Shallow Grammar. In Proceedings of the International Joint Conference on Security and Intelligent Information Systems, volume 7053 of Lecture Notes in Computer Science, pages 370 378. Springer-Verlag. Karzewski, M. (1997). Jeden z dziesięciu - pytania i odpowiedzi. Muza SA. Marcińczuk, M., Ptak, M., Radziszewski, A., and Piasecki, M. (2013). Open dataset for development of Polish Question Answering systems. In Proceedings of the 6th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. Wydawnictwo Poznańskie, Fundacja Uniwersytetu im. Adama Mickiewicza. Przybyła, P. (2012). Issues of Polish Question Answering. In Hryniewicz, O., Mielniczuk, J., Penczek, W., and Waniewski, J., editors, Proceedings of the first conference Information Technologies: Research and their Interdisciplinary Applications (ITRIA 2012), pages 122 139. Institute of Computer Science, Polish Academy of Sciences. Przybyła, P. (2013a). Question Analysis for Polish Question Answering. In 51st Annual Meeting of the Association for Computational Linguistics, Proceedings of the Student Research Workshop, pages 96 102, Sofia, Bulgaria. Association for Computational Linguistics. Przybyła, P. (2013b). Question Classification for Polish Question Answering. In Kłopotek, M. A., Koronacki, J., Marciniak, M., Mykowiecka, A., and Wierzchoń, S. T., editors, Proceedings of the 20th International Conference on Language Processing and Intelligent Information Systems (LP&IIS 2013), pages 50 56. Springer-Verlag. 39 of 40

40 of 40?