Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008
Plan prezentacji 1 Ekstrakcja informacji (EI) 2 Zarys problemu 3 Istniejące rozwiązania i ich ograniczenia 4 Cel i zadania 5 Zakończenie gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 2 / 14
Definicje (1/2) Ekstrakcja informacji (EI) Ekstrakcja informacji jest to automatyczna identyfikacja wybranych typów bytów, relacji i zdarzeń w tekście [Grishman 2003]. Identyfikacja instancji bytów jest rozumiana jako identyfikacja fragmentów tekstu reprezentujących znane typy bytów. Np.: osoby (imiona i/lub nazwiska), firmy (nazwy), lokalizacje (nazwy miast, ulic), wyrażenia określającze czas, itp. Identyfikacja instancji relacji jest rozumiana jako identyfikacja instancji bytów, powiązanych znanym typem relacji, której wystąpienie opisane jest w tekście. Np.: Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzanie Akcjonariuszy na dzień 20 styczeń 2006. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 3 / 14
Definicje (1/2) Ekstrakcja informacji (EI) Ekstrakcja informacji jest to automatyczna identyfikacja wybranych typów bytów, relacji i zdarzeń w tekście [Grishman 2003]. Identyfikacja instancji bytów jest rozumiana jako identyfikacja fragmentów tekstu reprezentujących znane typy bytów. Np.: osoby (imiona i/lub nazwiska), firmy (nazwy), lokalizacje (nazwy miast, ulic), wyrażenia określającze czas, itp. Identyfikacja instancji relacji jest rozumiana jako identyfikacja instancji bytów, powiązanych znanym typem relacji, której wystąpienie opisane jest w tekście. Np.: Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzanie Akcjonariuszy na dzień 20 styczeń 2006. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 3 / 14
Definicje (1/2) Ekstrakcja informacji (EI) Ekstrakcja informacji jest to automatyczna identyfikacja wybranych typów bytów, relacji i zdarzeń w tekście [Grishman 2003]. Identyfikacja instancji bytów jest rozumiana jako identyfikacja fragmentów tekstu reprezentujących znane typy bytów. Np.: osoby (imiona i/lub nazwiska), firmy (nazwy), lokalizacje (nazwy miast, ulic), wyrażenia określającze czas, itp. Identyfikacja instancji relacji jest rozumiana jako identyfikacja instancji bytów, powiązanych znanym typem relacji, której wystąpienie opisane jest w tekście. Np.: Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzanie Akcjonariuszy na dzień 20 styczeń 2006. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 3 / 14
Definicje (2/2) Ekstrakcja informacji (EI) Identyfikacja instancji zdarzeń jest rozumiana jako identyfikacja instancji bytów, między którymi zaszły zmiany relacji będących instancjami znanych typów relacji (powstanie lub zanik relacji między bytami) oraz atrybuty tych zmian opisane w tekście. Np.: 10 stycznia 2006 siedziba Pol-Mot Warfama SA została przeniesiona z Krakowa do Warszawy. <FIRMA> Pol Mot Warfama SA 10 stycznia 2006 <FIRMA> Pol Mot Warfama SA <LOKALIZACJA> Kraków <LOKALIZACJA> Warszawa <LOKALIZACJA> Kraków <LOKALIZACJA> Warszawa mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 4 / 14
Ekstrakcja informacji (EI) System Ekstrakcji Informacji Definicja zadania ekstrakcji informacji Kolekcja tekstów dziedzinowych System Ekstrakcji Informacji Byty, relacje i zdarzenia Zasoby językowe mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 5 / 14
Ekstrakcja informacji (EI) Przykład ekstrakcji informacji Rozwiązanie umowy System Ekstrakcji Informacji Zarząd F.K.``POLLENA EWA`` S.A. podaje do publicznej wiadomości informację, iż w dniu 21 marca 2008 roku została podpisana z ING Bank Śląski S.A. z siedzibą w Katowicach umowa rozwiązująca umowę kredytową z dnia 14 lipca 2003 roku wraz z późniejszymi zmianami, na mocy której ING Bank Śląski S.A. udzielił emitentowi kredytu w wysokości 2.000.000 PLN. Umowa kredytowa została rozwiązana z dniem 21 marca 2008r. (...) Rozwiązanie umowy Kto: F.K.``POLLENA EWA`` S.A. Z kim: ING Bank Śląski S.A. Kiedy: 21 marca 2008 Przedmiot: kredyt 2.000.000 PLN mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 6 / 14
Ekstrakcja informacji (EI) Wzorce ekstrakcji informacji Wzorce są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. Przykład prostego wzorca zapisanego jako wyrażenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA) }{{} \wz\wsiedzibą\ww\w([a-z][a-z]*) }{{} firma Wynik dopasowania: lokalizacja Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzenia Akcjonariuszy (...). gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 7 / 14
Ekstrakcja informacji (EI) Wzorce ekstrakcji informacji Wzorce są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. Przykład prostego wzorca zapisanego jako wyrażenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA) }{{} \wz\wsiedzibą\ww\w([a-z][a-z]*) }{{} firma Wynik dopasowania: lokalizacja Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzenia Akcjonariuszy (...). gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 7 / 14
Ekstrakcja informacji (EI) Wzorce ekstrakcji informacji Wzorce są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. Przykład prostego wzorca zapisanego jako wyrażenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA) }{{} \wz\wsiedzibą\ww\w([a-z][a-z]*) }{{} firma Wynik dopasowania: lokalizacja Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzenia Akcjonariuszy (...). gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 7 / 14
Zarys problemu Kontekst problemu Dziedzina spółek giełdowych: emitenci papierów wartościowych zobowiązani są do publikowania informacji o 24 rodzajach zdarzeń [Dz.U.05.209.1744], ponad 400 spółek na giełdzie, ok. 2000 raportów publikowanych miesięcznie w postaci elektronicznej (ok. 65 dziennie), możliwość wykorzystania informacji z raportów giełdowych do śledzenia istotnych zdarzeń na giełdzie, a także do prowadzenia analiz finansowych spółek giełdowych system będzie rozwijamy w ramach grantu realizowanego w instytucie IIS. W jaki sposób pozyskać dużą liczbę wzorców na potrzeby ekstrakcji informacji z danej dziedziny? mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 8 / 14
Istniejące prace Istniejące rozwiązania i ich ograniczenia dla j. polskiego od 2003 w IPI PAN (Kupść 2004, Piskorski 2004, Marciniak, Mykowiecka), ręcznie tworzone gramatyki, dla j. angielskiego od ok. 20 lat m.in. E. Riloff (1993-2007), Sudo, Yakushiji, ręczne i automatyczne metody tworzenia wzorców, problem prostszy niż dla j. polskiego, ponieważ: istnieje skuteczna powierzchniowa analiza składniowa i rozpoznawanie bytów nazwanych, język pozycyjny. pomimo wielu prac nad ekstrakcją informacji dla wielu dziedzin i zadań, nowe dziedziny nadal wymagają dużych nakładów pracy. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 9 / 14
Istniejące rozwiązania i ich ograniczenia Ograniczenia istniejących metod problem z wyodrębnieniem pełnych fraz rzeczownikowych powierzchniowa i pełna analiza składniowa dla j. polskiego jest na wstępnym etapie rozwoju, brak uniwersalnych narzędzi do rozpoznawania bytów nazwanych, wzorce pozycyjne stosowane dla j. angielskiego są niewystarczające ze względu na dowolny szyk zdania w j.polskim Sąd rozwiązał spółkę. Spółkę rozwiązał sąd. ręczne tworzenie wzorców jest czasochłonne oraz wymaga zarówno wiedzy dziedzinowej jak i lingwistycznej. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 10 / 14
Cel i zadania Cel Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorców na potrzeby ekstrakcji informacji o zdarzeniach z tekstów dziedzinowych. Ontologia dziedzinowa i opis zadania ekstrakcji informacji System Ekstrakcji Informacji Zbiór danych uczących Metoda automatycznego pozyskiwania wzorców Wzorce ekstrakcji informacji mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 11 / 14
Ocena metody Cel i zadania Kolekcja dokumentów raporty z dziedziny giełdowej, raporty są dostępne publiczne w formie elektronicznej, wymagany jest zbiór dokumentów ręcznie oznakowanych, część zbioru do automatycznego pozyskania wzorców, pozostała część do oceny wzorców, Sposób oceny miary jakości precyzja stosunek poprawnie wydobytych informacji do wszystkich wydobytych informacji, kompletność stosunek poprawnie wydobytych informacji do wszystkich interesujących informacji w tekście, skuteczność rozpoznawania bytów, relacji i zdarzeń. celem będzie osiągnięcie skuteczności nie gorszej niż zgodność niezależnych anotatorów w ręcznej ekstrakcji informacji. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 12 / 14
Cel i zadania Zadania 1 Przygotowanie zbioru danych dla dziedziny giełdowej. 2 Stworzenie ontologii dla dziedziny giełdowej. 3 Sformułowanie zadania ekstrakcji informacji z raportów giełdowych. 4 Ręczne oznakowanie zbioru danych testowych przez niezależnych anotatorów w celu ustalenia poziomu zgodności oznaczeń przez ludzi. 5 Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorców ekstrakcji informacji. 6 Testowanie i ocena metody ekstrakcji informacji dla dziedziny giełdowej. 7 Ocena możliwości ekstrakcji informacji dla innych dziedzin. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 13 / 14
Zakończenie Podsumowanie 1 Problem ekstrakcji informacji z tekstu nie jest zadaniem nowym, pomimo to jest jeszcze dużo do zrobienia w tej dziedzinie. 2 Narzędzia pomocnicze dla j. polskiego są na wczesnym etapie rozwoju analiza składniowa tekstu, rozpoznawanie bytów nazwanych. 3 Ręczna konstrukcja jest kosztowna i czasochłonne. 4 Metody automatycznego pozyskiwania wzorców stworzone dla j. angielskiego nie są zadowalające dla j. polskiego. 5 Propozycja opracowania metody uczenia nadzorowanego do pozyskiwania wzorców na potrzeby ekstrakcji informacji dla j. polskiego. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 14 / 14
Zakończenie Bibliografia R. Grishman The Oxford Handbook of Computational Linguistic. Oxford University Press, 2003. The Message Understanding Conference (MUC) web page http://www-nlpir.nist.gov/related projects/muc. A. Kupść, A. Marciniak, A. Mykowiecka, J. Piskorski, and T. Podsiadły-Marczykowski. Information extraction from mammographic reports. In KONVENS 2004, Osterischeen Gesellschaft fur Artificial Intelligence, pages 113-116, 2004. Rozporządzenie ministra finansów z dnia 19 października 2005r. w sprawie informacji bieżących i okresowych przekazywanych przez emitentów papierów wartościowych, Dziennik Ustaw z 2005 r. Nr 209 poz. 1744, http://www.abc.com.pl/serwis/du/2005/1744.htm. Marcińczuk Michał, Piasecki Maciej. Pattern Extraction for Event Recognition in the Reports of Polish Stockholders. Proceedings of the International Multiconference on Computer Science and Information Technology - 2nd International Symposium Advances in Artificial Intelligence and Applications (AAIA 07), 2007, 275-284 A. Buczyński and A. Przepiórkowski. Demo: An Open Source Tool for Partial Parsing and Morphosyntactic Disambiguation. In Proceedings of LREC 2008. M. Piasecki, G. Godlewski Reductionistic, Tree and Rule Based Tagger for Polish. Intelligent Information Processing and Web Mining. Mieczysaw A. Kopotek, Sawomir Wierzcho, Krzysztof Trojanowski (eds). Berlin: Springer, cop. 2005 (Advances in Soft Computing, ISSN 1615-3871) s. 531-540 Proceedings of International IIS: IIPWM 06 Conference. Ustro, June 19-22, 2006.
Teza Dodatki Dysoponując wiedzą ogólną w postaci Słowosieci, wiedzą dziedzinową w postaci ontologii oraz zbiorem przykładowych, ręcznie oznakowanych dokumentów dla danego zadania ekstrakcji informacji możliwe jest wygenerowanie uogólnionych wzorców na potrzeby tego zadania ekstrakcji informacji.
Dodatki Gramatyka systemu SProUT Gramatyka ropoznająca numer księgi i opcjonalnie rok: nr ksiegi :> (token & [SURFACE "nr"] morph & [STEM "numer"] token & [SURFACE "Nr"]) token? morph & [STEM "księga"] morph & [STEM "główny"] @seek(liczba nat) & [LICZ #nr] ((token & [TYPE slash] token & [TYPE back slash]) @seek (liczba nat) & [LICZ #nr1])? ->id str & [ID #nr, ID YEAR #nr1, CONT no].