Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Podobne dokumenty
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

R a p o r t. oraz. w 2015 roku

Informacje dotyczące NWZA LIBET S.A. przeprowadzonego dnia 2 stycznia 2017 roku.

Pytania dotyczące CZĘŚCI III DPSN - DOBRE PRAKTYKI CZŁONKÓW RAD NADZORCZYCH

Open Access w technologii językowej dla języka polskiego

Opis efektów kształcenia dla modułu zajęć

R a p o r t. oraz. w 2017 roku

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Raport bieżący nr 24 / 2015

PODPISY OSÓB REPREZENTUJĄCYCH SPÓŁKĘ Data Imię i Nazwisko Stanowisko/Funkcja Podpis Wiceprezes Zarządu, Dyrektor ds. Raport bieżący nr 10 / 2016

Od e-materiałów do e-tutorów

PROJEKTY UCHWAŁ NADZWYCZAJNEGO WALNEGO ZGROMADZENIA ZETKAMA S.A. ZWOŁANEGO NA DZIEŃ 21 KWIETNIA 2016 R.

Program warsztatów CLARIN-PL

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Badania w sieciach złożonych

Automatyczna analiza wypisów szpitalnych pacjentów chorych na cukrzycę

R a p o r t. oraz. w 2016 roku

Uchwała nr 220/VI/16 Rady Nadzorczej Grupy Azoty Zakłady Chemiczne Police S.A. z dnia 02 czerwca 2016 r.

Raport ze stosowania zasad ładu korporacyjnego w Spółce w roku 2011.

Tytuł: Energoinstal Spółka Akcyjna Raport dotyczący zakresu stosowania Dobrych Praktyk

dotyczące przestrzegania Dobrych Praktyk Spółek Notowanych na NewConnect

Uchwała nr 1 Nadzwyczajne Walne Zgromadzenie powołuje Komisję Skrutacyjną w składzie: Jerzy Orzeszek, Leszek Prawda, Wojciech Wiśniewski.

Część II Dobre praktyki stosowane przez zarządy spółek giełdowych

Raport miesięczny MADKOM SA za maj 2015 r. 12 maja 2015r.

Odpowiedzialność Zarządu i Radny Nadzorczej za sprawozdanie finansowe

OŚWIADCZENIE W PRZEDMIOCIE STOSOWANIA ZASAD DOBRYCH PRAKTYK

Raport z oceny stosowania przez Bank Polska Kasa Opieki Spółka Akcyjna Zasad Ładu Korporacyjnego dla Instytucji Nadzorowanych wydanych przez Komisję

INFORMACJA O DOKONANEJ KOREKCIE OMYŁKI PISARSKIEJ W TREŚCI RAPORTU ROCZNEGO ZA ROK 2013 ORAZ SKONSOLIDOWANEGO RAPORTU ROCZNEGO ZA ROK 2013

OŚWIADCZENIE W PRZEDMIOCIE STOSOWANIA ZASAD DOBRYCH PRAKTYK SPÓŁKI SUNEX S. A.

3.4. życiorysy zawodowe członków organów spółki, NIE Strona internetowa w przebudowie

OŚWIADCZENIE W PRZEDMIOCIE STOSOWANIA ZASAD DOBRYCH PRAKTYK

Warszawa, 17 kwietnia 2015 r.

RAPORT BIEŻĄCY EBI nr 1/2017

Oświadczenie Zarządu w sprawie stosowania dobrych praktyk Spółek notowanych na rynku NewConnect

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Oświadczenie Zarządu Spółki Cenospheres Trade & Engineering S.A.

Temat: Nowy porządek obrad Zwyczajnego Walnego Zgromadzenia "Novita" S.A. wraz z projektami uchwał

Centrum Finansowe Banku BPS S.A. Raport miesięczny spółki Instytut Szkoleń i Analiz Gospodarczych S.A. za czerwiec 2015 roku

Strona 1 z 5 TAK/NIE/NIE DOTYCZY

Sprawozdanie z działalności Rady Nadzorczej POL-MOT Warfama S.A. za rok Andrzej Zarajczyk - Przewodniczący Rady Nadzorczej

Warunki dopuszczenia akcji do obrotu giełdowego

PODPISY OSÓB REPREZENTUJĄCYCH SPÓŁKĘ Data Imię i Nazwisko Stanowisko/Funkcja Podpis Grzegorz Grabowski Prezes Zarządu Grzegorz Grabowski

AUTOMATYKA INFORMATYKA

"1. "2. Spółka powinna zapewnić efektywny dostęp do informacji niezbędnych do oceny sytuacji i perspektyw spółki oraz sposobu jej funkcjonowania.

Oświadczenie Zarządu Spółki Verte S.A. w przedmiocie przestrzegania przez Spółkę Dobrych praktyk spółek notowanych na rynku NewConnect,

Ład korporacyjny w rocznych raportach spółek publicznych. Wpisany przez Krzysztof Maksymik

Oświadczenie odnośnie stosowania

TAK/ NIE/ NIE DOTYCZY TAK. Z wyłączeniem transmisji oraz upublicznienia obrad TAK TAK TAK TAK życiorysy zawodowe członków organów spółki, TAK

Informacja na temat stosowania zasad Dobre praktyki Spółek Notowanych na NewConnect

Centrum Finansowe Banku BPS S.A. Raport miesięczny spółki Instytut Szkoleń i Analiz Gospodarczych S.A. za listopad 2018 r.

Oświadczenie o stosowaniu lub niestosowaniu zasady TAK. wyłączeniem. transmisji obrad walnego. zgromadzenia przez Internet TAK TAK TAK TAK.

LP. ZASADA TAK/NIE/NIE DOTYCZY KOMENTARZ

Raport EBI. Typ Raportu: Raport bieżący Numer: 31/2013 Data dodania: :06:39 M Development Spółka Akcyjna

Informacja na temat stosowania zasad Dobre praktyki Spółek Notowanych na NewConnect

Raport miesięczny za maj 2018 roku

Activities Performed by prof. Tadeusiewicz in Books and Journals Editorial Boards

UCHWAŁA NR 1/2015 Nadzwyczajnego Walnego Zgromadzenia TRITON DEVELOPMENT S.A. z siedzibą w Warszawie z dnia r.

Oświadczenie Spółki w przedmiocie przestrzegania Dobrych Praktyk Spółek Notowanych na NewConnect

Sprawozdanie z działalności Rady Nadzorczej POL-MOT Warfama S.A. za rok Andrzej Zarajczyk - Przewodniczący Rady Nadzorczej

Informacja dodatkowa za III kwartał 2013 r.

PROJEKT INTERFEJSU UśYTKOWNIKA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Lp. ZASADA TAK/NIE/NIE DOTYCZY KOMENTARZ

w sprawie wyboru Przewodniczącego Nadzwyczajnego Walnego Zgromadzenia

Mysłowice, dn r.

WYKAZ INFORMACJI PRZEKAZYWANYCH PRZEZ EMITENTA DO PUBLICZNEJ WIADOMOŚCI W 2007 ROKU

(stanowiąca załącznik Nr 4 do Sprawozdania z działalności Rady Nadzorczej BOŚ S.A. za 2016 r.)

POLITYKA INFORMACYJNA COPERNICUS SECURITIES S.A. z dnia 16 kwietnia 2015 roku

Warszawa, 9 maja 2013 r.

Ogłoszenie o zwołaniu Zwyczajnego Walnego Zgromadzenia ARCHICOM S.A. na dzień 25 maja 2017 r. wraz z projektami uchwał

Raport dotyczący stosowania Dobrych Praktyk w Spółce FON Ecology S.A. w 2012r.

RAPORT BIEŻĄCY nr 41/2019

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Opinia niezależnego biegłego rewidenta

Zakłady Urządzeń Komputerowych Elzab Spółka Akcyjna Raport. dotyczący zakresu stosowania Dobrych Praktyk

Zakłady Urządzeń Komputerowych Elzab Spółka Akcyjna Raport. dotyczący zakresu stosowania Dobrych Praktyk

Oświadczenie Zarządu Spółki SferaNET S.A.

Sprawozdanie z działalności i ocena pracy Rady Nadzorczej Arcus SA. w 2018 roku

VI.1. Odpis z właściwego rejestru

zmienionego Uchwałą nr / Zarządu Giełdy Papierów Wartościowych w Oświadczenie o stosowaniu z wyłączeniem TAK, transmisji obrad Walnego

SPRAWOZDANIE Z BADANIA

Oświadczenie Zarządu Spółki LEASING-EXPERTS S.A.

Warszawa, r. LP. ZASADA TAK/NIE/NIE DOTYCZY KOMENTARZ

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Zakres stosowanych przez Spółkę zasad Dobrych Praktyk

RAPORT ROCZNY JEDNOSTKOWY od dnia 1 stycznia do dnia 31 grudnia 2013 roku OŚWIADCZENIA ZARZĄDU EDISON S.A.

Sprawozdanie niezależnego biegłego rewidenta z badania. Sprawozdanie z badania rocznego sprawozdania finansowego

Numer raportu: 05/2019 Data sporządzenia: Tytuł raportu:

TAURON POLSKA ENERGIA SA Zamiar dokonania zmian w Statucie TAURON Polska Energia S.A.

Raport miesięczny z działalności Columbus Energy S.A. za miesiąc marzec 2018 roku

INFORMACJA NA TEMAT STOSOWANIA PRZEZ EMITENTA ZASAD ŁADU KORPORACYJNEGO

LP. ZASADA TAK / NIE KOMENTARZ ZARZĄDU

Wykaz raportów bieżących podanych do publicznej wiadomości w 2012 r. Temat raportu

INFORMACJE NA TEMAT STOSOWANIA ZASAD ŁADU KORPORACYJNEGO, O KTÓRYCH MOWA W DOKUMENCIE DOBRE PRAKTYKI SPÓŁEK NOTOWANYCH NA NEWCONNECT

RAPORT MIESIĘCZNY Marka S.A. GRUDZIEŃ 2016 r.

JEDNOSTKOWY I SKONSOLIDOWANY RAPORT OKRESOWY GWARANT AGENCJA OCHRONY S.A.

TAK NIE TAK TAK TAK TAK TAK. Spółka nie publikuje prognoz wyników finansowych

Rynek NewConnect Skuteczne źródło finansowania

Transkrypt:

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008

Plan prezentacji 1 Ekstrakcja informacji (EI) 2 Zarys problemu 3 Istniejące rozwiązania i ich ograniczenia 4 Cel i zadania 5 Zakończenie gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 2 / 14

Definicje (1/2) Ekstrakcja informacji (EI) Ekstrakcja informacji jest to automatyczna identyfikacja wybranych typów bytów, relacji i zdarzeń w tekście [Grishman 2003]. Identyfikacja instancji bytów jest rozumiana jako identyfikacja fragmentów tekstu reprezentujących znane typy bytów. Np.: osoby (imiona i/lub nazwiska), firmy (nazwy), lokalizacje (nazwy miast, ulic), wyrażenia określającze czas, itp. Identyfikacja instancji relacji jest rozumiana jako identyfikacja instancji bytów, powiązanych znanym typem relacji, której wystąpienie opisane jest w tekście. Np.: Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzanie Akcjonariuszy na dzień 20 styczeń 2006. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 3 / 14

Definicje (1/2) Ekstrakcja informacji (EI) Ekstrakcja informacji jest to automatyczna identyfikacja wybranych typów bytów, relacji i zdarzeń w tekście [Grishman 2003]. Identyfikacja instancji bytów jest rozumiana jako identyfikacja fragmentów tekstu reprezentujących znane typy bytów. Np.: osoby (imiona i/lub nazwiska), firmy (nazwy), lokalizacje (nazwy miast, ulic), wyrażenia określającze czas, itp. Identyfikacja instancji relacji jest rozumiana jako identyfikacja instancji bytów, powiązanych znanym typem relacji, której wystąpienie opisane jest w tekście. Np.: Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzanie Akcjonariuszy na dzień 20 styczeń 2006. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 3 / 14

Definicje (1/2) Ekstrakcja informacji (EI) Ekstrakcja informacji jest to automatyczna identyfikacja wybranych typów bytów, relacji i zdarzeń w tekście [Grishman 2003]. Identyfikacja instancji bytów jest rozumiana jako identyfikacja fragmentów tekstu reprezentujących znane typy bytów. Np.: osoby (imiona i/lub nazwiska), firmy (nazwy), lokalizacje (nazwy miast, ulic), wyrażenia określającze czas, itp. Identyfikacja instancji relacji jest rozumiana jako identyfikacja instancji bytów, powiązanych znanym typem relacji, której wystąpienie opisane jest w tekście. Np.: Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzanie Akcjonariuszy na dzień 20 styczeń 2006. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 3 / 14

Definicje (2/2) Ekstrakcja informacji (EI) Identyfikacja instancji zdarzeń jest rozumiana jako identyfikacja instancji bytów, między którymi zaszły zmiany relacji będących instancjami znanych typów relacji (powstanie lub zanik relacji między bytami) oraz atrybuty tych zmian opisane w tekście. Np.: 10 stycznia 2006 siedziba Pol-Mot Warfama SA została przeniesiona z Krakowa do Warszawy. <FIRMA> Pol Mot Warfama SA 10 stycznia 2006 <FIRMA> Pol Mot Warfama SA <LOKALIZACJA> Kraków <LOKALIZACJA> Warszawa <LOKALIZACJA> Kraków <LOKALIZACJA> Warszawa mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 4 / 14

Ekstrakcja informacji (EI) System Ekstrakcji Informacji Definicja zadania ekstrakcji informacji Kolekcja tekstów dziedzinowych System Ekstrakcji Informacji Byty, relacje i zdarzenia Zasoby językowe mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 5 / 14

Ekstrakcja informacji (EI) Przykład ekstrakcji informacji Rozwiązanie umowy System Ekstrakcji Informacji Zarząd F.K.``POLLENA EWA`` S.A. podaje do publicznej wiadomości informację, iż w dniu 21 marca 2008 roku została podpisana z ING Bank Śląski S.A. z siedzibą w Katowicach umowa rozwiązująca umowę kredytową z dnia 14 lipca 2003 roku wraz z późniejszymi zmianami, na mocy której ING Bank Śląski S.A. udzielił emitentowi kredytu w wysokości 2.000.000 PLN. Umowa kredytowa została rozwiązana z dniem 21 marca 2008r. (...) Rozwiązanie umowy Kto: F.K.``POLLENA EWA`` S.A. Z kim: ING Bank Śląski S.A. Kiedy: 21 marca 2008 Przedmiot: kredyt 2.000.000 PLN mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 6 / 14

Ekstrakcja informacji (EI) Wzorce ekstrakcji informacji Wzorce są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. Przykład prostego wzorca zapisanego jako wyrażenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA) }{{} \wz\wsiedzibą\ww\w([a-z][a-z]*) }{{} firma Wynik dopasowania: lokalizacja Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzenia Akcjonariuszy (...). gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 7 / 14

Ekstrakcja informacji (EI) Wzorce ekstrakcji informacji Wzorce są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. Przykład prostego wzorca zapisanego jako wyrażenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA) }{{} \wz\wsiedzibą\ww\w([a-z][a-z]*) }{{} firma Wynik dopasowania: lokalizacja Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzenia Akcjonariuszy (...). gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 7 / 14

Ekstrakcja informacji (EI) Wzorce ekstrakcji informacji Wzorce są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. Przykład prostego wzorca zapisanego jako wyrażenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA) }{{} \wz\wsiedzibą\ww\w([a-z][a-z]*) }{{} firma Wynik dopasowania: lokalizacja Zarząd Pol-Mot Warfama SA z siedzibą w Krakowie poinformował o zwołaniu Walnego Zgromadzenia Akcjonariuszy (...). gr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 7 / 14

Zarys problemu Kontekst problemu Dziedzina spółek giełdowych: emitenci papierów wartościowych zobowiązani są do publikowania informacji o 24 rodzajach zdarzeń [Dz.U.05.209.1744], ponad 400 spółek na giełdzie, ok. 2000 raportów publikowanych miesięcznie w postaci elektronicznej (ok. 65 dziennie), możliwość wykorzystania informacji z raportów giełdowych do śledzenia istotnych zdarzeń na giełdzie, a także do prowadzenia analiz finansowych spółek giełdowych system będzie rozwijamy w ramach grantu realizowanego w instytucie IIS. W jaki sposób pozyskać dużą liczbę wzorców na potrzeby ekstrakcji informacji z danej dziedziny? mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 8 / 14

Istniejące prace Istniejące rozwiązania i ich ograniczenia dla j. polskiego od 2003 w IPI PAN (Kupść 2004, Piskorski 2004, Marciniak, Mykowiecka), ręcznie tworzone gramatyki, dla j. angielskiego od ok. 20 lat m.in. E. Riloff (1993-2007), Sudo, Yakushiji, ręczne i automatyczne metody tworzenia wzorców, problem prostszy niż dla j. polskiego, ponieważ: istnieje skuteczna powierzchniowa analiza składniowa i rozpoznawanie bytów nazwanych, język pozycyjny. pomimo wielu prac nad ekstrakcją informacji dla wielu dziedzin i zadań, nowe dziedziny nadal wymagają dużych nakładów pracy. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 9 / 14

Istniejące rozwiązania i ich ograniczenia Ograniczenia istniejących metod problem z wyodrębnieniem pełnych fraz rzeczownikowych powierzchniowa i pełna analiza składniowa dla j. polskiego jest na wstępnym etapie rozwoju, brak uniwersalnych narzędzi do rozpoznawania bytów nazwanych, wzorce pozycyjne stosowane dla j. angielskiego są niewystarczające ze względu na dowolny szyk zdania w j.polskim Sąd rozwiązał spółkę. Spółkę rozwiązał sąd. ręczne tworzenie wzorców jest czasochłonne oraz wymaga zarówno wiedzy dziedzinowej jak i lingwistycznej. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 10 / 14

Cel i zadania Cel Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorców na potrzeby ekstrakcji informacji o zdarzeniach z tekstów dziedzinowych. Ontologia dziedzinowa i opis zadania ekstrakcji informacji System Ekstrakcji Informacji Zbiór danych uczących Metoda automatycznego pozyskiwania wzorców Wzorce ekstrakcji informacji mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 11 / 14

Ocena metody Cel i zadania Kolekcja dokumentów raporty z dziedziny giełdowej, raporty są dostępne publiczne w formie elektronicznej, wymagany jest zbiór dokumentów ręcznie oznakowanych, część zbioru do automatycznego pozyskania wzorców, pozostała część do oceny wzorców, Sposób oceny miary jakości precyzja stosunek poprawnie wydobytych informacji do wszystkich wydobytych informacji, kompletność stosunek poprawnie wydobytych informacji do wszystkich interesujących informacji w tekście, skuteczność rozpoznawania bytów, relacji i zdarzeń. celem będzie osiągnięcie skuteczności nie gorszej niż zgodność niezależnych anotatorów w ręcznej ekstrakcji informacji. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 12 / 14

Cel i zadania Zadania 1 Przygotowanie zbioru danych dla dziedziny giełdowej. 2 Stworzenie ontologii dla dziedziny giełdowej. 3 Sformułowanie zadania ekstrakcji informacji z raportów giełdowych. 4 Ręczne oznakowanie zbioru danych testowych przez niezależnych anotatorów w celu ustalenia poziomu zgodności oznaczeń przez ludzi. 5 Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorców ekstrakcji informacji. 6 Testowanie i ocena metody ekstrakcji informacji dla dziedziny giełdowej. 7 Ocena możliwości ekstrakcji informacji dla innych dziedzin. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 13 / 14

Zakończenie Podsumowanie 1 Problem ekstrakcji informacji z tekstu nie jest zadaniem nowym, pomimo to jest jeszcze dużo do zrobienia w tej dziedzinie. 2 Narzędzia pomocnicze dla j. polskiego są na wczesnym etapie rozwoju analiza składniowa tekstu, rozpoznawanie bytów nazwanych. 3 Ręczna konstrukcja jest kosztowna i czasochłonne. 4 Metody automatycznego pozyskiwania wzorców stworzone dla j. angielskiego nie są zadowalające dla j. polskiego. 5 Propozycja opracowania metody uczenia nadzorowanego do pozyskiwania wzorców na potrzeby ekstrakcji informacji dla j. polskiego. mgr inż. Michał Marcińczuk (PWr., IIS) 17 czerwca 2008 14 / 14

Zakończenie Bibliografia R. Grishman The Oxford Handbook of Computational Linguistic. Oxford University Press, 2003. The Message Understanding Conference (MUC) web page http://www-nlpir.nist.gov/related projects/muc. A. Kupść, A. Marciniak, A. Mykowiecka, J. Piskorski, and T. Podsiadły-Marczykowski. Information extraction from mammographic reports. In KONVENS 2004, Osterischeen Gesellschaft fur Artificial Intelligence, pages 113-116, 2004. Rozporządzenie ministra finansów z dnia 19 października 2005r. w sprawie informacji bieżących i okresowych przekazywanych przez emitentów papierów wartościowych, Dziennik Ustaw z 2005 r. Nr 209 poz. 1744, http://www.abc.com.pl/serwis/du/2005/1744.htm. Marcińczuk Michał, Piasecki Maciej. Pattern Extraction for Event Recognition in the Reports of Polish Stockholders. Proceedings of the International Multiconference on Computer Science and Information Technology - 2nd International Symposium Advances in Artificial Intelligence and Applications (AAIA 07), 2007, 275-284 A. Buczyński and A. Przepiórkowski. Demo: An Open Source Tool for Partial Parsing and Morphosyntactic Disambiguation. In Proceedings of LREC 2008. M. Piasecki, G. Godlewski Reductionistic, Tree and Rule Based Tagger for Polish. Intelligent Information Processing and Web Mining. Mieczysaw A. Kopotek, Sawomir Wierzcho, Krzysztof Trojanowski (eds). Berlin: Springer, cop. 2005 (Advances in Soft Computing, ISSN 1615-3871) s. 531-540 Proceedings of International IIS: IIPWM 06 Conference. Ustro, June 19-22, 2006.

Teza Dodatki Dysoponując wiedzą ogólną w postaci Słowosieci, wiedzą dziedzinową w postaci ontologii oraz zbiorem przykładowych, ręcznie oznakowanych dokumentów dla danego zadania ekstrakcji informacji możliwe jest wygenerowanie uogólnionych wzorców na potrzeby tego zadania ekstrakcji informacji.

Dodatki Gramatyka systemu SProUT Gramatyka ropoznająca numer księgi i opcjonalnie rok: nr ksiegi :> (token & [SURFACE "nr"] morph & [STEM "numer"] token & [SURFACE "Nr"]) token? morph & [STEM "księga"] morph & [STEM "główny"] @seek(liczba nat) & [LICZ #nr] ((token & [TYPE slash] token & [TYPE back slash]) @seek (liczba nat) & [LICZ #nr1])? ->id str & [ID #nr, ID YEAR #nr1, CONT no].