Wydobywanie informacji z tekstu i stylometria Część 1 Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania Katedra Informatyki Technicznej Wydział Elektroniki Tomasz.Walkowiak@pwr.edu.pl
Narzędzia językowe online http://ws.clarin-pl.eu
LEM = System eksploracji tekstów literackich http://ws.clarin-pl.eu/lem.shtml Opracowywany przez we współpracy z Instytutem Badań Literackich Polskiej Akademii Nauk Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak
LEM http://ws.clarin-pl.eu/lem.shtml LEM = Literary Exploratory Machine Złożone metody. prosta funkcjonalność
Załadowanie korpusów Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf Apache Tika do konwersji Różnorodność źródeł ZIP Lokalny plik, URL, prywatna chmura Problemy Zip wersje, struktura Konwersje automatyczne: kolumny wzory, obrazy, tabele nagłówki, stopki
Tagowanie morfosyntaktyczne http://ws.clarin-pl.eu/tager.shtml Morfeusz + WCRFT2, MorphoDiTa tokenizacja forma bazowa znacznik, tagset NKJP: http://nkjp.pl/poliqarp/help/ense2.html <chunk id="ch1" type="p"> <sentence id="s1"> <tok> <orth>wysoka</orth> <lex disamb="1"> <base>wysoki</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>z</orth> <lex disamb="1"><base>z</base> <ctag>prep:gen:nwok</ctag></lex> </tok> <tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base> <ctag>subst:sg:inst:f</ctag></lex> </tok>
LEM: lematyzacja Tekst przykładowy (Orzeszkowa, Szczęśliwa) Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi, siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i jaka ona sama jest szczęśliwa. Rezultat lematyzacji (Orzeszkowa, Szczęśliwa) wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie zarysować i bardzo świeży, w strój pełny smak i powaga, siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i jaki on sam być szczęśliwy.
Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie nie qub była być praet już już qub młodą młody adj,, interp lecz lecz conj twarz twarz subst jej on ppron3 zachowała zachować praet delikatność delikatność subst rysów rys subst i i conj cery cer subst,, interp kibić kibić subst
Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Charakterystyka czasownikowa (Orzeszkowa, Kto winien) Tokeny czas owni ki 1os lp 1os lm 2os lp 3os lp czas 3os 3osl lp_m p_z 3os lp_n czas 3os lm_ m 3os lm_z 3os lm_n Statystyki lematów i znaczników w tagsecie NKJP 3os lm 2os lm czas bezo kolic znik 11242 1299 100 0 100 84 151 465 0 0 0 0 0 0 150 człowiek 36 ale 34 o 34 życie 33 od 33 oko 32 subst:sg:gen:m3 122 subst:sg:nom:f 119 subst:sg:gen:n 115 subst:sg:nom:n 111 prep:gen 107 prep:gen:nwok 105
Nazwy własne Liner2 http://ws.clarin-pl.eu/ner.shtml narzędzie do rozpoznawania i znakowania nazw własnych oraz wyrażeń temporalnych w tekście modele:
Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Wyszukanie nazw własnych (Żuławski, Veneri et romae) Statystki nazw własnych Adrjatyku Afrodyty Albano Albańskich Alpach Amfiteatrowi Flawjusza Asklepjosa Augusta Baedeker Baedekera Berniniego Bibljoteki Augusta Bogu Borghese Cavour Rzym Rzym 19 Palatynie Palatyn 13 Kapitolu Kapitol 7 Forum forum 6 Konstantyna Konstantyn 4 Koloseum Koloseum 3 Piotra Piotr 3 Słońce słońce 3 Via Sacra via sacrum 3 Baedeker Baedeker 2 Grecji Grecja 2 Kastora Kastor 2 Marka Aureljusza Marek aureljusza 2
Słowosieć i Wosedon http://plwordnet.pwr.wroc.pl/wordnet/ http://lexp.clarin-pl.eu/synsetid/plwordnet/4782 http://ws.clarin-pl.eu/wsd.shtml
Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Ujednoznacznianie znaczeń leksykalnych WoSeDon (Żuławski, Veneri et romae) niespokojny niespokojny adj niespokojny.3(42:jak) sen sen subst spoczynek.2(23:st) sen.1(23:st) jakiejś jakiś adj jakowyś.1(42:jak) który.1(42:jak) jaki.1(42:jak) jakiś.1(42:jak) jakowy.1(42:jak) któryś.2(42:jak) jednej jeden adj pewien.1(42:jak) jeden.3(42:jak) nocy noc subst noc.2(25:czas) jesiennej jesienny adj jesienny.1(43:rel) Hiperonimy i hiponimy sen sen subst spoczynek.2(23:st) sen.1(23:st) proces fizjologiczny.1;odpoczynek.1 wypoczynek.1 spoczynek.1 relaks.1 drzemka.1 półsen.1;sen zimowy.1 hibernacja.1 diapauza zimowa.1; sen letni.1 estywacja.1 diapauza letnia.1;hibernacja.2;twardy sen.1 głęboki sen.1 mocny sen.1
Nastawienie emocjonalne ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne, ambiwalentne. Ponad 80 000 oznakowanych jednostek http://ws.clarin-pl.eu/sentyment.shtml
Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Charakterystyka czasownikowe, zaimkowe, Polaryzacja emocjonalna, wartościowanie emocji Częstości wystąpień w tekstach Prus Faraon tokeny czas1oslpoj czas1oslmn czas2oslpoj czas2oslmn czas3oslpoj czas3oslmn 257490 2546 535 2421 463 18937 5105 zaim1oslpoj zaim1oslmn zaim2oslpoj zaim2oslmn zaim3oslpoj zaim3oslmn 1586 436 1021 299 3493 1259 polneu polpos polneg 98671 7101 11726 błąd nieszczęście szczęście strach zaufanie złość użyteczność radość krzywda 2951 4003 3598 2010 2206 4813 3166 4701 4133 zaskoczenie czymś nieużytecz cieszenie się na coś nieprzewidy smutek piękno wiedza ność niewiedza wstręt dobro oczekiwanego wanym brzydota prawda 4055 1237 815 3648 1345 3032 1676 244 110 643 249
Czyszczenie tekstu http://ws.clarin-pl.eu/txtclean.shtml
LEM - ćwiczenia Przykładowy zbiór plików http://ws.clarin-pl.eu/lem.shtml http://ws.clarin-pl.eu/k.zip Zadania Załadowanie zbioru musi to być pojedynczy plik zip Uruchomienie poszczególnych funkcji przetwarzania Pobranie pliku z rezultatami Rozpakowanie pliku Analiza poszczególnych rezultatów w na komputerze lokalnym za pomocą arkusza kalkulacyjnego lub edytora plików tekstowych