Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Podobne dokumenty
Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

LEM wydobywanie statystyk z korpusów

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Open Access w technologii językowej dla języka polskiego

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Program warsztatów CLARIN-PL

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

WebSty otwarty webowy system do analiz stylometrycznych

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

CLARIN infrastruktura naukowa technologii językowych

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Grafika i Systemy Multimedialne (IGM)

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Inforex - zarządzanie korpusami i ich anotacja

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Narzędzia do automatycznej analizy odniesień w tekstach

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Grafika i Systemy Multimedialne (IGM)

Analiza danych tekstowych i języka naturalnego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

TECHNOLOGIA INFORMACYJNA

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Oprogramowanie typu CAT

Semantyczna analiza języka naturalnego

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Ontologie, czyli o inteligentnych danych

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Zapytanie ofertowe nr 1/2016

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

CLARIN-PL w praktyce badawczej

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Efekt kształcenia. Wiedza

KIERUNKOWE EFEKTY KSZTAŁCENIA

SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wykaz zmian w systemie edok 9.1

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Narzędzia do automatycznej analizy odniesień w tekstach

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

INFORMATYKA. PLAN STUDIÓW STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2018/19.

Rok I, semestr I (zimowy) Liczba godzin

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Spis treści tomu pierwszego

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu

KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO

Bazy danych TERMINOLOGIA

METODY REPREZENTACJI INFORMACJI

Lingwistyka Kryminalistyczna w Collegium Maius Projekt konkursowy

biegle i poprawnie posługuje się terminologią informatyczną,

Instytut Informatyki, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia stacjonarne Rok 2012/2013

KARTA ZGŁOSZENIA NAZWA SZKOŁY: Imię i nazwisko uczestnika. uczestnika Opiekun Kontakt do opiekuna (tel. lub )

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Wymagania na poszczególne oceny w klasach 3 gimnazjum

Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia niestacjonarne Dla rocznika:

Przedmiotowy System Oceniania z informatyki Oddziały gimnazjalne SP 3 w Gryfinie, klasy II.

i działanie urządzeń związanych równieŝ budowę i funkcje urządzeń

REGULAMIN IV Powiatowego Konkursu Informatycznego BAJTEK dla uczniów szkół gimnazjalnych

INFORMATYKA. PLAN STUDIÓW STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2019/2020.

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa

Transkrypt:

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania Katedra Informatyki Technicznej Wydział Elektroniki Tomasz.Walkowiak@pwr.edu.pl

Wydobywanie informacji z tekstów Kompetencje Informatyka Eksploracja danych NLP Lingwistyka Wiedza dziedzinowa Plan Analiza frekwencyjna słowa, nazwy, znaczenia: LEM Analiza kolokacji i terminologii: MeWex, TermoPL, HASK Analiza stylometryczna: WebSty Statystyczna analiza semantyczna tematy i grupy tematyczne: rozszerzone WebSty klasyfikacja semantyczna: a la carte (dla indywidualnych potrzeb)

Centrum Technologii Językowych Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach C++, Java, Python, R, Perl, Haskel, Julia złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Integracja zasobów i usług w oparciu o usługi sieciowe (REST) dostęp poprzez aplikacje webowe brak konieczności ściągania i instalowania Infrastruktura chmura obliczeniowa 3

Możliwości wykorzystania Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: webserwisy@clarin-pl.eu lub uzytkownicy@clarin-pl.eu Jeżeli nie spełniają one państwa potrzeb, to możemy: zbudować potrzebną aplikacje badawczą na bazie istniejących usług przetworzyć korpus za pomocą usług CTJ Clarin-PL Możecie państwo samodzielnie wykorzystać usługi API REST-owe: http://ws.clarin-pl.eu przykłady w Javie, Python Zasoby obliczeniowe są zawsze ograniczone Warsztaty to bardzo trudny model przetwarzania 4

Proste narzędzia, ale skomplikowane http://ws.clarin-pl.eu

LEM = System eksploracji tekstów literackich http://ws.clarin-pl.eu/lem.shtml Opracowywany przez we współpracy z Instytutem Badań Literackich Polskiej Akademii Nauk Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak

LEM http://ws.clarin-pl.eu/lem.shtml LEM = Literary Exploratory Machine Złożone metody. prosta funkcjonalność

Załadowanie korpusów Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf Apache Tika do konwersji Różnorodność źródeł ZIP Lokalny plik, URL, prywatna chmura Problemy Zip wersje, struktura Konwersje automatyczne: kolumny wzory, obrazy, tabele nagłówki, stopki

Tagowanie morfosyntaktyczne http://ws.clarin-pl.eu/tager.shtml Morfeusz + WCRFT2, MorphoDiTa tokenizacja lemat (forma hasłowa, podstawowa forma morfologiczna) znacznik, tagset NKJP: http://nkjp.pl/poliqarp/help/ense2.html <chunk id="ch1" type="p"> <sentence id="s1"> <tok> <orth>wysoka</orth> <lex disamb="1"> <base>wysoki</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>z</orth> <lex disamb="1"><base>z</base> <ctag>prep:gen:nwok</ctag></lex> </tok> <tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base> <ctag>subst:sg:inst:f</ctag></lex> </tok>

LEM: lematyzacja Tekst przykładowy (Orzeszkowa, Szczęśliwa) Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi, siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i jaka ona sama jest szczęśliwa. Rezultat lematyzacji (Orzeszkowa, Szczęśliwa) wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie zarysować i bardzo świeży, w strój pełny smak i powaga, siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i jaki on sam być szczęśliwy.

Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie nie qub była być praet już już qub młodą młody adj,, interp lecz lecz conj twarz twarz subst jej on ppron3 zachowała zachować praet delikatność delikatność subst rysów rys subst i i conj cery cer subst,, interp kibić kibić subst

Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Charakterystyka czasownikowa (Orzeszkowa, Kto winien) Tokeny czas owni ki Czas 1os lp Czas 1os lm Czas 2os lp Czas 3os lp Czas czas 3os 3osl lp_m p_z Czas 3os lp_n czas 3os lm_ m Czas 3os lm_z Czas 3os lm_n Statystyki lematów i znaczników w tagsecie NKJP Czas 3os lm Czas 2os lm czas bezo kolic znik 11242 1299 100 0 100 84 151 465 0 0 0 0 0 0 150 człowiek 36 ale 34 o 34 życie 33 od 33 oko 32 subst:sg:gen:m3 122 subst:sg:nom:f 119 subst:sg:gen:n 115 subst:sg:nom:n 111 prep:gen 107 prep:gen:nwok 105

Nazwy własne Liner2 http://ws.clarin-pl.eu/ner.shtml narzędzie do rozpoznawania i znakowania nazw własnych oraz wyrażeń temporalnych w tekście modele:

Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Wyszukanie nazw własnych (Żuławski, Veneri et romae) Statystki nazw własnych Adrjatyku Afrodyty Albano Albańskich Alpach Amfiteatrowi Flawjusza Asklepjosa Augusta Baedeker Baedekera Berniniego Bibljoteki Augusta Bogu Borghese Cavour Rzym Rzym 19 Palatynie Palatyn 13 Kapitolu Kapitol 7 Forum forum 6 Konstantyna Konstantyn 4 Koloseum Koloseum 3 Piotra Piotr 3 Słońce słońce 3 Via Sacra via sacrum 3 Baedeker Baedeker 2 Grecji Grecja 2 Kastora Kastor 2 Marka Aureljusza Marek aureljusza 2

Słowosieć (plwordnet) Elektroniczny słownik relacyjny, rodzaj tezaurusa http://plwordnet.pwr.edu.pl Podstawy teoretyczne: Princeton WordNet Pochodzenie: Politechnika Wrocławska, 2005-2018 Cel: bardzo obszerny opis systemu językowego z wykorzystaniem relacji leksykalno-semantycznych Opis czterech części mowy: czasowników, rzeczowników, przymiotników i przysłówków Zastosowanie: słownik (do użytku przez nieprofesjonalnego użytkownika) zasób leksykalny (do użytku przez badaczy języka z różnych dziedzin) baza danych (w przetwarzaniu języka naturalnego)

Proces budowy Słowosieci Kto tworzy Słowosieć? zespół polonistów i anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne)

Proces budowy Słowosieci Korpus Słowosieci siatka haseł n.a. 2 mld - przykłady tokenów `o zwierzętach: użycia gryźć -> używając wyróżnianie (słowa zębów najczęstsze) znaczeń, przykłady typowe, `o 10 zjawiskach znaczeń pogodowych (Marek) (np. mrozie): gryźć narzędzia komputerowe 1 2 3 4 5 6 7 8 9 10 `o owadach: gryźć wyróżnić znaczenia `o wyrzutach sumienia: gryźć `o ludziach: dokuczać, szkodzić komuś Przykłady użycia wyrazu kąsać konkordancer korpusu automatyczne przykłady użycia

Zawartość Słowosieci Ponad 191 tys. słów (lematów) jedno- i wielowyrazowych = ok. 288 tys. znaczeń (jednostek leksykalnych) Opisanych ponad 650 tys. relacjami jednostek i synsetów Ok. 248 tys. powiązań (haseł) polsko-angielskich Ok. 86 tys. znaczeń z anotacją emotywną Ponad 163 tys. definicji Ponad 73 tys. przykładów użycia

Synset Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} ¾hiperonim {zakochanie 1, zadurzenie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt

Relacje synsetów Hiponimia Najważniejsza z relacji synsetów 66% instancji wszystkich relacji synsetów kościec każdego wordnetu

WordnetLoomViewer hiperonimy

WordnetLoomViewer hiponimy

Ujednoznacznianie znaczeń Słowosieć słownik semantyczny (`baza znaczeń ) http://plwordnet.pwr.wroc.pl/wordnet/ WoSeDon program do ujednoznacznia znaczeń wyrazów w tekście ang. Word Sense Disambiguation http://ws.clarin-pl.eu/wsd.shtml

Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Ujednoznacznianie znaczeń leksykalnych WoSeDon (Żuławski, Veneri et romae) niespokojny niespokojny adj niespokojny.3(42:jak) sen sen subst spoczynek.2(23:st) sen.1(23:st) jakiejś jakiś adj jakowyś.1(42:jak) który.1(42:jak) jaki.1(42:jak) jakiś.1(42:jak) jakowy.1(42:jak) któryś.2(42:jak) jednej jeden adj pewien.1(42:jak) jeden.3(42:jak) nocy noc subst noc.2(25:czas) jesiennej jesienny adj jesienny.1(43:rel) Hiperonimy i hiponimy sen sen subst spoczynek.2(23:st) sen.1(23:st) proces fizjologiczny.1; odpoczynek.1 wypoczynek.1 spoczynek.1 relaks.1 drzemka.1 półsen.1; sen zimowy.1 hibernacja.1 diapauza zimowa.1; sen letni.1 estywacja.1 diapauza letnia.1; hibernacja.2;twardy sen.1 głęboki sen.1 mocny sen.1

Nastawienie emocjonalne ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne, ambiwalentne. Ponad 80 000 oznakowanych jednostek.

Nastawienie emocjonalne Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki; Superanotator, którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji; Anotatorzy nie widzą wzajemnie swoich anotacji.

Analiza emotywna tekstu tiny.cc/clarinemo lub http://ws.clarin-pl.eu/sentyment.shtml

Wydobywanie statystyk z korpusów http://ws.clarin-pl.eu Charakterystyka czasownikowe, zaimkowe, Polaryzacja emocjonalna, wartościowanie emocji Częstości wystąpień w tekstach Prus Faraon tokeny czas1oslpoj czas1oslmn czas2oslpoj czas2oslmn czas3oslpoj czas3oslmn 257490 2546 535 2421 463 18937 5105 zaim1oslpoj zaim1oslmn zaim2oslpoj zaim2oslmn zaim3oslpoj zaim3oslmn 1586 436 1021 299 3493 1259 polneu polpos polneg 98671 7101 11726 błąd nieszczęście szczęście strach zaufanie złość użyteczność radość krzywda 2951 4003 3598 2010 2206 4813 3166 4701 4133 zaskoczenie czymś nieużytecz cieszenie się na coś nieprzewidy smutek piękno wiedza ność niewiedza wstręt dobro oczekiwanego wanym brzydota prawda 4055 1237 815 3648 1345 3032 1676 244 110 643 249

Dziękuję bardzo za uwagę ws.clarin-pl.eu

LEM - ćwiczenia Podkorpusy parlamentarne (wymaga zalogowania do ): https://nextcloud.clarin-pl.eu/index.php/s/lfleuppnlbteylm Przykładowy zbiór plików http://ws.clarin-pl.eu/lem.shtml http://ws.clarin-pl.eu/k.zip Zadania Załadowanie zbioru musi to być pojedynczy plik zip Uruchomienie poszczególnych funkcji przetwarzania Pobranie pliku z rezultatami Rozpakowanie pliku Analiza poszczególnych rezultatów w na komputerze lokalnym za pomocą arkusza kalkulacyjnego lub edytora plików tekstowych