Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Podobne dokumenty
Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

LEM wydobywanie statystyk z korpusów

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Program warsztatów CLARIN-PL

WebSty otwarty webowy system do analiz stylometrycznych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Grafika i Systemy Multimedialne (IGM)

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Grafika i Systemy Multimedialne (IGM)

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

TECHNOLOGIA INFORMACYJNA

CLARIN infrastruktura naukowa technologii językowych

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Open Access w technologii językowej dla języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Instrukcja użytkownika STUDENTA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Analiza danych tekstowych i języka naturalnego

Instrukcja Użytkownika (Studenta) Akademickiego Systemu Archiwizacji Prac

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

KATEGORIA OBSZAR WIEDZY

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Instrukcja obsługi dla studenta

Wykaz zmian w systemie edok 9.1

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Instrukcja użytkownika STUDENTA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

INSTRUKCJA INSTALACJI I KONFIGURACJI APLIKACJI WEBSOFT SITE ANALYZER 2.7.1

METODY REPREZENTACJI INFORMACJI

Instrukcja obsługi dla studenta

Instrukcja obsługi dla studenta

OŚWIADCZENIE. Ja, niżej podpisany/a (imię i nazwisko autora pracy dyplomowej) Numer albumu: Kierunek studiów:

Instrukcja. opracował Marcin Oleksy

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Instrukcja obsługi dla studenta

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

QualitySpy moduł persystencji

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Instrukcja obsługi dla studenta

Semantyczna analiza języka naturalnego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Technologia informacyjna. 2. KIERUNEK: Logistyka. 3. POZIOM STUDIÓW: I stopnia

Instrukcja obsługi dla studenta

Instrukcja obsługi dla studenta

Analizator fleksyjny Morfeusz 2

ZAPYTANIE OFERTOWE. Na zorganizowanie i przeprowadzenie szkolenia w zakresie obsługi MS OFFICE EXCEL dla 21 pracowników Zamawiającego

INSTRUKCJA INSTALACJI I KONFIGURACJI APLIKACJI WEBSOFT CEIDG MONITOR

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Javadoc. Piotr Dąbrowiecki Sławomir Pawlewicz Alan Pilawa Joanna Sobczyk Alina Strachocka

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

timetrack Przewodnik Użytkownika timetrack Najważniejsze Funkcje

Współpraca FDS z arkuszem kalkulacyjnym

Narzędzia do automatycznej analizy odniesień w tekstach

QualitySpy moduł reports

biegle i poprawnie posługuje się terminologią informatyczną,

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Słownik. Instrukcja obsługi programu

Instrukcja obsługi programu SWWS autorstwa Michała Krzemińskiego

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Zakładanie i przeprowadzanie badań w JSA

Nowa Matura 2015 Języki obce

Przedmiotowy System Oceniania z informatyki Oddziały gimnazjalne SP 3 w Gryfinie, klasy II.

Sylabus Moduł 2: Przetwarzanie tekstów

Transkrypt:

CLARIN-PL Ekstrakcja informacji oraz stylometria na usługach psychologii Część 1 Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania Katedra Informatyki Technicznej Wydział Elektroniki Tomasz.Walkowiak@pwr.edu.pl

Wydobywanie informacji z tekstów Kompetencje Informatyka Eksploracja danych NLP Lingwistyka Wiedza dziedzinowa http://ws.clarin-pl.eu

LEM = System eksploracji tekstów literackich http://ws.clarin-pl.eu/lem.shtml Opracowywany przez CLARIN-PL we współpracy z Instytutem Badań Literackich Polskiej Akademii Nauk Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak

Narzędzia językowe online CLARIN-PL http://ws.clarin-pl.eu

Możliwości wykorzystania Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: webserwisy@clarin-pl.eu Tomasz.Walkowiak@pwr.du.pl Jeżeli nie spełniają one państwa potrzeb, to możemy: zbudować potrzebną aplikacje badawczą na bazie istniejących usług przetworzyć korpus za pomocą usług CTJ Clarin-PL Możecie państwo samodzielnie wykorzystać usługi API REST-owe: http://ws.clarin-pl.eu przykłady w Javie, Python efektywność przetwarzania 5

LEM http://ws.clarin-pl.eu/lem.shtml CLARIN-PL LEM = Literary Exploratory Machine Złożone metody. prosta funkcjonalność

Załadowanie korpusów CLARIN-PL Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf Apache Tika do konwersji Różnorodność źródeł ZIP Lokalny plik, URL, prywatna chmura

Czyszczenie danych Na wejściu wymagamy danych tekstowych OCR wprowadza sporo błędów PDF kolumny wzory, obrazy, tabele nagłówki, stopki przeniesienia http://ws.clarin-pl.eu/txtclean.shtml Anotacje A: No strasznie młodo ((śmieje się)) zresztą wyglądasz na taką młodą. I od razu po studiach.hhh wyjechałaś za granicę? R: Tak, tak, znaczy.hhh mój mąż, ja kończyłam czwarty rok a mój mąż.hhh już był za granicą i ja tutaj, dojechałam do niego. A: To na studiach poznaliście się? R: nie, dużo wcześniej (.3)

Tagowanie morfosyntaktyczne http://ws.clarin-pl.eu/tager.shtml CLARIN-PL Morfeusz + WCRFT2, MorphoDiTa tokenizacja forma bazowa znacznik, tagset NKJP: http://nkjp.pl/poliqarp/help/ense2.html <chunk id="ch1" type="p"> <sentence id="s1"> <tok> <orth>wysoka</orth> <lex disamb="1"> <base>wysoki</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>z</orth> <lex disamb="1"><base>z</base> <ctag>prep:gen:nwok</ctag></lex> </tok> <tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base> <ctag>subst:sg:inst:f</ctag></lex> </tok>

LEM: lematyzacja CLARIN-PL Tekst przykładowy (Orzeszkowa, Szczęśliwa) Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi, siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i jaka ona sama jest szczęśliwa. Rezultat lematyzacji (Orzeszkowa, Szczęśliwa) wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie zarysować i bardzo świeży, w strój pełny smak i powaga, siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i jaki on sam być szczęśliwy.

LEM: Wyznaczanie części mowy CLARIN-PL Przykład: Orzeszkowa, Kto winien Nie nie qub była być praet już już qub młodą młody adj,, interp lecz lecz conj twarz twarz subst jej on ppron3 zachowała zachować praet delikatność delikatność subst rysów rys subst i i conj cery cer subst,, interp kibić kibić subst

http://ws.clarin-pl.eu/lem.shtml CLARIN-PL LEM: Charakterystyka czasownikowa tokeny czasowni czas1osl czas1osl czas2osl Czas2 k poj mn poj oslmn czas3 oslpoj czas3osl mn Czas bezokoli cznik Czas bezosob trybprzyp trybrozk Czas teraz czasprze czasprzy muzyka_ 2_4 380 47 6 2 1 0 29 1 5 3 1 1 29 9 2 http://ws.clarin-pl.eu/verbs.shtml LEM: Statystyki lematów i części mowy (znaczników NKJP) człowiek 36 ale 34 o 34 życie 33 od 33 oko 32 subst:sg:gen:m3 122 subst:sg:nom:f 119 subst:sg:gen:n 115 subst:sg:nom:n 111 prep:gen 107 prep:gen:nwok 105

Nazwy własne CLARIN-PL Liner2 http://ws.clarin-pl.eu/ner.shtml narzędzie do rozpoznawania i znakowania nazw własnych oraz wyrażeń temporalnych w tekście modele:

LEM CLARIN-PL Przykład (Żuławski, Veneri et romae) LEM: Wyznaczanie nazwy własnych Statystki nazw własnych Adrjatyku Afrodyty Albano Albańskich Alpach Amfiteatrowi Flawjusza Asklepjosa Augusta Baedeker Baedekera Berniniego Bibljoteki Augusta Bogu Borghese Rzym Rzym 19 Palatynie Palatyn 13 Kapitolu Kapitol 7 Forum forum 6 Konstantyna Konstantyn 4 Koloseum Koloseum 3 Piotra Piotr 3 Słońce słońce 3 Via Sacra via sacrum 3 Baedeker Baedeker 2 Grecji Grecja 2 Kastora Kastor 2 Marka Aureljusza Marek aureljusza 2

Ujednoznacznianie znaczeń http://ws.clarin-pl.eu/wsd.shtml http://plwordnet.pwr.wroc.pl/wordnet/

Nastawienie emocjonalne CLARIN-PL ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne, ambiwalentne. Ponad 80 000 oznakowanych jednostek http://ws.clarin-pl.eu/sentyment.shtml

LEM: Wydźwięk Charakterystyka czasownikowe, zaimkowe, Polaryzacja emocjonalna, wartościowanie emocji Częstości wystąpień w tekstach Prus Faraon tokeny czas1oslpoj czas1oslmn czas2oslpoj czas2oslmn czas3oslpoj czas3oslmn 257490 2546 535 2421 463 18937 5105 zaim1oslpoj zaim1oslmn zaim2oslpoj zaim2oslmn zaim3oslpoj zaim3oslmn 1586 436 1021 299 3493 1259 polneu polpos polneg 98671 7101 11726 błąd nieszczęście szczęście strach zaufanie złość użyteczność radość krzywda 2951 4003 3598 2010 2206 4813 3166 4701 4133 zaskoczenie czymś nieużytecz cieszenie się na coś nieprzewidy smutek piękno wiedza ność niewiedza wstręt dobro oczekiwanego wanym brzydota prawda 4055 1237 815 3648 1345 3032 1676 244 110 643 249

Analiza wydźwięku Korpus: Wydźwięk 60% to opinie dotyczące hotelarstwa (TripAdvisor), 30% to opinie dotyczące usług lekarskich (znanylekarz.pl), 3% (czyli jakiś 1000 tekstów) to recenzje produktów (Ceneo) 3% to komentarze oceniające kursy politechniczne (Polwro). z tego wylosowano próbkę - 9 000 anotowano ręcznie dr hab. Monika Zaśko-Zielińska, Uniwersytet Wrocławski https://inforex.clarin-pl.eu/index.php zero brak wydźwięku plus_s - polaryzacja pozytywna (lekka, słaba) plus_m - polaryzacja pozytywna (mocna) minus_s - polaryzacja negatywna(lekka, słaba) minus_m - polaryzacja negatywna (mocna) amb - dany tekst jest niejednoznaczny pod względem wydźwięku - może wyrażać zarówno pozytywne aspekty jak i negatywne

Analiza wydźwięku 2 Analiza krótkich wypowiedzi Klasyfikator fasttext 76,8% poprawności Ale myli się głównie w przypadku _m _s i amb Model pracujący na kilku zdaniach http://ws.clarin-pl.eu/sentemo.shtml

LEM - ćwiczenia Przykładowy zbiór plików http://ws.clarin-pl.eu/lem.shtml http://ws.clarin-pl.eu/k.zip Zadania Załadowanie zbioru musi to być pojedynczy plik zip Uruchomienie poszczególnych funkcji przetwarzania Pobranie pliku z rezultatami Rozpakowanie pliku Analiza poszczególnych rezultatów w na komputerze lokalnym za pomocą arkusza kalkulacyjnego lub edytora plików tekstowych

Kolokacje: często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła). MEWEX ws.clarin-pl.eu/mewex.shtml ws.clarin-pl.eu/websty.shtml Cel: Słownik wielowyrazowych jednostek leksykalnych Metoda: kolokacje kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

TermoPL ws.clarin-pl.eu/termopl.shtml ws.clarin-pl.eu/websty.shtml http://zil.ipipan.waw.pl/termopl

Wielojęzyczność http://ws.clarin-pl.eu/tagerml.shtml ws.clarin-pl.eu/websty.shtml