Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Michaª Wasiluk Zbigniew Gawªowicz Instytut Podstaw Informatyki PAN IX cykl wykªadów i warsztatów CLARIN-PL Toru«1617 listopada 2018 (IPI PAN) Korpusomat 12.04.2018 1 / 33
Agenda Cz ± "wykªadowa" (ok. 20 min) Wprowadzenie prezentacja Korpusomatu. Jak dziaªa Korpusomat? Cz ± "warsztatowa" (pozostaªy czas ok. 40 min) Warsztat "tutorial". Warsztat praca z wªasnymi danymi. (IPI PAN) Korpusomat 12.04.2018 2 / 33
Dlaczego warto zajmowa si lingwistyk korpusow? Korpus to systematycznie wybrany zbiór tekstów, wykorzystywanych w analizach lingwistycznych, przechowywanych najcz ±ciej w formie elektronicznej, cz sto uzupeªniony dodatkowymi warstwami anotacji. Przykªady zastosowa«analiz korpusowych obliczanie cz sto±ci wyst pie«sªów, fraz i kolokacji, badanie najcz stszych kontekstów wyst pie«sªów lub fraz, badanie zmian j zyka w czasie, przy wykorzystaniu korpusów tekstów historycznych, badanie rzeczywistego wykorzystania j zyka przez jego u»ytkowników (korpusy dziedzinowe, korpusy obcoj zyczne). (IPI PAN) Korpusomat 12.04.2018 3 / 33
Dlaczego warto tworzy korpusy tekstowe? Przykªady istniej cych korpusów tekstowych Narodowy Korpus J zyka Polskiego, British National Corpus, Penn Treebank, ale te» np. Korpus J zyka Mªodzie»y,... Wedªug jakiego klucza mo»na utworzy korpus? wg dziedziny, np. teksty medyczne, ekonomiczne, prawnicze, wg autora, np. Stanisªaw Lem, wg epoki, np. korpus polszczyzny XVIII w.,... (IPI PAN) Korpusomat 12.04.2018 6 / 33
Korpusomat Czym jest Korpusomat? Narz dzie (serwis internetowy), sªu» ce do tworzenia wªasnych korpusów tekstowych, automatycznie anotowanych w warstwie morfosyntaktycznej i na poziomie jednostek nazewniczych. Motywacja analizy korpusowe s cennym narz dziem wspieraj cym prac lingwistów, leksykografów, tªumaczy, studentów i nauczycieli, du» warto±ci jest ªatwo± u»ycia narz dzia i intuicyjno± Korpusomat z zaªo»enia powinien posiada minimum potrzebnych funkcji. (IPI PAN) Korpusomat 12.04.2018 7 / 33
Idea Korpusomatu Idea Korpusomatu tworzenie korpusu nie wymaga specjalistycznej wiedzy, korpus mo»na utworzy z dowolnego zbioru wªasnych zasobów, nie s potrzebne»adne dodatkowe instalacje na wªasnym komputerze. TXT PDF EPUB 3 DOC Konwersja do czystego tekstu Analiza morfologiczna (Morfeusz) Znakowanie (Concraft2) Rozpoznawanie nazw własnych (Liner2) Indeksowanie (MTAS) Web (przeszukiwanie) Web (statystyki) XML (eksport) (IPI PAN) Korpusomat 12.04.2018 8 / 33
Korpusomat funkcje (1) Šatwo± u»ycia i dodatkowe mo»liwo±ci pobieranie tekstów ze wskazanych adresów internetowych (web-scraping), masowe ªadowanie wielu tekstów z plików (drag-and-drop), ªadowanie archiwów plików ¹ródªowych (zip), autodetekcja metadanych, konguracja wªasnej struktury metadanych, generowanie korpusu w formacie XML. (IPI PAN) Korpusomat 12.04.2018 9 / 33
Korpusomat funkcje (2) Jakie typy analiz wykonywane s przez Korpusomat? znakowanie morfosyntaktyczne pozwala tworzy zapytania do korpusu, które zawieraj skªadowe opisuj ce morfoskªadni poszczególnych segmentów, znakowanie jednostek nazewniczych pozwala uwzgl dnia w zapytaniach nazwy osób, organizacji, miejsc, itp., moduª statystyczny lista frekwencyjna, lista terminów, mo»liwo± tworzenia podsumowa«i grupowania wyników zapyta«, na przykªad wg metadanych. (IPI PAN) Korpusomat 12.04.2018 10 / 33
Korpusomat dziaªanie Etapy przetwarzania ekstrakcja tekstu: konwersja formatów binarnych oraz ekstrakcja tre±ci gªównej, konwersja kodowania tekstu do UTF-8, segmentacja i analiza morfologiczna tekstu, znakowanie morfosyntaktyczne, rozpoznawanie jednostek nazewniczych, indeksowanie korpusu, pozwalaj ce na efektywne przeszukiwanie. (IPI PAN) Korpusomat 12.04.2018 11 / 33
Ekstrakcja tekstu Konwersja formatów binarnych konwersja ma na celu uzyskanie tekstu ¹ródªowego z formatu binarnego, przykªad: lord-jim-tom-pierwszy.epub: META-INF OPS part1.html, part2.html, part3.html mimetype konwersja wykonywana jest za pomoc biblioteki Apache Tika oraz oprogramowania Calibre. Ekstrakcja tekstu gªównego istotna szczególnie w kontek±cie stron internetowych, odseparowanie tekstu gªównego od elementów steruj cych (nawigacja, przypisy, itp.). (IPI PAN) Korpusomat 12.04.2018 12 / 33
Segmentacja i analiza morfologiczna Segmentacja ma na celu podzielenie ci gªego tekstu na rozª czne segmenty (tokeny), podlegaj ce dalszej analizie, przykªad: Przyjechałbym do Ciebie. [Przyjechał][by][m] [do] [Ciebie][.], segmentacj realizuje analizator Morfeusz. Analiza morfologiczna pozwala na okre±lenie mo»liwych interpretacji gramatycznych danego segmentu, przykªad: miał (patrz nast pny slajd), analiza morfologiczna wykonywana jest za pomoc analizatora Morfeusz i sªownika SGJP. (IPI PAN) Korpusomat 12.04.2018 13 / 33
Znakowanie morfosyntaktyczne Znakowanie morfosyntaktyczne celem znakowania jest wybranie jednej z mo»liwych interpretacji gramatycznych segmentu (ujednoznacznienie mo»liwo±ci otrzymanych w wyniku analizy morfosyntaktycznej), przykªad: Miał wówczas dwa lata.: [0,1,miał,miał,subst:sg:acc:m3,nazwa pospolita,_ 0,1,miał,miał,subst:sg:nom:m3,nazwa pospolita,_ 0,1,miał,mieć:v1,praet:sg:m1.m2.m3:imperf,_,_ 0,1,miał,mieć:v2,praet:sg:m1.m2.m3:imperf,_,_] tagowanie realizowane jest za pomoc tagera Concraft 2.0, wytrenowanego na korpusie NKJP 1M, wersja 1.2. (IPI PAN) Korpusomat 12.04.2018 14 / 33
Rozpoznawanie jednostek nazewniczych Rozpoznawanie jednostek nazewniczych automatyczne rozpoznawanie jednostek nazewicznych pozwala oznakowa w tek±cie nazwy osób, organizacji, miejsc, itp., przykªad: Barrack Obama przyleciał do Polski., znakowanie jednostek nazewniczych wykonywane jest za pomoc oprogramowania Liner2, z modelem wytrenowanym na korpusie NKJP 1M, wersja 1.2. (IPI PAN) Korpusomat 12.04.2018 15 / 33
Indeksowanie korpusu Indeksowanie korpusu ª czne indeksowanie wszystkich tekstów zebranych w korpusie do postaci umo»liwiaj cej efektywne przeszukiwanie, indeksowane s wszystkie poprawnie przetworzone pliki ¹ródªowe, ª cznie z metadanymi i poszczególnymi warstwami anotacji, indeksowanie wykonywane jest z wykorzystaniem oprogramowania MTAS, indeksowanie wykonywane jest asynchronicznie, w tle i nie zakªóca wykonywania innych dziaªa«na tym samym lub innym korpusie, ¹ródªowy zestaw plików anotowane teksty w formacie XML mog równie» zosta pobrane w postaci archiwum zip do analiz wªasnych na lokalnym komputerze. (IPI PAN) Korpusomat 12.04.2018 16 / 33
Warsztat przygotowanie Co b dzie potrzebne do uczestnictwa w warsztacie? komputer z dost pem do Internetu, przegl darka internetowa (preferowana Chrome lub Firefox). (IPI PAN) Korpusomat 12.04.2018 17 / 33
Warsztat http://korpusomat.pl WARSZTAT (IPI PAN) Korpusomat 12.04.2018 18 / 33
Podstawy j zyka zapyta«podstawy j zyka zapyta«(ipi PAN) Korpusomat 12.04.2018 19 / 33
CQL podstawy j zyka zapyta«(1) Zapytania o segmenty przyszedł forma ortograczna segmentu, przyszedł czas ci g segmentów, Uwaga segmentacja Jako odr bne segmenty traktowane s formy aglutynacyjne leksemu być: [łgał][eś], [długo][śmy], [tak][em] a tak»e partykuªy by, -ż(e) i -li, oraz poprzyimkowa nieakcentowana forma zaimka -ń: [do][ń], [ze][ń]. (IPI PAN) Korpusomat 12.04.2018 20 / 33
Przykªad analizy j zykowej (1) Konteksty rzeczownika człowiek (IPI PAN) Korpusomat 12.04.2018 21 / 33
CQL podstawy j zyka zapyta«(2) Zapytania o formy podstawowe przyszedł forma ortograczna segmentu, [orth="przyszedł"] forma ortograczna segmentu, [base="przyjść"] forma podstawowa segmentu, Uwaga segmentacja Chciałbym nie znajdzie wyst pie«, ze wzgl du na segmentacj, Chciał by m prawidªowe zapytanie. (IPI PAN) Korpusomat 12.04.2018 22 / 33
Przykªad analizy j zykowej (2) Konteksty wszystkich form frazy uczciwy człowiek (IPI PAN) Korpusomat 12.04.2018 23 / 33
CQL podstawy j zyka zapyta«(3) Wyra»enia regularne "Ala Ela" Ala lub Ela, "[AE]la" Ala lub Ela, "beza?" bez lub beza, "bez." beza, bezy lub bezą, "bez.?" bez, beza, bezą, ale nie bezami, "a*by" aby, ale te» np. aaaaby, ".*al+" dal, robal, Gall, "a{1,3}b.*" Aby, aaaby, absolutnie, ABBA. (IPI PAN) Korpusomat 12.04.2018 24 / 33
CQL podstawy j zyka zapyta«(4) Zapytania wy»szego rz du [orth="minę" & base="mina"] koniunkcja, [base="on" base="ja"] alternatywa, [] dowolny segment, [orth="się"][]{2,4}[base="bać"] forma leksemu bać wyst puj ca dwie, trzy lub cztery pozycje dalej ni» forma się. Zapytania o znaczniki morfosyntaktyczne [pos="subst"] rzeczownik, [pos="subst" & number="sg"] rzeczownik w liczbie pojedynczej, [pos="subst" &!gender="f"] rzeczownik rodzaju m skiego lub nijakiego. (IPI PAN) Korpusomat 12.04.2018 25 / 33
CQL podstawy j zyka zapyta«(5) Zapytania o jednostki nazewnicze <ne/> dowolna jednostka nazewnicza (równie» wielowyrazowa), <ne="persname" /> imi lub nawisko osoby, [ne="persname"] pojedynczy segment, który jest imieniem lub nazwiskiem osoby, <ne="persname.forename" /><ne="persname.surname" /> dwie kolejne jednostki nazewnicze, z których pierwsza jest imieniem, a druga nazwiskiem, <ne="persname.surname"/> within <ne="geogname"/> nazwisko osoby, które stanowi cz ± nazwy geogracznej, [base="nazywać"][]<ne/> poª czenie zapytania o segmenty z zapytaniem o jednostki nazewnicze. (IPI PAN) Korpusomat 12.04.2018 26 / 33
Przykªady analiz Joseph Conrad Korpus Analiza wszystkie utwory Josepha Conrada z Wolnych Lektur (dwie powie±ci, przygar± opowiada«), Rezultat ponad 560 tys. segmentów. lista frekwencyjna rzeczowników, sªownictwo charakterystyczne. Na li±cie da kilka wyra¹nie tematyczny (marynistycznych) rzeczowników: kapitan (19.), statek (20. miejsce), morze (29.), woda (37.), pokªad (43.), okr t (46.). (IPI PAN) Korpusomat 12.04.2018 27 / 33
Przykªady analiz Joseph Conrad (2) (IPI PAN) Korpusomat 12.04.2018 28 / 33
Przykªady analiz Joseph Conrad (3) (IPI PAN) Korpusomat 12.04.2018 29 / 33
Korpusomat dalsze prace Pomysªy na dalsze plany rozwoju Korpusomatu podgl d dodatkowych warstw anotacji tekstu (np. sentyment, sensy sªów), gotowe zbiory danych (korpusy) do analiz porównawczych, mo»liwo± publicznego udost pniania swoich korpusów. Sugestie mile widziane! (IPI PAN) Korpusomat 12.04.2018 30 / 33
Wdro»enia Korpusomatu Korpus tekstów polskich z XVII i XVIII w. (http://korba.edu.pl) (IPI PAN) Korpusomat 12.04.2018 31 / 33
Wdro»enia Korpusomatu (cd.) Korpus tekstów polskich z XIX w. (http://korpus19.nlp.ipipan.waw.pl) (IPI PAN) Korpusomat 12.04.2018 32 / 33
Dzi kujemy! Dzi kujemy za uwag. (IPI PAN) Korpusomat 12.04.2018 33 / 33