Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Podobne dokumenty
Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpus Dyskursu Parlamentarnego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

OptiMore Importer Rejestru VAT. Instrukcja obsługi programu

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH"

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Automatyzacja procesu publikowania w bibliotece cyfrowej

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Numer obszaru: 4 Technologie informacyjno-komunikacyjne w realizacji podstawy programowej

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Poniżej instrukcja użytkowania platformy

Część 2 struktura e-paczki

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie

Instalacja programu. Omówienie programu. Jesteś tu: Bossa.pl

Microsoft Management Console

Projekt z dnia 2 listopada 2015 r. z dnia r.

Moduł. Rama 2D suplement do wersji Konstruktora 4.6

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Podstawy modelowania w j zyku UML

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Praca Dyplomowa Magisterska

Stypendia USOS Stan na semestr zimowy 2013/14

Spis tre±ci. Przedmowa... Cz ± I

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Technologie internetowe Internet technologies Forma studiów: Stacjonarne Poziom kwalifikacji: I stopnia. Liczba godzin/tydzień: 2W, 2L

Formularz rzeczowo-cenowy PAKIET 2

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Oświadczenie o stanie kontroli zarz ądczej Starosty Powiatu Radomszcza ńskiego za rok 2014

INFORMATOR TECHNICZNY WONDERWARE

Wzorce projektowe strukturalne cz. 1

YapS Plan testów. Šukasz Bieniasz-Krzywiec Dariusz Leniowski Jakub Š cki 29 maja 2007

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Harmonogramowanie projektów Zarządzanie czasem

PLD Linux Day. Maciej Kalkowski. 11 marca Wydziaª Matematyki i Informatyki UAM

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

REGULAMIN CZYTELNI AKT SĄDU REJONOWEGO LUBLIN-WSCHÓD W LUBLINIE Z SIEDZIBĄ W ŚWIDNIKU

Ćwiczenie 6.5. Otwory i śruby. Skrzynia V

Program warsztatów CLARIN-PL

1. Wprowadzenie do C/C++

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

Zaloguj się do Moje GS1. wprowadź dane o swoich lokalizacjach w mniej niż 5 minut!

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Regulamin realizacji projektu edukacyjnego w Gimnazjum w Niechobrzu.

DANE UCZESTNIKÓW PROJEKTÓW (PRACOWNIKÓW INSTYTUCJI), KTÓRZY OTRZYMUJĄ WSPARCIE W RAMACH EFS

Zarząd Dróg Wojewódzkich. Wytyczne Techniczne. Zbigniew Tabor Kraków,

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Inforex - zarządzanie korpusami i ich anotacja

Oprogramowanie FonTel służy do prezentacji nagranych rozmów oraz zarządzania rejestratorami ( zapoznaj się z rodziną rejestratorów FonTel ).

Tworzenie prezentacji w LATEX'u

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

MySource Matrix CMS - PROSTY INTERFEJS UŻYTKOWNIKA. INSTRUKCJA ver 1.2

Automatyczne spisy. Wojciech Myszka, Maciej Panek Październik 2014

EGZAMIN MATURALNY 2013 J ZYK ROSYJSKI

Aktualizacja CSP do wersji v7.2. Sierpień 2014

Numer obszaru: 8 E-learning w szkole - wykorzystanie platform edukacyjnych w pracy szkoły

Technologie Informacyjne

Produkt finalny projektu Przedsiębiorcze szkoły jest dostępny na portalu projektu

System Informatyczny CELAB. Przygotowanie programu do pracy - Ewidencja Czasu Pracy

System kontroli wersji SVN

przewidywania zapotrzebowania na moc elektryczn

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Programowanie i struktury danych 1 / 44

Wzorce projektowe kreacyjne

Zbigniew Krzysiak. Projektowanie 2D w programie AutoCAD

REGULAMIN KONKURSU UTWÓR DLA GDAŃSKA. Symfonia Gdańska Dźwięki Miasta

Programowanie i struktury danych

GENERALNY INSPEKTOR OCHRONY DANYCH OSOBOWYCH

Biblioteka AutoCad V 5.0 Poradnik uŝytkownika

1. PODMIOTEM ŚWIADCZĄCYM USŁUGI DROGĄ ELEKTRONICZNĄ JEST 1) SALESBEE TECHNOLOGIES SP. Z O.O. Z SIEDZIBĄ W KRAKOWIE, UL.

Uczenie Wielowarstwowych Sieci Neuronów o

Jakie są te obowiązki wg MSR 41 i MSR 1, a jakie są w tym względzie wymagania ustawy o rachunkowości?

1. Liczba wszystkich otrzymanych przez Użytkownika graficznych ocen sprzedaży na poziomie minimum 100 punktów.

Konfiguracja historii plików

Konfiguracja programu Outlook 2007 do pracy z nowym serwerem poczty (Exchange)

Podstawy JavaScript. Dawid Poªap. Dawid Poªap Technologia informacyjna Grudzie«, / 13

Centralizacji Systemu. Procedury zasilania danymi systemu LAS oprogramowania do aktualizacji LMN. etap C13 pkt 5

Umowa w sprawie przyznania grantu Marie Curie 7PR Wykaz klauzul specjalnych

PROGRAM NAUCZANIA INFORMATYKA

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Regulamin korzystania z Systemu invooclip przez Adresata i Odbiorcę

Skuteczność i regeneracja 48h albo zwrot pieniędzy

Ewaluacja projektu szkoleniowego Międzykulturowe ABC

Konfiguracja przeglądarek internetowych oraz Panelu Java dla klientów instutucjonalnych problemy z apletem do logowania/autoryzacji

Polityka prywatności strony internetowej wcrims.pl

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

KRYTERIA OCENIANIA ODPOWIEDZI Język POZIOM PODSTAWOWY

Transkrypt:

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Michaª Wasiluk Zbigniew Gawªowicz Instytut Podstaw Informatyki PAN IX cykl wykªadów i warsztatów CLARIN-PL Toru«1617 listopada 2018 (IPI PAN) Korpusomat 12.04.2018 1 / 33

Agenda Cz ± "wykªadowa" (ok. 20 min) Wprowadzenie prezentacja Korpusomatu. Jak dziaªa Korpusomat? Cz ± "warsztatowa" (pozostaªy czas ok. 40 min) Warsztat "tutorial". Warsztat praca z wªasnymi danymi. (IPI PAN) Korpusomat 12.04.2018 2 / 33

Dlaczego warto zajmowa si lingwistyk korpusow? Korpus to systematycznie wybrany zbiór tekstów, wykorzystywanych w analizach lingwistycznych, przechowywanych najcz ±ciej w formie elektronicznej, cz sto uzupeªniony dodatkowymi warstwami anotacji. Przykªady zastosowa«analiz korpusowych obliczanie cz sto±ci wyst pie«sªów, fraz i kolokacji, badanie najcz stszych kontekstów wyst pie«sªów lub fraz, badanie zmian j zyka w czasie, przy wykorzystaniu korpusów tekstów historycznych, badanie rzeczywistego wykorzystania j zyka przez jego u»ytkowników (korpusy dziedzinowe, korpusy obcoj zyczne). (IPI PAN) Korpusomat 12.04.2018 3 / 33

Dlaczego warto tworzy korpusy tekstowe? Przykªady istniej cych korpusów tekstowych Narodowy Korpus J zyka Polskiego, British National Corpus, Penn Treebank, ale te» np. Korpus J zyka Mªodzie»y,... Wedªug jakiego klucza mo»na utworzy korpus? wg dziedziny, np. teksty medyczne, ekonomiczne, prawnicze, wg autora, np. Stanisªaw Lem, wg epoki, np. korpus polszczyzny XVIII w.,... (IPI PAN) Korpusomat 12.04.2018 6 / 33

Korpusomat Czym jest Korpusomat? Narz dzie (serwis internetowy), sªu» ce do tworzenia wªasnych korpusów tekstowych, automatycznie anotowanych w warstwie morfosyntaktycznej i na poziomie jednostek nazewniczych. Motywacja analizy korpusowe s cennym narz dziem wspieraj cym prac lingwistów, leksykografów, tªumaczy, studentów i nauczycieli, du» warto±ci jest ªatwo± u»ycia narz dzia i intuicyjno± Korpusomat z zaªo»enia powinien posiada minimum potrzebnych funkcji. (IPI PAN) Korpusomat 12.04.2018 7 / 33

Idea Korpusomatu Idea Korpusomatu tworzenie korpusu nie wymaga specjalistycznej wiedzy, korpus mo»na utworzy z dowolnego zbioru wªasnych zasobów, nie s potrzebne»adne dodatkowe instalacje na wªasnym komputerze. TXT PDF EPUB 3 DOC Konwersja do czystego tekstu Analiza morfologiczna (Morfeusz) Znakowanie (Concraft2) Rozpoznawanie nazw własnych (Liner2) Indeksowanie (MTAS) Web (przeszukiwanie) Web (statystyki) XML (eksport) (IPI PAN) Korpusomat 12.04.2018 8 / 33

Korpusomat funkcje (1) Šatwo± u»ycia i dodatkowe mo»liwo±ci pobieranie tekstów ze wskazanych adresów internetowych (web-scraping), masowe ªadowanie wielu tekstów z plików (drag-and-drop), ªadowanie archiwów plików ¹ródªowych (zip), autodetekcja metadanych, konguracja wªasnej struktury metadanych, generowanie korpusu w formacie XML. (IPI PAN) Korpusomat 12.04.2018 9 / 33

Korpusomat funkcje (2) Jakie typy analiz wykonywane s przez Korpusomat? znakowanie morfosyntaktyczne pozwala tworzy zapytania do korpusu, które zawieraj skªadowe opisuj ce morfoskªadni poszczególnych segmentów, znakowanie jednostek nazewniczych pozwala uwzgl dnia w zapytaniach nazwy osób, organizacji, miejsc, itp., moduª statystyczny lista frekwencyjna, lista terminów, mo»liwo± tworzenia podsumowa«i grupowania wyników zapyta«, na przykªad wg metadanych. (IPI PAN) Korpusomat 12.04.2018 10 / 33

Korpusomat dziaªanie Etapy przetwarzania ekstrakcja tekstu: konwersja formatów binarnych oraz ekstrakcja tre±ci gªównej, konwersja kodowania tekstu do UTF-8, segmentacja i analiza morfologiczna tekstu, znakowanie morfosyntaktyczne, rozpoznawanie jednostek nazewniczych, indeksowanie korpusu, pozwalaj ce na efektywne przeszukiwanie. (IPI PAN) Korpusomat 12.04.2018 11 / 33

Ekstrakcja tekstu Konwersja formatów binarnych konwersja ma na celu uzyskanie tekstu ¹ródªowego z formatu binarnego, przykªad: lord-jim-tom-pierwszy.epub: META-INF OPS part1.html, part2.html, part3.html mimetype konwersja wykonywana jest za pomoc biblioteki Apache Tika oraz oprogramowania Calibre. Ekstrakcja tekstu gªównego istotna szczególnie w kontek±cie stron internetowych, odseparowanie tekstu gªównego od elementów steruj cych (nawigacja, przypisy, itp.). (IPI PAN) Korpusomat 12.04.2018 12 / 33

Segmentacja i analiza morfologiczna Segmentacja ma na celu podzielenie ci gªego tekstu na rozª czne segmenty (tokeny), podlegaj ce dalszej analizie, przykªad: Przyjechałbym do Ciebie. [Przyjechał][by][m] [do] [Ciebie][.], segmentacj realizuje analizator Morfeusz. Analiza morfologiczna pozwala na okre±lenie mo»liwych interpretacji gramatycznych danego segmentu, przykªad: miał (patrz nast pny slajd), analiza morfologiczna wykonywana jest za pomoc analizatora Morfeusz i sªownika SGJP. (IPI PAN) Korpusomat 12.04.2018 13 / 33

Znakowanie morfosyntaktyczne Znakowanie morfosyntaktyczne celem znakowania jest wybranie jednej z mo»liwych interpretacji gramatycznych segmentu (ujednoznacznienie mo»liwo±ci otrzymanych w wyniku analizy morfosyntaktycznej), przykªad: Miał wówczas dwa lata.: [0,1,miał,miał,subst:sg:acc:m3,nazwa pospolita,_ 0,1,miał,miał,subst:sg:nom:m3,nazwa pospolita,_ 0,1,miał,mieć:v1,praet:sg:m1.m2.m3:imperf,_,_ 0,1,miał,mieć:v2,praet:sg:m1.m2.m3:imperf,_,_] tagowanie realizowane jest za pomoc tagera Concraft 2.0, wytrenowanego na korpusie NKJP 1M, wersja 1.2. (IPI PAN) Korpusomat 12.04.2018 14 / 33

Rozpoznawanie jednostek nazewniczych Rozpoznawanie jednostek nazewniczych automatyczne rozpoznawanie jednostek nazewicznych pozwala oznakowa w tek±cie nazwy osób, organizacji, miejsc, itp., przykªad: Barrack Obama przyleciał do Polski., znakowanie jednostek nazewniczych wykonywane jest za pomoc oprogramowania Liner2, z modelem wytrenowanym na korpusie NKJP 1M, wersja 1.2. (IPI PAN) Korpusomat 12.04.2018 15 / 33

Indeksowanie korpusu Indeksowanie korpusu ª czne indeksowanie wszystkich tekstów zebranych w korpusie do postaci umo»liwiaj cej efektywne przeszukiwanie, indeksowane s wszystkie poprawnie przetworzone pliki ¹ródªowe, ª cznie z metadanymi i poszczególnymi warstwami anotacji, indeksowanie wykonywane jest z wykorzystaniem oprogramowania MTAS, indeksowanie wykonywane jest asynchronicznie, w tle i nie zakªóca wykonywania innych dziaªa«na tym samym lub innym korpusie, ¹ródªowy zestaw plików anotowane teksty w formacie XML mog równie» zosta pobrane w postaci archiwum zip do analiz wªasnych na lokalnym komputerze. (IPI PAN) Korpusomat 12.04.2018 16 / 33

Warsztat przygotowanie Co b dzie potrzebne do uczestnictwa w warsztacie? komputer z dost pem do Internetu, przegl darka internetowa (preferowana Chrome lub Firefox). (IPI PAN) Korpusomat 12.04.2018 17 / 33

Warsztat http://korpusomat.pl WARSZTAT (IPI PAN) Korpusomat 12.04.2018 18 / 33

Podstawy j zyka zapyta«podstawy j zyka zapyta«(ipi PAN) Korpusomat 12.04.2018 19 / 33

CQL podstawy j zyka zapyta«(1) Zapytania o segmenty przyszedł forma ortograczna segmentu, przyszedł czas ci g segmentów, Uwaga segmentacja Jako odr bne segmenty traktowane s formy aglutynacyjne leksemu być: [łgał][eś], [długo][śmy], [tak][em] a tak»e partykuªy by, -ż(e) i -li, oraz poprzyimkowa nieakcentowana forma zaimka -ń: [do][ń], [ze][ń]. (IPI PAN) Korpusomat 12.04.2018 20 / 33

Przykªad analizy j zykowej (1) Konteksty rzeczownika człowiek (IPI PAN) Korpusomat 12.04.2018 21 / 33

CQL podstawy j zyka zapyta«(2) Zapytania o formy podstawowe przyszedł forma ortograczna segmentu, [orth="przyszedł"] forma ortograczna segmentu, [base="przyjść"] forma podstawowa segmentu, Uwaga segmentacja Chciałbym nie znajdzie wyst pie«, ze wzgl du na segmentacj, Chciał by m prawidªowe zapytanie. (IPI PAN) Korpusomat 12.04.2018 22 / 33

Przykªad analizy j zykowej (2) Konteksty wszystkich form frazy uczciwy człowiek (IPI PAN) Korpusomat 12.04.2018 23 / 33

CQL podstawy j zyka zapyta«(3) Wyra»enia regularne "Ala Ela" Ala lub Ela, "[AE]la" Ala lub Ela, "beza?" bez lub beza, "bez." beza, bezy lub bezą, "bez.?" bez, beza, bezą, ale nie bezami, "a*by" aby, ale te» np. aaaaby, ".*al+" dal, robal, Gall, "a{1,3}b.*" Aby, aaaby, absolutnie, ABBA. (IPI PAN) Korpusomat 12.04.2018 24 / 33

CQL podstawy j zyka zapyta«(4) Zapytania wy»szego rz du [orth="minę" & base="mina"] koniunkcja, [base="on" base="ja"] alternatywa, [] dowolny segment, [orth="się"][]{2,4}[base="bać"] forma leksemu bać wyst puj ca dwie, trzy lub cztery pozycje dalej ni» forma się. Zapytania o znaczniki morfosyntaktyczne [pos="subst"] rzeczownik, [pos="subst" & number="sg"] rzeczownik w liczbie pojedynczej, [pos="subst" &!gender="f"] rzeczownik rodzaju m skiego lub nijakiego. (IPI PAN) Korpusomat 12.04.2018 25 / 33

CQL podstawy j zyka zapyta«(5) Zapytania o jednostki nazewnicze <ne/> dowolna jednostka nazewnicza (równie» wielowyrazowa), <ne="persname" /> imi lub nawisko osoby, [ne="persname"] pojedynczy segment, który jest imieniem lub nazwiskiem osoby, <ne="persname.forename" /><ne="persname.surname" /> dwie kolejne jednostki nazewnicze, z których pierwsza jest imieniem, a druga nazwiskiem, <ne="persname.surname"/> within <ne="geogname"/> nazwisko osoby, które stanowi cz ± nazwy geogracznej, [base="nazywać"][]<ne/> poª czenie zapytania o segmenty z zapytaniem o jednostki nazewnicze. (IPI PAN) Korpusomat 12.04.2018 26 / 33

Przykªady analiz Joseph Conrad Korpus Analiza wszystkie utwory Josepha Conrada z Wolnych Lektur (dwie powie±ci, przygar± opowiada«), Rezultat ponad 560 tys. segmentów. lista frekwencyjna rzeczowników, sªownictwo charakterystyczne. Na li±cie da kilka wyra¹nie tematyczny (marynistycznych) rzeczowników: kapitan (19.), statek (20. miejsce), morze (29.), woda (37.), pokªad (43.), okr t (46.). (IPI PAN) Korpusomat 12.04.2018 27 / 33

Przykªady analiz Joseph Conrad (2) (IPI PAN) Korpusomat 12.04.2018 28 / 33

Przykªady analiz Joseph Conrad (3) (IPI PAN) Korpusomat 12.04.2018 29 / 33

Korpusomat dalsze prace Pomysªy na dalsze plany rozwoju Korpusomatu podgl d dodatkowych warstw anotacji tekstu (np. sentyment, sensy sªów), gotowe zbiory danych (korpusy) do analiz porównawczych, mo»liwo± publicznego udost pniania swoich korpusów. Sugestie mile widziane! (IPI PAN) Korpusomat 12.04.2018 30 / 33

Wdro»enia Korpusomatu Korpus tekstów polskich z XVII i XVIII w. (http://korba.edu.pl) (IPI PAN) Korpusomat 12.04.2018 31 / 33

Wdro»enia Korpusomatu (cd.) Korpus tekstów polskich z XIX w. (http://korpus19.nlp.ipipan.waw.pl) (IPI PAN) Korpusomat 12.04.2018 32 / 33

Dzi kujemy! Dzi kujemy za uwag. (IPI PAN) Korpusomat 12.04.2018 33 / 33