Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Podobne dokumenty
Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznego wydobywania kolokacji

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Open Access w technologii językowej dla języka polskiego

Program warsztatów CLARIN-PL

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Inforex - zarządzanie korpusami i ich anotacja

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Lokalizacja Oprogramowania

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Przyrostowa metoda dygitalizacji słowników

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

Słowniki i korpusy języka polskiego

Szczegółowy opis przedmiotu zamówienia

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

INNOWACYJNA METODA PROMOCJI TECHNOLOGII GIS I ZASOBU GEODEZYJNEGO I KARTOGRAFICZNEGO SKIEROWANA DO UŻYTKOWNIKÓW Z BRANŻ POKREWNYCH

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

12 czerwca Piotr Kozłowski Dyrektor ds. Rozwoju Sektora Samorządowego

Oprogramowanie typu CAT

Obrazkowy Test Słownikowy Rozumienie (OTSR): wystandaryzowane i znormalizowane narzędzie do oceny zasobu słownictwa dzieci w wieku 2-6 lat

kształcenie umiejętności w zakresie poszukiwania, kształcenie umiejętności twórczych; otwartość na nowe kontakty,

Informatyka wspomaga przedmioty ścisłe w szkole

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

Analiza danych tekstowych i języka naturalnego

NOWE TECHNOLOGIE JAKO NARZĘDZIE MOTYWACJI W NAUCZANIU JĘZYKÓW OBCYCH

Plany studiów na rok akademicki Etnolingwistyka

Instrukcja. opracował Marcin Oleksy

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

G-Ad. Charakterystyka systemu.

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

III Konferencja DARIAH- PL

POLITYKA PRYWATNOŚCI

Zintegrowany system usług dla nauki etap II (ZSUN II)

FIDKAR po dwóch latach

Integracja wyszukiwania w bibliotekach cyfrowych

- narzędzie do mierzenia zrozumiałości polskich tekstów. Włodzimierz Gruszczyński SWPS Uniwersytet Humanistycznospołeczny

Jarosław Żeliński analityk biznesowy, projektant systemów

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Repozytoria uczelniane i ich rola w projekcie SYNAT

Semantyczna analiza języka naturalnego

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

Polsko ukraiński korpus równoległy (PolUKR) 1

Gdańsk, 11 września 2009

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

AfterMarket.pl nowoczesne rozwiązania wtórnego rynku domen. Michał Pleban Michau Enterprises, Ltd.

Co wylicza Jasnopis? Bartosz Broda

RÓWNOWAŻNOŚĆ ZAOFEROWANCH PAKIETÓW PROGRAMÓW BIUROWYCH

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Sposoby wyszukiwania multimedialnych zasobów w Internecie

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Innowacyjne narzędzia w procesie digitalizacji

Narodowy Korpus Języka Polskiego

DARIAH-PL Gdzie jesteśmy, dokąd idziemy?

Polityka prywatności 1. Definicje Administrator Cookies - Cookies Administratora - Cookies Zewnętrzne - Serwis - Urządzenie - Ustawa Użytkownik -

Funkcjonowanie systemu antyplagiatowego (OSA) na Uniwersytecie Jagiellońskim

dr inż. Konrad Sobolewski Politechnika Warszawska Informatyka 1

Grafika i Systemy Multimedialne (IGM)

Wykorzystanie sztucznej inteligencji do prognozowania notowań Warszawskiej Giełdy Papierów Wartościowych. opiekun: dr A. Wojna.

Instalacja krok po kroku /instalacja programu, serwera bazy danych/

Reguły plików cookies witryny i usług internetowych tsop.pl

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

Upowszechnianie dorobku naukowego w repozytoriach i bazach danych działania komplementarne czy konkurencyjne?

Tomasz Grześ. Systemy zarządzania treścią

Uniwersytet Wirtualny VU2012

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Wirtualizacja sieci - VMware NSX

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Transkrypt:

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016 Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 1 / 13

Dlaczego warto zajmować się lingwistyką korpusową? Korpus to systematycznie wybrany zbiór tekstów, wykorzystywanych w analizach lingwistycznych, przechowywanych najczęściej w formie elektronicznej, często uzupełniony dodatkowymi warstwami anotacji. Przykłady zastosowań analiz korpusowych obliczanie częstości wystąpień słów, fraz i kolokacji, badanie najczęstszych kontekstów wystąpień słów lub fraz, badanie zmian języka w czasie, przy wykorzystaniu korpusów tekstów historycznych, badanie rzeczywistego wykorzystania języka przez jego użytkowników (korpusy dziedzinowe, korpusy obcojęzyczne). Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 2 / 13

Dlaczego warto tworzyć korpusy tekstowe? Przykłady istniejących korpusów tekstowych Narodowy Korpus Języka Polskiego, British National Corpus, Penn Treebank, ale też: Słownik Warszawski, Korpus Języka Młodzieży,... Według jakiego klucza można utworzyć korpus? wg dziedziny, np. teksty medyczne, ekonomiczne, prawnicze, wg autora, np. Stanisław Lem, wg epoki, np. korpus polszczyzny XVIII w.,... Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 5 / 13

Korpusomat Czym jest Korpusomat? Narzędzie (serwis internetowy), służące do tworzenia własnych korpusów tekstowych, automatycznie anotowanych w warstwie morfosyntaktycznej. Motywacja analizy korpusowe są cennym narzędziem wspierającym pracę lingwistów, leksykografów, tłumaczy, studentów i nauczycieli, istniejące narzędzia są: związane z istniejącymi korpusami, bez możliwości wykorzystania własnych danych, trudne do wykorzystania przez osoby nietechniczne, niedostosowane do języka polskiego, komercyjne/płatne. Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 6 / 13

Idea Korpusomatu Idea Korpusomatu tworzenie korpusu nie wymaga specjalistycznej wiedzy, korpus można utworzyć z dowolnego zbioru własnych zasobów, instalacje na własnym komputerze są ograniczone do wyszukiwarki korpusowej. Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 7 / 13

Korpusomat - działanie Etapy przetwarzania konwersja formatów binarnych na format tekstowy, konwersja kodowania tekstu do UTF-8, analiza morfologiczna tekstu (za pomocą analizatora Morfeusz i słownika SGJP), znakowanie morfosyntaktyczne (za pomocą tagera Concraft), tworzenie binarnej postaci korpusu, do przeszukiwania oprogramowaniem Poliqarp. Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 8 / 13

Demo http://korpusomat.nlp.ipipan.waw.pl DEMO Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 9 / 13

Przykład analizy językowej Konteksty rzeczownika wojna Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 10 / 13

Przykład analizy językowej Konteksty wszystkich form frazy wojna domowa Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 10 / 13

Przykład analizy statystycznej Lista frekwencyjna rzeczowników Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 11 / 13

Przykład analizy statystycznej Lista frekwencyjna przymiotników w lewym kontekście Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 11 / 13

Dalsze plany Nowe możliwości pobieranie tekstów ze wskazanych adresów internetowych (web-scraping), masowe ładowanie wielu tekstów z plików lub Internetu, konfiguracja własnej struktury metadanych, interfejs webowy do Poliqarpa, wykorzystanie Morfeusza2 i alternatywnych słowników morfologicznych. Sugestie mile widziane! Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 12 / 13

Dziękujemy! Dziękujemy za uwagę. Kieraś, Kobyliński, Ogrodniczuk (IPI PAN) Korpusomat 9.11.2016 13 / 13