KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Podobne dokumenty
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

The Use of Electronic Historical Dictionary Data in Corpus Design

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

KORBEUSZ. Włodzimierza Grußczyńſkiego, Dorotę Adamiec, Renatę Bronikowſką Inſtytut Języka Polſkiego PAN

Plan zajęć dla kkz A.25. I zjazd 1, 2 października

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

3 sem. ćw.lab./ćw.prow. w jęz. obcym/ semin.dypl. ECTS w. ćw. ćw. A. Moduły przedmiotowe kształcenia ogólnego

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Korpus Dyskursu Parlamentarnego

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Narzędzia do automatycznego wydobywania kolokacji

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

ćw.lab./ćw.prow. w jęz. obcym/ semin.dypl. ECTS w. ćw. ćw. A. Moduły przedmiotowe kształcenia ogólnego, w tym ogólnouczelniane

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

dlibra 3.0 Marcin Heliński

Instrukcja dla autorów Studia Geohistorica

Szkoła Wyższa Psychologii Społecznej. Instytut Podstaw Informatyki Polskiej Akademii Nauk

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Problem normy językowej w leksykografii historycznej

j INSTYTUT PODSTAW INFORMATYKI

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

METODA SŁÓW KLUCZY W BADANIU POLSZCZYZNY DAWNEJ

Program warsztatów CLARIN-PL

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Inforex - zarządzanie korpusami i ich anotacja

Narzędzia do automatycznego wydobywania kolokacji

Polsko ukraiński korpus równoległy (PolUKR) 1

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Sposoby wyszukiwania multimedialnych zasobów w Internecie



Polszczyzna piękna i bogata wybór literatury

Główny Urząd d Geodezji i Kartografii

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Bibliografie ogólne. Bibliografia polska Estreicherów

Od ZX Spectrum do Jasnopisu

F O R M U L A R Z O F E R T O W Y Opracowanie dokumentacji

LEGISLATOR. Dokument zawiera opis scenariuszy testowych dla aplikacji Legislator. Data dokumentu:30 maja 2011 Wersja: 1.1 Autor: Piotr Jegorow

Oprogramowanie typu CAT

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

F O R M U L A R Z O F E R T O W Y

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Instrukcja. opracował Marcin Oleksy

CLARIN infrastruktura naukowa technologii językowych

DZIAŁY BIBLIOTEKI. A. Encyklopedie powszechne: 1. Francuska 2. Niemiecka 3. Polska

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

Barokowa polszczyzna w Internecie,

Tworzenie metadanych, proces digitalizacji i publikowanie dokumentów w projekcie Merkuriusz. Katarzyna Araszkiewicz

Korpus języka polskiej społeczności na Ukrainie i metody jego utworzenia

Co wylicza Jasnopis? Bartosz Broda

Uchwalono przez Radę Wydziału Humanistycznego w dniu... Obowiązuje od roku akad. 2015/2016

FILOLOGIA POLSKA I ROK I STOPNIA PONIEDZIAŁEK. 11:40 12:30 Logika (wykład) prof. A. Lekka-Kowalik WTOREK ŚRODA CZWARTEK PIĄTEK

Instrukcja obsługi Multiconverter 2.0

1. Skopiować naswój komputer: (tymczasowy adres)

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Netsprint Search. Koncepcja

BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,

Wykaz przedmiotów objętych egzaminami i zaliczeniami w roku akademickim 2014/2015. Rok I, semestr I

nowe idee nowe inspiracje City Network wersja demonstracyjna

Dokumentacja projektu QUAIKE Architektura oprogramowania

Korekta OCR problemy i rozwiązania

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Narzędzia do automatycznej analizy odniesień w tekstach

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Prezentacje prac magisterskich 2003/2004 na specjalno ści SKISR.

Kryteria Oceniania z języka niemieckiego w Gimnazjum Klasa I. Ocena niedostateczna

Metody Kompilacji Wykład 1 Wstęp

Transkrypt:

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Podstawowe informacje o projekcie Projekt realizowany przez IJP PAN we współpracy z IPI PAN, finansowany w ramach Narodowego Programu Rozwoju Humanistyki na lata: 2013-2017 Kierownik projektu: prof. dr hab. Włodzimierz Gruszczyński Planowana objętość korpusu to 12 mln segmentów Korpus historyczny rozszerzający Narodowy Korpus Języka Polskiego Kryptonim: KORBA (KORpus BArokowy) http://korba.nlp.ipipan.waw.pl/login/?next=/ (obecnie dostępny dla członków zespołu pracującego nad korpusem oraz w Pracowni Historii Języka Polskiego XVII i XVIII w. IJP PAN w Warszawie)

Obecny stan korpusu w liczbach Ponad 650 tekstów zawierających ponad 10 mln 300 tys. słów Podstawy: Starodruki: 75,5% Rękopisy: 1,5% Wydania współczesne (XIX-, XX-, XXI-wieczne): 23% Typ literatury: Literatura piękna (w tym Biblia): 25% Pozostałe: 75% Obecność rymów: Mowa niewierszowana: 75% Mowa wierszowana i mieszana: 25% Poetyka żartu: 2%

Reprezentacja chronologiczna tekstów 4500000 4000000 3500000 3000000 2500000 2000000 Słowa 1500000 1000000 500000 0 1601-1650 1651-1700 1701-1750 1751-1772

Reprezentacja geograficzna tekstów Małopolska Wielkopolska Mazowsze Pomorze i Prusy Śląsk Ziemie W. Ks. Lit. Ziemie Ruskie zagranica nieznane

Zakres anotacji Metadane informacje bibliograficzne (autor, tłumacz, wydawca, miejsce i data wydania lub napisania) oraz stylistyczno-genologiczne Anotacja strukturalna oznaczanie wyodrębnionych fragmentów struktury tekstu (np. strona, rozdział, notka marginesowa), a także elementów pominiętych, np. ilustracja, dłuższy fragment w języku obcym; Anotacja językowa oznaczanie obcojęzycznych fragmentów tekstu, np. łaciny; Anotacja morfosyntaktyczna przypisanie informacji gramatycznej każdemu segmentowi; planowane jest ręczne oznakowanie 0,5-milionowej próbki, która będzie potem użyta do budowy tagera, służącego do automatycznego oznakowania pozostałej części korpusu.

Narzędzia Wczytywacz tekstów konwertuje pliki wordowe na format xml zgodny z TEI, wykrywa błędy w anotacji strukturalnej i językowej, pokazuje statystyki korpusu; Konwerter przekształca teksty transliterowane na transkrybowane (https://bitbucket.org/jsbien/pol); Anotatornia wspomaga ręczne znakowanie morfosyntaktyczne; Morfeusz XVII analizator morfologiczny, dostosowany do analizy tekstów XVII- i XVIII-wiecznych; Tager służy do automatycznego znakowania morfosyntaktycznego tekstów; Poliqarp 2 wyszukiwarka dostosowana do przeszukiwania korpusu barokowego.

Próbka tekstu Word

Próbka tekstu XML 10

Konwersja do wersji transkrybowanej transliteracja B. Nie záda mi żaden tey rzeczy, ktoraby bárziey owemu niżeli mnie należeć nie miáłá. A ták śmierć y Kupidyn pozárszy się iáko bestie, posnęli w Kośćiele Bacchusowym, gdźie niewyszumiawszy z przepićia śmierć Cupidinow, á Cupido śmierći należący przypasawszy sáydak do boku szły, swych należących odpráwowáć powinnośći. transkrypcja B. Nie zada mi żaden tej rzeczy, któraby barzyej owemu niżeli mnie należeć nie miała. A tak śmierć i Kupidyn pozarszy się jako beztie, posnęli w Kościele Bacchusowym, gdzie niewyszumiawszy z przepicia śmierć Cupidynów, a Cupido śmierci należący przypasawszy sajdak do boku szły, swych należących odprawować powinności. https://bitbucket.org/jsbien/pol

Tworzenie Morfeusza XVII SGJP e-sxvii Morfeus z XVII postarzony SGJP uzupełnione paradygmaty wstępna wersja Morfeusza XVII rozszerzona wersja e-sxvii tekst automatyczna anotacja ręczne ujednoznacznienie i weryfikacja tekst anotowan y tekst ujednoznaczniony

Dziękuję za uwagę