Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Podobne dokumenty
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Specjalizacja tekstologiczno-edytorska

I. Raport wykonywalności projektu

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

SPIS TREŚCI. Wprowadzenie... 11

Przykłady wybranych fragmentów prac egzaminacyjnych z komentarzami Technik informacji naukowej 348 [03] Zadanie egzaminacyjne

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

ZBIERANIE MATERIAŁÓW DO PRACY. Bazy danych

Tworzenie metadanych, proces digitalizacji i publikowanie dokumentów w projekcie Merkuriusz. Katarzyna Araszkiewicz

Praca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk

24 LATA WSPÓŁPRACY POLSKICH BIBLIOTEK MEDYCZNYCH OSIĄGNIĘCIA I WYZWANIA

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

MINISTER NAUKI I SZKOLNICTWA WYŻSZEGO ogłasza konkurs na realizację projektów w ramach programu pod nazwą Szlakami Polski Niepodległej" r.

Bibliografia załącznikowa do prac naukowych, dyplomowych inżynierskich i magisterskich

GH - Charakterystyka arkuszy egzaminacyjnych.

Problem normy językowej w leksykografii historycznej

Szkoła Wyższa Psychologii Społecznej. Instytut Podstaw Informatyki Polskiej Akademii Nauk

Program opracowały: Barbara Derewiecka, Halina Szpak Pedagogiczna Biblioteka Wojewódzka w Bielsku-Białej

ZP-P-I Strona 1 z 7

Opis bibliograficzny katalogowanie właściwości formatu MARC21(NUKAT) dla Wojewódzkiej Biblioteki Publicznej im. Hieronima Łopacińskiego w Lublinie

POMOC DO KORZYSTANIA Z ELEKTRONICZNYCH KATALOGÓW

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

P.2.1 WSTĘPNA METODA OPISU I

Zal/ocena B Egzamin B Zal/ocena B Zal/ocena B Zal/ocena B Zal/ocena B

Przyrostowa metoda dygitalizacji słowników

j INSTYTUT PODSTAW INFORMATYKI

FORMAT MARC 21 dla rekordów stosowanych w BAZACH BIBLIOGRAFICZNYCH

CALIFORNIA DIGITAL LIBRARY CYFROWA BIBLIOTEKA KALIFORNIJSKA

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Dziennik Urzędowy Unii Europejskiej L 274/9

PLAN ZAJĘĆ Z EDUKACJI CZYTELNICZO-MEDIALNEJ ROKU SZKOLNYM 2014/2015

Słowniki i inne przydatne adresy. oprac. dr Aneta Drabek

1. Skopiować naswój komputer: (tymczasowy adres)

Platformy czasopism naukowych a bibliograficzne bazy danych: obszary przenikania, narzędzia, usługi

Bibliografia Etnografii Polskiej

Baza Cytowań POL-index założenia i cele

Rok studiów: I Semestr 1

MS Word Długi dokument. Praca z długim dokumentem. Kinga Sorkowska

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Korekta OCR problemy i rozwiązania

TEMAT1 DZIENNIK OCEN STUDENTÓW

Szkolenie z zakresu konstrukcji umów w języku angielskim

Zintegrowany system usług dla nauki etap II (ZSUN II)

Program warsztatów CLARIN-PL

Schemat procedury związanej z zakończeniem studiów

Zagadnienia do egzaminu licencjackiego BIBLIOTEKOZNAWSTWO. Zagadnienie Biblioteka, bibliotekarstwo, bibliotekoznawstwo - zakres i znaczenie terminów.

17. Definicje w rozumieniu Kodeksu tłumacza przysięgłego Znamiona dokumentu urzędowego i firmowego Definicja oryginału w rozumieniu

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Komentarz technik informacji naukowej 348[03]-01 Czerwiec 2009

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

PROGRAM STUDIÓW. zaliczenie ustne aktywność na zajęciach FP2_W02, FP2_W10, FP2_W11 FP2_U01, FP2_U05, FP2_U08. egzamin, zaliczenie ustne

Od ZX Spectrum do Jasnopisu

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE

Kryteria oceny pracy doktoranta przez opiekuna naukowego

II. Wyszukiwanie złożone poprzez indeksy

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

KILKA WSKAZÓWEK ZWIĄZANYCH ZE SKŁADEM TEKSTU PRACY LICENCJACKIEJ (MAGISTERSKIEJ) I KSIĄŻKI W PROGRAMIE MICROSOFT WORD 2010

Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) Metody kształcenia oraz sposoby weryfikacji.

OPIS PRZEDMIOTU ZAMÓWIENIA PRZYGOTOWANIE I PRZEPROWADZENIE TESTÓW WIEDZY DLA PRACOWNIKÓW SIECI PUNKTÓW INFORMACYJNYCH FUNDUSZY EUROPEJSKICH

Schemat Rocznego Ramowego Planu Pracy Biblioteki

Microsoft Word jak zrobić bibliografię

PROGRAM STUDIÓW I INFORMACJE OGÓLNE

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

KARTOTEKA ZAGADNIENIOWA Pedagogicznej Biblioteki Wojewódzkiej w Słupsku Krok po kroku. Jolanta Janonis, Pedagogiczna Biblioteka Wojewódzka w Słupsku

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Szczegółowy opis oceny osiągnięć ucznia.

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

Spis treści Wstęp 1. Językoznawstwo sądowe

Załącznik nr 2 do zapytania ofertowego nr IN-I

dlibra 3.0 Marcin Heliński

Wpływ rozwoju automatyzacji w bibliotekach na formę i jakość ich działalności informacyjnej

I.2 Matryca efektów kształcenia: filolo drugiego stopnia WIEDZA. MODUŁ 21 Nau społeczne - przedmiot doo wyboru. MODUŁ 20 Seminarium magisterskie

Wyszukiwanie źródeł informacji w bazach danych Dolnośląskiej Biblioteki Pedagogicznej we Wrocławiu

DZIAŁANIA BIBLIOTEKI PK NA RZECZ OPEN ACCESS WŚRÓD SPOŁECZNOŚCI AKADEMICKIEJ POLITECHNIKI KRAKOWSKIEJ

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Formularz aplikacyjny NESsT. Konkurs na Przedsiębiorstwo Społeczne

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Transkrypt:

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku zasady doboru tekstów, zakres znakowania, sposób udostępniania Włodzimierz Gruszczyński IJP PAN e-mail: wlodekiewa@poczta.onet.pl

O potrzebie korpusu W Pracowni Historii Języka Polskiego XVII i XVIII wieku powstaje słownik polszczyzny tego okresu. W latach 1954-1990: opracowanie koncepcji, ustalenie kanonu źródeł, ekscerpcja, w wyniku której powstało (według ówczesnych szacunków) ponad 3 mln kart z cytatami, dających podstawę do utworzenia ponad 80 tys. haseł słownikowych.

O potrzebie korpusu 1991-1993 wznowienie ekscerpcji: 42 tys. nowych kart, prawie 3700 nowych haseł. 1996 wydanie zeszytu próbnego. 1999-2004 wydanie 5 zeszytów I tomu (na literę A). 2004 zmiana kierownictwa Pracowni, poszukiwania nowych metod pracy.

O potrzebie korpusu W 2005 r. na Festiwalu Nauki Polskiej postawiłem pytanie: Jak przyspieszyć i ułatwić prace nad słownikiem? Rozpatrywałem następujące możliwości: Ułatwić dostęp do materiałów źródłowych! Rozwiązać problem fiszek (Ale jak?!). Przenieść jak najwięcej źródeł na nośnik elektroniczny! Stworzyć KORPUS tekstów średniopolskich. Stworzyć narzędzia ułatwiające pisanie artykułów hasłowych.

Ułatwianie dostępu do źródeł Współpraca z bibliotekami tworzącymi zasoby internetowe. Dygitalizacja słowników przede wszystkim Thesaurusa Knapskiego (wydany na CD przez BUW). Stworzenie Cyfrowej Biblioteki Druków Ulotnych Polskich i Polski Dotyczących (obecnie dostępnej w ramach FBC).

Dygitalizacja kartoteki

Unowocześnienie warsztatu pracy Wszystkie z wyjątkiem korpusu nierealne pomysły wymienione na Festiwalu Nauki zostały zrealizowane w stosunkowo krótkim czasie. Dygitalizacja fiszek (dokonana w ramach grantu RCIN) dowiodła, że jest ich mniej niż szacowano: 2,8 mln, a nie ponad 3 mln, mniej także jest haseł (wiele to warianty, nazwy własne, błędne zapisy). Baza materiałowa S-XVII okazała się dużo uboższa niż baza S-XVI czy SJPDor. (kartoteka każdego z tych dwóch słowników zawiera ok. 8 mln fiszek).

O potrzebie korpusu Korpus tekstów polskich XVII i XVIII wieku dałby możliwość automatycznego wygenerowania indeksów form, a może nawet leksemów. Korpus w pewnym stopniu zastąpiłby kartotekę, a w znacznym uzupełniłby ją. Korpus przyspieszyłby prace nad słownikiem, a w pewnym stopniu go zastąpił (!).

PolDiLemma, czyli czy korpus tekstów średniopolskich już istnieje?

PolDiLemma próbka tekstu Stany Koronne y Wielkiego Xięstwa Litewłkiego ziednoczy wf/.y Gę wę/fem Koi:(edetacyi Gencralncy, dla Otrzymania Wolności Narodowcy, iako y dla naprawy defektów &abuftitm, lub ulepfzenia wlzcikicgo, ktorcbv Gę w Oy czy/nic naizey potrzebnym pokazijo ; a peftępek takowy Patryety czny będąc wfparty oc Nayi^nicvfzcy Jmpcratrirowy JMći Cafey Koiły i, fzćzcrey A.li.inrfri /Przyjaciółki Nafzcy ( bo tego przez wfpamafe intcreflbwanie fię ku Dobni Rzecżypofpolitcy, y konferwacyi Wolności nafzey dowody dała ) więc też Skorifcdcrowanc Siany Oboyga Naredow, tak nieoboigtnemi przeniknione będąc przyjaźni y dobrego fąficdztwa dowodami, fnltrme dc Mayiaśflicyfzcy Jmpcratorowy Jcy Mci wyff.fy Polclllwo, dla oświadczenia szczerego podziękowania, y uprafzania przez tychże Polfow o kontynuację pomocy przyiaciclikiey, y o wyfoką Nuyinśr.icyfzey JmpcraiorOwy Gwarancyą, dla niewzrul

Starania o grant Pierwsza próba (w MNiSzW) zakończona rezygnacją z przyznanej dotacji (bo była żenująco mała). Druga próba zakończona sukcesem: Projekt badawczy Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.). Finansowanie projektu: Narodowy Program Rozwoju Humanistyki na lata: 2013-2018. Jednostka koordynująca: IJP PAN. Współpraca: IPI PAN. Kierownik: Włodzimierz Gruszczyński. Koordynator: Renata Bronikowska. Kryptonim: KORBA (KORpus BArokowy).

Najważniejsze założenia Chronologiczne rozszerzenie NKJP. Planowana objętość: 12M segmentów» mała w porównaniu z NKJP (300M w korpusie zrównoważonym),» relatywnie duża jak na korpus historyczny, por.: 1,2M szwedzkie podkorpusy z okresu Nysvenska, tzn. 1520 1850, 11M serbski korpus historyczny (KSJ), 100M Corpus del Español (lata: 1200-1900 r. ), 406M Corpus of Historical American English (COHA) (lata: 1810-2000).

Najważniejsze założenia metadane Dokładne dane bibliograficzne tekstu. Charakterystyka stylistyczno-genologiczna. Charakterystyka socjolingwistyczna i geolingwistyczna (informacje o autorze, wydawcy, tłumaczu).

Najważniejsze założenia znakowanie Znakowanie strukturalne umożliwiające dokładną lokalizację cytatu w tekście: paginacja (uwzględnienie różnych systemów), oznaczenia granic rozdziałów, części, ksiąg itp., oznaczanie notek marginesowych, przypisów itp., oznaczanie podpisów pod ilustracjami; oznaczanie typowych części, np. dedykacyj, typowych fragmentów strony tytułowej itp. Znakowanie językowe, tzn. oznaczenie wszystkich wtrętów obcych, z podziałem na języki.

Znaczniki strukturalne

Znaczniki tekstowe

Oznaczenia języków obcych

Najważniejsze założenia znakowanie morfosyntaktyczne Znakowaniem morfosyntaktycznym wprowadzanym ręcznie objęty będzie podkorpus o długości 0,5M segmentów. Całość będzie oznakowana automatycznie. Zestaw znaczników (tagset) budowany jest na podstawie zestawu zastosowanego przy znakowaniu NKJP. Konieczne jest wprowadzenie zmian umożliwiających oznakowanie kategorii i/lub wartości niewystępujących we współczesnej polszczyźnie. Wskazane jest wprowadzenie znaczników zgodnych z tradycją opisu historycznego i umożliwienie wyszukiwania według tradycyjnych kategorii.

Pozyskiwanie tekstów Rękopisy, starodruki z epoki: najbardziej wiarygodne, przepisywane przez zwykle niedostępne w tekstowej skryptorów w formacie formie elektronicznej, MS Word ze specjalnymi drogie w pozyskiwaniu. stylami i skrótami klawiaturowymi Wydania z XIX, XX, XXI w.: mało wiarygodne (ortografia, gramatyka), czasem dostępne w formie elektronicznej, wielu dotyczy ograniczenie z powodu prawa autorskiego. Edycje internetowe (mało wiarygodne) pozytywny przykład Wolne lektury.

Przykład tekstu przepisanego i oznakowanego strukturalnie oraz językowo

Przykład tekstu w formacie XML

Etapy pracy przy transkrypcji tekstu za pomocą Wczytywacza autor: M. Ogrodniczuk

Wczytywacz tekstów Ułatwia przekazywanie tekstów między redaktorem a skryptorem (korektorem). Umożliwia redaktorowi tworzenie metryczki tekstu, czyli wprowadzanie bardzo szczegółowych metadanych. Wychwytuje błędy formalne w znakowaniu, np. sygnalizuje brak znacznika [koniec strony], jeśli nie ma go między dwoma znacznikami [początek strony]. Konwertuje tekst na format XML (zgodny z TEI). Sporządza raporty dotyczące liczby tekstów i słów należących do danej kategorii. Wyszukuje zadany ciąg liter we wczytanych tekstach.

Wczytywacz status tekstów

Wczytywacz metryczka tekstu

Wczytywacz raport

Wczytywacz tymczasowa wyszukiwarka

Schemat tworzenia korpusu Skan rękopisu lub starodruku Współczesne wydanie tekstu barokowego Ręczna transliteracja Skan + OCR Wprowadzanie znaczników strukturalnych i językowych Wczytywacz Automatyczna konwersja do formatu XML (TEI) Automatyczna transkrypcja na współczesną ortografię Transkryber Znakowanie morfosyntaktyczne (częściowo ręczne (0,5M), częściowo automatyczne) Anotatornia (Morfeusz) Tager (Polita?) Lematyzacja Wyszukiwanie za pomocą Poliqarpa2

Problem zrównoważenia i reprezentatywności korpusu Trudności zarówno teoretyczne, jak i praktyczne większe niż w wypadku korpusu tekstów współczesnych, zwłaszcza wielkich. Ograniczona wiedza o strukturze zbioru tekstów funkcjonujących w Polsce w XVII-XVIII w. oraz o czytelnictwie w epoce. Brak niektórych typów tekstów (w szczególności mówionych). Problem ilościowy: włączenie wielkich tekstów w całości do relatywnie małego korpusu doprowadzi do braku zrównoważenia, por. dwa poniższe teksty to potencjalnie 10% planowanego korpusu: Biblia Gdańska ok. 742 000 segmentów ok. 1,2 mln segmentów Zielnik Syreniusza ok. 486 000 segmentów Problem dostępności tekstów (wiele popularnych w epoce nie dochowało się), możliwości ich pozyskania (trudność w znalezieniu osób umiejących przepisywać rękopisy).

Reprezentatywność cele W korpusie historycznym ważne jest zgromadzenie tekstów maksymalnie zróżnicowanych pod względem stylistycznym, tematycznym, chronologicznym i regionalnym. Dążenie do zrównoważenia i zachowania reprezentatywności korpusu może utrudniać osiągnięcie tego celu. Por.: D. Adamiec, Kryteria doboru tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.), Prace Filologiczne LXVII (2015), 11-20.

Małopolska Wielkopolska Mazowsze Pomorze i Prusy Śląsk Ziemie W. Ks. Lit. Ziemie Ruskie zagranica nieznane

Reprezentatywność: chronologia

Znakowanie morfosyntaktyczne Przypisanie każdemu segmentowi informacji gramatycznej: o jego przynależności do określonej klasy gramatycznej, o wartościach kategorii gramatycznych. Umożliwia zaawansowane przeszukiwanie korpusu, np. wyszukanie wszystkich form fleksyjnych leksemu. Znakowanie Korby będzie się odbywać na wzór znakowania NKJP. Tagset (zbiór znaczników) będzie oparty na tagsecie NKJP, który zostanie dostosowany do potrzeb opisu polszczyzny barokowej. Znakowanie będzie się odbywać na tekstach transkrybowanych, a nie transliterowanych.

Konwersja do wersji transkrybowanej transliteracja B. Nie záda mi żaden tey rzeczy, ktoraby bárziey owemu niżeli mnie należeć nie miáłá. A ták śmierć y Kupidyn pozárszy się iáko bestie, posnęli w Kośćiele Bacchusowym, gdźie niewyszumiawszy z przepićia śmierć Cupidinow, á Cupido śmierći należący przypasawszy sáydak do boku szły, swych należących odpráwowáć powinnośći. transkrypcja B. Nie zada mi żaden tej rzeczy, któraby barzyej owemu niżeli mnie należeć nie miała. A tak śmierć i Kupidyn pozarszy się jako beztie, posnęli w Kościele Bacchusowym, gdzie niewyszumiawszy z przepicia śmierć Cupidynów, a Cupido śmierci należący przypasawszy sajdak do boku szły, swych należących odprawować powinności. https://bitbucket.org/jsbien/pol

Znaczniki gramatyczne dodane co z tym? dodane

Propozycja znakowania rodzaju Zneutralizowany Żeński Nieżeński Nijaki Męski męskonieżywotny męsko- żywotny męskożywotny1 męskożywotny2

Obecny stan korpusu Wprowadzono ponad 672 teksty. Łączna długość tekstów ponad 10,5M segmentów, co daje ponad 12M w rozumieniu NKJP. Wszystkie teksty mają dokładne metryczki. Wszystkie teksty są oznakowane strukturalnie i językowo. Większość tekstów wymaga korekty, którą obecnie prowadzimy. Transkryber działa, uzupełniony został zestaw reguł swoistych dla naszego korpusu. Anotatornia jest w fazie testów. Morfeusz 17 jest w trakcie tworzenia. Udostępnienie wersji testowej koniec 2016 r.