Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Podobne dokumenty
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

09.1-xxxx-111 Praktyczna nauka języka angielskiego P 05.9-xxxx-050 Psychospołeczne aspekty okresu PP

Specjalizacja tekstologiczno-edytorska

PROGRAM STUDIÓW FP2_W02, FP2_W10, FP2_W11. zaliczenie ustne. aktywność na zajęciach FP2_U01, FP2_U05, FP2_U08. egzamin, zaliczenie ustne

PROGRAM STUDIÓW. zaliczenie ustne aktywność na zajęciach FP2_W02, FP2_W10, FP2_W11 FP2_U01, FP2_U05, FP2_U08. egzamin, zaliczenie ustne

Szkoła Wyższa Psychologii Społecznej. Instytut Podstaw Informatyki Polskiej Akademii Nauk

I.2 Matryca efektów kształcenia: filolo drugiego stopnia WIEDZA. MODUŁ 21 Nau społeczne - przedmiot doo wyboru. MODUŁ 20 Seminarium magisterskie

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

Spis treści Wstęp 1. Językoznawstwo sądowe

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

MISH-S. filologia polska akademicki II (studia magisterskie) 2017/2018

FILOLOGIA POLSKA studia stacjonarne pierwszego stopnia rok akademicki 2015/2016

Minimum programowe dla Międzyobszarowych Indywidualnych Studiów Humanistyczno-Społecznych na rok akademicki Filologia Angielska

Dorota Czarnocka-Cieciura, Dorota Gazicka-Wójtowicz Beata Górczyńska, Katarzyna Lis.

Spis treści tomu pierwszego

Filologia Angielska Studia drugiego stopnia stacjonarne

INSTYTUT GERMANISTYKI Minimum programowe dla MISH Studia II stopnia (od )

I ROK/2. stopnia Specjalizacja nauczycielska semestr 1. Lp. nazwa przedmiotu rodzaj zajęć

Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) Metody kształcenia oraz sposoby weryfikacji.

PROGRAM STUDIÓW I INFORMACJE OGÓLNE

Słowniki i korpusy języka polskiego

Korekta OCR problemy i rozwiązania

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Program warsztatów CLARIN-PL

Uniwersytet Humanistyczno-Przyrodniczy Jana Kochanowskiego w Kielcach WYDZIAŁ PEDAGOGICZNY I ARTYSTYCZNY Instytut Edukacji Muzycznej

Zasoby Uniwersytetu Marii Curie-Skłodowskiej - moduł dla nauki i społeczeństwa. Bogusław Kasperek, Stanisława Wojnarowicz Biblioteka Główna UMCS

Udział Biblioteki Głównej Uniwersytetu Opolskiego w tworzeniu zasobów

Repozytorium Cyfrowe Instytutów Naukowych (RCIN)

Wykaz przedmiotów objętych egzaminami i zaliczeniami w roku akademickim 2014/2015. Rok I, semestr I

Filologia Polska. I ROK I Stopnia

INSTYTUT GERMANISTYKI

Redakcja Maciej Mączyński Ewa Horyń Ewa Zmuda

FILOLOGIA POLSKA studia stacjonarne pierwszego stopnia rok akademicki 2018/2019

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

FILOLOGIA POLSKA studia stacjonarne pierwszego stopnia rok akademicki 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Forma zajęć** 1. Społeczeństwo informacji i wiedzy O W 30 4 E. 4. Seminarium magisterskie O S 30 4 Z. Razem Forma zajęć**

Filologia Angielska Studia drugiego stopnia stacjonarne

Studia licencjackie (I stopnia)

Od ZX Spectrum do Jasnopisu

SPRAWDZIAN I EGZAMINY 2013 W SZKOŁACH ARTYSTYCZNYCH. w w o je w ó dztwie śląskim

Organizacja i logistyka digitalizacji

I. Opracowanie literatury z użyciem Deskryptorów BN (zagadnienia ogólne)

Od koordynacji druku do kompleksowej usługi wydawniczej Nowe pola działań Wydawnictwa Politechniki Lubelskiej

FILOLOGIA POLSKA studia stacjonarne pierwszego stopnia rok akademicki 2016/2017

FP I ROK/2. stopnia Specjalizacja nauczycielska (2018/2019)

MISH-S PLAN STUDIÓW. filologia polska l (licencjat) stacjonarne 2017/2018. kierunek studiów: stopień: forma studiów: od roku:

Minimum programowe dla studentów MISH Studia II stopnia na kierunku germanistyka (obowiązuje od roku akademickiego 2018 /19)

I ROK I Stopnia PONIEDZIAŁEK. 10:50 11:40 Logika (ćwiczenia grupa 1) mgr M. Tatarczak. 11:40 12:30 Logika praktyczna (wykład) ks. dr R.

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

METODA SŁÓW KLUCZY W BADANIU POLSZCZYZNY DAWNEJ

j INSTYTUT PODSTAW INFORMATYKI

ćw.lab./ćw.prow. w jęz. obcym/ semin.dypl. ECTS w. ćw. ćw. A. Moduły przedmiotowe kształcenia ogólnego, w tym ogólnouczelniane

NAZWA PRZEDMIOTU/obsada L. godzin ECTS Forma ST NST

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

INSTYTUT GERMANISTYKI Studia II stopnia (od )

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Recenzja rozprawy doktorskiej mgr Wiesławy Chyżyńskiej

PROGRAM STUDIÓW NA KIERUNKU GERMANISTYKA Studia II stopnia (od )

Opis ilościowo-jakościowy zbioru wytypowanego do digitalizacji.

Wyższa Szkoła Zarządzania Ochroną Pracy w Katowicach Wydział Humanistyczno-Społeczny Katowice, ul. Bankowa 8

PROGRAM STUDIÓW II STOPNIA ŚCIEŻKA ARCHITEKTURA INFORMACJI I WIEDZY. NAZWA PRZEDMIOTU L. godzin ECTS Forma ST NST

3 sem. ćw.lab./ćw.prow. w jęz. obcym/ semin.dypl. ECTS w. ćw. ćw. A. Moduły przedmiotowe kształcenia ogólnego

Uchwalono przez Radę Wydziału Humanistycznego w dniu... Obowiązuje od roku akad. 2015/2016

Specjalne Strefy Ekonomiczne

INSTYTUT GERMANISTYKI

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

V.2 Poddziały wspólne formy (Tablica Id) Wskaźnik (0 )

Innowacyjne narzędzia w procesie digitalizacji

LISTA PRZEDMIOTÓW (STUDIA MAGISTERSKIE MA)

WYKAZ DOKUMENTÓW NA STUDIA III STOPNIA. Podstawowe dokumenty (dotyczy wszystkich wydziałów oraz wszystkich dyscyplin)

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 2

PROGRAMY NAUCZANIA JĘZYKA POLSKIEGO

Wymagania edukacyjne na poszczególne oceny z przedmiotu PRACOWNIA RYSUNKU I TECHNIK REKLAMY:

w./k. I 30 zal. 3 turoznawstwie/litera- turoznawstwie/glotto-dydaktyce 5 Zajęcia niekierunkowe w./sem./k./ ćw. Przedmioty obowiązkowe semestr 2

KONWERSATORIUM Z KULTURY JĘZYKA POLSKIEGO DLA 3-LETNICH STUDIÓW POLONISTYCZNYCH PIERWSZEGO STOPNIA PROBLEMATYKA ZAJĘĆ

od roku akademickiego 2014/2015

Program studiów obowiązujący w roku akademickim 2016/2017

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

P.2.1 WSTĘPNA METODA OPISU I

I ROK Specjalność: język polski (specjalizacja nauczycielska)

INSTYTUT GERMANISTYKI

Transkrypt:

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Dorota Adamiec IJP PAN Włodzimierz Gruszczyński IJP PAN Maciej Ogrodniczuk IPI PAN

Stan przekrojowych badań nad słownictwem polskim XVII-XVIII w. Kartoteka Pracowni Historii Języka Polskiego XVII-XVIII w. (ok. 2,8 mln fiszek)

Stan przekrojowych badań nad słownictwem polskim XVII-XVIII w. Kartoteka Pracowni zdigitalizowana w ramach projektu RCIN dostępna pod adresem: http://rcin.org.pl/dlibra/docmetadata?id=7222&dirds=1&tab=3

Stan przekrojowych badań nad słownictwem polskim XVII-XVIII w. ADRESY: www.sxvii.pl xvii-wiek.ijp-pan.krakow.pl/pan_klient/index.php

Konieczne uzupełnienie nowoczesnego warsztatu badawczego korpus tekstów Projekt badawczy Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Finansowanie projektu: Narodowy Program Rozwoju Humanistyki na lata: 2013-2017 Jednostka koordynująca: IJP PAN Współpraca: IPI PAN Kierownik: Włodzimierz Gruszczyński Kryptonim: KORBA (KORpus BArokowy)

Najważniejsze założenia Chronologiczne rozszerzenie Narodowego Korpusu Języka Polskiego. Planowana objętość: 12 mln segmentów mała w porównaniu z NKJP (300 mln w korpusie zrównoważonym), relatywnie duża jak na korpus historyczny (1 mln w szwedzkich podkorpusach tekstów z okresu Nysvenska, tzn. 1520 1850).

Cele Dostarczenie nowoczesnego narzędzia historykom języka polskiego: wprowadzenie do historii języka metod językoznawstwa korpusowego, wsparcie badań historycznojęzykowych (socjolingwistyka, geografia językowa, stylistyka historyczna itp.), wsparcie prac nad Słownikiem języka polskiego XVII i 1 poł. XVIII w.

Zakres znakowania/tagowania znakowanie strukturalne umożliwiające dokładną lokalizację cytatu w tekście: paginacja, rozdziały, części, księgi itp., notki marginesowe, przypisy itp., podpisy pod ilustracjami; znakowanie socjolingwistyczne (informacje o autorze, wydawcy, tłumaczu); znakowanie stylistyczno-genologiczne; Znakowanie leksykalne (lematyzacja) w ograniczonym zakresie; Znakowanie morfosyntaktyczne (w podkorpusie 0,5 mln); Znakowanie językowe (oznaczenie wszystkich wtrętów obcych, z podziałem na języki); Znakowanie typograficzne (ligatury, skróty, być może kroje czcionek itp.).

Zrównoważenie korpusu problemy Trudności zarówno teoretyczne, jak i praktyczne większe niż w wypadku korpusu tekstów współczesnych, zwłaszcza wielkich. Ograniczona wiedza o strukturze zbioru tekstów funkcjonujących w Polsce w XVII-XVIII w. Problem ilościowy: włączenie wielkich tekstów w całości do relatywnie małego korpusu doprowadzi do braku zrównoważenia, por. dwa poniższe teksty to potencjalnie 10% planowanego korpusu: Biblia Gdańska ok. 742 000 segmentów ok. 1,2 mln segmentów Zielnik Syreniusza ok. 486 000 segmentów Problem dostępności tekstów, możliwości ich pozyskania (np. ograniczone możliwości pozyskiwania rękopisów ze względu na koszto- i czasochłonność).

Gatunki tekstów włączanych do korpusu Teksty użytkowe (np.: akta sejmikowe, księgi sądowe, inwentarze, poradniki medyczne i gospodarskie, podręczniki, kalendarze, listy, czasopisma, druki ulotne, teksty specjalistyczne). Teksty literackie (np.: diariusze, relacje, historie, herbarze, dyskursy, opowieści, dialogi, dramaty, sielanki, satyry). Teksty religijne (np. teksty biblijne, kazania).

Dostępne typy źródeł rękopisy, starodruki, wydania XIX-wieczne i późniejsze, wydania współczesne (wydania z nośnika elektronicznego), teksty dokładnie transliterowane dostępne w postaci elektronicznej (w szczególności korpus projektu IMPACT ok. 1,8 mln segmentów)

Rękopisy jako typ źródeł Ograniczony zakres możliwości wykorzystania z powodu trudności we wprowadzeniu na nośnik (konieczność czasochłonnego przepisywania przez osobę o wysokich kwalifikacjach); Możliwość wykorzystania wydań współczesnych po ich porównaniu z oryginałem; Możliwość wykorzystania rękopisów transliterowanych w pracach magisterskich i doktorskich z zakresu edytorstwa lub historii języka polskiego.

Starodruki jako typ źródeł Podstawowy typ źródeł w korpusie. Większość tekstów będzie przepisywana. Część tekstów będzie być może skanowana i OCR-owana (za pomocą narzędzia, które powstało w ramach projektu IMPACT). Przepisywane będą przede wszystkim teksty udostępnione w bibliotekach cyfrowych.

Wydania XIX-wieczne i późniejsze Wydania XIX-wieczne i późniejsze włączymy do korpusu tylko w wyjątkowych wypadkach: jeśli są dostępne w postaci tekstu na nośniku elektronicznym i możliwe jest ich poprawienie na podstawie oryginału (rękopisu lub starodruku); jeśli są dostępne w postaci papierowej umożliwiającej wykonanie skanu i OCR, a brak ich podstaw (rękopisy lub starodruki zaginęły).

Wydania współczesne Chętnie wykorzystamy wydania współczesne, zwłaszcza jeśli wydawca udostępni tekst na nośniku elektronicznym. Konieczność uzyskania praw do wykorzystania (podobnie jak w wypadku pozyskiwania tekstów do NKJP). Konieczność porównywania z oryginałami (por. problem z wydaniami IBL).

Znakowanie Znakowanie w systemie XML zgodnym ze standardem TEI (w wersji rozszerzonej w trakcie prac nad NKJP) Wyzyskany będzie nieco inny podzbiór znaczników (tagset musi zostać dostosowany do swoistych cech tekstów średniopolskich). Znakowanie strukturalne, językowe, stylistyczne itp. dokonywane będzie równocześnie z przepisywaniem tekstu dzięki specjalnie zaprojektowanemu formularzowi.

Znakowanie morfosyntaktyczne Niewielki podkorpus (ok. 0,5 mln) zostanie oznakowany morfosyntaktycznie. Reszta korpusu zostanie oznakowana automatycznie za pomocą tagera stworzonego w ramach projektu. Wiarygodność tagowania automatycznego będzie mniejsza niż w wypadku NKJP.

Lematyzacja Wszystkie segmenty w korpusie będą rozpoznawane za pomocą lematyzatora, który zostanie dostosowany do prac na tekstach średniopolskich. W części korpusu decyzje lematyzatora zostaną skorygowane przez językoznawców.

Problemy (jeszcze) nierozstrzygnięte Segmentacja: problem z niekonsekwentną pisownią typu: Pewnie tak wielkiego stada nieupasiesz albo nadrugie oko musisz olsnąc. Mowi Kommendant MSCi Panowie trzeba by nąm tu Ięzyka zebys my przecię wiedzieli cosię w Miescie dzieie. problem ze segmentacją przyjętą w NKJP (odejście od segemtacji ortograficznej).