Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Podobne dokumenty
Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

Oceń wpływ języków obcych na język polski w wybranym okresie rozwoju polszczyzny. Podaj i omów przykłady oddziaływań.

1. Przemiany religijne i polityczne w Europie od średniowiecza do. a. Historia polityczna, kultura polityczna i ideologia wczesnego

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

TEMATY Z JĘZYKA POLSKIEGO NA MATURĘ USTNĄ na rok 2010/ 2011 w ZSP im. Orląt Lwowskich w Stopnicy

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

KONWERSATORIUM Z KULTURY JĘZYKA POLSKIEGO DLA 3-LETNICH STUDIÓW POLONISTYCZNYCH PIERWSZEGO STOPNIA PROBLEMATYKA ZAJĘĆ

SYLLABUS. Historia języka polskiego. Kierunek: filologia polska. specjalność: nauczycielska / dziennikarska

Specjalizacja tekstologiczno-edytorska

BADANIE RUCHU TURYSTYCZNEGO W BYDGOSZCZY 2012

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

DZIAŁY BIBLIOTEKI. A. Encyklopedie powszechne: 1. Francuska 2. Niemiecka 3. Polska

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

Program warsztatów CLARIN-PL

Narzędzia do automatycznej analizy odniesień w tekstach

Wprowadzenie do projektowania i wykorzystania baz danych Projektowanie zasobów językowych

Open Access w technologii językowej dla języka polskiego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

I. Opracowanie literatury z użyciem Deskryptorów BN (zagadnienia ogólne)

Spis treści tomu pierwszego

Sprawozdanie z realizacji planu rozwoju zawodowego nauczyciela mianowanego

Problem normy językowej w leksykografii historycznej

historia języka niemieckiego

Liczba godzin Punkty ECTS Sposób zaliczenia. konwersatoria 16 zaliczenie z oceną

Program studiów doktoranckich w zakresie prawa

Ontologie, czyli o inteligentnych danych

Lud Podolski, Głos Podola, Ziemia Podolska

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

historia powstania i realizacja pokoleniowa

OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A

Bibliografie ogólne. Bibliografia polska Estreicherów

Lingwistyka Kryminalistyczna w Collegium Maius Projekt konkursowy

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

DZIEJE LITERATUR EUROPEJSKICH

Załącznik Nr 4. Standardy nauczania dla kierunku studiów: filologia STUDIA MAGISTERSKIE I. WYMAGANIA OGÓLNE

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Szkoła Wyższa Psychologii Społecznej. Instytut Podstaw Informatyki Polskiej Akademii Nauk

Narzędzia do automatycznego wydobywania kolokacji

LISTA TEMATÓW NA EGZAMIN WEWNĘTRZNY Z JĘZYKA POLSKIEGO W ROKU SZKONYM 2014/2015 ZESPÓŁ SZKÓŁ ZAWODOWYCH IM. STANISŁAWA STASZICA

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO W KLASACH 1-3 NOWE ZROZUMIEĆ TEKST ZROZUMIEĆ CZŁOWIEKA POZIOM ROZSZERZONY

Ewa Bandura. Nauczyciel jako mediator Kulturowy (seria: Język a komunikacja 13)

Kierunek Zarządzanie II stopnia Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów kształcenia dla obszaru nauk społecznych

Recenzja rozprawy doktorskiej mgr Wiesławy Chyżyńskiej

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Oferta edukacyjna Książnicy Karkonoskiej 2016/2017 Szkoły ponadgimnazjalne. Szkoły PONADGIMNAZJALNE

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

A JAKŻE!!! Nawet na koptyjskim

Rozkład materiału realizacji informatyki w szkole podstawowej w wymiarze 1;1;2 godziny w cyklu trzyletnim

Zarys statystyki prasy polskiej

Tematy maturalne na rok szkolny 2013/ Literatura

PROGRAM NAUCZANIA MODUŁU (PRZEDMIOTU)

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO - POZIOM PODSTAWOWY

Wirtualizacja zasobów IPv6 w projekcie IIP

Słowniki i korpusy języka polskiego

Cele kształcenia wymagania ogólne

I.2 Matryca efektów kształcenia: filolo drugiego stopnia WIEDZA. MODUŁ 21 Nau społeczne - przedmiot doo wyboru. MODUŁ 20 Seminarium magisterskie

Załącznik Nr 5. Standardy nauczania dla kierunku studiów: filologia polska STUDIA MAGISTERSKIE I. WYMAGANIA OGÓLNE

LISTA TEMATÓW Z JĘZYKA POLSKIEGO NA CZĘŚĆ USTNĄ EGZAMINU MATURALNEGO W ROKU SZKOLNYM 2016/2017.

Wielkopolska Biblioteka Cyfrowa

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

OCENA ODDZIAŁYWANIA NA ŚRODOWISKO"

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

POLITECHNIKA GDAŃSKA WYDZIAŁ MECHANICZNY PROJEKT DYPLOMOWY INŻYNIERSKI

TEMATY Z JĘZYKA POLSKIEGO NA WEWNĘTRZNY EGZAMIN MATURALNY W ROKU SZKOLNYM 2011/2012. Literatura

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE

Kierunek studiów - PEDAGOGIKA. Tezy egzaminacyjne (podstawowe) Egzamin licencjacki

Publikacja sfinansowana z działalności statutowej Wydziału Filologicznego oraz Katedry Logopedii Uniwersytetu Gdańskiego

UCHWAŁA NR 50 Senatu Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie z dnia 28 maja 2012 r.

Bibliografie ogólne. Bibliografia polska Estreicherów

FILOLOGIA POLSKA (I, II, III, IVa lub IVb lub IVc, V) PROGRAM STUDIÓW W SYSTEMIE ECTS. STUDIA STACJONARNE PIERWSZEGO STOPNIA

LITERATURA. 2. Kresy wschodnie w literaturze polskiej. Omów na podstawie wybranych przykładów.

Słowa jako zwierciadło świata

TEMATY DO CZĘŚCI WEWNĘTRZNEJ EGZAMINU MATURALNEGO Z JĘZYKA POLSKIEGO NA ROK SZKOLNY 2008/2009

Kierunki rozwoju w nauczaniu języków obcych. dr Joanna Kic-Drgas

EFEKTY KSZTAŁCENIA DLA STUDIÓW DRUGIEGO STOPNIA (MAGISTERSKICH) NA KIERUNKU: HISTORIA

Łatwa czy niełatwa droga do celu? - wdrożenie COSMIC w ZUS

Założenia monitoringu innowacyjności województwa mazowieckiego

Znaleźć słowo trafne... Stylistyczno-komunikacyjny obraz współczesnej polszczyzny

LISTA TEMATÓW NA EGZAMIN WEWNĘTRZNY Z JĘZYKA POLSKIEGO W ROKU SZKONYM 2013/2014 ZESPÓŁ SZKÓŁ ZAWODOWYCH IM. STANISŁAWA STASZICA

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Spis treści Regulacje UE Uwagi wprowadzające Konwencja arbitrażowa oraz Kodeks postępowania wspierającego...

DOBÓR PRÓBY. Czyli kogo badać?

WYMAGANIA EDUKACYJNE Z PRZEDMIOTU: Pracownia kosztorysowania i dokumentacji przetargowej KLASA IV Technik Budownictwa

FILOLOGIA POLSKA studia stacjonarne pierwszego stopnia rok akademicki 2017/2018

Spis treści. Wykaz skrótów 13. Wstęp 17

Wyniki ankiet samooceny osiągnięcia kierunkowych efektów kształcenia na studiach I i II stopnia

Transkrypt:

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) podstawowe informacje o projekcie Projekt badawczy realizowany przez Pracownię Historii Języka Polskiego XVII i XVIII w. Instytutu Języka Polskiego PAN we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN. Projekt finansowany ze środków Narodowego Programu Rozwoju Humanistyki na lata 2013-2017. Kierownik projektu: prof. dr hab. Włodzimierz Gruszczyński. Planowana objętość korpusu to 12 mln segmentów. Korpus historyczny rozszerzający Narodowy Korpus Języka Polskiego.

Dobór tekstów Czynnik decydujący o zawartości korpusu i jego przydatności badawczej. Podstawowe założenia autorów korpusu barokowego uwzględniają ogólnie przyjmowane cechy konstytutywne korpusów językowych: o reprezentatywność o zrównoważenie

Realizacja założeń modelowego korpusu tekstów w korpusie historycznym Trudności i ograniczenia: o dostępny wyłącznie jeden kanał komunikacyjny teksty pisane o dostępne są tylko teksty, które zachowały się przez 300-400 lat Zalety materiału historycznego: o zbiór skończony, zamknięty o możliwość badawczego oglądu z dużego dystansu czasowego

Dostępne typy źródeł rękopisy, starodruki (drukowane gotykiem lub antykwą), wydania XIX-wieczne i późniejsze tekstów barokowych, opracowane elektronicznie wydania współczesne tekstów z XVII i XVIII w., teksty dokładnie transliterowane dostępne w postaci elektronicznej (w szczególności korpus polskiej części międzynarodowego projektu IMPACT ok. 1,8 mln segmentów).

Płaszczyzny uwzględnione w doborze tekstów do korpusu barokowego Zróżnicowanie chronologiczne Zróżnicowanie regionalne Zróżnicowanie gatunkowe tekstów

Zróżnicowanie chronologiczne Zrównoważona ilościowo reprezentacja w korpusie podokresów: 1601-1650 1651-1700 1701-1750 1751-1772 Cezury czasowe sztuczne mają charakter wyłącznie porządkujący Analizy porównawcze wybranych zjawisk językowych we wskazanych podokresach pozwolą na dostrzeżenie tendencji zmian językowych (rozwojowych i zanikających)

Zróżnicowanie regionalne (procentowy udział regionów) 1580-1700 W. Rzepka na podstawie Bibliografii Estreichera Małopolska 60 24 Wielkopolska 13 13 Mazowsze 8 10 Kresy pn.-wsch. 13 7 Kresy pd.-wsch. 2 16 Pomorze i Prusy 3 5 Śląsk 0,3 2,5 1601-0k. 1750 K. Siekierska o źródłach I tomu Słownika języka polskiego XVII i 1. poł. XVIII w. 22% źródeł bez określenia przynależności regionalnej (brak informacji o autorze, teksty anonimowe)

Zróżnicowanie gatunkowe tekstów Poezja znacząca część zachowane go piśmiennictwa z XVII i XVIII wieku włączana do korpusu w ograniczonym zakresie (archaizmy, neologizmy, indywidualizmy) Proza dążenie do uwzględnienia w korpusie zróżnicowania gatunkowego tekstów reprezentatywnego dla epoki

Zróżnicowanie gatunkowe tekstów prozatorskich 1. Teksty narracyjne: pamiętniki, diariusze, kroniki, historie, relacje podróżnicze, opisy miejsc 2. Proza moralizatorska 3. Proza religijna: teksty biblijne, kazania, postylle, polemiki religijne, żywoty świętych 4. Pisma polityczne 5. Teksty specjalistyczne: traktaty, podręczniki, wzory mów, poradniki, słowniki 6. Teksty urzędowe: akta sejmowe, sejmikowe, sądowe, ordynacje, wilkierze 7. Gazety, druki ulotne 8. Listy

Zestawienie danych o tekście włączanym do korpusu barokowego

Znakowanie Korpus budowany z tekstów dobieranych zgodnie z przedstawionymi założeniami jest wielopłaszczyznowo znakowany, aby mógł funkcjonować jako baza danych wyposażona w narzędzia informatyczne. Znakowanie tekstów jest wprowadzane w systemie XML zgodnym ze standardem TEI w wersji rozszerzonej na potrzeby NKJP i dostosowanej do cech tekstów średniopolskich.

Znakowanie morfosyntaktyczne Niewielki podkorpus (ok. 0,5 mln segmentów) zostanie oznakowany morfosyntaktycznie przez językoznawców. Reszta korpusu zostanie oznakowana automatycznie za pomocą stworzonego w ramach projektu tagera (narzędzia informatycznego do automatycznej anotacji morfoskładniowej). Wiarygodność tagowania automatycznego będzie mniejsza niż w wypadku NKJP (ze względu na znaczną wariantywność i brak stabilizacji gramatycznej w języku średniopolskim).

Oczekiwane korzyści badawcze w zakresie analizy gramatycznej polszczyzny barokowej Opracowanie całościowego opisu fleksyjnego tego okresu rozwojowego polszczyzny. Wskazanie tendencji rozwojowych na przestrzeni prawie 200 lat. Możliwość weryfikacji dotychczasowych ustaleń historyków języka baroku opartych na mniejszych próbach materiałowych.