Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Podobne dokumenty
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Problem normy językowej w leksykografii historycznej

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Program warsztatów CLARIN-PL

Od ZX Spectrum do Jasnopisu

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Wielki słownik języka polskiego w pracy nauczyciela polonisty

Publikacje Instytutu Historii im. Tadeusza Manteuffla Polskiej Akademii Nauk w Repozytorium Cyfrowym Instytutów Naukowych

Słowniki i korpusy języka polskiego

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Szkoła Wyższa Psychologii Społecznej. Instytut Podstaw Informatyki Polskiej Akademii Nauk

Słowniki i inne przydatne adresy. oprac. dr Aneta Drabek

Jak powstaje Wielki słownik języka polskiego

Próbne arkusze z języka polskiego. Odpowiedzi. Wydawnictwo Tales

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Współczesne narzędzia leksykograficzne a analiza tekstów dawniejszych

Dorota Czarnocka-Cieciura, Dorota Gazicka-Wójtowicz Beata Górczyńska, Katarzyna Lis.

Ewa Lang Marzena Marcinek

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

WebSty otwarty webowy system do analiz stylometrycznych

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Lokalizacja Oprogramowania

KARTOTEKA ZAGADNIENIOWA Pedagogicznej Biblioteki Wojewódzkiej w Słupsku Krok po kroku. Jolanta Janonis, Pedagogiczna Biblioteka Wojewódzka w Słupsku

SYLLABUS. Leksykologia i leksykografia

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE

Narzędzia do automatycznego wydobywania kolokacji

Wymagania edukacyjne / kryteria oceniania - klasa 2. Podręcznik NUEVO ESPAÑOL EN MARCHA. NIVEL BÁSICO A1+A2 (Unidades 10-17) wyd.

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Korpus tekstów drugiej połowy doby nowopolskiej ( )

ŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA BIBLIOTECZNE CZ. 2

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Projekt Repozytorium Cyfrowe Instytutów Naukowych Katarzyna Wiśniewska prezes RCIN

CLARIN-PL w praktyce badawczej

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Merkuriusz Artykuły naukowe w systemie elektronicznych wypożyczeń międzybibliotecznych

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Instrukcja dla autorów monografii oraz prac zbiorowych

GH - Charakterystyka arkuszy egzaminacyjnych.

Kurier DPD dla Subiekt GT

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

JĘZYKI INFORMACYJNO-WYSZUKIWAWCZE. Zagadnienia do egzaminu. 1. Język informacyjno-wyszukiwawczy - charakterystyka ogólna. Definicja języka.

24 LATA WSPÓŁPRACY POLSKICH BIBLIOTEK MEDYCZNYCH OSIĄGNIĘCIA I WYZWANIA

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

1), 1. * W

Franciszek P e p ł o w s k i SŁOWNIK JĘZYKA CYPRIANA NORWIDA

Wikisłownik. (więcej niż słownik) Piotr Derbeth Kubowicz. Wikiwarsztaty Wrocław, 7 marca Stowarzyszenie Wikimedia Polska

Siostrzane projekty Wikipedii: Wikisłownik

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

PRZEWODNIK PO PRZEDMIOCIE I. KARTA PRZEDMIOTU: Praktyczna Nauka Języka Angielskiego: leksyka ćwiczenia

Gmina (Miasto) Słupca Szkoła Podstawowa nr 3 im. Adama Mickiewicza w Słupcy

Szczegółowy opis języka HTML5 znajdziemy w specyfikacji, która jest dostępna pod adresem

JĘZYK NIEMIECKI liceum

Wymagania edukacyjne / kryteria oceniania - klasa 1. Podręcznik NUEVO ESPAÑOL EN MARCHA. NIVEL BÁSICO A1+A2 (Unidades 1-8) wyd.

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Instrukcja. opracował Marcin Oleksy

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

METODA SŁÓW KLUCZY W BADANIU POLSZCZYZNY DAWNEJ

Publiczna prezentacja założeń projektu pn. Polska Platforma Medyczna portal zarządzania wiedzą i potencjałem badawczym. Wrocław, 12 grudnia 2016 r.

Eksploracja Zasobów Internetu

Zarządzanie dokumentacją techniczną. Wykł. 11 Zarządzania przepływem informacji w przedsiębiorstwie. Zabezpieczenia dokumentacji technicznej.

Wstęp do Językoznawstwa

Open Access w technologii językowej dla języka polskiego

WSPARCIE DYDAKTYCZNE I METODYCZNE NAUCZYCIELI E-LEARNING opr. Krzysztof Grupka

Eureka! Czy wiesz, że w szkole jest biblioteka!?

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Wykonawca systemu: Dr inż. Andrzej Łysko

Przedmiotowy Regulamin. XVII Wojewódzki Konkurs z Języka Rosyjskiego dla uczniów klas trzecich gimnazjów oraz

Biuletyn Uniwersalnej Klasyfikacji Dziesiętnej

Zasoby Uniwersytetu Marii Curie-Skłodowskiej - moduł dla nauki i społeczeństwa. Bogusław Kasperek, Stanisława Wojnarowicz Biblioteka Główna UMCS

Test kompetencji pisali uczniowie klas drugich. Obejmował zadania wielokrotnego wyboru, wymagające krótkiej odpowiedzi oraz rozszerzonej odpowiedzi.

Zintegrowany System Zarządzania Biblioteką SOWA2/MARC21 OBSŁUGA CZASOPISM

Przystojna i przyzwoita

17. Definicje w rozumieniu Kodeksu tłumacza przysięgłego Znamiona dokumentu urzędowego i firmowego Definicja oryginału w rozumieniu

PoliMorf otwarty słownik morfologiczny

WYDZIAŁ BEZPIECZEŃSTWA NARODOWEGO AKADEMII OBRONY NARODOWEJ ZESZYTY DOKTORANCKIE WYMOGI EDYTORSKIE

Transkrypt:

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772) finansowanego przez NPRH w latach 2012-2018

SŁOWNIK: e-sxvii, czyli Elektroniczny słownik języka polskiego XVII i XVIII wieku, opracowywany przez zespół w IJP PAN i udostępniany na bieżąco pod adresem: http://sxvii.pl KORPUS: KORBA, czyli Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do roku 1772), powstający w ramach projektu realizowanego w latach 2013-18 przez zespół złożony z pracowników IJP PAN i IPI PAN

SXVII 1954-1993: ustalenie kanonu źródeł ekscerpcja, w wyniku której powstało ok. 2,8 mln kart z cytatami 1996: wydanie zeszytu próbnego 1999-2004: wydanie I tomu (5 zeszytów) od 2004: komputeryzacja prac przejście na formę elektroniczną stworzenie rozbudowanej bazy danych słownikowych, biograficznych i bibliograficznych udostępnianie wyników prac na bieżąco za pomocą programu przekształcającego dane z bazy na tekst artykułów hasłowych

Podstawowe dane Słownik notuje: 19227 znaczeń, 2342 utrwalone połączenia wyrazowe, 485 związków frazeologicznych, 254 przysłowia, 1295 przenośni, 57826 cytatów z 862 źródeł, 35694 formy fleksyjne, 2952 informacje o etymologii. 300 250 200 150 100 Hasła Opr. W opr. Zaląż. Odn. Razem 390 11 294 3 442 690 15 816 2% 71% 21% 5% 100% 50 0 Ark. wyd.

Problemy materiałowe i warsztatowe Konieczność ułatwienia dostępu do materiałów, bo: papierowe fiszki dostępne tylko w pracowni wiele fiszek zawiera tylko adres wystąpienia formy, a nie przepisany cytat Konieczność powiększenia podstawy materiałowej: 2,8 mln kart w SXVII ok. 7 mln kart w SXVI

Zmiany warsztatowe 2011-2013: Zeskanowanie kartoteki w ramach projektu RCIN (Repozytorium Cyfrowe Instytutów Naukowych) 2013: Udostępnienie fiszek w RCIN na platformie dlibra http://rcin.org.pl/dlibra/publication?id=20029&tab=3

Powiększenie podstawy materiałowej 2013: początek realizacji projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772) Planowana wielkość korpusu: 12 mln segmentów (w rozumieniu NKJP) Anotacja morfosyntaktyczna: A. manualna 0,5 mln segmentów B. automatyczna całość Bogate oznakowanie strukturalne (m.in. lokalizacja cytatu z dokładnością do strony) Oznakowanie obcojęzycznych fragmentów tekstów (z dokładnością do języka) Teksty transliterowane zgodnie z zasadami przyjętymi w e-sxvii Możliwość przeszukiwania zarówno tekstu transliterowanego, jak transkrybowanego

Korpus słownik Tekst 1 Tekst 2 Tekst 3 Tekst n ARTYKUŁ HASŁOWY 1. znaczenie pierwsze cytat(y) w formie x cytat(y) w formie y 2. znaczenie drugie cytat(y) w formie x cytat(y) w formie z itd.

Korpus dla słownika Możliwość szybkiego wyszukania żądanego segmentu lub segmentów wraz z kontekstem. Możliwość sprawdzenia frekwencji, chronologii, geografii itp. występowania danej jednostki języka. Możliwość określenia gatunków tekstów, w których występuje dana jednostka języka, wskazania autorów, którzy jej najczęściej używają. Pomoc w odszukaniu ewentualnych wariantów ortograficznych, fonetycznych, morfologicznych. Pomoc w ustaleniu łączliwości syntaktycznej i leksykalnej. Pomoc w ustaleniu znaczenia lub znaczeń.

Słownik dla korpusu Słownik może być (choć rzadko bywa) włączony do korpusu lub traktowany jako korpus: słownik dwujęzyczny/wielojęzyczny w korpusie dostarcza zamiast kontekstów/konkordancji ekwiwalentów obcojęzycznych; w wypadku słowników historycznych może mieć to wartość (np. Thesaurus Knapskiego lub Orbis sensualium pictus Komenskiego mogłyby się zostać włączone do KORBY); słownik jednojęzyczny, zawierający przykłady użycia, jest/może być swego rodzaju (pod)korpusem (por. artykuł P. Żmigrodzkiego).

Słownik dla korpusu Słownik może stanowić pomoc w budowie narzędzi do obsługi korpusu: Słownik gramatyczny języka polskiego stanowi podstawę dla analizatora fleksyjnego Morfeusz, który może służyć jako tzw. lematyzator; informacja fleksyjna zawarta w dotychczas opracowanych hasłach e-sxvii posłuży jako podstawa do tworzenia narzędzi obsługujących KORBĘ.

e-xvii KORBA Informacje fleksyjne i chronologiczne zostaną wykorzystane do zbudowania automatycznego analizatora fleksyjnego: obecnie w e-sxvii zinterpretowane zostały 35673 formy fleksyjne, większość tych form przytoczonych jest następnie w dokładnie datowanych cytatach, co ułatwi w procesie automatycznej analizy fleksyjnej przypisanie prawdopodobieństwa poszczególnym wynikom. transliteracja transkrypcja forma abiudykacyją abiudykacją lemat abiudykacya abiudykacja

Informacja fleksyjna w e-sxvii Data publikacji: 1608