j INSTYTUT PODSTAW INFORMATYKI

Podobne dokumenty
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Tomasz Grześ. Systemy zarządzania treścią, cz. II

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Nowy dowód rejestracyjny w Danii. Multitłumacz

Wskaźnik Trading Central BReTRADER

Historia kodowania i format plików XML. Jolanta Bachan

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Oferta Filos Logos. kursy językowe tłumaczenia. C entru m J ę z yków Obcych Filo s Logos. Z mi ł o ś c i do j ę z yków

PROGRAMOWANIE. WNPiD UAM, Programowanie, inż. Piotr Jabłoński

Korpus Dyskursu Parlamentarnego

dla Klientów Kontakt Skype:

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Komisja Europejska. Dyrekcja Generalna ds. Tłumaczeń Pisemnych (DGT) ds. Tłumaczeń Pisemnych. Tłumaczenie to język Europy.

AquaLingua PORADNIK UŻYTKOWNIKA

XHTML - Extensible Hypertext Markup Language, czyli Rozszerzalny Hipertekstowy Język Oznaczania.

Dokumentacja Użytkownika Systemu

CENNIK USŁUG. BIURO TŁUMACZEŃ ALPHA

1. Wstęp do językoznawstwa Wstęp do etnologii i antropologii

XML extensible Markup Language. Paweł Chodkiewicz

OGŁOSZENIE O KONKURSACH OTWARTYCH (2011/C 198 A/02)

URZĄD DOBORU KADR WSPÓLNOT EUROPEJSKICH (EPSO)

Format HTML. Wybrane działy Informatyki Stosowanej. Definicja i przeznaczenie Struktura dokumentu Znaczniki Formularze i komponenty

1. Wstęp do językoznawstwa Wstęp do etnologii i antropologii

Komunikacja człowiek-komputer

e-book Jak się uczyć? Poradnik Użytkownika

Instrukcja użytkownika Wskaźnik Trading Central

Wymogi formalne dotyczące prac licencjackich i magisterskich. sformułowanie wniosków wynikających z przeprowadzonych badań.

R E K R U T A C J A. r o k s z k o l n y /

(Harmonogramy egzaminów podane są na str. 2

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

XML i nowoczesne metody zarządzania treścią

1. Każdy zdający powinien mieć na egzaminie następujące przybory pomocnicze:

The Binder Consulting

SEKCJA I: ZAMAWIAJĄCY SEKCJA II: PRZEDMIOT ZAMÓWIENIA.

ĆWICZENIE 1 SKŁAD TEKSTU DO DRUKU

Instrukcja integracji z portalem ogłoszeń praca.24portal.pl

ZNACZNIKI META. Znacznik META

1. Wstęp do językoznawstwa Wstęp do etnologii i antropologii

CENNIK USŁUG PROMOCJA!!! TŁUMACZENIA PISEMNE ZWYKŁE

Podręcznik wdrożeniowy wersja 1.0

Zapytanie ofertowe. Usługi tłumaczeniowe

Szczegółowy opis języka HTML5 znajdziemy w specyfikacji, która jest dostępna pod adresem

WZORY PUBLIKACYJNE POLSKICH NAUKOWCÓW W LATACH

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Egzamin z bengalskiego?

NAUCZANIE JĘZYKÓW OBCYCH W SZCZECINIE

OpenOffice.org Writer

HARMONOGRAM EGZAMINU MATURALNEGO W TERMINIE GŁÓWNYM dla absolwentów wszystkich typów szkół

DOKUMENTACJA TECHNICZNA SMS API MT

Informację na temat struktury pliku XML

PAKIET KODÓW ŹRÓDŁOWYCH PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Struktura języka HTML ZNACZNIKI. Oto bardzo prosta strona WWW wyświetlona w przeglądarce: A tak wygląda kod źródłowy takiej strony:

Rola języka XML narzędziem

Elektroniczne Postępowanie Upominawcze zawiadomienie dłużnika o wszczęciu egzekucji

HARMONOGRAM EGZAMINU MATURALNEGO W TERMINIE GŁÓWNYM

DOSTAWA KONCENTRATORÓW SIECIOWYCH ORAZ URZĄDZENIA IPAD NA POTRZEBY SĄDU OKRĘGOWEGO W SZCZECINIE

HARMONOGRAM EGZAMINU MATURALNEGO W TERMINIE GŁÓWNYM

Komunikat dyrektora Centralnej Komisji Egzaminacyjnej z 3 lipca 2014 r.

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

Tacho2Safe INSTRUKCJA OBSŁUGI. Tacho-Diagram Pruszków ul. Wiśniowa 38 tel

Zadanie 11. Przygotowanie publikacji do wydrukowania

HARMONOGRAM EGZAMINU MATURALNEGO W TERMINIE GŁÓWNYM dla absolwentów wszystkich typów szkół

HARMONOGRAM EGZAMINU MATURALNEGO W TERMINIE

Podstawy (X)HTML i CSS

Facelets ViewHandler

Ekran główny lista formularzy

Lab.1. Praca z tekstem: stosowanie arkuszy stylów w dokumentach OO oraz HTML/CSS

SEKRETARIATU SZKOŁY w terminie do r.

R E K R U T A C J A. r o k s z k o l n y /

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

HTML (HyperText Markup Language) hipertekstowy język znaczników

AUDYT DOSTĘPNOŚCI STRONY INTERNETOWEJ

Specyfikacja techniczna dot. mailingów HTML

8-calowa cyfrowa ramka do zdjęć! Wbudowane 128 MB

METODY REPREZENTACJI INFORMACJI

RÓWNOWAŻNOŚĆ ZAOFEROWANCH PAKIETÓW PROGRAMÓW BIUROWYCH

WSKAZÓWKI WYDAWNICZE DLA AUTORÓW

W następnych slajdach jest to graficznie przedstawione jak to zrobić

ZAPYTANIE OFERTOWE. Zamówienie udzielane będzie w trybie postępowania ofertowego ZAMAWIAJĄCY: KOD CPV:

Podstawowe znaczniki języka HTML.

Zaawansowana Pracownia Komputerowa - Ćwiczenia. Krzysztof Miernik

XML i nowoczesne technologie zarządzania treścią

I. Formatowanie tekstu i wygląd strony

Budowa aplikacji wielowarstwowych. Zastosowanie szablonów

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Dr Adam Naumowicz

Aktualizacja z 29 sierpnia 2017 r. Na podstawie:

Praca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk

Plan dzisiejszego wykładu. Narzędzia informatyczne w językoznawstwie. XML - Definicja. Zalety XML

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

HARMONOGRAM EGZAMINU MATURALNEGO W TERMINIE GŁÓWNYM dla absolwentów wszystkich typów szkół

WSKAZÓWKI DOTYCZĄCE TŁUMACZENIA SUPLEMENTU DO ŚWIADECTWA WPROWADZENIE ZALECENIA OGÓLNE

ASP.NET MVC. Podstawy. Zaawansowane programowanie internetowe Instrukcja nr 3

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML

Transkrypt:

Format dokumentów w projekcie elektronicznego korpusu tekstów polskich z XVII i XVIII w. Maciej Ogrodniczuk Michał Lenart Institute of Computer Science Polish Academy of Sciences j INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. Jana Kazimierza 5, 01-248 Warszawa Instytut Języka Polskiego PAN 21 listopada 2013

Struktura tekstu Podobnie jak w NKJP, teksty w korpusie KORBA wraz z ich strukturą (podział na rozdziały, akapity, strony, przypisy, notki marginesowe itp.) znajdują się w plikach text_structure.xml. <?xml version="1.0" encoding="utf-8"?> <teicorpus xmlns=""> <xi:include href="korba_header.xml"/> <TEI> <xi:include href="header.xml"/> <text> <front> <!-- strona tytułowa i potytułowa --> <body> <!-- tekst właściwy - pozostałe strony --> </text> </TEI> </teicorpus> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 2

Strona tytułowa i potytułowa <front> <titlepage> </titlepage> <div type="posttitlepage"> </div> </front> Użycie poszczególnych elementów TEI z przykładami: http://www.tei-c.org/release/doc/tei-p5-doc/en/html. Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 3

Autor, tytuł i podtytuł <titlepage> <doctitle> <titlepart type="main">the DUNCIAD, VARIOURVM.</titlePart> <titlepart type="sub">with THE PROLEGOMENA of SCRIBLERUS.</titlePart> <docauthor>gal Anonim</docAuthor> </doctitle> </titlepage> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 4

Drukarnia, miejsce, rok, numer wydania <titlepage> <docimprint> <publisher>jan Karcan</publisher> <pubplace>wilno</pubplace> <docdate>1611</docdate> </docimprint> <docedition>wydanie pierwsze</docedition> </titlepage> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 5

Części tekstu Poszczególne części tekstu są reprezentowane przez elementy <div>; typ części znajduje się w atrybucie @type. <body> <div type="volume"> <p></p> <div type="part_level1"> <!-- Rozdział 1 --> <p></p> </div> <div type="part_level1"> <!-- Rozdział 2 --> </div> </div> </body> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 6

Tytuły, podtytuły i streszczenia części <head type="title">o nieporządney chćiwośći iedzenia,</head> <head type="subtitle">to iest, o apetićie przećiwnym ludzkiemu przyrodzeniu.</head> <head type="summary">poeta idąc zá zdániem dawnych Pogan, trzy początki świátá, y rzeczy będących ná nim, bydz rozumiał: Bogá, Lepsze przyrodzenie, y Chaos.</head> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 7

Dopuszczalne atrybuty head Wartość atrybutu type Znacznik strukturalny volume [POCZĄTEK/KONIEC TOMU] part_leveln [POCZĄTEK/KONIEC POZIOMU N] motto [POCZĄTEK/KONIEC MOTTA] preface [POCZĄTEK/KONIEC PRE-TEKSTU] epilogue [POCZĄTEK/KONIEC POST-TEKSTU] index gdy zawiera indeks contents gdy zawiera spis treści Wartość atrybutu n wczytywane z tekstu znajdującego się wewnątrz znacznika [POCZĄTEK/KONIEC CZĘŚCI NUMEROWANEJ] Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 8

Podział na strony Aktualnie w NKJP nie ma możliwości sprawdzenia, na której stronie tekstu źródłowego znajduje się znaleziony fragment. Aby to umożliwić, do dokumentów text_structure.xml został włączony znacznik <pb> (ang. page break) oznaczający początek nowej strony. Atrybut n zawiera numer strony lub inne oznaczenie identyfikujące. Początek dokumentu zawiera oznaczenie strony pierwszej: <front> <!-- początek strony tytułowej --> <pb n="1"/> <titlepage> </titlepage> </front> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 9

Śródtekstowy podział na strony <body> <div type="volume"> <p>womit nic inszego nie iest/ iedno wyrzucánie przez vstá tego/ coby iedno w nim było. Cknienie záś iest początek niepewnego <pb n="2"/> poruszenia mocy wyganiáiącey/ przez ktorą vśiełuie przez vstá wygnáć/ to co iest żołądkowi przykro/ ábo nieznośno.</p> <p></p> </body> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 10

Śródtekstowy podział na strony Uwaga: Oznaczenie kustoszy jest przepisywane dla celów weryfikacyjnych, ale nie jest reprezentowane w formacie wynikowym. Jeśli słowo znajduje się na dwóch stronach jednocześnie (czyli zawiera przeniesienie), wówczas znacznik końca strony zostanie umieszczony za tym słowem. Każda strona zaczyna się znacznikiem <pb> nawet strona tytułowa i potytułowa. Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 11

Śródczęściowy podział na strony <body> <div type="volume"> <div type="part"> <head>rozdział 1</head> </div> <!-- początek strony bezpośrednio w <div>, czyli np. pomiędzy częściami --> <pb n="12"/> <div type="part"> <head>rozdział 2</head> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 12

Notki marginesowe W notkach marginesowych zapisywane są różne fragmenty, które nie stanowią treści tekstu, ale które chcemy zachować. <p>wielkość zámyka w sobie/ wielkie ábo nie wielkie iedzenie/ y częste iedzenie. Co się tknie pierwszego. <note type="margin">iák wiele ieść</note> Iák wiele mamy ieść/ naznácza nam vśmierzenie głodu/ to iest/ gdy się znieśie przez wźięty pokarm przyrodzona chćiwość iadłá.</p> Uwaga: narzędzia automatycznie przetwarzające teksty muszą szczególnie uważać na ten znacznik, ponieważ jego zawartość może zaśmiecać właściwy tekst (notka marginesowa i przypis są jakby drugim wymiarem płaskiego, jednowymiarowego tekstu). Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 13

Inne elementy Przypisy: <p>y rzekł Mojżesz przed Pánem/ mowiąc: Oto/ Synowie Izráelscy nie usłucháli mię/ á jákoż mię usłucha Fáráo/ á jam nie obrzezánnych <note type="annotation">wolney wymowy nie mam.</note> warg?</p> Podpis pod rysunkiem: <note type="label">a. To iest tępy koniec kliniká, ktory ma bydź zewnątrz w vlu.</note> Żywa pagina: <fw type="runninghead">o Przypadkách Brzemiennych.</fw> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 14

Inne elementy Znacznik strukturalny [ILUSTRACJA] [WZÓR MATEMATYCZNY] [ZAPIS NUTOWY] [TEKST W JĘZYKU OBCYM] [ALFABET NIEŁACIŃSKI] [INNA PRZERWA W TEKŚCIE] Znak specjalny Znacznik TEI <figure/> <formula/> <notatedmusic/> <foreign xml:lang="kod"/> <foreign xml:lang="x-nlws"/> <span type="other"/> <g/> Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 15

Kody języków Język arabski czeski francuski hebrajski hiszpański litewski łacina niemiecki południowo-słowiański ruski skandynawski turecko-tatarski węgierski włoski Kod ar cs fr he es lt la de zls x-ruski x-skand x-turtat hu it Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 16

Kody języków Oznaczenia rozpoczynające się literą x pochodzą spoza oficjalnej listy kodów językowych ISO; to tagi językowe do użytku prywatnego, wykorzystywane tam, gdzie standard okazuje się niewystarczający. Z wewnętrznej korespondencji: Zdecydowaliśmy się połączyć kilka języków w jedną grupę, bo w XVII w. niektóre języki albo jeszcze nie istniały, albo byłyby trudne do odróżnienia. Turecko-tatarski obejmuje turecki i tatarski, skandynawski teoretycznie wszystkie języki skandynawskie, ale praktycznie szwedzki i duński. Zdecydowaliśmy się też nie używać określenia ukraiński. Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 17

Kompatybilność Opisany format zapisu jest oparty na NKJP, ale wprowadza wiele nowych znaczników. Narzędzia oparte na NKJP (np. Poliqarp, Pantera) obsługują tylko uproszczoną wersję formatu. Wymagane jest dostosowanie wyżej wymienionych narzędzi lub stworzenie zubożonej wersji formatu. Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 18

Interfejs serwisu do konwersji W ramach projektu powstaje serwis internetowy dla skryptorów i redaktorów. Umożliwia on między innymi: konwersję plików.doc do formatu TEI za pomocą formularza na stronie, wykrywanie błędów w oznaczaniu tekstu (brakujące znaczniki, źle oznaczone języki obce itp.), podgląd wyników konwersji w formie czytelnej dla użytkownika (ułatwia znajdowanie błędów), zarządzanie procesem dostarczania tekstów wgranie wstępnej wersji przez skryptora, przesyłanie poprawek, redakcja (jeszcze nie zaimplementowane). Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 19

Serwis do konwersji strona główna Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 20

Serwis do konwersji obsługa błędów Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 21

Serwis do konwersji obsługa błędów Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 22

Serwis do konwersji podgląd wyników Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 23

Serwis do konwersji podgląd wyników Maciej Ogrodniczuk, Michał Lenart Format dokumentów w projekcie korpusu tekstów z XVII i XVIII w. 24