Przyrostowa metoda dygitalizacji słowników

Podobne dokumenty
Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Elektroniczne indeksy fiszek słownikowych

UNIWERSYTETU WARSZAWSKIEGO

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Wyświetlanie publikacji w formacie DjVu. Wyświetlanie publikacji w Bałtyckiej Bibliotece Cyfrowej można realizować na 3 sposoby:

APD Archiwum Prac Dyplomowych - ( apd.utp.edu.pl )

CENTRALNA BIBLIOTEKA STATYSTYCZNA PRZEWODNIK PO KATALOGU KOMPUTEROWYM SYSTEM ALEPH WERSJA 22

Biblioteka Cyfrowa Politechniki Łódzkiej (ebipol) Vademecum Użytkownika rok akademicki 2010/2011

TECHNOLOGIA INFORMACYJNA

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Instrukcja składania wniosku o dofinansowanie w systemie informatycznym IP na potrzeby konkursu nr 1/1.1.2/2015

INSTRUKCJA UŻYTKOWANIA DZIENNIKA NAUCZYCIELA W PROGRAMIE SZKOLNY KLUB SPORTOWY

Pokaz slajdów na stronie internetowej

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

KARTA INFORMACYJNA Z INFORMATYKI DO KLASY 4. Imię i nazwisko ucznia:

The Online Books Page

Baza wiedzy instrukcja

Podręcznik użytkownika Wprowadzający aplikacji Wykaz2

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

Cyfrowe dokumenty muzyczne w Internecie

Edytor materiału nauczania

Piotr Dynia. PowerPivot. narzędzie do wielowymiarowej analizy danych

Tomasz Grześ. Systemy zarządzania treścią, cz. II

Jak przeglądać publikacje w formacie DjVu?

Co nowego w wersji 3.10 programu Kancelaris

Podręcznik użytkownika Publikujący aplikacji Wykaz2

Podręcznik użytkownika

Przewodnik dla studentów i absolwentów.

Uruchamianie bazy PostgreSQL

Access Engineering to multimedialna baza/platforma wiedzy dla : naukowców inżynierów kadry dydaktycznej studentów

AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE. QuIDE Quantum IDE PODRĘCZNIK UŻYTKOWNIKA

Drodzy Czytelnicy, w POMOCY znajdziecie informacje i podpowiedzi jak poruszać się po platformie IBUK Libra i korzystać z dostępnych narzędzi

W kierunku bazy pełnotekstowej inicjatywy BazTech

Geofabrik.

Internet Archive (IA) ogólne informacje. ebooks and Texts prezentacja polskojęzycznych dokumentów

Bibexcel i Pajek w analizach bibliometrycznych.

Instrukcja do modułu Kontroli Zarządczej (KZ)

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK INFORMATYK, O STRUKTURZE PRZEDMIOTOWEJ

INSTRUKCJA UŻYTKOWNIKA. Spis treści. I. Wprowadzenie II. Tworzenie nowej karty pracy a. Obiekty b. Nauka pisania...

Spis treści. O autorce. O recenzentach. Wprowadzenie

Instrukcja użytkownika BIP

Edytor Edit+ - dodawanie zdjęć i. załączników. Instrukcja użytkownika

PORADNIK JOOMLA! - nigdy nie klikamy w przeglądarce Cofnij/Back. Opuszczamy zakładkę w Joomla! klikając Zapisz lub Zamknij.

OBSŁUGA PRACY DYPLOMOWEJ W APD PRZEZ STUDENTA

Tworzenie katalogu wirtualnego w Internetowych usługach informacyjnych (IIS)

Choose a building block. Kleos Knowledge Center. Wersja : 1.01 (RBI) Data : 10 czerwcza Kleos 6.6 (czerwiec 2019) Nowości i usprawnienia

Moduł Notatki Systemu Obsługi Zamówień Publicznych UTP-Bydgoszcz Instrukcja postępowania do 1000 Euro

Wstęp do poradnika metodycznego Przykładowy rozkład materiału 13 I rok nauczania...13 II rok nauczania...13 Rozkład materiału:...

Instrukcja obsługi Użytkownika BIP

Wymagany zakres godzinowy i tematyczny kursów.

KATEGORIA OBSZAR WIEDZY

APD Instrukcja użytkownika

Korzystania z systemu monitorowania pozycji system3.pl

Informacje o zmienianym ogłoszeniu: data r.

OPIS i SPECYFIKACJA TECHNICZNA

Nowa usługa Centrum Komputerowego PŁ. Pliki w Chmurze. Serwis przechowywania i udostępniania danych. Prezentacja wprowadzająca

Spis treści. Wstęp. Niniejsza instrukcja jest przeznaczona dla użytkowników systemu wspomagającego planowanie przestrzenne.

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

ColDis Poradnik użytkownika

Integracja APD z Ogólnopolskim Repozytorium Prac Dyplomowych

PLAN ZAJĘĆ Z EDUKACJI CZYTELNICZO-MEDIALNEJ ROKU SZKOLNYM 2014/2015

Dokumentacja Użytkownika Systemu

Wydanie: ELO Klient - Porównanie funkcji ELO ECM Suite 10

kk-cms System Zarządzania Treścią - prezentacja intensys - agencja interaktywna tel

Monitorowanie i udostępnianie przeglądu mediów w okresie od r. do r.

1. Logowanie do Systemu BCW

Przewodnik Szybki start

TECHBYTE FACEBOOK BOT PACK

- dodaj obiekt tekstowy: /** Maciej */ Stage { title : "First JavaFX App" scene: Scene { width: 300 height: 300 content: [ ] } }

Tematyka i rozwiązania metodyczne kolejnych zajęć lekcyjnych wraz z ćwiczeniami.

Rządowy Proces Legislacyjny

TECHNIKI INFORMACJI I KOMUNIKACJI. I SSA I stopnia


Koncepcja węzła IIP na przykładzie planów zagospodarowania przestrzennego

UDOSTĘPNIENIE ZBIORÓW MUZEALNYCH ZAMKU KRÓLEWSKIEGO W WARSZAWIE MUZEUM

Spis treści. Wstęp Rozdział 1. Wprowadzenie do pakietu Office Rozdział 2. Edytory tekstu program Word... 15

Uwagi o tworzeniu korpusów (wersja z 4 lipca 2012 )

Instrukcja szyfrowania poczty do ESKOM. na przykładzie wykorzystania narzędzia MS Outlook

Finanse VULCAN. Jednostki dodaje i konfiguruje administrator główny platformy (w aplikacji Zarządzanie platformą).

Program do archiwizacji i zarządzania dokumentami

INFORMATYKA Wymagania na poszczególne oceny - klasa 7 szkoły podstawowej

Praca z nowoczesnymi technologiami ICT (rok I)

OPIS PRZEDMIOTU ZAMÓWIENIA

Informacja o sposobie wysyłania i akceptacji plików przeznaczonych do druku w Werner Kenkel Sp. z o.o.

Tworzenie własnych map dla UI-View

autor poradnika - KS Jak zamieszczać i edytować artykuły na szkolnej stronie internetowej

Prezentacja systemu do obsługi klienta (platforma B2B) Adres sklepu:

Przedmiot zamówienia. Załącznik nr 1

Książki elektroniczne

inpost Paczkomaty v Strona 1 z 13

W następnych slajdach jest to graficznie przedstawione jak to zrobić

INFORMATYKA KLASA VII Wymagania na poszczególne oceny

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Instrukcja użytkowania platformy ONLINE. Akademii Doskonalenia Zawodowego NATUROPATA ADZ Naturopata

ĆWICZENIE 1 SKŁAD TEKSTU DO DRUKU

Informatyka kl. 1. Semestr I

Instrukcja obsługi szablonów aukcji

Transkrypt:

Janusz S. Bień, Joanna Bilińska, Mateusz Sarnecki Wydział Neofilologii Uniwersytet Warszawski Leksykografia polska, ukraińska, bułgarska: słowniki tradycyjne i elektroniczne Warszawa, 13.11.2014 r.

Słowniki na serwerze Katedry Lingwistyki Formalnej Adres: http://korpusy.klf.uw.edu.pl/pl/ Słownik warszawski (J. Karłowicz, A. Kryński, W. Niedźwiedzki, Słownik języka polskiego, Warszawa 1900 1927). Słownik polszczyzny XVI wieku (wydawany od 1966 r.). S. B. Linde, Słownik języka polskiego (2. wydanie), Lwów 1854 1861. B. Chlebowski, F. Sulimierski, W. Walewski (red.), Słownik Geograficzny Królestwa Polskiego i innych krajów słowiańskich, Warszawa 1880 1902.

Słowniki na serwerze KLF cd. Słowniki udostępniane graficznie z dodawanymi elementami typu: warstwa tekstowa (tzw. brudny OCR), podziały na sekcje, możliwość korzystania z wyrażeń regularnych w wyszukiwarce, konkordancje graficzne, indeksy, spis treści (outline) w przypadku Słownika Lindego

http://korpusy.klf.uw.edu.pl/pl/ Kolejne możliwe udogodnienia to np. anotacja skanów oraz

DjVu Teksty udostępniane w formacie DjVu szybki dostęp, możliwość dużego powiększania obrazu, stopniowe ładowanie pliku, możliwość tworzenia linków (URL), wielowarstwowość plików Konieczne jest zainstalowanie specjalnego programu (np. djview for Poliqarp) lub wtyczki do przeglądarki

Konkordancje graficzne

Wyszukiwanie zaawansowane Warto takie teksty tagować, np. dodając objaśnienia do skrótów.

Spis treści (outline) (przeglądarka DjView4)

Dalsze przyrostowe udostępnianie tekstu przechodzenie od tzw. brudnego OCR-u do tekstów Ground-Truth, tagowanie tekstu, dodawanie anotacji skanów, budowa indeksów

Możliwe anotacje skanów pokazywanie erraty lub poprawek redakcyjnych, tworzenie chmurek z wyjaśnieniami do tekstu, zaznaczanie tekstu (na skanie) kolorami, łącza do odwołań, źródeł, innych słowników, spisy treści, indeksy

Możliwy tagset [attr] lang = und pl de ru... script = latn latf cyrl... series = medium bold shape = upright italic wconf = 0 1 2 3 4 5 6 7 8 9 [pos] ign = lang script series shape wconf

Przykładowe indeksy Indeks żywej paginy jak w słowniku Knapskiego (http://www.mimuw.edu.pl/polszczyzna/knapski/ Knapski_DjVu/) Indeks haseł np. indeks a tergo do Słownika Lindego (http://bc.klf.uw.edu.pl/379/) Inne indeksy dla słownika Lindego np. nazw geograficznych, słów obcojęzycznych, skrótów redakcyjnych, innych skrótów

Indeks a tergo do słownika Lindego

Słownik Lindego w Bayerische StaatsBibliothek http://reader.digitale-sammlungen.de/de/fs1/object/ display/bsb10524311_00001.html

Słownik Lindego w Bayerische StaatsBibliothek cd. pliki JPG i PDF, wyszukiwanie słów, podpowiadanie słów w czasie szukania, OCR z błędami, konkordancje graficzne, można pobrać PDF bez OCR, brak możliwości zapisywania linków do konkretnych trafień

Literatura Bień, Janusz S. (2014), Elektroniczny indeks do słownika Lindego, V Glosa do leksykografii, 18-19 września 2014 r., Warszawa, http://bc.klf.uw.edu.pl/379/. Bień, Janusz S. (2014) The IMPACT project Polish Ground-Truth texts as a DjVu corpus, "Cognitive Studies Études Cognitives" (14), s. 75-84, http://bc.klf.uw.edu.pl/381/. Bień, Janusz S., Bilińska, Joanna A., Sarnecki, Mateusz (2014), An incremental approach to retrodigitization, ENeL-WG2 meeting, Bolzano, http://bc.klf.uw.edu.pl/378/.