Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Podobne dokumenty
Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Przyrostowa metoda dygitalizacji słowników

Licencje na oprogramowanie i zasoby internetowe

tel. fax

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

1. Licencja GPL / GNU. 2. Dystrybucje systemu Linux. 4. Sposoby instalacji w Ubuntu

Open Source w Open e-learningu. Przykłady zastosowania

Przede wszystkim autor ma oficjalne prawo do autorstwa utworu, rozpowszechniania go pod wyznaczonym pseudonimem, kontroli nad

Centrum Otwartej Nauki

Jak zgodnie z prawem założyć radio internetowe na swojej stronie?

Open Acces Otwarty dostęp

RepOD Repozytorium Otwartych Danych Badawczych

Open Access w technologii językowej dla języka polskiego

Wykład VI. Wybrane zagadnienia licencjonowania i praw autorskich. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

CYRENA czyli Cyfrowe Repozytorium Nauki Politechniki Łódzkiej


Projekt DIR jako przykład praktycznej realizacji idei Open Access. Marek Niezgódka, Alek Tarkowski ICM UW

Prawa autorskie, licencje

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

egroupware czy phpgroupware jest też mniej stabilny.

Wolna kultura a wolny dostęp do wiedzy

Udostępnianie i przechowywanie obiektów cyfrowych w kontekście biblioteki akademickiej

Spis treści 1.

Projekt e-repozytorium prac naukowych Uniwersytetu Warszawskiego. dr Aneta Pieniądz, KBSI Ewa Kobierska-Maciuszko, BUW

Wolne oprogramowanie

Edukacja informacyjna oraz zbiory typu open access. Ewa A. Rozkosz

Prawo autorskie - zespół przyjętych norm i aktów prawnych, mających na celu zabezpieczenie wytworu ludzkiej działalności przed nielegalnym

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

OPIS PRZEDMIOTU. Dygitalizacja i biblioteki cyfrowe MSIW IN23D-SP. Wydział Administracji i Nauk Społecznych Instytut/Katedra

Podstawy użytkowania systemu Linux

II.1.1) Nazwa nadana zamówieniu przez zamawiającego: dostawa oprogramowania komputerowego z podziałem na 4 części.

POPULARNE TYPY LICENCJI

Elektroniczne indeksy fiszek słownikowych

Wyszukiwanie pełnotekstowe w zasobach bibliotek cyfrowych

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Jak mądrze korzystać z wolnych źródeł wiedzy? Agnieszka Kwiecień Stowarzyszenie Wikimedia Polska

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

KARTA KURSU. Techniki informatyczne

Prezentacja zorganizowana w ramach Projektu

Od edukacji do realizacji otwarta digitalizacja z DigitLabem Adam Dudczak Poznaoskie Centrum Superkomputerowo-Sieciowe maneo@man.poznan.

Szkoła Wyższa Psychologii Społecznej. Instytut Podstaw Informatyki Polskiej Akademii Nauk

Charakterystyka procesu tworzenia globalnych zasobów Open Access

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

Zintegrowany System Wiedzy oraz Wielofunkcyjne Repozytorium Danych Źródłowych podstawy technologiczne. Marcin Werla, PCSS

Strategia ELO Multi-Client

Opis przedmiotu zamówienia. Wymagania ogólne dla zintegrowanego systemu bibliotecznego.

OPEN ACCESS Polskie projekty otwarte

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

Wstęp do Informatyki. Klasyfikacja oprogramowania

Cechy systemu X Window: otwartość niezależność od producentów i od sprzętu, dostępny kod źródłowy; architektura klient-serwer;

Otwarty Dostęp do publikacji naukowych

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Tworzenie i obsługa wirtualnego laboratorium komputerowego

Bibexcel i Pajek w analizach bibliometrycznych.

Prezentacja jest dostępna na licencji. Uznanie autorstwa - użycie niekomercyjne 3.0 Polska

Digitalizacja wybranych pozycji księgozbioru w Bibliotece Centralnego Instytutu Ochrony Pracy Państwowego Instytutu Badawczego

Przewodnik po Europeana Remix

Publikowanie wyników badań i publikacji naukowych w modelu otwartym

TECHNOLOGIA INFORMACYJNA

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2012 POZIOM ROZSZERZONY WYBRANE: CZĘŚĆ I. Czas pracy: 90 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

Otwarte Zasoby Edukacyjne

Program warsztatów CLARIN-PL

Warszawa, ul. Raszyńska 8/10, tel , fax

Oferta edukacyjna Książnicy Karkonoskiej 2017/2018 Szkoły ponadgimnazjalne. Szkoły PONADGIMNAZJALNE

TWORZĘ WŁASNĄ STRONĘ INTERNETOWĄ (BLOG)

Merkuriusz Artykuły naukowe w systemie elektronicznych wypożyczeń międzybibliotecznych

Joanna Chwałek Nareszcie jest! - Śląska Biblioteka Cyfrowa. Bibliotheca Nostra : śląski kwartalnik naukowy 3/3, 18-21

Wprowadzenie do Live DVD

Koncepcja wirtualnej pracowni GIS w oparciu o oprogramowanie open source

Dokumentacja techniczno-użytkowa Serwis internetowy

Dotyczy: postępowania o udzielenie zamówienia publicznego pn. Dostawa i wdroŝenie Centrum Autoryzacji podpisu elektronicznego w Małopolsce.

RAPORT KOORDYNATORA DS. OTWARTEGO DOSTĘPU ZA 2017 R.

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Napisz z nami tekst naukowy. Kurs dla studentów i pracowników UW

TECHNOLOGIE INFORMACYJNE

WEBCON BPS Instalacja Standalone

Gil, Piotr Trybuchowicz zwraca się o prośbą o przedstawienie oferty cenowej na zakup:

Przykłady zastosowao rozwiązao typu mapserver w Jednostkach Samorządu Terytorialnego

Opis przedmiotu zamówienia

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

1. Instalacja jednostanowiskowa Instalacja sieciowa Instalacja w środowisku rozproszonym Dodatkowe zalecenia...

Jak zacząć przygotowania do wprowadzenia instytucjonalnej polityki otwartego dostępu?

TECHNOLOGIE INFORMACYJNE

CZĘŚĆ II Sieradz rok

Dlaczego warto publikować w otwartych czasopismach i archiwizować dorobek naukowy w repozytoriach?

Tworzenie plików w formacie DjVu z wykorzystaniem oprogramowania DocumentExpress Enterprise Edition

Język a prawo, Warszawa, 2-4 grudnia Janusz S. Bień. Katedra Lingwistyki Formalnej UW

Linux Ubuntu. O systemie

Platformy czasopism naukowych a bibliograficzne bazy danych: obszary przenikania, narzędzia, usługi

Oferta edukacyjna Książnicy Karkonoskiej 2016/2017 Szkoły ponadgimnazjalne. Szkoły PONADGIMNAZJALNE

Jak EBSCO wspiera projekty typu Open Source? Urszula Nowicka Regional Sales Manager

Połączenia. Obsługiwane systemy operacyjne. Instalowanie drukarki przy użyciu dysku CD Oprogramowanie i dokumentacja

Realizacja założeń polityki otwartości na Politechnice Krakowskiej.

26.X.2004 VNC. Dawid Materna

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

Wolne oprogramowanie. - bądź legalny za darmo

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Przewodnik po Europeana Video Remix

Transkrypt:

1/18 Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW Janusz S. Bień Katedra Lingwistyki Formalnej Wydział Neofilologii Uniwersytet Warszawski 2 czerwca 2014 r.

2/18 Wprowadzenie Katedra Lingwistyki Formalnej Wydział Neofilologii UW 5 profesorów, 2 doktorów, w latach 2004-2014: 6 grantów krajowych, 1 europejski Zespół dygitalizacyjny Pracownicy: prof. dr hab. Janusz S. Bień (do 1998 r. Instytut Informatyki UW) dr Joanna Bilińska (1/2 etatu) Współpraca: dr Michał Rudolf mgr Mateusz Sarnecki

3/18 Wprowadzenie Projekty Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych Grant MNiSzW, 13.05.2009-12.05.2012 http://bc.klf.uw.edu.pl/297/ https://bitbucket.org/jsbien/ndt IMPACT IMproving ACcess to Text 7. program ramowy, (1.01.2008) 1.02.2010 31.12.2011 (30.06.2012) http://bc.klf.uw.edu.pl/316/ http://www.impact-project.eu/ http://www.digitisation.eu/

4/18 Wprowadzenie Projekty European Network of e-lexicography (ENeL) 11.10.2013 10.10.2017 ISCH COST Action IS1305: Individuals, Societies, Cultures and Health European Cooperation in Science and Technology dr hab. Mirosław Bańko (UW), prof. dr hab. Piotr Żmigrodzki (IJP PAN) WG2: Retro-digitized dictionaries: J.S. Bień, J. Bilińska, M. Sarnecki

5/18 Wprowadzenie Retrodygitalizacja słownika Lindego Przykład problemu analiza struktury Bilińska, Joanna A. (2013) Analiza i leksykograficzny opis struktury słownika Lindego na potrzeby dygitalizacji, s. 99.

6/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka korpusowa Pierwsza wersja udostępniona w grudniu 2009 r. Aktualny adres: http://korpusy.klf.uw.edu.pl Statystyki wykorzystania: www.klf.uw.edu.pl/slowniki Korpusy właściwe Korpus wzorcowy projektu IMPACT (teksty z lat 1589-1756), około 5 000 stron Słowniki jako korpusy 3 słowniki: brudny OCR 1 słownik: brudny OCR, niektóre tomy urodzone cyfrowo

7/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka korpusowa Słowniki jako korpusy Słownik polszczyzny XVI wieku (1966 2025?), aktualnie 36 tomów (6 urodzonych cyfrowo), około 20 000 stron (IBL PAN, licencja Creative Commons) Słownik Lindego wydanie drugie (1854-1861), 6 tomów, około 5 000 stron ( domena publiczna ) Słownik warszawski (1900 1927), 8 tomów, około 8 000 stron ( domena publiczna ) Słownik Geograficzny Królestwa Polskiego i innych krajów słowiańskich (1880-1902), 15 tomów, około 15 000 stron, ( domena publiczna )

Metodologia korpusy dwuwarstwowe tekstów skanowanych Słownik Geograficzny Królestwa Polskiego i innych krajów słowiańskich (analiza przypadku) 2003: wykonanie skanów przez BUW (na zlecenie ICM UW) 2005: pierwsze udostępnienie skanów w Internecie: KLF UW na prośbę BUW 2006: drugie udostępnienie skanów w Internecie, pierwsze razem z wynikami OCR: Małopolska Biblioteka Cyfrowa 2007: trzecie udostępnienie skanów w Internecie, drugie razem z wynikami OCR, specjalna wyszukiwarka: ICM UW 2010: korpus dwuwarstwowy na podstawie wersji z 2005 r. uzupełnionej o wyniki OCR: KLF UW 8/18

9/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka ICM: lista trafień

10/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka ICM: skan z trafieniem

11/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka dwuwarstwowa : lista trafień (konkordancja tekstowa przeglądarka WWW)

12/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Porównanie trafień i ich kontekstów

13/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka dwuwarstwowa : skan z trafieniem (przeglądarka WWW)

14/18 Metodologia korpusy dwuwarstwowe tekstów skanowanych Wyszukiwarka dwuwarstwowa : lista trafień (konkordancja graficzna djview4poliqarp)

15/18 Oprogramowanie Licencja GNU GPL: oprogramowanie bezpłatne i swobodne GNU General Public License (Powszechna Licencja Publiczna GNU) wolność uruchamiania programu w dowolnym celu (wolność 0) wolność analizowania, jak program działa i dostosowywania go do swoich potrzeb (wolność 1) wolność rozpowszechniania niezmodyfikowanej kopii programu (wolność 2) wolność udoskonalania programu i publicznego rozpowszechniania własnych ulepszeń, dzięki czemu może z nich skorzystać cała społeczność (wolność 3).

16/18 Oprogramowanie Serwer korpusów Serwer Narodowego Korpusu Języka Polskiego Poliqarp (IPI PAN) Polyinterpretation Indexing Query and Retrieval Procesor (Procesor kwerend i wyszukiwań z indeksowaniem wielointerpretacyjnym) Serwer korpusów dwuwarstwowych Poliqarp for DjVu (KLF UW) W opracowaniu: Poliqarp 2 (CLARIN PL)

17/18 Oprogramowanie Programy klienckie Klient webowy Narodowego Korpusu Języka Polskiego marasca (KLF UW) Klient webowy korpusów dwuwarstwowych marasca-wbl (KLF UW) Przeglądarka dla korpusów dwuwarstwowych djview4poliqarp (KLF UW) Wersje dla systemów: Linux pakiet dla Debiana i Ubuntu MS Windows instalator Macintosh trzeba kompilować (przygotowanie pakietu wymaga płatnej licencji deweloperskiej)

Zakończenie Biblioteka Cyfrowa KLF UW działa od 13.08.2008 r. Według The Ranking Web of World Repositories 14 pozycja w Polsce. Niniejsza prezentacja: http://bc.klf.uw.edu.pl/360/ 18/18