Open Access w technologii językowej dla języka polskiego

Podobne dokumenty
CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Program warsztatów CLARIN-PL

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Narzędzia do automatycznego wydobywania kolokacji

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Narzędzia do automatycznego wydobywania kolokacji

Grafika i Systemy Multimedialne (IGM)

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Instrukcja udostępniania prac na licencji Creative Commons w Repozytorium Uniwersytetu Śląskiego RE-BUŚ

Wdrożenie licencji Creative Commons (CC) w czasopismach wydawanych na UAM

Grafika i Systemy Multimedialne (IGM)

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Prawne aspekty publikowania obiektów cyfrowych w modelu Open Access

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Open Acces Otwarty dostęp

Wolna kultura a wolny dostęp do wiedzy

Międzynarodowy Tydzień Otwartej Nauki października 2014 r. OPEN ACCESS: GENERATION OPEN DOBRE PRAKTYKI

Open AGH i inne platformy Otwartych Zasobów Akademickich. Karolina Grodecka Centrum e-learningu AGH Koalicja Otwartej Edukacji

Jak zacząć przygotowania do wprowadzenia instytucjonalnej polityki otwartego dostępu?

Publikowanie wyników badań i publikacji naukowych w modelu otwartym

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Licencje na oprogramowanie i zasoby internetowe

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Kurs ECDL Moduł 3. Nagłówek i stopka Microsoft Office Word Autor: Piotr Dębowski. piotr.debowski@konto.pl

Lokalizacja Oprogramowania

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Semantyczna analiza języka naturalnego

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Projekt e-repozytorium prac naukowych Uniwersytetu Warszawskiego. dr Aneta Pieniądz, KBSI Ewa Kobierska-Maciuszko, BUW

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2015/2016 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Lokalizacja dokumentów w bazie DOrobku NAukowego (DONA)

Przewodnik po Europeana Video Remix

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Prawo autorskie i licencje Creative Commons

CO NIECO O PRAWIE AUTORSKIM W SIECI

Przedstawiamy Państwu propozycję darmowej promocji działań podejmowanych przez Waszą organizację pozarządową. Nasz portal służy temu by w wygodny i

Prawo prasowe i prawo autorskie

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Baza Wiedzy Politechniki Warszawskiej uregulowania prawne, organizacja. Jolanta Stępniak Biblioteka Główna Politechniki Warszawskiej

Lokalizacja dokumentów w bazie DOrobku NAukowego (DONA)

dla których Wydawcy opłaca się publikowanie w powodów Open Access

Ustawa z dnia 04 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. nr 24 poz. 83) ze zm. (tekst jednolity: Dz. U r. Nr 90 poz.

Repozytorium Uniwersytetu Wrocławskiego

Wikisłownik. (więcej niż słownik) Piotr Derbeth Kubowicz. Wikiwarsztaty Wrocław, 7 marca Stowarzyszenie Wikimedia Polska

Prezentacja jest dostępna na licencji. Uznanie autorstwa - użycie niekomercyjne 3.0 Polska

Otwarte licencje. a udostępnianie. rezultatów projektów. Natalia Mileszyk Alek Tarkowski Centrum Cyfrowe Projekt: Polska Creative Commons Polska

Kulturoznawstwo. Cyberkultura

Przewodnik po Europeana Remix

Informatyka kl. 1. Semestr I

OCENIANIE PRZEDMIOTOWE. język łaciński

mgr inż. Łukasz Adrian Politechnika Łódzka

Dowiedz się więcej o informatyce

WebSty otwarty webowy system do analiz stylometrycznych

AUTOMATYKA INFORMATYKA

SIATKA SAMOOCENY ZAWIERAJĄCA PIĘĆ OBSZARÓW KOMPETENCJI CYFROWYCH

Otwarte udostępnianie. danych badawczych

Narzędzia do automatycznej analizy odniesień w tekstach

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Spis pytań do testu z aspektów prawnych e-edukacji

DZIAŁANIA BIBLIOTEKI PK NA RZECZ OPEN ACCESS WŚRÓD SPOŁECZNOŚCI AKADEMICKIEJ POLITECHNIKI KRAKOWSKIEJ

Kamil Śliwowski, otwartezasoby.pl

Regulamin Repozytorium Uniwersytetu Jana Kochanowskiego w Kielcach POSTANOWIENIA OGÓLNE

Swoboda użycia. prawo autorskie i otwartość dla przemysłów kreatywnych. Centrum Cyfrowe

Problemy społeczne i zawodowe informatyki

Stanowisko Centrum Cyfrowego Projekt: Polska dotyczące Otwartej Licencji Edukacyjnej

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

Wymagania edukacyjne z zajęć komputerowych w klasie 4

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

JAKOŚĆ I SPRZEDAŻ. Andrzej Blikle 22 kwietnia 2013

Inforex - zarządzanie korpusami i ich anotacja

Ewidencja dorobku naukowego lata wcześniejsze

PRAWO AUTORSKIE. Autorzy: Janusz Barta, Ryszard Markiewicz. Rozdział I Uwagi wstępne. Rozdział II Źródła prawa

Komercjalizacja wyników badań naukowych przez Wrocławskie Centrum Transferu Technologii Politechniki Wrocławskiej

2

POLITYKA OTWARTEGO DOSTĘPU W POLSCE REKOMENDACJE MNISW

Wydział Fizyki, Matematyki i Informatyki Politechnika Krakowska

czyli jak zapracować na sukces (cz. I) Agnieszka Kurzeja-Sokół

INNOWACYJNA METODA PROMOCJI TECHNOLOGII GIS I ZASOBU GEODEZYJNEGO I KARTOGRAFICZNEGO SKIEROWANA DO UŻYTKOWNIKÓW Z BRANŻ POKREWNYCH

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

BIBLIOGRAFICZNA BAZA DANYCH -

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Prawo autorskie i prawa pokrewne / Janusz Barta, Ryszard Markiewicz. 7. wyd., stan prawny na 1 sierpnia 2017 r. Warszawa, 2017.

ALEPH w Bibliotece Politechniki Wrocławskiej - nowatorskie rozwiązania w zakresie analizy dorobku naukowego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Dlaczego warto publikować w otwartych czasopismach i archiwizować dorobek naukowy w repozytoriach?

1. Opis merytoryczny

Wprowadzenie. Teoria automatów i języków formalnych. Literatura (1)

Transkrypt:

Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika Wrocławska nlp.pwr.wroc.pl plwordnet.pwr.wroc.pl

1. Inżynieria języka naturalnego CEL: nauczyć system komputerowy analizować język i treść tekstów w celu dostarczenia ludziom praktycznych korzyści Przykłady: Wyszukiwarki internetowe Systemy odpowiadania na pytania Automatyczne wydobywanie informacji z dużych zasobów tekstowych Automatyczne gromadzenie informacji o danej osobie, określonym wydarzeniu Automatyczne tłumaczenie 2/16

2. Zasoby i narzędzia językowe Zasoby językowe = bazy wiedzy o języku, np. słowniki i gramatyki Narzędzia językowe = programy do analizy wypowiedzi w języka naturalnym na różnych poziomach systemu języka, np. odmiany i słowotwórstwa wyrazów, budowy zdania, znaczeń słów itd. Podstawowe zasoby i narzędzia = standard, którego oczekuje się od technologii językowych 3/16

2. Zasoby i narzędzia językowe 4/16

3. Dostępność zasobów i narzędzi (ZiNJ) Uwarunkowania: Koszt wytworzenie ZiNJ jest wysoki Polskie firmy nie wytworzą wszystkich standardowych ZiNJ samodzielnie Dostępność ZiNJ to warunek konieczny rozwoju systemów bardziej zaawansowanych Brak systemów dla języka polskiego ogranicza dostęp do informacji i inteligentnego wykorzystania informacji w Internecie Open Access warunkuje rozwój nauki i społeczeństwa informacyjnego. 5/16

4. Open Access a technologie jęz. w Polsce 2006 rok - Polska ma bardzo słabo rozwinięte technologie językowe Od 2006 PWr. i IPI PAN pracują wspólnie nad poprawą sytuacji Od początku zakładano Open Access Od 2010 PWr udostępnia narzędzia i zasoby językowe na otwartych licencjach, także do użytku komercyjnego 6/16

5. Technologie językowe na PWr G4.19 grupa technologii językowych na W-8 5 grantów: POIG, NCBiR, 2 x MNiSW (NCN), Clarin Narzędzia językowe: tagery, parsery składniowe i semantyczne, wyszukiwarki Zasoby językowe: słowniki, sieci opisujące semantyczne zależności 7/16

6. Słowosieć OA i Open Source 8/26

6. Słowosieć OA i Open Source Liczba wyrazów w Słowosieci i w WordNecie princetońskim 150000 100000 50000 0 rzeczownik czasownik przymiotnik przysłówek Słowosieć 2.0 WordNet princetoński 9/16

6. Słowosieć OA i Open Source Sieć relacji pomiędzy znaczeniami wyrazów Słownik dla komputerów: 107 000 haseł, 161 000 znaczeń, ok. 450 000 relacji leksykalno-semantycznych Licencja wzorowana na licencji WordNetu za zgodą i przy pełnym poparciu JM Rektora PWr: Wykorzystanie systemu plwordnet jest nieskrępowane. Można się tym systemem posługiwać w zastosowaniach komercyjnych... bez opłat i honorariów 10/16

7. Korpus Języka Polskiego PWr Podstawowy zasób językowy Zbiór starannie wyselekcjonowanych tekstów Teksty różnorodne stylistycznie i gatunkowo 0,5 mln wyrazów Materiał do uczenia maszynowego (narzędzia językowe) Materiał dla językoznawców badających język Licencja Creative Commons Za zgodą i przy pełnym poparciu JM Rektora PWr 11/16

7. Korpus Języka Polskiego PWr 12/16

7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa Na tych samych warunkach Uznanie autorstwa Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 13/16

7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa Na tych samych warunkach Uznanie autorstwa Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 14/16

7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa Na tych samych warunkach Uznanie autorstwa Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 15/16

8. Open Access dlaczego i jak? Korzyści Stymulacja rozwoju technologii językowych w Polsce Wsparcie dla rozwoju społeczeństwa informacyjnego Stymulacja rozwoju gospodarki (technologie IT zwiększają swój udział w rynku) Promocja Politechniki kształtowanie wizerunku Szansa na lepsze publikacje i cytowania. 16/16

Dziękuję za uwagę!