CLARIN infrastruktura naukowa technologii językowych

Podobne dokumenty
CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Program warsztatów CLARIN-PL

WebSty otwarty webowy system do analiz stylometrycznych

Open Access w technologii językowej dla języka polskiego

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

DARIAH-PL Gdzie jesteśmy, dokąd idziemy?

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Inforex - zarządzanie korpusami i ich anotacja

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Narzędzia do automatycznego wydobywania kolokacji

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Narzędzia do automatycznej analizy odniesień w tekstach

LEM wydobywanie statystyk z korpusów

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Grafika i Systemy Multimedialne (IGM)

Jarosław Żeliński analityk biznesowy, projektant systemów

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Projekt e-repozytorium prac naukowych Uniwersytetu Warszawskiego. dr Aneta Pieniądz, KBSI Ewa Kobierska-Maciuszko, BUW

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Federacja Bibliotek Cyfrowych w sieci PIONIER

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Zakończenie Summary Bibliografia

Gdzie jesteśmy, dokąd idziemy? prof. Aleksander Bursche Uniwersytet Warszawski Przewodniczący Rady DARIAH-PL

Doradztwo zawodowe na rzecz planowania ścieżek edukacyjnych w kraju przebywania i po powrocie r.

WPŁYW INTEGRACJI EUROPEJSKIEJ NA KSZTAŁTOWANIE SIĘ WOLNOŚCI GOSPODARCZEJ

Infrastruktura bibliotek cyfrowych

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Informatyka Studia II stopnia

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Zapytanie ofertowe nr 1/2016

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

Bartosz Majewski. 2 lipca2014 Białystok. Prawo Własności Intelektualnej w programie HORYZONT 2020

Ekonomiczny Uniwersytet Dziecięcy. Wspólna waluta euro Po co komu Unia Europejska i euro? dr Urszula Kurczewska EKONOMICZNY UNIWERSYTET DZIECIĘCY

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Obiekty Badawcze długoterminowe przechowywanie eksperymentów naukowych. Piotr Hołubowicz, Raúl Palma Poznańskie Centrum Superkomputerowo-Sieciowe

Statystyka wniosków TOI 2011

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Gradacyjna analiza danych. Instytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Czy (centralne) katalogi biblioteczne są jeszcze potrzebne? OPAC w infotopii. Dr hab. Marek Nahotko, ISI UJ

Rozwój bibliotek cyfrowych w Polsce. Cezary Mazurek Tomasz Parkoła Marcin Werla

Liczba samochodów osobowych na 1000 ludności

Świat stoi otworem. Informacje o możliwościach realizacji studiów częściowych w innej uczelni w kraju i za granicą

Jak spełnić wymagania Pilotażu otwartych danych badawczych w Horyzoncie 2020?

ZATRUDNIENIE W POLSCE PRACA CZASU INNOWACJI

STATYSTYKI PROGRAMU MŁODZIEŻ W DZIAŁANIU: ZA 2012 ROK

Netsprint Search. Koncepcja

Rozwijanie zdolności instytucjonalnych celem skutecznego zarządzania bezpieczeństwem ruchu drogowego w Polsce. Sekretariat Krajowej Rady BRD

Statystyki programu Młodzież w działaniu za rok 2009 (wg stanu na dzień 1 stycznia 2010 r.)

Metadane w zakresie geoinformacji

Grafika i Systemy Multimedialne (IGM)

EUROPEJSKIE CYFROWE MATERIAŁY EDUKACYJNE. Ewa Rosowska Naczelna Dyrekcja Archiwów Państwowych

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

Lokalizacja Oprogramowania

WYJAZDÓW STYPENDIALNYCH NA PRAKTYKI ZAGRANICZNE W RAMACH PROGRAMU ERASMUS+

Wykorzystanie Internetu przez młodych Europejczyków

Katalog ECTS, sposób jego przygotowania i aktualizacji Certyfikat ECTS Label dla Politechniki Gdańskiej

Programy Ramowe UE jako narzędzie realizacji ERA Struktura 7.PR UE. Zasady uczestnictywa

Ocena skutków podniesienia limitu dla zbliżeniowych transakcji kartami w Polsce bez użycia PIN do 100 PLN

Zintegrowany system usług dla nauki etap II (ZSUN II)

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Sewilla, lutego 2010 DEKLARACJA FORUM DORADCZEGO NA TEMAT OGÓLNOEUROPEJSKIEGO BADANIA KONSUMPCJI ŻYWNOŚCI EUROPEJSKIE MENU

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Innowacyjne narzędzia w procesie digitalizacji

ZAŁĄCZNIK IV Stawki mające zastosowanie w umowie

Uczestnictwo europejskich MŚP w programach B+R

Repozytorium Uniwersytetu Jagiellońskiego

Poszukiwanie partnerów czyli jak stworzyć dobre konsorcjum

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Ekonomiczny Uniwersytet Dziecięcy. Wspólna waluta euro

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

INNOWACYJNA METODA PROMOCJI TECHNOLOGII GIS I ZASOBU GEODEZYJNEGO I KARTOGRAFICZNEGO SKIEROWANA DO UŻYTKOWNIKÓW Z BRANŻ POKREWNYCH

Przedmowa... Wykaz skrótów...

Transkrypt:

CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl

Przykład: analiza pojęcia Problem: znalezienie w tekstach odwołań do pojęcia książka analiza przypisywanych cech i powiązań z innymi pojęciami Przykłady z sieci: W książce rękopiśmiennej najczęściej występowało ukształtowanie jedno- lub dwukolumnowe. (Wikipedia) W ciągu dziesięciu lat powstały cztery książki, nie jest to więc oszałamiający dorobek. (http://ksiazkioli.blogspot.com/) Jak napisać fascynującą książkę z intrygującą fabułą i odnieść sukces? (sites.google.com/site/pisarstwo/) Za książką kryje się autor. Jego pisanie jest więc zawsze listem do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz] (za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm)

Przykład: Mapa Literacka Literaturoznawstwo badania geokrytyczne przestrzeni kreowanej w tekstach literackich analiza przestrzeni kulturowych związanych ze środowiskiem elity intelektualnej w okresie powstania utworu Selekcja dzieł literackich oraz tekstów (pamiętników, reportaży, listów) związanych z postacią wybranego twórcy Odtwarzanie mapy mentalnej miejsca, które mają znaczenie dla danego twórcy miejsca, obiekty ważne w ówczesnej epoce literackiej lub na ówczesnej mapie politycznej Wizualizacja miejsc obecnych w powieści, np. ilustracja ścieżek pisarzy tworzenie mapy miejsc fikcyjnych Wsparcie: analizy prowadzone na dużym korpusie tekstów

Przykład: droga do realizacji Wizualizacja miejsc obecnych w powieści przetwarzanie wstępne: analiza morfologiczna i morfo-syntaktyczna Słowa, lematy, klasy gramatyczne rozpoznanie i klasyfikacja jednostek pozasłownikowych, np. nazw własnych powiązanie wyrażeń językowych z obiektami mapy Np. miejsca nie są często nazwane w tekście nazwą a opisane wyrażeniem złożonym: nazwy, wyrażenia przestrzenne, relacje semantyczne, deskrypcje określone funkcje geolokalizacji mapy skonfigurowanie systemu: instalacja narzędzi, dopasowanie formatów, problemy wydajnościowe, wizualizacja wyników, Wnioski: problemy użytkownika z użyciem istniejącej technologii językowej, konieczność rozszerzenia tej technologii

Przykład: droga do realizacji Mapy wyobrażeniowe brak oparcia na istniejącej mapie i geolokalizacji konieczność głębokiej i szczegółowej analizy informacji zawartej w tekście rozpoznawanie niedospecyfikowania i sprzeczności budowa bazy wiedzy o świecie z tekstu zawierającej model mapy wizualizacja mapy na podstawie bazy wiedzy Wnioski: poważne i ciekawe wyzwania należałoby bardzo poprawić pokrycie i dokładność głębokiej analizy składniowo-semantycznej

Bariery w zastosowaniu technologii językowej Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Bariery w zastosowaniu technologii językowej Fizyczna dostępność: www.clarin-pl.eu, www.clarin.eu Informacyjna opis: metadane, dokumentacja katalog: Virtual Language Observatory Technologiczna standardy: CMDI, unifikacja standardów dla narzędzi platforma WebLicht, platforma polska w ramach CTJ sprzęt: Centrum Technologii Językowych Wiedzy aplikacje badawcze rozwijane wspólnie z użytkownikami CTJ działające jako centrum typu K (szerzenia wiedzy) Prawna otwartość! (ang. Open source, open access) otwarte rozwiązania! trudne w odniesieniu do korpusów, ale model otwartości wyników przetwarzania Finansowa: otwartość kosztuje, a kto płaci? MNiSW?

CLARIN CLARIN ERIC (Common Language Resources and Technology Infrastructure European Research Infrastructure Consortium) Wspólne zasoby językowe i infrastruktura technologiczna część europejskiej (ESFRI) i polskiej mapy drogowej infrastruktury naukowej Czym jest rozproszona infrastruktura technologii językowych dla nauk humanistycznych i społecznych kilkadziesiąt centrów technologicznych w 15 krajach działających jako jeden wspólny system jednolity dostęp do zasobów językowych oraz narzędzi i aplikacji badawczych do analizy tekstu i mowy w wielu językach europejskich

CLARIN ERIC Centres

CLARIN Członkowie 15 członków: Austria Bułgaria Czechy Dania Dutch Language Union Estonia Grecja Holandia Litwa Niemcy Norwegia Polska Portugalia Słowenia Szwecja Włochy Obserwatorzy: Wielka Brytania

Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Podstawowe funkcje CLARIN Ułatwienie dostępu do zasobów językowych federacja repozytoriów Virtual Language Observatory federacyjne przeszukiwanie korpusów Federated Content Search Wsparcie dla automatycznej analizy tekstu i mowy paleta gotowych do użycia narzędzi językowych usługi sieciowe (Web Services) i aplikacje narzędziowe dostęp poprzez repozytoria typowe zestawy, możliwość tworzenia własnych zestawów Aplikacje badawcze budowane pod konkretne potrzeby, często we współpracy z użytkownikami oparte na technologii językowej, ale nie `narzucające jej

Podstawowe funkcje CLARIN Szerzenia Wiedzy (Knowledge Sharing Infrastructure) centra CLARIN typu K oferujące dostęp do wiedzy eksperckiej i wsparcie, fizyczne i wirtualne poradniki i punkty informacyjne, warsztaty, itd. Wymogi dla centrum typu K (wybrane) strona WWW z jasno określonym zakresem usług Np. pomoc, wsparcie techniczne lub technologiczne, kursy, Zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych Dysponują odpowiednią kadrą Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague) Phonogrammarchiv Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm Planowane centrum typu K w ramach Centrum Technologii Językowych

CLARIN ERIC: usługi centralne

Wyszukiwanie zasobów po metadanych w formacie CMDI

Wyszukiwanie zasobów po metadanych w formacie CMDI Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure)

Centralne przeszukiwanie treści

Konsorcjum Członkowie konsorcjum Politechnika ska, Katedra Inteligencji Obliczeniowej Instytut Podstaw Informatyki Polskiej Akademii Nauk, Zespół Inżynierii Lingwistycznej Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Akademia Technik Komputerowych Uniwersytet Łódzki Uniwersytet ski Pierwsza część fazy konstrukcji: VII 2013 IV 2016 Cele Budowa polskiej części infrastruktury badawczej CLARIN ERIC Rozwój otwartej technologii językowej dla języka polskiego umożliwiającej różnorodnej zastosowania na praktycznym poziomie

w pigułce Centrum Technologii Językowych http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarządzania danymi naukowymi Narzędzia i zasoby dla języka polskiego rozszerzone lub zbudowane od podstaw dostępne w CLARIN ERIC, w większości jako usługi sieciowe Unikatowy dwutorowy model budowy łączenie i uzupełnianie elementów infrastruktury technologii językowych proces budowy ukierunkowany na wymagania użytkowników Współpraca z użytkownikami: aplikacje oraz warsztaty

Technologia przed 1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2. Ujednoznacznienie opisów gramatycznych słów 3. Płytka analiza składniowa, np. frazy i zależności 4. Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Technologia po 1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2. Ujednoznacznienie opisów gramatycznych słów 3. Płytka analiza składniowa, np. frazy i zależności 4. Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Podstawowy potok przetwarzania 1. Zbudowanie korpusu 1. Np. CorpoGrabber i Inforex 2. Segmentacja (Toki i Maca) 3. Analiza morfologiczna (Morfeusz) 4. Ujednoznacznianie opisów gramatycznych wyrazów (tagowanie) (WCRFT) 5. Rozpoznawanie nazw własnych (Liner2) 6. Uproszczony podział na główne elementy (tzw. chunker Iobber lub Spejd) 7. Ujednoznacznienie znaczenia słów (WoSeDoN) Dalsza analiza: składniowa (Malt), semantyczna

Przetwarzanie wstępne Zdeponowanie korpusu w systemie DSpace Uruchomienie wyzwalacza Konwersja dowolnego formatu do postaci tekstowej Analiza morfosyntaktyczna Rozpoznawanie jednostek identyfikacyjnych Rozpoznawanie wyrażeń temporalnych Generowanie lematów dla anotacji Zapis rezultatu w postaci plików CCL Kompresja rezultatu i udostępnienie dla innych narzędzi

Przyszłość Rozszerzenie wybranych narzędzi językowych pod względem pokrycia i dokładności działania Np. ujednoznacznianie znaczeń leksykalnych, parsery składniowo-semantyczne, narzędzia do wydobywania informacji o zdarzeniach Rozbudowa Centrum Technologii Językowych w zakresie obsługi wielkich wolumenów danych i równoległego przetwarzania Rozwinięcie prototypowej platformy do łączenia narzędzi językowych w aplikację badawczą Połączenie WebSty i narzędzi prototypowych w elastyczną aplikację badawczą do analizy stylometrycznej i statystycznej analizy semantycznej tekstów Rozbudowa i budowa dalszych aplikacji do tekstu i mowy

Korzyści z udziału w CLARIN CLARIN ERIC jest dynamicznie rozwijającą się infrastrukturą badawczą rosnąca liczba członków i czołowych ośrodków naukowych szereg stabilnych centralnych usług oraz narzędzi naukowych wyznacza standardy i budzi zainteresowanie w świecie nauki Transferu wiedzy i metod badawczych zarówno w dziedzinie technologii językowych, jak i NHiS Łatwiejszy dostęp do zasobów naukowych i narzędzi badawczych Szerzenia wiedzy o nowych cyfrowych metodach badawczych w NHiS Promocja polskiej nauki, kultury, zwiększenie możliwości prowadzenie badań nad materiałami w języku polskim Rozwój otwartej technologii dla języka polskiego

Dziękuję bardzo za uwagę www.clarin-pl.eu