CLARIN rozproszony system technologii językowych dla różnych języków europejskich



Podobne dokumenty
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

CLARIN infrastruktura naukowa technologii językowych

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Program warsztatów CLARIN-PL

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Open Access w technologii językowej dla języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznego wydobywania kolokacji

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Zapytanie ofertowe nr 1/2016

Publikacja w repozytorium i przetwarzanie w systemie DSpace

DARIAH-PL Gdzie jesteśmy, dokąd idziemy?

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Inforex - zarządzanie korpusami i ich anotacja

Rola bibliotek cyfrowych w budowaniu gospodarki opartej o wiedzę. Cezary Mazurek

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Semantyczna analiza języka naturalnego

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Możliwości i wyzwania dla polskiej infrastruktury bibliotek cyfrowych

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

AUTOMATYKA INFORMATYKA

Grafika i Systemy Multimedialne (IGM)

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Grafika i Systemy Multimedialne (IGM)

WebSty otwarty webowy system do analiz stylometrycznych

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Gdzie jesteśmy, dokąd idziemy? prof. Aleksander Bursche Uniwersytet Warszawski Przewodniczący Rady DARIAH-PL

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Zintegrowany system usług dla nauki etap II (ZSUN II)

Zarządzanie wiedzą w instytucji naukowej cz. I

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Infrastruktura bibliotek cyfrowych

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Federacja Bibliotek Cyfrowych w sieci PIONIER

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Czy (centralne) katalogi biblioteczne są jeszcze potrzebne? OPAC w infotopii. Dr hab. Marek Nahotko, ISI UJ

Efekt kształcenia. Wiedza

Innowacyjne narzędzia w procesie digitalizacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Porozumienie w sprawie utworzenia konsorcjum Polskie Biblioteki Cyfrowe Agreement on the creation of a Consortium Polish Digital Libraries

INŻYNIERIA OPROGRAMOWANIA

Oprogramowanie dostosowane do potrzeb użytkownika. Skrócenie czasu wejścia na rynek

Obiekty Badawcze długoterminowe przechowywanie eksperymentów naukowych. Piotr Hołubowicz, Raúl Palma Poznańskie Centrum Superkomputerowo-Sieciowe

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Informatyka Studia II stopnia

Centrum Otwartej Nauki

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Normy serii ISO w geodezji i geoinformatyce

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Repozytoria uczelniane i ich rola w projekcie SYNAT

Wykład I. Wprowadzenie do baz danych

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Infrastruktura bibliotek cyfrowych w sieci PIONIER

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Zastosowanie technologii Semantic Web w regionalnej sieci telemedycznej

WYKAZ PRZEDMIOTÓW I PLAN REALIZACJI

Projekt e-repozytorium prac naukowych Uniwersytetu Warszawskiego. dr Aneta Pieniądz, KBSI Ewa Kobierska-Maciuszko, BUW

Pojęcie bazy danych. Funkcje i możliwości.

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Agregacja metadanych zbiorów polskich instytucji kultury działania Poznańskiego Centrum Superkomputerowo-Sieciowego

Szkolenie w zakresie funkcjonalności platformy ekatalogi. - Zamawiający -

Tomasz Grześ. Systemy zarządzania treścią

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

INNOWACYJNA METODA PROMOCJI TECHNOLOGII GIS I ZASOBU GEODEZYJNEGO I KARTOGRAFICZNEGO SKIEROWANA DO UŻYTKOWNIKÓW Z BRANŻ POKREWNYCH

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Ontologie, czyli o inteligentnych danych

Platforma Informatyczna Wdrażania Oprogramowania Dedykowanego w PL-Grid

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Integracja ORPPD z uczelnianymi systemami antyplagiatowymi

Transkrypt:

CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl

Projekt CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne

Projekt CLARIN CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) członkowie Austria Bułgaria Czechy Dania Estonia Holandia Niemcy Dutch Language Union (organizacja międzypaństwowa) obserwatorzy Norwegia

Podstawowe pojęcia Zasoby językowe opisy języka naturalnego, które są sformalizowane w różnym stopniu zbiory danych i bazy danych opisujące język naturalny oraz jego użycie Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Zasoby językowe Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) Słowniki morfologiczne, własności gramatycznych słów, nazw własnych, leksykony semantyczne, leksykalne sieci semantyczne, wielojęzyczne słowniki itd. Gramatyki Inne zasoby np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.

Narzędzia językowe Analizatory morfologiczne rozpoznające znane słowa i przypisujące im opis własności gramatycznych Programy do ujednoznaczniania znaczeń słów w tekście Parsery dokonujące analizy składniowej oraz semantycznej tekstu Programy do rozpoznawania mowy i pisma ręcznego Programy do analizy znaczenia i struktury znaczeniowej tekstu rozpoznawanie i klasyfikacja nazw własnych rozpoznawanie powiązań anaforycznych rozpoznawanie sytuacji itd.

Narzędzia językowe - przykład Autorzy filmu stawiają tezę, że pierwszym człowiekiem, który postawił nogę na wierzchołku Ziemi był George Mallory. Autor film stawiać teza, że pierwszy człowiek, który postawić noga na wierzchołek Ziemia być George Mallory. Autor[subst.nom.pl.m1] film[subst.gen.sg.m3] stawiać[fin.pl.m1] teza[subst.gen.sg.f], że[conj] pierwszy[adj.dat.sg.m1] człowiek[subst.dat.sg.m1] Autorzy filmu stawiają tezę, że pierwszym człowiekiem, który postawił nogę na wierzchołku Ziemi[Astro_Object] był George Mallory[Person]. Autorzy filmu[np] stawiają tezę, że [pierwszym człowiekiem, który postawił nogę na wierzchołku Ziemi] był George Mallory.

Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Infrastruktura językowa

Funkcje infrastruktury Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) wirtualne kolekcje oparte na metadanych Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania

Centra CLARIN Typ A centrum infrastrukturalne dostawca podstaw technologicznych i usług potrzebnych do podstawowego funkcjonowania sieci CLARIN np. gromadzenia i agregacji metadanych, dostarczanie unikalnych identyfikatorów zasobów i narzędzi, itp., Typ B centrum technologii językowych podstawowy składnik sieci usługi, narzędzia, zasoby i aplikacje związane z przetwarzaniem języka naturalnego Typ C centrum metadanych umożliwiają automatczny dostęp do opisów zasobów (ale nie same zasoby) Typ K centrum wiedzy dostęp do wiedzy i ekspertów wsparcie użytkowników CLARIN

Aplikacje przykłady Ułatwienie dostępu połączony katalog metadanych federacyjne wyszukiwanie w korpusach tekstu i mowy Gromadzenie i zarządzanie danymi tworzenie własnych kolekcji rozszerzanie istniejących wykorzystanie istniejących archiwów Rozszerzenie wyszukiwania w zasobach automatyczna generacja metadanych w oparciu o narzędzia językowe Wydobywanie informacji i wiedzy automatyczna generacja zestawień analiza statystyczna oparta na faktach wydobytych z korpusu

Konsorcjum : polska część infrastruktury CLARIN Centrum Technologii Językowych zlokalizowane na Politechnice Wrocławskiej budowane w ramach Grupy Naukowej G4.19 zapewniające funkcje sieciowe infrastruktury CLARIN udostępniające Korpusy repozytorium zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników naukowców Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego Wybrane zasoby dwujęzyczne

Typowy schemat przetwarzania wypowiedzi 1. Rozpoznanie struktury dokumentu i wydobycie tekstu 2. Segmentacja: na tokeny, zdania oraz jednostki bardziej złożone 3. Analiza morfologiczna 4. Ujednoznacznianie morfo-syntaktyczne (tagowanie) 5. Ujednoznacznianie sensu słów (znaczeń leksykalnych) 6. Płytka analiza składniowa (płytki parsing) (opcjonalnie) 7. Rozpoznawanie wyrażeń wielowyrazowych, w tym jednostek identyfikujących, np. nazw własnych. 8. Rozpoznawanie związków w tekście, np. anafory, koreferencji, relacji semantycznych, sytuacji. 9. Głęboka analiza składniowa (głęboki parsing) 10. Głęboka analiza semantyczna (częściowo) 11. Analiza pragmatyczna (w tym struktury dyskursu)

: wybrane zadania System długoterminowego przechowywania danych cyfrowych Korpusy: mowy, transkrypcji mowy, historyczny i dwujęzyczne Narzędzia do zaawansowanego przeszukiwania korpusów mowy i tekstu oraz wydobywania wiedzy lingwistycznej z korpusów Leksykalne zasoby semantyczne: bardzo duży dwujęzyczny wordnet, wyrażenia wielowyrazowe, nazwy własne oraz ramy walencyjne (struktury argumentowe) Płytkie i głębokie parsery semantyczne dla języka polskiego Wydobywanie informacji: rozpoznawanie nazw własnych, odniesień do czasu, anafory, relacji oraz sytuacji Narzędzia do automatycznego streszczania Narzędzia do wydobywania wiedzy z tekstu (Text Mining) ukierunkowane na zastosowania w naukach humanistycznych i społecznych współpraca z użytkownikami

: projekt Okres: 2013-2015 Partnerzy: Politechnika Wrocławska, Instytut Informatyki (lider) Instytut Podstaw Informatyki Polskiej Akademii Nauk Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Wyższa Szkoła Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski

Dziękuję bardzo za uwagę