CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Podobne dokumenty
CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN infrastruktura naukowa technologii językowych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

STATYSTYKI PROGRAMU MŁODZIEŻ W DZIAŁANIU: ZA 2012 ROK

Zakończenie Summary Bibliografia

DARIAH-PL Gdzie jesteśmy, dokąd idziemy?

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Program warsztatów CLARIN-PL

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Statystyka wniosków TOI 2011

Statystyki programu Młodzież w działaniu za rok 2009 (wg stanu na dzień 1 stycznia 2010 r.)

Programy Ramowe UE jako narzędzie realizacji ERA Struktura 7.PR UE. Zasady uczestnictywa

ZAŁĄCZNIK IV Stawki mające zastosowanie w umowie

dla Pracowników i Doktorantów

ZAŁĄCZNIK IV Stawki mające zastosowanie w umowie

WPŁYW INTEGRACJI EUROPEJSKIEJ NA KSZTAŁTOWANIE SIĘ WOLNOŚCI GOSPODARCZEJ

Konwergencja nominalna versus konwergencja realna a przystąpienie. Ewa Stawasz Katedra Międzynarodowych Stosunków Gospodarczych UŁ

gizycko.turystyka.pl

ZASIĘG USŁUGI FOTORADARY EUROPA I NIEBEZPIECZNE STREFY

STATYSTYKI PROGRAMU MŁODZIEś W DZIAŁANIU ZA ROK 2008

Doradztwo zawodowe na rzecz planowania ścieżek edukacyjnych w kraju przebywania i po powrocie r.

RYNEK ROŚLIN OLEISTYCH

Open Access w technologii językowej dla języka polskiego

Cennik połączeń krajowych CloudPBX. Cennik połączeń międzynarodowych CloudPBX

Wykorzystanie Internetu przez młodych Europejczyków

Projekt Partnerski Grundtviga Zdrowy styl życia rodziców - zdrowie przyszłych pokoleń

REKRUTACJA 2013/2014 LLP/ERASMUS- STUDIA

Program GRUNDTVIG wspieranie niezawodowej edukacji dorosłych, w tym osób starszych

RYNEK ROŚLIN OLEISTYCH

3.3 WSPÓŁPRACA MIĘDZYNARODOWA

Gdzie jesteśmy, dokąd idziemy? prof. Aleksander Bursche Uniwersytet Warszawski Przewodniczący Rady DARIAH-PL

Internacjonalizacja obszaru nauki

UMIĘDZYNARODOWIENIE UEP fakty, potrzeby, wyzwania. dr hab. Magdalena Florek, prof. nadzw. UEP

RYNEK ROŚLIN OLEISTYCH

SNP Poland. do BCC

Sprawozdanie z działalności Biura Wymiany Międzynarodowej. za rok akademicki 2014/15 (stan na r.)

Narodowe Biuro Kontaktowe. etwinning. 5 lat doświadczeń w programie etwinning

Erasmus dla studentów I i II stopnia Instytutu Filozofii UW

Lifelong Learning- Erasmus 2013/2014

Procedura Europejska EPO

Zagraniczna mobilność studentów niepełnosprawnych oraz znajdujących się w trudnej sytuacji materialnej PO WER 2017/2018

PROGRAM MŁODZIEŻ W DZIAŁANIU grudnia 2012


Ekonomiczny Uniwersytet Dziecięcy. Wspólna waluta euro

Liczba samochodów osobowych na 1000 ludności

Rozwijanie zdolności instytucjonalnych celem skutecznego zarządzania bezpieczeństwem ruchu drogowego w Polsce. Sekretariat Krajowej Rady BRD

Zagraniczna mobilność studentów niepełnosprawnych i znajdujących się w trudnej sytuacji materialnej. Edycja 2

Konwergencja nominalna versus konwergencja realna a przystąpienie. Ewa Stawasz Katedra Międzynarodowych Stosunków Gospodarczych UŁ

Maria Gałuszko

C ,00 Euro z przeznaczeniem na organizację wymiany studentów i pracowników.

Świat stoi otworem. Informacje o możliwościach realizacji studiów częściowych w innej uczelni w kraju i za granicą

Zakupy on-line w europejskich gospodarstwach domowych. dr inż. Marlena Piekut Kolegium Nauk Ekonomicznych i Społecznych Politechnika Warszawska

Przygotowania do rozpoczęcia stosowania Rozporządzenia 536/2014 z perspektywy URPL. Szanse i zagrożenia dla badań klinicznych w Polsce

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

STATYSTYKI PROGRAMU MŁODZIEś W DZIAŁANIU ZA ROK 2007

ERASMUS+ SPOTKANIE INFORMACYJNE DLA PRACOWNIKÓW UPJPII

Zagraniczna mobilność studentów niepełnosprawnych i znajdujących się w trudnej sytuacji materialnej. Edycja 2

Zasady rekrutacji studentów na wyjazd w ramach programu Erasmus + w roku akademickim 2014/2015

W jakim stopniu emerytura zastąpi pensję?

ERASMUS+ studia i praktyki 2014/2015

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

ERASMUS+ studia i praktyki 2015/2016

ZAŁĄCZNIK. sprawozdania Komisji dla Parlamentu Europejskiego i Rady

Centrum Promocji i Informacji Turystycznej w Giżycku

Narzędzia do automatycznego wydobywania kolokacji

ZASADY REALIZACJI WYJAZDÓW STT NA POLITECHNICE GDAŃSKIEJ

Ocena skutków podniesienia limitu dla zbliżeniowych transakcji kartami w Polsce bez użycia PIN do 100 PLN

Centrum Promocji i Informacji Turystycznej w Giżycku

Zasady kwalifikacji na rok akademicki 2018/19

PRZESYŁKI KURIERSKIE CENNIK USŁUG BUBALO

Dziennik Urzędowy Unii Europejskiej

Report Card 13. Równe szanse dla dzieci Nierówności w zakresie warunków i jakości życia dzieci w krajach bogatych. Warszawa, 14 kwietnia 2016 r.

Program Erasmus + STA Staff Mobility for Teaching Assignments STT Staff Mobility for Training Wyjazdy w roku akademickim 2014/2015

PRAKTYCZNY PRZEWODNIK DLA WNIOSKODAWCÓW

RYNEK JAJ SPOŻYWCZYCH. Nr 37/ września 2013 r.

Podstawowe informacje dla studentów PWSIiP wyjeżdżających na studia i praktyki w ramach Programu Erasmus+

RYNEK JAJ SPOŻYWCZYCH. Nr 48/ grudnia 2013 r.

REKRUTACJA 2012/2013 LLP ERASMUS PRAKTYKI

Ile kosztuje leczenie z EKUZ w państwach UE oraz EFTA?

Lekcje z PISA Maciej Jakubowski Evidence Institute Uniwersytet Warszawski

ZINTEGROWANY SYSTEM ROLNICZEJ INFORMACJI RYNKOWEJ. (podstawa prawna: ustawa o rolniczych badaniach rynkowych z dnia 30 marca 2001 r.

mapy cyfrowe dla biznesu

Opis danych kartograficznych dostępnych w ofercie Emapa S.A.

Rozwój turystyki w Polsce na przykładzie danych statystycznych

Centrum Bezpieczeństwa Ruchu Drogowego. Warszawa 2005

Poszukiwanie partnerów czyli jak stworzyć dobre konsorcjum

ZATRUDNIENIE W POLSCE PRACA CZASU INNOWACJI

PODSTWOWE INFORMACJE O PROGRAMIE ERASMUS+ DLA STUDENTÓW WYDZIAŁU INŻYNIERII ŚRODOWISKA I ENERGETYKI

System podnoszenia kwalifikacji i certyfikacji pracowników budowlanych w obszarze EE i OZE

Konwergencja nominalna versus konwergencja realna a przystąpienie. Ewa Stawasz Katedra Międzynarodowych Stosunków Gospodarczych UŁ

(Ogłoszenia) PROCEDURY ADMINISTRACYJNE KOMISJA

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

WYJAZDY INDYWIDUALNE UCZNIÓW

mapy cyfrowe dla biznesu

Polska a Europa - w drodze do nowoczesnych standardów

(4) Belgia, Niemcy, Francja, Chorwacja, Litwa i Rumunia podjęły decyzję o zastosowaniu art. 11 ust. 3 rozporządzenia

Wydatki na ochronę zdrowia w

Transkrypt:

CLARINPL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Jan Wieczorek Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej i Lingwistyki Informatycznej

CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna część europejskiej (ESFRI) i polskiej mapy drogowej infrastruktury naukowej Czym jest rozproszona infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych kilkadziesiąt centrów technologicznych w 19 krajach działających jako jeden wspólny system jednolity dostęp do zasobów językowych oraz narzędzi i aplikacji badawczych do analizy tekstu i mowy w wielu językach europejskich

CLARIN Członkowie

CLARIN-ERIC: członkowie Członkowie: Austria, Bułgaria, Czechy, Chorwacja, Dania, Dutch Language Union, Estonia, Finlandia, Grecja, Holandia, Łotwa, Litwa, Niemcy, Norwegia, Polska, Portugalia, Słowenia, Szwecja, Węgry, Włochy Obserwatorzy: Republika Południowej Afryki, Islandia, Francja, Wielka Brytania Kraje z Centrami współpracującymi z CLARIN-ERIC: Stany Zjednoczone Ameryki, Hiszpania

Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Bariery w zastosowaniu technologii językowej Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Bariery w zastosowaniu technologii językowej Fizyczna dostępność: www.clarin-pl.eu, www.clarin.eu, kcentre.clarin-pl.eu Informacyjna opis: metadane, dokumentacja katalog: Virtual Language Observatory, Federated Content Search, Platforma Leksykalna Technologiczna standardy: CMDI, unifikacja standardów dla narzędzi platforma WebLicht, platforma polska w ramach CTJ sprzęt: Centrum Technologii Językowych Wiedzy aplikacje badawcze rozwijane wspólnie z użytkownikami Centrum typu K (szerzenia wiedzy): PolLinguaTec - Centrum Wiedzy CLARIN Technologii Językowej dla Języka Polskiego

Bariery w zastosowaniu technologii językowej Prawna otwartość! otwarte rozwiązania! trudne w odniesieniu do korpusów, ale otwarte wyniki przetwarzania Finansowa: otwartość kosztuje, a kto płaci? MNiSW! (dziękujemy!)

Podstawowe funkcje CLARIN Ułatwienie dostępu do zasobów językowych federacja repozytoriów Virtual Language Observatory federacyjne przeszukiwanie korpusów Federated Content Search Wsparcie dla automatycznej analizy tekstu i mowy paleta gotowych do użycia narzędzi językowych usługi sieciowe (Web Services) i aplikacje narzędziowe dostęp poprzez repozytoria typowe zestawy, możliwość tworzenia własnych zestawów Aplikacje badawcze budowane pod konkretne potrzeby, często we współpracy z użytkownikami oparte na technologii językowej, ale nie `narzucające jej

Podstawowe funkcje CLARIN Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure) centra CLARIN typu K oferujące dostęp do wiedzy eksperckiej i wsparcie; fizyczne i wirtualne poradniki i punkty informacyjne, warsztaty, itd. Wymogi dla centrum typu K (wybrane) strona WWW z jasno określonym zakresem usług np. pomoc, wsparcie techniczne lub technologiczne, kursy, zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych dysponują odpowiednią kadrą Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague) Phonogrammarchiv Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm PolLinguaTec - Centrum Wiedzy CLARIN Technologii Językowej dla Języka Polskiego (http://kcentre.clarin-pl.eu): applications of LT for Polish (mono and multilingual)

Podstawowe funkcje CLARIN

Podstawowe funkcje CLARIN

Virtual Language Observatory

Centralne przeszukiwanie treści

w pigułce Centrum Technologii Językowych http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarządzania danymi naukowymi Narzędzia i zasoby dla języka polskiego rozszerzone lub zbudowane od podstaw dostępne w CLARIN ERIC, w większości jako usługi sieciowe Unikatowy dwutorowy model budowy łączenie i uzupełnianie elementów infrastruktury technologii językowych proces budowy ukierunkowany na wymagania użytkowników Współpraca z użytkownikami: aplikacje oraz warsztaty

Wytwórcy Grupa Naukowa G4.19 Lingwistyki Informatycznej i Technologii Językowych, Katedra Inteligencji Obliczeniowej, Politechnika Wrocławska Zespół Inżynierii Lingwistycznej, Instytut Podstaw Informatyki PAN, Instytut Slawistyki, Polska Akademia Nauk Polsko-Japońska Akademia Technik Komputerowych Instytut Anglistyki, Uniwersytet Łódzki Uniwersytet Wrocławski Beneficjenci: Wszystkie jednostki naukowe i Naukowcy w Polsce, szczególnie z obszaru nauk humanistycznych i społecznych

Technologia przed 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Technologia po 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

w ciągu 2018 i 2019 roku: Wsparcie dla użytkowników Warsztaty szkoleniowe: Poznań (kwiecień 18), Gdańsk (maj 18), Wrocław (czerwiec 18) Toruń (listopad 18) Poznań (marzec 19) Planowane: Kraków (lipiec 19), Lublin (wrzesień 19) W sumie ok. 200 uczestników

Zaproszone warsztaty i wykłady: Warszawa (lipiec 18) - warsztaty współorganizowane przez Stowarzyszenie Paragraf 61 (portal MamPrawoWiedziec.pl) dla organizacji pozarządowych Warszawa (listopad 18) - warsztaty na UW w ramach projektu Engaged Humanities dla badaczy małych języków Pretoria/Potchefstroom (RPA, luty/marzec 19) - warsztaty wprowadzające narzędzie WordnetLoom do prac nad Afrykańskim Wordnetem (6 języków: Setswana, isixhosa, isizulu, Tshiwenda, Sotho, isindebele + angielski) Seminaria, np. kilka w Warszawie, Wrocławiu, Swansea, w Singapurze

w ciągu 2017 roku: Wsparcie dla użytkowników Pomoc w realizacji projektów badawczych (ponad 70), np. Długotrwały kontakt językowy i jego skutki leksykalne oraz semantyczne na przykładzie polskich zapożyczeń leksykalnych w jidysz prof. Ewa Geller (UW) Przygotowanie korpusu artykułów z prasy kenijskiej, dr Monika Kopytowska (Instytut Anglistyki UŁ) Hiperkorpus czterech wieszczów, prof. Marek Troszyński (IBL PAN) Retrodigitalizacja Polskiej Bibliografii Literackiej, IBL PAN Analiza tekstów wieszczy literatury węgierskiej, Palkó Gábor, Petőfi Irodalmi Múzeum, Węgry Wykorzystanie w projektach badawczych Blisko 30 zidentyfikowanych zastosowań, np. Analiza nagrań słowiańskich, dr hab. Anna Cychnerska, UMK Wykorzystanie w korpusowych badaniach polszczyzny, Karolina Zuchewicz, Leibniz-Zentrum Allgemeine Sprachwissenschaft CloudNet - aplikacja umożliwiająca tworzenie polsko-angielskiej chmury słów, mgr Monika Madej (doktorat) Ponad pół miliona dostępów i przetwarzania danych

CLARINPL Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu