CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Podobne dokumenty
CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

CLARIN infrastruktura naukowa technologii językowych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

LEM wydobywanie statystyk z korpusów

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Open Access w technologii językowej dla języka polskiego

WebSty otwarty webowy system do analiz stylometrycznych

Program warsztatów CLARIN-PL

Zakończenie Summary Bibliografia

DARIAH-PL Gdzie jesteśmy, dokąd idziemy?

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekonomiczny Uniwersytet Dziecięcy. Wspólna waluta euro Po co komu Unia Europejska i euro? dr Urszula Kurczewska EKONOMICZNY UNIWERSYTET DZIECIĘCY

Narzędzia do automatycznego wydobywania kolokacji

WPŁYW INTEGRACJI EUROPEJSKIEJ NA KSZTAŁTOWANIE SIĘ WOLNOŚCI GOSPODARCZEJ

Statystyka wniosków TOI 2011

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Konwergencja nominalna versus konwergencja realna a przystąpienie. Ewa Stawasz Katedra Międzynarodowych Stosunków Gospodarczych UŁ

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Lekcje z PISA Maciej Jakubowski Evidence Institute Uniwersytet Warszawski

Wykorzystanie Internetu przez młodych Europejczyków

Narzędzia do automatycznego wydobywania kolokacji

Doradztwo zawodowe na rzecz planowania ścieżek edukacyjnych w kraju przebywania i po powrocie r.

ZATRUDNIENIE W POLSCE PRACA CZASU INNOWACJI

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Jarosław Żeliński analityk biznesowy, projektant systemów

STATYSTYKI PROGRAMU MŁODZIEŻ W DZIAŁANIU: ZA 2012 ROK

INFORMACJA O WYNIKACH POSTĘPOWANIA

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Ekonomiczny Uniwersytet Dziecięcy. Wspólna waluta euro

Ocena skutków podniesienia limitu dla zbliżeniowych transakcji kartami w Polsce bez użycia PIN do 100 PLN

Programy Ramowe UE jako narzędzie realizacji ERA Struktura 7.PR UE. Zasady uczestnictywa

Statystyki programu Młodzież w działaniu za rok 2009 (wg stanu na dzień 1 stycznia 2010 r.)

Rozwijanie zdolności instytucjonalnych celem skutecznego zarządzania bezpieczeństwem ruchu drogowego w Polsce. Sekretariat Krajowej Rady BRD

Liberalizacja rynku gazu a bezpieczeństwo energetyczne

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Ocena efektywności systemu zdrowia publicznego i opieki medycznej w krajach UE

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Konwergencja nominalna versus konwergencja realna a przystąpienie. Ewa Stawasz Katedra Międzynarodowych Stosunków Gospodarczych UŁ

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Ile kosztuje leczenie z EKUZ w państwach UE oraz EFTA?

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

Unijny rynek gazu model a rzeczywistość. Zmiany na europejskich rynkach gazu i strategie największych eksporterów Lidia Puka PISM, r.

Gradacyjna analiza danych. Instytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska

Zagraniczna mobilność studentów niepełnosprawnych oraz znajdujących się w trudnej sytuacji materialnej PO WER 2017/2018

Grafika i Systemy Multimedialne (IGM)

ZAŁĄCZNIK IV Stawki mające zastosowanie w umowie

Lifelong Learning- Erasmus 2013/2014

Liczba samochodów osobowych na 1000 ludności

Program Erasmus. Przegląd statystyk. Fundacja Rozwoju Systemu Edukacji Narodowa Agencja Programu Uczenie się przez całe życie

Konwergencja nominalna versus konwergencja realna a przystąpienie. Ewa Stawasz Katedra Międzynarodowych Stosunków Gospodarczych UŁ

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

REKRUTACJA 2013/2014 LLP/ERASMUS- STUDIA

Jak wyrobić kartę EKUZ

Cennik międzynarodowy - EXPORT (DOX+PACZKA) do 1 do 3 do 5 do 1 do 3 do 5 do 10 do 20 do 31.5

Świat stoi otworem. Informacje o możliwościach realizacji studiów częściowych w innej uczelni w kraju i za granicą

STATYSTYKI PROGRAMU MŁODZIEś W DZIAŁANIU ZA ROK 2008

Cennik międzynarodowy - EXPORT (DOX+PACZKA) do 1 do 3 do 5 do 1 do 3 do 5 do 10 do 20 do 31.5

Zagraniczna mobilność studentów niepełnosprawnych i znajdujących się w trudnej sytuacji materialnej. Edycja 2

Cennik międzynarodowy - EXPORT (DOX+PACZKA) do 1 do 3 do 5 do 1 do 3 do 5 do 10 do 20 do 31.5

Kraków ul. Miodowa 41 tel./fax: (12)

XXXI MARATON WARSZAWSKI Warszawa,

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

PRZESYŁKI KURIERSKIE CENNIK USŁUG BUBALO

Gdzie jesteśmy, dokąd idziemy? prof. Aleksander Bursche Uniwersytet Warszawski Przewodniczący Rady DARIAH-PL

ZAŁĄCZNIK IV Stawki mające zastosowanie w umowie

Sprawozdanie z działalności Biura Wymiany Międzynarodowej. za rok akademicki 2014/15 (stan na r.)

NAUKOMETRYCZNA CHARAKTERYSTYKA POZIOMU BADAŃ NAUKOWYCH PROWADZONYCH W DYSCYPLINIE INŻYNIERIA ŚRODOWISKA

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

ZASIĘG USŁUGI FOTORADARY EUROPA I NIEBEZPIECZNE STREFY

gizycko.turystyka.pl

dla Pracowników i Doktorantów

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Katalog ECTS, sposób jego przygotowania i aktualizacji Certyfikat ECTS Label dla Politechniki Gdańskiej

Uczestnictwo europejskich MŚP w programach B+R

dr Sławomir Nałęcz Z-ca dyr. Dep. Badań Społecznych i Warunków Życia Główny Urząd Statystyczny

Wydatki na ochronę zdrowia w

Erasmus dla studentów I i II stopnia Instytutu Filozofii UW

C ,00 Euro z przeznaczeniem na organizację wymiany studentów i pracowników.

WYJAZDÓW STYPENDIALNYCH NA PRAKTYKI ZAGRANICZNE W RAMACH PROGRAMU ERASMUS+

Zatrudnienie w Polsce Iga Magda Ministerstwo Pracy i Polityki Społecznej

Jak pokonać bariery dla (eko)innowacji w Polsce?

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

mapy cyfrowe dla biznesu

SNP Poland. do BCC

Litwa. Łotwa. Czechy. Estonia. 112 Jednolity numer alarmowy

ERASMUS+ studia i praktyki 2014/2015

Zakupy on-line w europejskich gospodarstwach domowych. dr inż. Marlena Piekut Kolegium Nauk Ekonomicznych i Społecznych Politechnika Warszawska

ERASMUS+ studia i praktyki 2015/2016

Informatyka Studia II stopnia


Federacja Bibliotek Cyfrowych w sieci PIONIER

Warunki poprawy pozycji innowacyjnej kraju Globalizacja działalności badawczej i rozwojowej: próba oceny miejsca Polski

Transkrypt:

wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii J zykowej i Lingwistyki Informatycznej maciej.piasecki@pwr.edu.pl

CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna część europejskiej (ESFRI) i polskiej mapy drogowej infrastruktury naukowej Czym jest rozproszona infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych kilkadziesiąt centrów technologicznych w 19 krajach działających jako jeden wspólny system jednolity dostęp do zasobów językowych oraz narzędzi i aplikacji badawczych do analizy tekstu i mowy w wielu językach europejskich

CLARIN Członkowie 19 członków: Austria Bułgaria Czechy Dania Dutch Language Union Estonia Finlandia Grecja Holandia Łotwa Litwa Niemcy Norwegia Polska Portugalia Słowenia Szwecja Węgry Włochy Obserwatorzy: Francja, Wielka Brytania

Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Przykład: analiza pojęcia Problem: znalezienie w tekstach odwołań do pojęcia książka analiza przypisywanych cech i powiązań z innymi pojęciami Przykłady z sieci: W książce rękopiśmiennej najczęściej występowało ukształtowanie jedno- lub dwukolumnowe. (Wikipedia) W ciągu dziesięciu lat powstały cztery książki, nie jest to więc oszałamiający dorobek. (http://ksiazkioli.blogspot.com/) Jak napisać fascynującą książkę z intrygującą fabułą i odnieść sukces? (sites.google.com/site/pisarstwo/) Za książką kryje się autor. Jego pisanie jest więc zawsze listem do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz] (za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm)

Bariery w zastosowaniu technologii językowej Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Bariery w zastosowaniu technologii językowej Fizyczna dostępność: www.clarin-pl.eu, www.clarin.eu Informacyjna opis: metadane, dokumentacja katalog: Virtual Language Observatory Technologiczna standardy: CMDI, unifikacja standardów dla narzędzi platforma WebLicht, platforma polska w ramach CTJ sprzęt: Centrum Technologii Językowych Wiedzy aplikacje badawcze rozwijane wspólnie z użytkownikami CTJ działające jako centrum typu K (szerzenia wiedzy) Prawna otwartość! (ang. Open source, open access) otwarte rozwiązania! trudne w odniesieniu do korpusów, ale model otwartości wyników przetwarzania Finansowa: otwartość kosztuje, a kto płaci? MNiSW! (dziękujemy!)

Podstawowe funkcje CLARIN Ułatwienie dostępu do zasobów językowych federacja repozytoriów Virtual Language Observatory federacyjne przeszukiwanie korpusów Federated Content Search Wsparcie dla automatycznej analizy tekstu i mowy paleta gotowych do użycia narzędzi językowych usługi sieciowe (Web Services) i aplikacje narzędziowe dostęp poprzez repozytoria typowe zestawy, możliwość tworzenia własnych zestawów Aplikacje badawcze budowane pod konkretne potrzeby, często we współpracy z użytkownikami oparte na technologii językowej, ale nie `narzucające jej

Podstawowe funkcje CLARIN Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure) centra CLARIN typu K oferujące dostęp do wiedzy eksperckiej i wsparcie; fizyczne i wirtualne poradniki i punkty informacyjne, warsztaty, itd. Wymogi dla centrum typu K (wybrane) strona WWW z jasno określonym zakresem usług np. pomoc, wsparcie techniczne lub technologiczne, kursy, zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych dysponują odpowiednią kadrą Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague) Phonogrammarchiv Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm Planowane centrum typu K w ramach Centrum Technologii Językowych, kontakt: uzytkownicy.clarin-pl@pwr.edu.pl

CLARIN ERIC Centra

Podstawowe funkcje CLARIN

Podstawowe funkcje CLARIN

Virtual Language Observatory

VLO wyszukiwanie fasetowe Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure)

Centralne przeszukiwanie treści

w pigułce Centrum Technologii Językowych http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarządzania danymi naukowymi Narzędzia i zasoby dla języka polskiego rozszerzone lub zbudowane od podstaw dostępne w CLARIN ERIC, w większości jako usługi sieciowe Unikatowy dwutorowy model budowy łączenie i uzupełnianie elementów infrastruktury technologii językowych proces budowy ukierunkowany na wymagania użytkowników Współpraca z użytkownikami: aplikacje oraz warsztaty

Wytwórcy Grupa Naukowa G4.19 Lingwistyki Informatycznej i Technologii Językowych, Katedra Inteligencji Obliczeniowej, Politechnika Wrocławska Zespół Inżynierii Lingwistycznej, Instytut Podstaw Informatyki PAN, Instytut Slawistyki, Polska Akademia Nauk Polsko-Japońska Akademia Technik Komputerowych Instytut Anglistyki, Uniwersytet Łódzki Uniwersytet Wrocławski Beneficjenci: Wszystkie jednostki naukowe i Naukowcy w Polsce, szczególnie z obszaru nauk humanistycznych i społecznych

Technologia przed 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Technologia po 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Podstawowe narzędzia językowe http://ws.clarin-pl.eu

Podstawowe narzędzia językowe http://ws.clarin.eu

Podstawowe narzędzia językowe http://inforex.clarin.eu

Wydobywanie statystyk z korpusów http://ws.clarin.eu

Wydobywanie statystyk z korpusów http://ws.clarin.eu Rezultat lematyzacji (Orzeszkowa, Kto winien) nie być już młody, lecz twarz on zachować delikatność rys i cer, kibić wysmukłość kształt, a oko z gorący źrenica ten zdolność do odbijać w siebie wewnętrzny wzruszenie, który oko ludzki nadać nazwa zwierciadło dusza. ciemny suknia on, łączyć w siebie wykwintność z prostota, skraj swój dotykać piękny kobierzec, rozesłać u stopa sprzęt, na który z ręka załamanemi opaść być przed chwila, wnet po wyjść stąd istota młodziutki, śliczny, szeleścić jedwab, roześmiany śmiech przykry, kolący. Charakterystyka czasownikowa czas Cza czas Cza bez czas Cza Cza Cza Cza s3os czas Cza 3os Cza s3os Cza Cza okoli Toke- owni s1os s1os s2os s3os lp_ 3osl s3os lm_ s3os lm_ s3os s2os czni ny ki lp lm lp lp m p_z lp_n m lm_z n lm lm k 1124 129 2 9 100 0 100 84 151 465 0 0 0 0 0 0 150

Wydobywanie statystyk z korpusów http://ws.clarin.eu Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie była już młodą, lecz twarz jej zachowała delikatność rysów i cery, kibić nie być już młody, lecz twarz on zachować delikatność rys i cer, kibić qub praet qub adj interp conj subst ppron3 praet subst subst conj subst interp subst

WebSty: załadowanie plików 26

WebSty: prezentacja wyników drzewo interaktywne 27

Korzyści z udziału w CLARIN CLARIN ERIC jest dynamicznie rozwijającą się infrastrukturą badawczą rosnąca liczba członków i czołowych ośrodków naukowych szereg stabilnych centralnych usług oraz narzędzi naukowych wyznacza standardy i budzi zainteresowanie w świecie nauki Transferu wiedzy i metod badawczych zarówno w dziedzinie technologii językowych, jak i NHiS Łatwiejszy dostęp do zasobów naukowych i narzędzi badawczych Szerzenia wiedzy o nowych cyfrowych metodach badawczych w NHiS Promocja polskiej nauki, kultury, zwiększenie możliwości prowadzenie badań nad materiałami w języku polskim Rozwój otwartej technologii dla języka polskiego

Wkrótce w Warszawa 2017-05-29 Rozszerzenie wybranych narzędzi językowych pod względem pokrycia i dokładności działania, np. nowy tager morfosyntaktyczny - oparty na czeskim MorphoDiTa rozszerzone parsery dla języka polskiego Przestrzeń do eksperymentów własna chmura do przechowywania danych Rozszerzenie WebSty o system uczący się podziału tekstów na klasy: autor, styl, kategorie semantyczne Prototypowa platformy do łączenia narzędzi językowych w aplikację badawczą Rozbudowa i budowa dalszych aplikacji do tekstu i mowy Narzędzia do porównywania korpusów w ramach LEM-a Platforma Leksykalna umożliwiająca przeglądanie zasobów lesksykalnych

Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu