CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Podobne dokumenty
CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

CLARIN infrastruktura naukowa technologii językowych

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Program warsztatów CLARIN-PL

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Open Access w technologii językowej dla języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

DARIAH-PL Gdzie jesteśmy, dokąd idziemy?

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

AUTOMATYKA INFORMATYKA

Metadane. Przykry obowiązek czy przydatny zasób?

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Zintegrowany system usług dla nauki etap II (ZSUN II)

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Semantyczna analiza języka naturalnego

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Oprogramowanie dostosowane do potrzeb użytkownika. Skrócenie czasu wejścia na rynek

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Inforex - zarządzanie korpusami i ich anotacja

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

Zapytanie ofertowe nr 1/2016

WMS Thematic Standard do publikacji opracowań kartograficznych. Serena Coetzee, Adam Iwaniak, Paweł Netzel

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

WebSty otwarty webowy system do analiz stylometrycznych

Wykład I. Wprowadzenie do baz danych

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Produkty i artefakty architektoniczne

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Tomasz Grześ. Systemy zarządzania treścią

Semantyczne podobieństwo stron internetowych

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Rozproszona biblioteka cyfrowa pacjenta w środowisku Prywatnej Sieci ezdrowie Rodziny

HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI

Grafika i Systemy Multimedialne (IGM)

Doskonalenie dostępu do dziedzinowych zasobów informacyjnych

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Lokalizacja Oprogramowania

Grafika i Systemy Multimedialne (IGM)

Zarządzanie wiedzą w instytucji naukowej cz. I

Założenia i planowane efekty Projektu. Rola Projektu w budowaniu infrastruktury informacji przestrzennych na obszarze województwa mazowieckiego

Informatyka Studia II stopnia

Infrastruktura bibliotek cyfrowych

INNOWACYJNA METODA PROMOCJI TECHNOLOGII GIS I ZASOBU GEODEZYJNEGO I KARTOGRAFICZNEGO SKIEROWANA DO UŻYTKOWNIKÓW Z BRANŻ POKREWNYCH

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Narzędzia do automatycznej analizy odniesień w tekstach

English in Mind Wydanie egzaminacyjne - zgodność zawartości podręcznika ze standardami wymagań egzaminu gimnazjalnego z języka angielskiego

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Gdzie jesteśmy, dokąd idziemy? prof. Aleksander Bursche Uniwersytet Warszawski Przewodniczący Rady DARIAH-PL

Możliwości i wyzwania dla polskiej infrastruktury bibliotek cyfrowych

Rozwiązanie GIS dla mniejszego. miasta: model Miasta Stalowa Wola. Janusz JEśAK. Jacek SOBOTKA. Instytut Rozwoju Miast. ESRI Polska Sp. z o. o.

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Bezpieczne miasto. koncepcja i rozwiązania w projekcie Mayday Euro 2012

Porozumienie w sprawie utworzenia konsorcjum Polskie Biblioteki Cyfrowe Agreement on the creation of a Consortium Polish Digital Libraries

BADANIE I OCENA ZGODNOŚCI Z INSPIRE

Ochrona środowiska w gminie

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

System informatyczny i bazy danych dla projektu ZiZOZap i jego beneficjentów

Architektura systemu e-schola

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Prezentacja funkcjonalności Geoportalu Projektu PLUSK

Czy (centralne) katalogi biblioteczne są jeszcze potrzebne? OPAC w infotopii. Dr hab. Marek Nahotko, ISI UJ

Platforma Informatyczna Wdrażania Oprogramowania Dedykowanego w PL-Grid

Przyszłośd PBN. Marek Kozłowski

Rola bibliotek cyfrowych w budowaniu gospodarki opartej o wiedzę. Cezary Mazurek

Programy Ramowe UE jako narzędzie realizacji ERA Struktura 7.PR UE. Zasady uczestnictywa

Hadoop i Spark. Mariusz Rafało

KSZTAŁTOWANIE SIĘ NOWEGO PARADYGMATU ORGANIZACJI ZASOBÓW WIEDZY W SPOŁECZEŃSTWIE SIECIOWYM [?]

Poland Now projekt realizowany w ramach konkursu MNiSW Promocja kształcenia na polskich uczelniach wśród cudzoziemców

Dział Zamówień Publicznych

WYMAGANIA EDUKACYJNE JĘZYK POLSKI klasa pierwsza. XVIII Liceum Ogólnokształcące im. Prof. Akademii Krakowskiej. Św. Jana Kantego

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Pojęcie bazy danych. Funkcje i możliwości.

PROGRAM SEMINARIUM ZAKOPANE czwartek, 1 grudnia 2011 r. Sesja przedpołudniowa

Transkrypt:

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl 2013-04-17

Projekt CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne

Projekt CLARIN CLARIN ERIC - konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie Austria Bułgaria Czechy Dania Estonia Holandia Niemcy Polska Dutch Language Union (organizacja międzypaństwowa) Obserwatorzy Norwegia

Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Zasoby językowe Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) Słowniki morfologiczne, własności gramatycznych słów, nazw własnych, leksykony semantyczne, leksykalne sieci semantyczne, wielojęzyczne słowniki itp. Gramatyki (sformalizowane) Inne zasoby np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.

Narzędzia językowe Analizatory morfologiczne rozpoznające znane słowa i przypisujące im opis własności gramatycznych Programy do ujednoznaczniania znaczeń słów w tekście Parsery (analizatory struktury) dokonujące analizy składniowej oraz semantycznej tekstu Programy do rozpoznawania mowy i pisma ręcznego Programy do analizy znaczenia i informacji wyrażonej w tekście rozpoznawanie i klasyfikacja nazw własnych rozpoznawanie powiązań anaforycznych rozpoznawanie sytuacji itp.

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości (Onet.pl za Deutsche Welle, 30 V 2013)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości, drogi (Onet.pl za Deutsche Welle, 30 V 2013)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości, drogi, części dróg (Onet.pl za Deutsche Welle, 30 V 2013)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas) (Onet.pl za Deutsche Welle, 30 V 2013)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(s1, S2), poprzedza(s1,s2)

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(s1, S2), poprzedza(s1,s2) wiedza nadawcy:??

Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(s1, S2), poprzedza(s1,s2) wiedza nadawcy:?? powiązania z informacją w pozostałej części tekstu:??, np. uszczegółowienie

Analiza tekstu narzędzia Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) analiza morfologiczna: formy podstawowe, cechy morfologiczne <orth>zagrożenie</orth> <lex disamb="1"><base>zagrożenie</base><ctag>subst:sg:acc:n </ctag></lex> płytka analiza składniowa, np. frazy i zależności rozpoznawanie odniesień do obiektów (bytów nazwanych): miejscowości, drogi, części dróg, służby rozpoznawanie relacji semantycznych: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) rozpoznawanie sytuacji: zagrożenie powodziowe, zamknięcie rozpoznawanie relacji czasowych rozpoznanie relacji między fragmentami tekstu odniesienie do bazy wiedzy kontekstowej

Analiza tekstu stan bieżący 1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2. Ujednoznacznienie opisów gramatycznych słów 3. Płytka analiza składniowa, np. frazy i zależności 4. Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Analiza tekstu 1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2. Ujednoznacznienie opisów gramatycznych słów 3. Płytka analiza składniowa, np. frazy i zależności 4. Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów

Analiza relacji znaczeniowych płaca wynagrodzenie 0,453229 pensja 0,370166 zarobek 0,359917 uposażenie 0,303791 emerytura 0,279672 zatrudnienie 0,270655 dochód 0,264029 renta 0,248828 wynagradzanie 0,239462 składka 0,227758 wydajność pracy 0,225918 czynsz 0,22524 stopa procentowa 0,224882 inflacja 0,219127 oprocentowanie 0,218563 zasiłek 0,216317 świadczenie 0,215161 podwyżka 0,213452 wydatek 0,210603 premia 0,210519

Analiza relacji znaczeniowych ojczyzna naród 0,168143 lud 0,132219 kraj 0,132182 rzeczpospolita 0,128922 kraina 0,118424 wolność 0,116838 królestwo 0,114325 ludzkość 0,111024 państwo 0,104643 religia 0,104022 państwowość 0,103556 chwała 0,102265 honor 0,101467 wiara 0,100979 potęga 0,0988643 potomek 0,0979 imperium 0,0976763 zbawiciel 0,0975855 patriotyzm 0,097074 bóg 0,0968453

Przykładowe zastosowania Wyszukiwanie wielowyrazowych terminów lub nazw w dowolnej formie gramatycznej w różnych wersjach (pełnej, skróconej, częściowych akronimów) powiązanie akronimów z terminami i nazwami z uwzględnieniem wszystkich odwołań do terminu ograniczenie wyszukiwania jedynie do tekstów określonego charakteru Poglądowa mapa kolekcji dokumentów grupy oparte na podobieństwie zawartości krótkie poglądowe streszczenia Wydobywanie cechy przypisywanych do obiektów, pojęć atrybuty opinie wartościujące

Przykładowe zastosowania Automatyczne wydobywanie słownika typowego dla danej dziedzinie wyrazy i wielowyrazowe terminy, zwroty, nazwy itd. rozpoznanie kontekstów znaczeniowych w jakich są używane wyrazy powiązania znaczeniowe grupy tematyczne powiązanie słownictwa z grupami ludzi Rozpoznawanie współwystępowania obiektów w związkach lub sytuacjach analiza statystyczna rozpoznanych powiązań i sytuacji w wielkiej skali na klastrach obliczeniowych automatyczne wydobywanie sieci społecznościowych Analiza struktury dyskursu rozpoznawanie aktów dialogu (mowy) schematy i odniesienia do stereotypów

Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Infrastruktura językowa

Funkcje infrastruktury Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) wirtualne kolekcje oparte na metadanych Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania

Aplikacje przykłady Ułatwienie dostępu połączony katalog metadanych federacyjne wyszukiwanie w korpusach tekstu i mowy Gromadzenie i zarządzanie danymi tworzenie własnych kolekcji rozszerzanie istniejących wykorzystanie istniejących archiwów Rozszerzenie wyszukiwania w zasobach automatyczna generacja metadanych w oparciu o narzędzia językowe Wydobywanie informacji i wiedzy automatyczna generacja zestawień analiza statystyczna oparta na faktach wydobytych z korpusu

Konsorcjum : polska część infrastruktury CLARIN Centrum Technologii Językowych www.clarin-pl.eu Politechnice Wrocławskiej, Grupa Naukowa G4.19 zapewniające funkcje sieciowe infrastruktury CLARIN udostępniające repozytorium zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników naukowców Korpusy Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego Wybrane zasoby dwujęzyczne

: projekt Okres: 2013-2015 Partnerzy: Politechnika Wrocławska, Instytut Informatyki (lider) Instytut Podstaw Informatyki Polskiej Akademii Nauk Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Wyższa Szkoła Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski

Dziękuję bardzo za uwagę