Program warsztatów CLARIN-PL

Podobne dokumenty
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Open Access w technologii językowej dla języka polskiego

CLARIN-PL w praktyce badawczej

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Lingwistyka Kryminalistyczna w Collegium Maius Projekt konkursowy

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Inforex - zarządzanie korpusami i ich anotacja

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Korpusy mowy i narzędzia do ich przetwarzania

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

CLARIN infrastruktura naukowa technologii językowych

WebSty otwarty webowy system do analiz stylometrycznych

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Analiza danych tekstowych i języka naturalnego

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

SYLLABUS. Leksykologia i leksykografia

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Program szkolenia EXCEL W ANALIZACH DANYCH.

PLATFORMA COMARCH SECURITY. Analiza i skracanie wideo

Program szkolenia EXCEL PRZEKROJOWY ZAAWANSOWANY.

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK POLSKI SPRAWDZANIE I OCENIANIE OSIAGNIĘĆ UCZNIÓW

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

UMIEJĘTNOŚCI JĘZYKOWE

Spis treści tomu pierwszego

Warsztaty i kursy. Biblioteki Pedagogicznej w Skawinie. we współpracy. Podkrakowskim Centrum Rozwoju Edukacji. i Doskonalenia Nauczycieli w Krakowie

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

AUTOMATYKA INFORMATYKA

Prof. Stanisław Jankowski

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

PROGRAM SZKOLENIA. Excel w Analizach danych.

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

PRZEWODNIK PO PRZEDMIOCIE

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Temat szkolenia: Technologie informacyjno-komunikacyjne w nauczaniu przedmiotów humanistycznych SZCZEGÓŁOWY PROGRAM SZKOLENIA WARSZAWA, 2014

Semantyczna analiza języka naturalnego

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Program szkolenia EXCEL ZAAWANSOWANY Z WPROWADZENIEM DO VBA.

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Korpusy anotowane jako grafowe bazy danych. Piotr Pęzik PELCRA, Uniwersytet Łódzki

Zapytanie ofertowe nr 1/2016

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

PLAN FERII ZIMOWYCH r r. Zajęcia odbywają się w godzinach 09:00-13:00

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

ŚCIEŻKA: Zarządzanie projektami

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

E-learning w pracy nauczyciela bibliotekarza warsztaty metodyczne w Pedagogicznej Bibliotece Wojewódzkiej im. KEN w Lublinie

Lokalizacja Oprogramowania

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski

PRZEWODNIK PO PRZEDMIOCIE

Czytelnik w bibliotece cyfrowej

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 4

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

PROGRAM DOSKONALENIA PRZEDMIOTOWEGO W ZAKRESIE EDUKACJI WCZESNOSZKOLNEJ

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Scenariusz warsztatów z dźwięku, MediaLab Junior Warszawa 2013

Transkrypt:

W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19 czerwca 2015 roku Uniwersytet Pedagogiczny w Krakowie, ul. Podchorążych 2 Organizatorzy: CLARIN-PL Wydział Filologiczny Uniwersytetu Pedagogicznego w Krakowie Instytut Języka Polskiego Polskiej Akademii Nauk Prowadzący: dr hab. Maciej Eder, dr Wojciech Jaworski, mgr inż. Paweł Kędzia, mgr inż. Jan Kocoń, dr hab. Krzysztof Marasek, dr inż. Michał Marcińczuk, dr Marek Maziarz, dr Marcin Oleksy, dr Piotr Pęzik, dr inż. Maciej Piasecki, dr hab. Adam Przepiórkowski, dr Ewa Rudnicka Program warsztatów CLARIN-PL Ze względu na bardzo duże zainteresowanie warsztatami CLARIN-PL zajęcia będą przebiegać równolegle w dwóch tokach. środa 17 czerwca GRUPA A sala 214 GRUPA B sala 424 Centrum Technologii Językowych CL-PL: gromadzenie, deponowanie, anotowanie i udostępnianie korpusów Korpusy mowy i narzędzia do ich przetwarzania

Narzędzia do automatycznej analizy odniesień w tekstach Centrum Technologii Językowych CL-PL: gromadzenie, deponowanie, anotowanie i udostępnianie korpusów 14:30-16:00 Korpusy mowy i narzędzia do ich przetwarzania Narzędzia do automatycznej analizy odniesień w tekstach czwartek 18 czerwca Słowosieć 3.0 leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych Parsowanie semantyczne i jego zastosowania 14:30-16:00 Parsowanie semantyczne i jego zastosowania Słowosieć 3.0 leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń piątek 19 czerwca Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes System do klasyfikacji tekstu i analizy stylometrycznej System do klasyfikacji tekstu i analizy stylometrycznej Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes

Centrum Technologii Językowych CLARIN-PL: gromadzenie, deponowanie, anotowanie i udostępnianie korpusów (45 min. wykład + 45 min. warsztaty) Prowadzący: dr Marcin Oleksy, mgr inż. Jan Kocoń, dr inż. Maciej Piasecki Ważnym zadaniem Centrum Technologii Językowych CLARIN-PL jest przechowywanie i udostępnianie korpusów oraz dostarczenie narzędzi umożliwiających wygodne prace korpusowe. Podczas wykładu słuchacze zapoznają się z podstawowymi zagadnieniami dotyczącymi przechowywania w Centrum własnych korpusów: ustalaniem odpowiedniej licencji, wyborem właściwego formatu, opisem meta-danymi, możliwościami przetwarzania i znakowania korpusów w systemie Inforex, użyciem narzędzi do gromadzenia korpusów bezpośrednio ze źródeł internetowych. W ramach zajęć warsztatowych uczestnicy samodzielnie zdeponują mały korpus testowy, wgrają go do systemu Inforex i poddadzą wstępnemu przetwarzaniu. Będą także anotować i przeszukiwać korpus (za pomocą systemu NoSketch) oraz wykonają statystyczną analizę anotacji i utworzą podstawowe listy frekwencyjne. Narzędzia do automatycznej analizy odniesień w tekstach (45 min. wykład + 45 min. warsztaty) Prowadzący: dr inż. Michał Marcińczuk, mgr inż. Jan Kocoń W ramach CLARIN-PL powstają narzędzia automatycznie rozpoznające w tekstach nazwy własne i wyrażenia określające relacje czasowe. Tematem wykładu będzie prezentacja tych narzędzi oraz ich wykorzystania w automatycznym znakowaniu korpusów. Prowadzący pokażą, w jaki sposób przeglądać i poprawiać automatyczną anotację, jak zapisywać wyniki analizy, jak tworzyć słowniki najczęstszych wystąpień nazw własnych i wyrażeń czasowych. Podczas warsztatów uczestnicy będą mogli wykorzystać zdobytą wiedzę do samodzielnej analizy korpusu testowego. Korpusy mowy i narzędzia do ich przetwarzania (45 min. wykład + 45 min. warsztaty) Prowadzący: dr hab. Krzysztof Marasek i mgr inż. Danijel Korzinek W ramach CLARIN-PL opracowano szereg narzędzi wspomagających prace z nagraniami mowy polskiej. Obejmują one możliwość transkrypcji fonetycznej tekstu, detekcji mowy w sygnale audio, wyszukiwania specyficznych zjawisk akustycznych (np. muzyki) oraz podziału nagranych wypowiedzi na wypowiedziane przez poszczególnych mówców. Istnieje także możliwość czasowego dopasowania transkrypcji do nagrania, co umożliwia dokładną analizę fonetyczną. W ramach warsztatów uczestnicy zapoznają się z opracowanymi narzędziami i sposobami ich użycia.

Słowosieć 3.0 leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń (45 min. wykład + 45 min. warsztaty) Prowadzący: dr Marek Maziarz, mgr inż. Paweł Kędzia, dr inż. Maciej Piasecki, dr Ewa Rudnicka Słowosieć 3.0 to leksykalna sieć semantyczna języka polskiego i największy jak dotąd tego typu słownik (wordnet) na świecie, mający liczne i rozmaite zastosowania. Podczas wykładu słuchacze zapoznają się ze sposobem opisu znaczeń leksykalnych w Słowosieci. Zaprezentowany zostanie system WordnetLoom, który służy do przeglądania i edycji Słowosieci, oraz narzędzia działające w oparciu o Słowosieć, umożliwiające wyznaczanie miar podobieństwa znaczeniowego i automatyczne ujednoznacznianie znaczeń słów występujących w tekście. Uczestnicy warsztatów zainstalują aplikację WordnetLoom i za jej pomocą będą przeglądać Słowosieć. Będą mogli również śledzić frekwencję znaczeń wybranych przez siebie wyrazów w korpusie stenogramów sejmowych (Sejmu Rzeczypospolitej ostatnich kadencji), jak również wygenerować listę frekwencyjną znaczeń wyrazów (np. w konkretnym okresie). Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych (45 min. wykład + 45 min. warsztat) Prowadzący: dr Marek Maziarz, dr inż. Maciej Piasecki W ramach CLARIN-PL opracowane zostało narzędzie, które rozpoznaje w tekstach kolokacje potencjalne jednostki leksykalne (zestawienia, terminy i związki frazeologiczne). Umożliwia ono (pół)automatyczne tworzenie (na podstawie dostarczonych korpusów tekstu) słowników takich jednostek, opisanych pod względem leksykalno-składniowym i semantycznym. Uczestnicy warsztatów nauczą się wydobywać z korpusu testowego kolokacje i za pomocą dostępnego systemu stworzą własny słownik połączeń wyrazowych. Uczestnicy warsztatów nauczą się wydobywać jednostki wielowyrazowe z korpusu testowego i za pomocą dostępnego systemu stworzą własny słownik. Parsowanie semantyczne i jego zastosowania (45 min. wykład + 45 min. warsztaty) Prowadzący: dr Wojciech Jaworski, dr hab. Adam Przepiórkowski Parsowanie semantyczne polega na automatycznym uzyskaniu reprezentacji znaczenia danego zdania lub - ogólniej - tekstu. Wykład zostanie poświęcony przedstawieniu wstępnej wersji rozwijanego obecnie parsera języka polskiego. Omówiona zostanie przyjęta reprezentacja semantyczna i jej wizualizacja w postaci grafów semantycznych. Krótko przedstawiony zostanie także proces uzyskiwania takich reprezentacji dla zdań wejściowych. Podczas warsztatów uczestnicy będą mogli bliżej zapoznać się z reprezentacjami składniowymi i semantycznymi. Wykorzystany zostanie system INESS oferujący wizualizację struktur składniowych i możliwość wyboru poprawnej z być może wielu zaproponowanych przez parser. Wspólnie zbadane zostaną także reprezentacje semantyczne wybranych zdań polskich, oraz ich użyteczność w zadaniach związanych z humanistyką cyfrową.

Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes (45 min. wykład + 45 min. warsztaty) Prowadzący: dr Piotr Pęzik Korpus udostępniony przez wyszukiwarkę Spokes stanowi ważny zasób w badaniach nad rejestrem konwersacyjnym języka polskiego. Wykład poświęcony zostanie charakterystyce nieformalnej polszczyzny mówionej oraz wybranym aspektom stylistycznym na przykładzie formuł konwersacyjnych odnotowanych w korpusie. Uczestnicy warsztatów zapoznają się z wyszukiwarką Spokes (http://spokes.clarin-eu.pl) oraz z metodami badań języka mówionego z wykorzystaniem danych korpusowych. System do klasyfikacji tekstu i analizy stylometrycznej (45 min. wykład + 45 min. warsztaty) Prowadzący: dr hab. Maciej Eder, dr inż. Maciej Piasecki W ramach CLARIN-PL powstał system, który wspiera badania stylometryczne poprzez automatyczną klasyfikację tekstów oraz ich semantyczną anotację i analizę. Celem wykładu jest prezentacja elementów systemu (od wydobywania cech tekstu po interpretację wyników analizy), wskazanie jego możliwości i ograniczeń oraz omówienie wybranych przykładów zastosowań. Podczas zajęć warsztatowych uczestnicy wprowadzą do systemu przykładowy korpus, przeprowadzą analizy w oparciu o różne parametry i zinterpretują uzyskane wyniki. Przetestują także działanie przygotowanych wcześniej klasyfikatorów i przeanalizują cechy, które charakteryzują klasy semantyczne zdefiniowane w tekstach.