II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych



Podobne dokumenty
Program warsztatów CLARIN-PL

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN-PL w praktyce badawczej

Open Access w technologii językowej dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Inforex - zarządzanie korpusami i ich anotacja

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Lingwistyka Kryminalistyczna w Collegium Maius Projekt konkursowy

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Lokalizacja Oprogramowania

CLARIN infrastruktura naukowa technologii językowych

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

AUTOMATYKA INFORMATYKA

Spis treści tomu pierwszego

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Grafika i Systemy Multimedialne (IGM)

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

SYLLABUS. Leksykologia i leksykografia

Korpusy mowy i narzędzia do ich przetwarzania

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

E-learning w pracy nauczyciela bibliotekarza warsztaty metodyczne w Pedagogicznej Bibliotece Wojewódzkiej im. KEN w Lublinie

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Trening kompetencji cyfrowych uczniów i nauczycieli z wykorzystaniem usług Google

Program szkolenia EXCEL W ANALIZACH DANYCH.

PROGRAM SEMINARIUM ZAKOPANE czwartek, 1 grudnia 2011 r. Sesja przedpołudniowa

Semantyczna analiza języka naturalnego

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

WebSty otwarty webowy system do analiz stylometrycznych

Lingwistyka komputerowa dla języka polskiego: dziś i jutro

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Grafika i Systemy Multimedialne (IGM)

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

PRZEWODNIK PO PRZEDMIOCIE

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Od e-materiałów do e-tutorów

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

Numer i nazwa obszaru: Temat szkolenia:

PRZEWODNIK PO PRZEDMIOCIE

Program szkolenia EXCEL ZAAWANSOWANY Z WPROWADZENIEM DO VBA.

WYDZIAŁ EKONOMII KARTA OPISU MODUŁU KSZTAŁCENIA

Zintegrowany system usług dla nauki etap II (ZSUN II)

PRZEWODNIK PO PRZEDMIOCIE

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

DONSERV. Jak oznaczyć zawartość białka i tłuszczu? 5-7 czerwca Firmy: DONSERV i BÜCHI serdecznie zapraszają do udziału w szkoleniu

Otwarty System Antyplagiatowy

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

STATYSTYKA PUBLICZNA Warsztaty, cz. III

Program szkolenia EXCEL PRZEKROJOWY ZAAWANSOWANY.

Analiza danych tekstowych i języka naturalnego

PLATFORMA COMARCH SECURITY. Analiza i skracanie wideo

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

1. Ogólne ćwiczenia przygotowawcze

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Korpusy anotowane jako grafowe bazy danych. Piotr Pęzik PELCRA, Uniwersytet Łódzki

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Narzędzia do automatycznej analizy odniesień w tekstach

Gramatyka opisowa języka polskiego Kod przedmiotu

Praktyczna nauka drugiego języka obcego II

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

ZAJĘCIA EDUKACYJNE SZKOŁA PONADGIMNAZJALNA

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Transkrypt:

II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe, bud. D20, ul. Janiszewskiego 8, sala 114 CLARIN-PL Wrocławskie Centrum Sieciowo-Superkomputerowe zapraszają na warsztaty z praktycznego wykorzystania cyfrowych narzędzi do ilościowej i jakościowej analizy języka, przeznaczone dla badaczy z obszaru nauk humanistycznych i społecznych oraz dla tłumaczy Prowadzący: pracownicy naukowi Politechniki Wrocławskiej, Uniwersytetu Łódzkiego, Instytutu Podstaw Informatyki PAN, Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych, Uniwersytetu Wrocławskiego, Instytutu Języka Polskiego PAN dr Anna Andrzejczuk, dr hab. Maciej Eder, dr hab. Elżbieta Hajnicz, mgr inż. Paweł Kędzia, mgr inż. Jan Kocoń, mgr inż. Danijel Korzinek, dr hab. Krzysztof Marasek, dr inż. Michał Marcińczuk, dr Marek Maziarz, dr Marcin Oleksy, mgr Agnieszka Patejuk, prof. dr hab. Adam Pawłowski, dr Piotr Pęzik, dr inż. Maciej Piasecki, dr hab. Adam Przepiórkowski, dr Ewa Rudnicka, dr inż. Tomasz Walkowiak, dr Marcin Woliński CLARIN-PL to polskie konsorcjum naukowe będące częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN (Common Language Resources & Technology Infrastructure), udostepniającej zasoby językowe oraz elektroniczne narzędzia do automatycznego przetwarzania języka, które mogą znaleźć zastosowanie w badaniach opartych na gromadzeniu i analizie dużych ilości tekstowych materiałów źródłowych. Główna część warsztatów będzie poświęcona wykorzystaniu narzędzi i zasobów językowych w pracach badawczych z zakresu nauk humanistycznych i społecznych. Zapraszamy pracowników naukowych do udziału w zajęciach, podczas których będą mogli zapoznać się m.in. z systemami do klasyfikacji tekstu, wspomagającymi tworzenie słowników dziedzinowych na podstawie tekstów oraz do badań związanych z nazwami własnymi i indeksami, które

stanowią pomoc w pracach leksykograficznych. Tematem warsztatów będzie gromadzenie i udostępnianie korpusów oraz możliwość wykorzystania narzędzi CLARIN-PL w pracy humanisty (przegląd narzędzi, zasobów i aplikacji potencjalne zastosowania). Druga grupa zagadnień dotyczy wykorzystania korpusów językowych (oraz ekstrakcji i analizy frazeologii z korpusów) w pracy tłumaczy. Przyjrzymy się m.in. bazie równoległych tekstów polskich i angielskich, uczestnicy poznają pojęcia ekwiwalencji frazeologicznej oraz sposoby zastosowania korpusów do jej weryfikacji. Serdecznie zapraszamy wszystkich naukowców, których interesuje wykorzystanie nowych metod, technik i narzędzi w praktyce badawczej. Nie jest wymagana wcześniejsza znajomość zagadnień z zakresu lingwistyki korpusowej. Dostęp do opracowanych narzędzi i zasobów językowych oraz wykorzystanie technologii językowych w naukach humanistycznych otwierają nowe ścieżki działań w badaniach literaturoznawczych i językoznawczych oraz w pracach leksykograficznych i translatologicznych. Osoby zainteresowane udziałem w warsztatach prosimy o przesłanie zgłoszenia na adres clarinpl@pwr.edu.pl do dnia 8 maja 2015. Informujemy, że ze względów technicznych liczba miejsc jest ograniczona. Pierwszeństwo będą miały osoby, które z powodu braku miejsc nie mogły wziąć udziału w pierwszej edycji warsztatów. Pozostałe osoby będą przyjmowane według kolejności zgłoszeń. Warsztaty będą miały charakter praktyczny, niezbędne zatem będzie przyniesienie własnych laptopów. Jeżeli chcą Państwo uczestniczyć tylko w wybranych dniach warsztatów, proszę je wskazać w zgłoszeniu. Udział w warsztatach jest bezpłatny. Następna edycja warsztatów planowana jest w Krakowie, w dniach 17-19 czerwca 2015.

PROGRAM Politechnika Wrocławska, Centrum Kongresowe, bud. D20, ul. Janiszewskiego 8, sala 114 PONIEDZIAŁEK 18 maja Infrastruktura naukowa 9.00-10.00 Wykład Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów i narzędzi językowych dla języka polskiego Prowadzący: dr inż. Tomasz Walkowiak i dr inż. Maciej Piasecki Centrum Technologii Językowych CLARIN-PL, uruchomione na Politechnice Wrocławskiej, jest węzłem ogólnoeuropejskiej infrastruktury CLARIN ERIC, adresowanej do badaczy nauk humanistycznych i społecznych. Celem wykładu jest przegląd usług udostępnianych użytkownikom przez CLARIN-PL oraz pokazanie, w jaki sposób mogą oni wykorzystać Centrum do deponowania i archiwizacji własnych zasobów językowych (np. korpusów, słowników). Omówione zostaną standardy metadanych stosowane w Centrum, a także system logowania w ogólnopolskiej federacji uwierzytelniania, gwarantującej bezpieczeństwo przechowywania danych i umożliwiającej logowanie na podstawie własnego konta z jednostki macierzystej (jeżeli przystąpiła ona do federacji). Narzędzia korpusowe 10.00-10.45 Wykład Gromadzenie korpusów, anotowanie i udostępnianie Prowadzący: dr Marcin Oleksy i mgr inż. Jan Kocoń Ważnym zadaniem Centrum Technologii Językowych CLARIN-PL jest przechowywanie i udostępnianie korpusów oraz dostarczenie narzędzi umożliwiających wygodne prace korpusowe. Podczas wykładu słuchacze zapoznają się z podstawowymi zagadnieniami dotyczącymi przechowywania w Centrum własnych korpusów: ustalaniem odpowiedniej licencji, wyborem właściwego formatu, opisem metadanymi, możliwościami przetwarzania i znakowania korpusów w systemie Inforex, użyciem narzędzi do gromadzenia korpusów bezpośrednio ze źródeł internetowych. W ramach zajęć warsztatowych uczestnicy samodzielnie zdeponują mały korpus testowy, wgrają go do systemu Inforex i poddadzą wstępnemu przetwarzaniu. Będą także anotować korpus oraz wykonają statystyczną analizę anotacji i utworzą podstawowe listy frekwencyjne.

10.45-11.00 Przerwa na kawę 11.00-12.30 Warsztaty Gromadzenie korpusów, anotowanie i udostępnianie 12.30-13.30 Wykład Narzędzia do automatycznej analizy odniesień w tekstach Prowadzący: dr inż. Michał Marcińczuk i mgr inż. Jan Kocoń W ramach CLARIN-PL powstają narzędzia automatycznie rozpoznające w tekstach nazwy własne i wyrażenia określające relacje czasowe. Tematem wykładu będzie prezentacja tych narzędzi oraz ich wykorzystanie w automatycznym znakowaniu korpusów. Prowadzący pokażą, w jaki sposób przeglądać i poprawiać automatyczną anotację, jak zapisywać wyniki analizy, jak tworzyć słowniki najczęstszych wystąpień nazw własnych i wyrażeń czasowych. Podczas warsztatów uczestnicy będą mogli wykorzystać zdobytą wiedzę do samodzielnej analizy korpusu testowego. 13.30-14.15 Przerwa obiadowa 14.15-15.45 Warsztaty Narzędzia do automatycznej analizy odniesień w tekstach 15.45-16.30 Wykład Korpusy mowy i narzędzia do ich przetwarzania Prowadzący: dr hab. Krzysztof Marasek i mgr inż. Danijel Korzinek W ramach CLARIN-PL opracowano szereg narzędzi wspomagających prace z nagraniami mowy polskiej. Obejmują one możliwość transkrypcji fonetycznej tekstu, detekcji mowy w sygnale audio, wyszukiwania specyficznych zjawisk akustycznych (np. muzyki) oraz podziału nagranych wypowiedzi na wypowiedziane przez poszczególnych mówców. Istnieje także możliwość czasowego dopasowania transkrypcji do nagrania, co umożliwia dokładną analizę fonetyczną. W ramach warsztatów uczestnicy zapoznają się z opracowanymi narzędziami i sposobami ich użycia. 16.30-16.45 Przerwa na kawę 16.45-17.30 Warsztaty Korpusy mowy i narzędzia do ich przetwarzania

WTOREK 19 MAJA 9.00-9.45 Wykład ChronoPress (Chronologiczny Korpus Polskich Teksów Prasowych) i jego wykorzystanie w badaniach Prowadzący: prof. dr hab. Adam Pawłowski Przedmiotem wykładu będzie podejście sekwencyjne w analizie danych tekstowych. We wstępie zostaną krótko omówione pojęcia szeregu czasowego, jego składowych (trend, oscylacje periodyczne i losowe) oraz niektórych parametrów opisowych (średnia, autokorelacja, korelacja wzajemna). W części praktycznej zostaną krótko przedstawione publicznie dostępne narzędzia analizy trendów leksykalnych (m.in. Google Trends), a następnie, jako główny element prezentacji, omówiony zostanie Chronologiczny Korpus Prasy Polskiej ChronoPress, rozwijany w ramach projektu CLARIN-PL. Słuchacze będą mogli zapoznać się z różnymi możliwościami wykorzystania korpusu ChronoPress, będą też mogli zaproponować własne scenariusze zastosowań. Narzędzia słownikowe 9.45-10.45 Wykład Słowosieć 3.0 leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Prowadzący: dr Marek Maziarz, mgr inż. Paweł Kędzia i dr inż. Maciej Piasecki Słowosieć 3.0 to leksykalna sieć semantyczna języka polskiego i największy jak dotąd tego typu słownik (wordnet) na świecie, mający liczne i rozmaite zastosowania. Podczas wykładu słuchacze zapoznają się ze sposobem opisu znaczeń leksykalnych w Słowosieci. Zaprezentowany zostanie system WordnetLoom, który służy do przeglądania i edycji Słowosieci, oraz narzędzia działające z wykorzystaniem Słowosieci, umożliwiające wyznaczanie miar podobieństwa znaczeniowego i automatyczne ujednoznacznianie znaczeń słów występujących w tekście. Uczestnicy warsztatów zainstalują aplikację WordnetLoom i za jej pomocą będą przeglądać Słowosieć. Będą mogli również śledzić frekwencję znaczeń wybranych przez siebie wyrazów w korpusie stenogramów sejmowych (Sejmu Rzeczypospolitej ostatnich kadencji), jak również wygenerować listę frekwencyjną znaczeń wyrazów (np. w konkretnym okresie). 10.45-11.00 Przerwa na kawę 11.00-12.00 Warsztaty Słowosieć 3.0

12.00-12.30 Wykład Dwujęzyczna Słowosieć możliwości wykorzystania w pracy tłumacza Prowadząca: dr Ewa Rudnicka Znaczenia leksykalne w Słowosieci zostały połączone z odpowiadającymi im znaczeniami w sieci języka angielskiego Princeton Wordnet. W ramach wykładu omówione zostaną różnice w sposobie opisu między obiema sieciami oraz przedstawiony zostanie system relacji międzyjęzykowych, wspierających pracę tłumacza. Podczas warsztatów uczestnicy zajmą się analizą konkretnych problemów tłumaczeniowych i spróbują je rozwiązać przy użyciu relacji międzyjęzykowych. 12.30-13.30 Warsztaty Dwujęzyczna Słowosieć 13.30-14.15 Przerwa obiadowa 14.15-15.00 Wykład Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych Prowadzący: dr inż. Maciej Piasecki i dr Marek Maziarz W ramach CLARIN-PL opracowane zostało narzędzie, które rozpoznaje w tekstach kolokacje potencjalne jednostki leksykalne (zestawienia, terminy i związki frazeologiczne). Umożliwia ono (pół)automatyczne tworzenie (na podstawie dostarczonych korpusów tekstu) słowników takich jednostek, opisanych pod względem leksykalno-składniowym i semantycznym. Uczestnicy warsztatów nauczą się wydobywać z korpusu testowego kolokacje i za pomocą dostępnego systemu stworzą własny słownik połączeń wyrazowych. 15.00-16.00 Warsztaty Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych 16.00-16.15 Przerwa na kawę 16.15-17.00 Wykład Korpusy referencyjne i równoległe w warsztacie tłumacza Prowadzący: dr Piotr Pęzik Korpusy stanowią ważny element warsztatu tłumacza, a ich nieustanny rozwój stwarza coraz lepsze możliwości zastosowań. W ramach wykładu przedstawione zostaną: Narodowy Korpus Języka Polskiego oraz powstały w ramach CLARIN-PL polsko-angielski korpus równoległy Paralela. Wyjaśnione zostaną pojęcia ekwiwalencji frazeologicznej, syntagmy i frazemu.

Podczas warsztatów uczestnicy zapoznają się z działaniem wyszukiwarki SlopeQ dla NKJP oraz dowiedzą się, jak stosować korpusy NKJP i Paralela do weryfikacji ekwiwalencji frazeologicznej. 17.00-18.00 Warsztaty Korpusy referencyjne i równoległe w warsztacie tłumacza ŚRODA 20 MAJA Narzędzia do badań nad tekstem 9.00-9.30 Wykład Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Prowadzący: dr Marcin Woliński i dr Anna Andrzejczuk Analiza fleksyjna (morfologiczna) w przypadku języka o bogatej odmianie jest ważnym etapem wstępnego przetwarzania tekstu, niezbędnym większości technik inżynierii lingwistycznej. Trudno sobie wyobrazić przeszukiwanie korpusu języka polskiego bez wcześniejszej analizy fleksyjnej tekstów. Na wykładzie zostanie przedstawiony Morfeusz 2 opracowany w ramach CLARIN-PL analizator i generator fleksyjny dla języka polskiego. 9.30-10.15 Warsztaty Tworzenie słowników dziedzinowych dla analizatora Morfeusz 2 Prowadząca: dr Anna Andrzejczuk Tematem warsztatów będzie tworzenie dziedzinowego słownika fleksyjnego za pomocą narzędzia Kuźnia. Kuźnia jest narzędziem z interfejsem WWW, wspomagającym zespołowe tworzenie słowników fleksyjnych. Utworzony słownik zostanie następnie użyty w programie Morfeusz 2. 10.15-10.30 Przerwa na kawę 10.30-11.05 Wykład Słownik walencyjny języka polskiego Prowadząca: dr hab. Elżbieta Hajnicz Wykład zostanie poświęcony elektronicznemu słownikowi walencyjnemu Walenty, który opisuje tysiące polskich leksemów (głównie czasowników) ze względu na wymagane przez nie elementy struktur składniowo-semantycznych. Omówione zostaną zjawiska walencyjno-składniowe

uwzględnione w Walentym, takie jak przypadek strukturalny, koordynacja, kontrola składniowa oraz sposób ich reprezentacji. 11.05-11.45 Warsztaty Prowadząca: dr hab. Elżbieta Hajnicz Podczas warsztatów pokazany zostanie sposób zdalnego korzystania z Walentego. Skupimy się z jednej strony na sposobie wizualizacji pojedynczego hasła, a z drugiej strony na różnych wariantach. 11.45-12.00 Przerwa na kawę 12.00-12.45 Wykład Parsowanie składniowe LFG i jego zastosowania Prowadzący: dr hab. Adam Przepiórkowski i mgr Agnieszka Patejuk Automatyczna analiza składniowa zdań, czyli parsowanie składniowe, jest jednym z kluczowych elementów przetwarzania języka naturalnego. Wykład będzie poświęcony parsowaniu składniowemu przy pomocy POLFIE nowej gramatyki języka polskiego opartej na znanym formalizmie LFG (Lexical Functional Grammar). Zostaną przedstawione podstawowe informacje o LFG, struktura gramatyki POLFIE oraz sposób wykorzystania w niej innych zasobów językowych, prezentowanych wcześniej podczas warsztatów (np. Morfeusza, NKJP czy Walentego). Uczestnicy zapoznają się z możliwościami automatycznej analizy składniowej tekstu z wykorzystaniem gramatyki POLFIE. Przedstawiony zostanie również tak zwany bank drzew, czyli zbiór wzorcowych opisów składniowych dużej liczby wybranych polskich zdań. 12.45-13.45 Warsztaty Parsowanie składniowe LFG i jego zastosowania 13.45-14.30 Przerwa obiadowa 14.30-15.15 Wykład Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes Prowadzący: dr Piotr Pęzik Korpus udostępniony przez wyszukiwarkę Spokes stanowi ważny zasób w badaniach nad rejestrem konwersacyjnym języka polskiego. Wykład poświęcony zostanie charakterystyce nieformalnej polszczyzny mówionej oraz wybranym aspektom stylistycznym na przykładzie formuł konwersacyjnych odnotowanych w korpusie.

Uczestnicy warsztatów zapoznają się z wyszukiwarką Spokes (http://spokes.clarin-eu.pl) oraz z metodami badań języka mówionego z wykorzystaniem danych korpusowych. 15.15-16.00 Warsztaty Rejestr konwersacyjny polszczyzny 16.00-16.15 Przerwa na kawę 16.15-17.15 Wykład System do klasyfikacji tekstu i analizy stylometrycznej Prowadzący: dr inż. Maciej Piasecki i dr hab. Maciej Eder W ramach CLARIN-PL powstał system, który wspiera badania stylometryczne poprzez automatyczną klasyfikację tekstów oraz ich semantyczną anotację i analizę. Celem wykładu jest prezentacja elementów systemu (od wydobywania cech tekstu po interpretację wyników analizy), wskazanie jego możliwości i ograniczeń oraz omówienie wybranych przykładów zastosowań. Podczas zajęć warsztatowych uczestnicy wprowadzą do systemu przykładowy korpus, przeprowadzą analizę, uwzględniając różne parametry, i zinterpretują uzyskane wyniki. Przetestują także działanie przygotowanych wcześniej klasyfikatorów i przeanalizują cechy, charakterystyczne dla klas semantycznych zdefiniowanych w tekstach. 17.15-18.00 Warsztaty System do klasyfikacji tekstu i analizy stylometrycznej