Narzędzia do automatycznego wydobywania kolokacji

Podobne dokumenty
Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Program warsztatów CLARIN-PL

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Open Access w technologii językowej dla języka polskiego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

WebSty otwarty webowy system do analiz stylometrycznych

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Spis treści tomu pierwszego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

System Korekty Tekstu Polskiego

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Co wylicza Jasnopis? Bartosz Broda

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

LEM wydobywanie statystyk z korpusów

Lokalizacja Oprogramowania

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Narzędzia do automatycznej analizy odniesień w tekstach

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

CLARIN infrastruktura naukowa technologii językowych

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

SPIS TREŚCI. Wykaz skrótów Przedmowa... 11

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Semantyczna analiza języka naturalnego

JEDNOSTKI WIELOWYRAZOWE. PROCEDURA SPRAWDZANIA LEKSYKALNOŚCI POŁĄCZEŃ WYRAZOWYCH. Seria: PRE nr 11

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

PRACA DYPLOMOWA MAGISTERSKA

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

1. Ogólne ćwiczenia przygotowawcze

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Obrazkowy Test Słownikowy Rozumienie (OTSR): wystandaryzowane i znormalizowane narzędzie do oceny zasobu słownictwa dzieci w wieku 2-6 lat

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Publikacja sfinansowana z działalności statutowej Wydziału Filologicznego oraz Katedry Logopedii Uniwersytetu Gdańskiego

Wyszukiwanie informacji

Wymagania edukacyjne z języka polskiego. dla klasy III gimnazjum

SŁOWNICTWO ANGIELSKIE

Historia modeli programowania

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI

Kryteria oceniania z języka angielskiego dla klas II-III

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Badanie opinii Omniwatch. Oferta badawcza

CLARIN-PL w praktyce badawczej

Metody selekcji cech

Oprogramowanie typu CAT

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Języki deskryptorowe. Dr Marek Nahotko

Dla cudzoziemców zaawansowanych na poziomie C i dla studentów kierunków filologicznych. Wydanie trzecie, poprawione

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

JĘZYK POLSKI WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY ORAZ SPOSOBY SPRAWDZANIA OSIĄGNIĘĆ UCZNIA KLASA V

Publiczne Gimnazjum nr 2 w Łańcucie

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

Hurtownie danych - przegląd technologii

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

Dydaktyka literatury i języka polskiego w świetle nowej podstawy programowej.

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

MATERIAŁY DO ZAJĘĆ I. Podstawowe pojęcia. Algorytm. Spis treści Przepis

System Korekty Tekstu Polskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Transkrypt:

Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl jan.kocon@pwr.edu.pl

Wstęp Warsztaty 12-13.04.2018 Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi kolokacje kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

Schemat przetwarzania Warsztaty

Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, opis morfologiczny, dodatkowe anotacje. Warsztaty

Plik z korpusem (format CCL) Warsztaty

Definicja kolokacji Warsztaty Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła).

Ocena nieprzypadkowości Warsztaty Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.

Filtrowanie danych Warsztaty Filtry statystyczne: częstości, bardziej skomplikowane filtry (np.: entropia, wariancja). Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji (np. TF-IDF): względna prostota zastosowania, wymaga zbioru korpusów.

Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Warsztaty

Słownik wielowyrazowych jednostek leksykalnych https://clarin-pl.eu/dspace/handle/11321/274 tiny.cc/clarinmwe Warsztaty

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość bigramów większość w typie NA (rzeczownik + przymiotnik w postpozycji)

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się żółta kartka matka Polka mała czarna

Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Warsztaty Bigramy a trigramy

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty schemat wydobycia część mowy typ strukturalny i zmienne szyk

Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka Warsztaty

Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przyimkowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku Warsztaty

Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? TERMINY N+Adj? nie-wjl JEDNOSTKI NIEKOMPOZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-wjl ZESTAWIENIA

MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Przegląd kolokacji tiny.cc/mewex tiny.cc/mewexnew Warsztaty

Dziękuję bardzo za uwagę