Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Podobne dokumenty
Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Program warsztatów CLARIN-PL

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Spis treści tomu pierwszego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Inforex - zarządzanie korpusami i ich anotacja

WebSty otwarty webowy system do analiz stylometrycznych

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Open Access w technologii językowej dla języka polskiego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Lokalizacja Oprogramowania

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

CLARIN infrastruktura naukowa technologii językowych

Narzędzia do automatycznej analizy odniesień w tekstach

LEM wydobywanie statystyk z korpusów

System Korekty Tekstu Polskiego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Co wylicza Jasnopis? Bartosz Broda

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

JEDNOSTKI WIELOWYRAZOWE. PROCEDURA SPRAWDZANIA LEKSYKALNOŚCI POŁĄCZEŃ WYRAZOWYCH. Seria: PRE nr 11

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

1. Ogólne ćwiczenia przygotowawcze

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Metody selekcji cech

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Technologie Informacyjne lista nr 5.

Poradnik użytkownika systemu BibbyNet. Część III Raporty, export plików, pozostałe

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

AUTOMATYKA INFORMATYKA

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Podręcznik użytkownika Obieg dokumentów

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Semantyczna analiza języka naturalnego

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

CLARIN-PL w praktyce badawczej

PRACA DYPLOMOWA MAGISTERSKA

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Instrukcja obsługi dla studenta

SPIS TREŚCI. Wykaz skrótów Przedmowa... 11

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Projekty z Technologii Informacyjnych

Instrukcja rejestracji w systemie System Wspierający Prowadzenie Prac Badawczo-Naukowych oraz Współdzielenie i Publikację Wyników Prac

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Dopasowywanie czasu dla poszczególnych zasobów

Wykaz skrótów 17. Grafia pierwszej edycji Księgi Syracha wobec druków z pierwszej połowy XVI wieku 19. Grafia pierwszej edycji Księgi Syracha 21

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

DSpace. Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Instrukcja obsługi dla studenta

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Microsoft PowerPoint Poziom Zaawansowany PROGRAM SZKOLENIOWY. Plan szkolenia zawiera: Microsoft Excel Poziom Zaawansowany

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

TermoPL dopasowany do XML-owego wyjścia Korpusomatu

Instrukcja obsługi dla studenta

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Po uruchomieniu adresu otwiera się okno strony głównej z przekierowaniem do właściwej przeglądarki Start The LandsatLook Viewer (ryc. 1).

Wymagania edukacyjne z języka polskiego. dla klasy III gimnazjum

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Dlaczego logopedzi boją się jąkania? Analiza lingwistyczno-terapeutyczna zjawiska. dr Anna Walencik-Topiłko

Instrukcja obsługi dla studenta

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Hurtownie danych - przegląd technologii

Badanie opinii Omniwatch. Oferta badawcza

Wstęp do Językoznawstwa

Transkrypt:

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl

Warsztaty Wstęp Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

Schemat przetwarzania Warsztaty

Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, napotkane, opis morfologiczny, dodatkowe anotacje. Warsztaty

Plik z korpusem (format CCL) Warsztaty

Definicja kolokacji Warsztaty Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła, 1, 2,...)

Ocena nieprzypadkowości Warsztaty Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.

Filtrowanie danych Warsztaty Filtry statystyczne: częstości, bardziej skomplikowane filtry (entropia, wariancja, ) jeśli zachowane są konteksty. Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji: względna prostota zastosowania, wymaga zbioru korpusów.

Operator języka WCCL Grupa operatorów Warsztaty Rozmiar operatora

Warsztaty Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1 F w korpusie 2 F w korpusie 3 Suma Nowa częstość 3 29 1 33 0 7 17 0 24 4,23 17 0 0 17 8,11 0 37 31 68 11,97

Zestawienie przykładowych wyników ekstrakcji kolokacji Warsztaty

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty https://clarin-pl.eu/dspace/handle/11321/274

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Zbiór tekstów wraz z zestawem metadanych. Struktura hasła: lemat typ strukturalny ścieżka w drzewie decyzyjnym opis semantyczny (w Słowosieci) Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość bigramów większość w typie NA (rzeczownik + przymiotnik w postpozycji)

Warsztaty Słownik wielowyrazowych jednostek leksykalnych Clarinu Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się żółta kartka matka Polka mała czarna

Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Warsztaty Bigramy a trigramy

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty schemat wydobycia część mowy typ strukturalny i zmienne szyk

Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka Warsztaty

Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przymiotnikowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku Warsztaty

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Przykłady typów strukturalnych (bigramy) Przysłówkowe: przyimek + forma ustalona rzeczownika, przymiotnika lub przymiotnik poprzyimkowy szyk ustalony wyraz uwięziony (brak zgodności, konieczność opisu każdej formy)

Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Przykłady typów strukturalnych (trigramy) Rzeczownikowe: dwa rzeczowniki rozdzielone przyimkiem przyimek wymusza dopełniacz dla drugiego rzeczownika schemat wymusza liczbę mnogą dla pierwszego rzeczownika i pojedynczą dla drugiego szyk ustalony

Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? TERMINY nie-wjl N+Adj? JEDNOSTKI NIEKOMPOZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-wjl ZESTAWIENIA

Podsumowanie dwie drogi Warsztaty Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX

MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Przegląd kolokacji Przydzielanie zadań anotatorom Przegląd zadań użytkownika Przegląd ocenionych kolokacji Warsztaty

MeWeX ćwiczenia warsztatowe Warsztaty Przetwarzanie korpusu: Logujemy się na DSpace Wybieramy (prawe menu): All of the Repository Type następnie: Corpus oraz tytuł korpusu, który chcemy przetworzyć UWAGA! Korpus musi być zapisany w formacie CCL. Jeśli nie ma, musimy go przetworzyć za pomocą repozytorium

Przetwarzanie korpusu Warsztaty Widok korpusu w DSpace

Przetwarzanie korpusu Warsztaty Wybór cech strukturalnych wydobywanych połączeń Wybór algorytmu wydobycia (miary)

Warsztaty Przegląd kolokacji Ocena anotatora Kolokacja Typ strukturalny przydzielony automatycznie

Przydzielanie zadań anotatorom Wybór anotatora Warsztaty Wybór trybu badania (np. Główne, Ocena) Wybór paczki z zadaniami Uwaga! W celu dodania nowych anotatorów, trybów zadaniowych oraz podziału kolokacji na paczki prosimy o kontakt: clarin-pl@pwr.edu.pl

Przegląd zadań użytkownika Warsztaty Ocena Kolokacji przydzielonego z zadania

Ocena kolokacji Warsztaty Możliwość przejścia przez drzewo decyzyjne Możliwość podjęcia szybkiej decyzji

Przegląd ocenionych kolokacji Warsztaty KLIK Przegląd ocenionych kolokacji KLIK

Warsztaty Przegląd ocenionych kolokacji Lemat jednostki wielowyrazowej (do uzupełnienia) Typ strukturalny (do uzupełnienia) KLIK

Przegląd ocenionych kolokacji Warsztaty Ocena jednostki przez koordynatora anotatorów Możliwość oceny tempa pracy KLIK

Warsztaty Przegląd ocenionych kolokacji KLIK Ocena koordynatora WJL (badanie kontrolne) Ocena anotatora nie-wjl (badanie główne)

Dziękujemy bardzo za uwagę