Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Podobne dokumenty
Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznej analizy odniesień w tekstach

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznej analizy odniesień w tekstach

Instrukcja. opracował Marcin Oleksy

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Program warsztatów CLARIN-PL

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Open Access w technologii językowej dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Bazy danych TERMINOLOGIA

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

I.2 Matryca efektów kształcenia: filolo drugiego stopnia WIEDZA. MODUŁ 21 Nau społeczne - przedmiot doo wyboru. MODUŁ 20 Seminarium magisterskie

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Pojęcia to. porównanie trzech sposobów ujmowania pojęć. Monika Marczak IP, UAM

Czynności Wychowawców

WebSty otwarty webowy system do analiz stylometrycznych

Lokalizacja Oprogramowania

CLARIN infrastruktura naukowa technologii językowych

Micro CMS e-science.pl Podręcznik użytkownika

Kursy zmienne (KZ) - Instrukcja dla koordynatorów

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Instrukcja użytkownika

6 Metody badania i modele rozwoju organizacji

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Spis treści tomu pierwszego

SPRAWDZIAN Klucz punktowania zadań. C e n t r a l n a K o m i s j a E g z a m i n a c y j n a. w W a r s z a w i e

elektroniczna Platforma Usług Administracji Publicznej

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Logika dla socjologów Część 2: Przedmiot logiki

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Tryb pozakonkursowy. 22 maja 2015 r. Departament Koordynacji Wdrażania Funduszy UE

Skanowanie OCR w aplikacji Kancelaria Komornika. Instrukcja dla użytkownika

Kod składa się z kodu głównego oraz z odpowiednich kodów dodatkowych (akcesoriów). Do kodu można przyłączyć maksymalnie 9 kodów dodatkowych.

Zarządzanie wiedzą w opiece zdrowotnej

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Tłumaczenie maszynowe. Zasady działania. Autorzy: Josef van Genabith (DFKI), Krzysztof Łoboda (Uniwersytet Jagielloński)

z dnia r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Ontologie, czyli o inteligentnych danych

Relacyjny model baz danych, model związków encji, normalizacje

Co wylicza Jasnopis? Bartosz Broda

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Elektroenergetyki Technologie informatyczne

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO - POZIOM PODSTAWOWY

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Informacje ogólne. Karol Trybulec p-programowanie.pl 1. 2 // cialo klasy. class osoba { string imie; string nazwisko; int wiek; int wzrost;

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Strategia konkurencji

Proces informacyjny. Janusz Górczyński

PROJEKT INTERFEJSU UśYTKOWNIKA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Każdy system GIS składa się z: - danych - sprzętu komputerowego - oprogramowania - twórców i użytkowników

Strona wypełniana przez Lokalną Grupę Działania.

PROJEKT Z BAZ DANYCH

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Wyszukiwanie źródeł informacji w bazach danych Dolnośląskiej Biblioteki Pedagogicznej we Wrocławiu

Kolekcja prac KOMPUTEROWE PRZETWARZANIE WIEDZY

Kodowanie produktów - cz. 1

Efekty kształcenia dla kierunku studiów TURYSTYKA I REKREACJA studia pierwszego stopnia - profil ogólnoakademicki

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Alicja Marszałek Różne rodzaje baz danych

O higienie pracy, komputerze, sieciach komputerowych i Internecie

Publikacja pod patronatem wiedza24h.pl. Wypracowania Julian Tuwim. Wybór wierszy

Ćwiczenia technik efektywnego uczenia się Spotkanie 4

OPIS MODUŁU (PRZEDMIOTU) Humanistyczny. Filologia polska. Studia pierwszego stopnia. ogólnoakademicki. stacjonarne

Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA 3 Odniesienie do kierunkowych efektów kształcenia (symbol)

System wspomagania harmonogramowania przedsięwzięć budowlanych

Komentarz opiekun w domu pomocy społecznej 346[04] Czerwiec 2009

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Efekty kształcenia dla kierunku ekonomia studia pierwszego stopnia

mgr Anna Dziuba Uniwersytet Wrocławski mgr Anna Dziuba

Logika dla socjologów Część 4: Elementy semiotyki O pojęciach, nazwach i znakach

e-nauczyciel ECDL Certyfikowanie umiejętności nauczycieli w zakresie stosowania technologii informacyjnej i komunikacyjnej w dydaktyce Projekt

INSTYTUT ANALIZ REGIONALNYCH

EFEKTY KSZTAŁCENIA DLA KIERUNKU SOCJOLOGIA STUDIA DRUGIEGO STOPNIA PROFIL OGÓLNOAKADEMICKI

Inżynieria wymagań. Wykład 2 Proces pisania przypadków użycia. Część 6 Wskazówki i sugestie

Instrukcja Użytkownika Baza Członków PZW Formularz wprowadzania danych oraz informacja o płatnościach

A - Struktura metadanych opisujących przesyłkę wpływającą (zestaw minimalny)

Podzielona płatność (split payment) Poradnik dla użytkowników InsERT GT

Istota znaczenia Problem znaczenia nazw własnych. Problem znaczenia. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego

Transkrypt:

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych Marcin Oleksy marcin.oleksy@pwr.edu.pl Jan Wieczorek jan.wieczorek@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.19 (http://nlp.pwr.wroc.pl/)

Plan 1. Wprowadzenie teoretyczne 2. Tworzenie korpusu Deponowanie Znakowanie nazw własnych Automatyczne Ręczne 3. Analiza korpusu - liczby i słowa

Rozpoznawanie odniesień Czym są odniesienia? Odniesienia to fragmenty tekstu reprezentujące pojęcia określonych kategorii, m.in.: jednostki identyfikacyjne (np. nazwy własne) wyrażenia temporalne wyznaczniki sytuacji w przygotowaniu: relacje przestrzenne...

Czym jest jednostka identyfikacyjna? Fragment tekstu odnoszący się do pewnych obiektów lub grup obiektów określonych kategorii.

Czym jest jednostka identyfikacyjna? jednostka identyfikacyjna - fragment tekstu odnoszący się do pewnych obiektów lub grup obiektów określonych kategorii. Do zbioru jednostek identyfikacyjnych należą: nazwy własne - nazwy nadane w sposób indywidualny i wyróżniający pojedynczy obiekt, np. osobę, zwierzę, miejsce, przedmiot, przedsięwzięcie. Nazwa własna nie znaczy lecz wskazuje desygnat (znaczenie nie ma charakteru konwencjonalnego).

Chrematonimy chrematonimy - nazwy własne niektórych materialnych wytworów ręki ludzkiej, przemysłowych lub rękodzielniczych, jednostkowych lub seryjnych, takich, które nie są trwale związane z określonym krajobrazem. Zakres użycia tego terminu nie jest jeszcze w pełni ustalony. ( Kosyl Cz., Chrematonimy, [w:] Współczesny język polski, Lublin 2001) Czy chrematonim jest nazwą własną? Nie rozstrzygamy tego - dla nas jest istotne, że jest jednostką identyfikacyjną. Nie rozstrzygamy też innych kwestii spornych: czy do grupy chrematonimów zaliczane są niektóre ideonimy (np. tytuły utworów literackich, nazwy organizacji politycznych, nazwy wydarzeń artystycznych).

Jednostki identyfikacyjne Podczas prac nad narzędziem do rozpoznawania jednostek identyfikacyjnych przyjęliśmy nieco inną typologię: 1. Nazwy: 2. nazwy własne - np. Olsztyn, Warmia, Mrongowiusz nazwy ogólne - nazwy klas lub serii, np. Punto, iphone 4 Przymiotniki pochodzące od nazw własnych, np. olsztyński, europejski, dolnośląskimi, polskich. 3. Wyrażenia liczbowe - jednoznacznie identyfikujące obiekty, np. numer domu/mieszkania, kod pocztowy.

Co identyfikuje liner2? klasyczne nazwy własne (antroponimy, toponimy, etnonimy) Przykłady: Jan Kowalski, Waryński, Karol, Olsztyn, Kino Śląsk, Polskie Stronictwo Ludowe, Uniwersytet Warmińsko-Mazurski, Polska, Tajwan, Polak, Tajwańczyk, Odra, Bałtyk, Morze Śródziemne, Europa, Unia Europejska, Straż Graniczna, Most Grunwaldzki, ulica Moniuszki, ul. gen. R. Traugutta, Zalew Wiślany.

Co identyfikuje liner2? derywaty przymiotnikowe od nazw własnych Przykłady: polski, dolnośląski, olsztyński, tajwański, bałtycki, śródziemnomorski, kreteński, karaibski, czarnoleski.

Co identyfikuje liner2? chrematonimy (w szerokim rozumieniu: nazwy wydarzeń, produktów, usług): Przykłady: Fiat Punto, Taryfa Luzak, Bilet Euro-Nysa, Festiwal Nowa Muzyka, Era Nowe Horyzonty, Marlboro Light, Biały Jeleń, Dar Podlasia, Halny (nazwa pociągu IC).

Funkcjonalne rozpoznawanie jednostek Podejście funkcjonalne polega na tym, że każda jednostka tekstu jest rozpatrywana jako potencjalna jednostka identyfikacyjna na podstawie wielu przesłanek: model statystyczny uwzględniający funkcje, które pełni dany wyraz w zdaniu; sposób zapisu; słownik nazw własnych; kontekst

Funkcjonalne rozpoznawanie jednostek Podejście funkcjonalne pozwala nam identyfikować nazwy własne pisane małą literą, np. woj. dolnośląskie, pow. Olsztyński, gdańszczanin/gdańszczanka, warszawianin/warszawianka/warszawiak/warszawiaczka, mazowszanin, dolnoślązak, Ślązak/ślązak, Żyd/żyd, powstanie warszawskie/powstanie Warszawskie/Powstanie warszawskie, II wojna światowa, bitwa pod Wiedniem.

Funkcjonalne rozpoznawanie jednostek Ponieważ narzędzie wykorzystuje różne przesłanki, może ono zidentyfikować nazwę zapisaną błędnie: Belweder/belweder, Paryż/paryż, Rodan/rodan, Ministerstwo Zdrowia/ministerstwo Zdrowia. Sposób zapisu danego wyrazu jest tylko jedną z przesłanek, w związku z tym błędny zapis nie neguje możliwości rozpoznania nazwy własnej. Może to jedynie utrudnić lub obniżyć skuteczność rozpoznania. Liner potrafi również rozpoznać nazwy ludzi, miejsc, produktów fikcyjnych, np. Śródziemie, Wybrzeże Mieczy, Wyzima, Soplicowo, Geralt z Rivii, Woland, Generał Kocmołuchowicz. Dzieje się tak, ponieważ dane ze słownika nazw własnych jest również zaledwie jedną z przesłanek.

Dwie podstawowe funkcje 1. Rozpoznanie jednostki identyfikacyjnej (określenie jej granic oraz statusu) 2. Zakwalifikowanie do jednej z 9 kategorii ogólnych lub jednej z 82 kategorii szczegółowych

Kategorie ogólne Schemat definiuje ponad 100 kategorii jednostek identyfikacyjnych. Kategorie są ułożone w kilkupoziomową hierarchię. Na najwyższym poziomie znajduje się dziewięć grup: nam_eve wydarzenia organizowane lub ustalone przez ludzi, nam_fac konstrukcje (budowle, budynki, pomniki) stworzone przez ludzi. nam_liv istoty żywe (ludzie, postacie, zwierzęta), nam_loc toponimy (lokalizacje, jednostki geopolityczne i geograficzne), nam_org organizacje, instytucje, zespoły, zorganizowane grupy itd. nam_oth nazwy technologii, walut, adres e-mail, strony www, itd. nam_pro chrematonimy (wytwory ludzkie). nam_adj przymiotniki pochodzące od nazw własnych, nam_num wyrażenia liczbowe

Kategorie szczegółowe Kategorie szczegółowe dla nam_loc (toponimy): nam_loc_astronomical naturalne ciała niebieskie, nam_loc_country_region regiony geograficzne w obrębie kraju, nam_loc_gpe jednostki geopolityczne. nam_loc_gpe_admin podział administracyjny,, nam_loc_gpe_city miasta i 4 pozostałe podkategorie nam_loc_gpe_* nam_loc_hydronym naturalne obiekty wodne, nam_loc_hydronym_river rzeki, nam_loc_hydronym_lake jeziora, i 4 pozostałe podkategorie nam_loc_hydronym_* nam_loc_land ziemne obiekty geograficzne, nam_loc_land_cape przylądki. nam_loc_land_continent kontynenty. i 8 pozostałych podkategorii nam_loc_land_* Pełen wykaz kategorii: https://clarin-pl.eu/dspace/handle/11321/294

Ograniczenia nie rozpoznaje deskrypcji określonych (np. autor Pana Tadeusza, stolica Włoch, ostatni król Polski) nie jest stuprocentowo skuteczny w rozpoznawaniu jednostek identyfikacyjnych dobrze rozpoznane jednostki potrafi przypisać do złej kategorii Statystyki: Liner podejmuje trafne decyzje w stosunku do 86% kandydatów na jednostkę identyfikacyjną 59% decyzji dotyczących przypisania do konkretnej kategorii szczegółowej jest trafna (dla ogólnej - 69%)

Założenia Na potrzeby realizacji zadania zostały opracowane wytyczne określające zasady anotacji i kategoryzacji jednostek identyfikacyjnych. https://clarin-pl.eu/dspace/handle/11321/294 Podstawowe odniesienia: Kategoryzacja semantyczna Sekine's Extended Named Entity Hierarchy, wytyczne ACE Definicja nazw własnych Słownik nazw własnych J. Grzeni. Ekspertyza Zespołu Ortograficzno-Onomastycznego Własne założenia wynikające z planowanych zastosowań i docelowej reprezentacji danych.

Możliwe zastosowania Badania stylometryczne Badania statystyczne dotyczące nazw własnych (rozpoznawanie, wyliczanie frekwencji z podziałem na kategorie) Poszukiwania nowych jednostek identyfikacyjnych potencjalnych nazw własnych Tworzenie słowników nazw własnych Grupowanie tekstów, ustalanie autorstwa???

Tworzenie korpusu

Automatyczne znakowanie nazw własnych - demo 1. Wgrywanie usługi CLARIN-PL (ws.clarin-pl.eu/ner.shtml) Inforex (inforex.clarin-pl.eu) 2. Przetwarzanie tokenizacja znakowanie morfosyntaktyczne rozpoznanie jednostek identyfikacyjnych

Automatyczne znakowanie nazw własnych 1. Deponowanie DSpace (clarin-pl.eu/dspace) Nextcloud 2. Przetwarzanie tokenizacja znakowanie morfosyntaktyczne znakowanie sensami słów ze Słowosieci (plwordnet.pwr.wroc.pl) rozpoznawanie: nazw własnych wyrażeń temporalnych

Automatyczne znakowanie nazw własnych - deponowanie

Automatyczne znakowanie nazw własnych - przetwarzanie

Bootstrapping 1. Export do Inforexa (inforex.clarin-pl.eu)

Inforex - podstawowe funkcje Podstawowe funkcje: prezentowanie dokumentów korpusowych anotowanie dokumentów (ręczne lub automatyczne) analiza danych tekstowych

Bootstrapping 2. Akceptacja/korekta automatycznie rozpoznanych nazw: Wybierz korpus Przejdź do sekcji Documents Wybierz dokument Przejdź do zakładki Bootstrapping Wybierz zestaw anotacji Akceptuj/koryguj

Bootstrapping 2. Akceptacja/korekta automatycznie rozpoznanych nazw

Ręczne znakowanie nazw własnych 1. Wybór lub zdefiniowanie zestawu kategorii 2. Anotacja

Ręczne znakowanie nazw własnych 1. Wybór zestawu kategorii

Ręczne znakowanie nazw własnych 1. Wybór zestawu kategorii Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając pole wyboru w odpowiednim wierszu tabeli

Ręczne znakowanie nazw własnych 1. Zdefiniowanie zestawu kategorii

Ręczne znakowanie nazw własnych 1. Zdefiniowanie zestawu kategorii Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: zestaw kategorii (Annotation sets) zestaw podkategorii (Annotation subsets) kategorie (Categories)

Ręczne znakowanie nazw własnych 2. Anotacja

Analiza korpusu Statystyki i Konteksty liczby słowa

Analiza korpusu - statystyki

Analiza korpusu - konteksty

CLARIN-PL CLARIN-PL to polskie konsorcjum naukowe, część ogólnoeuropejskiej infrastruktury badawczej CLARIN. Tworzy je sześć jednostek naukowych, w których powstają elektroniczne zasoby językowe i narzędzia do pracy z dużymi zbiorami tekstów w języku polskim. http://clarin-pl.eu Webserwisy: ws.clarin-pl.eu

Dziękujemy za uwagę!