Ekstrakcja terminologii dziedzinowej program TermoPL

Podobne dokumenty
TermoPL dopasowany do XML-owego wyjścia Korpusomatu

Ekstrakcja terminologii z korpusów dziedzinowych

Ekstrakcja terminologii z tekstów w języku polskim program TermoPL


Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Autoreferat. 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej

Analiza danych tekstowych

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

KATEGORIA OBSZAR WIEDZY

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Indukcja reguł gramatyki j. polskiego

Wstęp do Językoznawstwa

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

I. Program II. Opis głównych funkcji programu... 19

System Korekty Tekstu Polskiego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Instrukcja. 2. Zaloguj się na stronie: => Login => RESEARCHconnect International users => Login now

Instrukcja uŝytkowania programu

Definicja. Ciąg wejściowy: Funkcja uporządkowująca: Sortowanie polega na: a 1, a 2,, a n-1, a n. f(a 1 ) f(a 2 ) f(a n )

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. umiejętność budowania poprawnych struktur zdaniowych oraz użycia poznanych

Politechnika Częstochowska, Wydział Zarządzania PRZEWODNIK PO PRZEDMIOCIE

Analiza danych tekstowych i języka naturalnego

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

1. Opis okna podstawowego programu TPrezenter.

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Instrukcja użytkownika ARSoft-WZ3

1. Zwiększenie czcionki kolumny krótka treść pisma nadesłanego

MJUP_Instrukcja obsługi aplikacji. wspomagającej

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

PRZEWODNIK PO ETRADER PEKAO ROZDZIAŁ XVIII. ANALIZY I KOMENTARZE SPIS TREŚCI

Sage SYMFONIA pakiet KADRY I PŁACE

Eksploracja Zasobów Internetu

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2019/2020

Analiza i projektowanie obiektowe 2016/2017. Wykład 10: Tworzenie projektowego diagramu klas

KARTA PRZEDMIOTU. 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur

2. Dostosuj listę Szybkiego Dostępu

Przewodnik użytkownika (instrukcja) AutoMagicTest

Instrukcje warunkowe i skoku. Spotkanie 2. Wyrażenia i operatory logiczne. Instrukcje warunkowe: if else, switch.

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

ROZPOCZĘCIE PRACY Z PLATFORMĄ INFRONT

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

PROGRAM DO PLANOWANIA ZAKUPÓW wg CPV/CPC

I. Raport wykonywalności projektu

tomografia komputerowa

Programowanie komputerów

Ontologie, czyli o inteligentnych danych

Dane słowa oraz wyrażenia są tłumaczone przy pomocy polecenia Przetwarzanie > Tłumaczenie

Instrukcja użytkownika. systemu BIP

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0

Nr Tytuł Przykład Str.

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Jednym z najważniejszych zagadnień, z którym może się zetknąć twórca

Sylabus Moduł 2: Przetwarzanie tekstów

CZĘŚĆ A PIERWSZE KROKI Z KOMPUTEREM

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Zastosowanie Informatyki w Medycynie

WPROWADZENIE do Otwartego Systemu Antyplagiatowego

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

Torbiele przymiedniczkowe nie mogą być mylone z wodonerczem i torbielami okołomiedniczkowymi.

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. umiejętność budowania poprawnych struktur zdaniowych oraz użycia poznanych

Otwarcie roku FoKa Mini. Instrukcja użytkownika i administratora. Opracowanie Sputnik Software Sp. z o.o

Instrukcja. opracował Marcin Oleksy

JPK Jednolity Plik Kontrolny

Algorytmy i struktury danych

TECHNIKI INFORMACJI I KOMUNIKACJI. Semestr zimowy 2016/2017 I SSA I stopnia

1.Formatowanie tekstu z użyciem stylów

Wnioski i dyspozycje elektroniczne. Instrukcja użytkownika systemu bankowości internetowej dla firm. BOŚBank24 iboss

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

INSTRUKCJA DLA AUTORÓW. INFORMATION FOR AUTHORS (Tłumaczenie tytułu artykułu w języku angielskim.)

INSTRUKCJA OBSŁUGI PROGRAMU KSZKOŁA

Zmiany w programach LiderSim i ProLider w związku z wejściem w życie od r. rozporządzenia Ministra Finansów z dnia r.

Podstawy Informatyki. Sprawność algorytmów

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej przez użytkowników podobszaru FA

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Biblioteka Wirtualnej Nauki

Nowe funkcje w programie SYMFONIA Handel Premium w wersji 2009

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Transkrypt:

Ekstrakcja terminologii dziedzinowej program TermoPL Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN mm@ipipan.waw.pl, agn@ipipan.waw.pl, rychlik@ipipan.waw.pl Warszawa 5 lipca 2017

Zadanie Cel ekstrakcji terminologii: wydobycie specyficznej terminologii z tekstów dotyczących wybranej dziedziny. Zastosowania: tworzenie słowników dziedzinowych; tworzenie zasobów do tłumaczenia tekstów; anotacja dokumentów i wspomaganie wyszukiwania odpowiedzi na pytania; przydatne przy streszczaniu dokumentów; wstępny krok przy opracowywaniu ontologii dziedziny;...

Przykład

Realizacja zadania Zgromadzenie tekstów dziedzinowych. Wstępna analiza lingwistyczna tagowanie (przypisanie formy podstawowej, części mowy oraz charakterystyki morfologicznej). Identyfikacja fraz kandydatów na terminy. Szeregowanie fraz. Selekcja fraz.

Program Termo.PL Opracowany w ramach projektu Clarin.Pl Java Runtime Environment w wersji 7 lub nowszej; Wymaga Morfeusza 2 do wygenerowania formy podstawowej z uproszczonej formy; Wymaga otagowanego i ujednoznacznionego korpusu danych w jednym z formatów: NKJP; XCES; XML-owe wyjście z Korpusomatu (src/morph.xml); zapis uproszczony: token # lemat # tag. na wyjściu: lista uporządkowanych terminów (w uproszczonych formach lub zrekonstruowanych formach podstawowych wraz z formami znalezionych fraz).

Adresy internetowe TermoPL adresy internetowe http://ws.clarin-pl.eu/termopl.shtml http://zil.ipipan.waw.pl/termopl Adresy narzędzi Morfeusz http://sgjp.pl/morfeusz/ Kuźnia http://zil.ipipan.waw.pl/kuźnia Korpusomat http://korpusomat.nlp.ipipan.waw.pl

Przykład tagowania

Co rozumiemy pod pojęciem terminu? Definicja słownikowa Wyraz albo połączenie wyrazowe o specjalnym, konwencjonalnie ustalonym znaczeniu naukowym lub technicznym; (Doroszewski) Definicja robocza Fraza rzeczownikowa, która w tekstach dziedzinowych występuje dostatecznie często by przypuszczać, że opisuje pojęcie istotne dla dziedziny. Częstość tej frazy w tekstach spoza dziedziny jest niższa.

Struktura gramatyczna terminów w języku polskim rzeczownik, akronim lub skrót rzeczownika: podatek, angiografia, PKB, USG ust.(awa), rzeczownik z przymiotnikiem (który wystąpił po lub rzadziej przed rzeczownikiem): stosunki gospodarcze, granulocyty obojętnochłonne; sekwencja rzeczownika z rzeczownikiem w dopełniaczu: udar n,nom mózgu n,gen ; kodeks n,nom pracy n,gen ; kombinacja powyższych dwóch struktur: europejski adj rynek n,nom usług n,gen finansowych adj, wodonercze niewielkiego stopnia dolnego układu podwójnego nerki prawej;

Struktura gramatyczna terminów w języku polskim fraza rzeczownikowa modyfikowana frazą przyimkową: wierzytelność podatnika wobec skarbu państwa, podatek dochodowy od osoby fizycznej; poziom hormonów we krwi; można uwzględnienić koordynację: bezsporna i wymagalna wierzytelność podatnika wobec skarbu państwa, zapalenie mózgu i rdzenia, oddział alergologii, endokrynologii i pediatrii ogólnej.

Gramatyka (domyślna w programie) NPP : $NAP NAP GEN ; NAP[agreement] : AP N AP ; NAP GEN[case = gen] : NAP; AP : ADJ ADJA DASH ADJ PPAS; N[pos = subst, ger]; ADJ[pos = adj]; ADJA[pos = adja]; PPAS[pos = ppas]; DASH[form = - ];

Wykluczenie niektórych słów/fraz Terminy nie powinny składać się ze: słów wskazujących na określenie czasu, jak np: miesiąc, dzień; nazwy dni i miesięcy, np: styczeń, poniedziałek; przymiotników wymagających kontekstu do interpretacji np: inny, niektóry, jakiś, pewien. Należy wykluczyć przyimki złożone: [w kierunku] zapalenia nerek > kierunek zapalenia nerek; [pod postacią] podatku VAT > postać podatku VAT; [pod kątem] diagnostyki obrazowej > kąt diagnostyki obrazowej; [pod kątem] prostym > kąt prosty.

Wykluczenie niektórych słów/fraz (cd) Należy wykluczyć frazy ogólne, czyli takie które występują w wielu typach tekstów: frazy, zwroty służące do budowania narracji: punkt widzenia, zasadnicze pytanie, prosty wniosek frazy ogólne: duża liczba, gruba warstwa, niski poziom

Szeregowanie terminów Dla każdej frazy kandydackiej p liczona jest wartość C-value: l(p) (freq(p) 1 r(lp) lp LP freq(lp)), C value(p) = if r(lp) > 0, l(p) freq(p), if r(lp) = 0 p rozważana fraza, LP zbiór fraz zawierających p, r(lp) liczba różnych fraz w LP, l(p) = log 2 (length(p)), jeśli p ma długość 1 to przyjmujemy stałą np: l(p) = 0.1; referencja bibliograficzna Frantzi, K., Ananiadou, S., Mima, H.: Automatic recognition of multi-word terms: the C-value/NC-value method. Int. Journal on Digital Libraries 3 (2000) 115 130

Identyfikacja fraz pojedyncza mnoga nom przewlekły nieżyt żołądka przewlekłe nieżyty żołądka gen przewlekłego nieżytu żołądka przewlekłych nieżytów żołądka dat przewlekłemu nieżytowi żołądka przewlekłym nieżytom żołądka acc przewlekły nieżyt żołądka przewlekłe nieżyty żołądka inst przewlekłym nieżytem żołądka przewlekłymi nieżytami żołądka loc przewlekłym nieżycie żołądka przewlekłych nieżytach żołądka Wykorzystujemy uproszczoną formę podstawową: przewlekły nieżyt żołądka > przewlekły nieżyt żołądek; ostra niewydolność nerek > ostry niewydolność nerka.

Problemy z uproszczoną formą podstawową Taką sama uproszczoną formę podstawową mają: frazy w liczbie mnogiej i pojedynczej np. zapalenie ucha i zapalenie uszu, uproszczona: zapalenie ucho; przymiotniki w różnych stopniach (mały, mniejszy) np. miednica mała (częściej mała miednica opisuje rozmiar) podczas gdy miednica mniejsza (określenie anatomiczne), uproszczona: miednica mały; pozytywne i zanegowane imiesłowy przymiotnikowe. powiększony/niepowiększony mają formę podstawową powiększyć inf ; gerundia i imiesłowy maja bezokoliczniki jako formy podstawowe: usunięcie ger kamienia subst:gen operacja, usunięty ppas kamień subst:nom opis kamienia, forma uproszczona: usunąć inf kamień subst.

Konteksty planowa operacja przepukliny pachwinowej lewostronnej operacja przepukliny pachwinowej lewostronnej planowa operacja przepukliny pachwinowej operacja przepukliny pachwinowej przepuklina pachwinowa lewostronna lewostronna przepuklina pachwinowa przepuklina pachwinowa prawostronna przepuklina pachwinowa obustronna prawostronna przepuklina pachwinowa uwięźnięta przepuklina pachwinowa prawostronna

Liczenie kontekstów Metody liczenia kontekstów (ograniczamy do jednego słowa): 1 liczba różnych kontekstów liczona po obu stronach razem; 2 suma różnych kontekstów po obu stronach; 3 maksimum z kontekstów liczonych z lewej i prawj strony osobno. Konteksty dla frazy: przepuklina pachwinowa: 1 operacja lewostronny, operacja [pusty], [pusty] lewostronny, lewostronny [pusty], [pusty] prawostronny, [pusty] obustronny, prawostronny [pusty], uwięźnięty prawostronny ; 2 operacja, lewostronny, prawostronny, obustronny, uwięźnięty ; 3 operacja, lewostronny, prawostronny, uwięźnięty (lewych o jeden więcej).

Problem uciętych fraz Przykłady frazy o silnym powiązaniu słów: w medycynie: pęcherzyk żółciowy, jama brzuszna, staw kolanowy; w ekonomii: papiery wartościowe, fundusz inwestycyjny; w angielskim: contact lens. Gramatycznie poprawne zagnieżdżone frazy: [zapalenie pęcherzyka] żółciowego; [USG jamy] brzusznej; [operacja lewego stawu] kolanowego; [giełda papierów] wartościowych; [uczestnik funduszu] inwestycyjnego; [soft contact] lens.

NPMI Normalised Pointwise Mutual Information NPMI (x, y) = ( ln ) / p(x, y) ln p(x, y) p(x)p(y) Where: x y jest bigramem składajacym się z lematów tokenów x i y, p(x,y) jest prawdopodobiństwem bigramu x y w korpusie, p(x), p(y) jest prawdopodobieństwem unigramów x i y w korpusie. referencja bibliograficzna Gerlof Bouma, 2009, Normalized (pointwise) mutual information in collocation extraction., w: Proceedings of the Biennial GSCL Conference 2009, strony 31 40.

Przykład infekcja górnych dróg oddechowych Noun j Adj i Noun i Adj i infekcja górnych dróg oddechowych infekcja górny droga oddechowy bigram NPMI infekcja górny 0.66 górny droga 0.79 droga oddechowy 0.95

Porównanie dwóch metod Poprawne gramatycznie podfrazy Podfrazy z wykorzystaniem NPMI infekcja górny droga oddechowy infekcja górny droga oddechowy infekcja górnych dróg oddechowych infekcja górnych dróg oddechowych infekcja górnych dróg infekcja infekcja górne drogi oddechowe górne drogi oddechowe górne drogi drogi oddechowe drogi oddechowe drogi drogi

Preferowanie podziału na dwie frazy rzeczownikowe prawidłowa adj mikroflora noun górnych adj dróg noun oddechowych adj > prawidłowa mikroflora oraz górne drogi oddechowe częste adj infekcje noun górnych adj dróg noun oddechowych adj > częste modyfikuje całą frazę infekcje górnych dróg oddechowych Modyfikacja: szukamy najsłabszej pozycji pozwalającej podzielić frazę na dwie podfrazy rzeczownikowe; jeśli różnica pomnięcy nasłabszym miejscem podziału a tym dzielącym na dwie frazy rzeczownikowe jest mniejsza od ustalonego progu to preferujemy podział na dwie frazy rzeczownikowe.

Analiza kontrastywna terminologii Cel Na podstawie porównania wyników ekstrakcji terminologii dla dwóch korpusów mają być wskazane frazy: bardziej specyficzne dla innej dziedziny (porównanie z terminologią wydobytą z innego korpusu dziedzinowego) terminy ogólne np. własny sposób, lewa strona, trudne zadanie (porównanie z korpusem języka ogólnego).

Metody porównań Zaimplementowane metody wykorzystują: Log-Likelihood (LL logarytm wiarygodności): na ile różni się częstość konkretnego terminu w dwóch porównywanych korpusach; Term Frequency Inverse Term Frequency (TFITF): łączy częstość występowania w korpusie dziedzinowym z odwrotną częstością występowania w korpusie ogólnym (liczoną jako stosunek wielkości korpusu do częstości badanego terminu); Contrastive Selection of Multi-Word Terms(CSmw): dla terminów wielowyrazowych, uwzględnia zarówno częstość występowania pełnych terminów, ale też częstość występowania słów stanowiących element główny badanej frazy.

Proszę ściągnąć i przetworzyć Korpusomatem Tekst książki ze strony: https://wolnelektury.pl Autor: Konrad Gliściński Tytuł: Wszystkie prawa zastrzeżone

Otwieramy TermoPL

Opcje gramatyka

Filtry przyimki złożone

Filtry dodawanie nowych

Podfrazy

Zapis wyników

Porównanie z innym korpusem

Wybór korpusu do analizy

Ekstrakcja

Wynik ekstrakcji

Wyłącznie wielowyrazowe

Zebrane formy

Fraza Owa możliwość rozszczepienia uprawnień

ow Proszę dodać ow do listy stop words By wrócić do możliwości ponownego ekstrahowania trzeba jeszcze raz wczytać tekst (klawisz Open)

Terminy bez Owa

Formy uproszczone

Plik do porównywania terminów

Porównanie z NKJP

Wielowyrazowe terminy posortowane po różnicy