TermoPL dopasowany do XML-owego wyjścia Korpusomatu

Podobne dokumenty
Ekstrakcja terminologii dziedzinowej program TermoPL

Ekstrakcja terminologii z korpusów dziedzinowych

Ekstrakcja terminologii z tekstów w języku polskim program TermoPL


Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Autoreferat. 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej

Analiza danych tekstowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

KATEGORIA OBSZAR WIEDZY

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Indukcja reguł gramatyki j. polskiego

Wstęp do Językoznawstwa

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Instrukcja. 2. Zaloguj się na stronie: => Login => RESEARCHconnect International users => Login now

I. Program II. Opis głównych funkcji programu... 19

Politechnika Częstochowska, Wydział Zarządzania PRZEWODNIK PO PRZEDMIOCIE

System Korekty Tekstu Polskiego

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. umiejętność budowania poprawnych struktur zdaniowych oraz użycia poznanych

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Instrukcja uŝytkowania programu

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

1. Opis okna podstawowego programu TPrezenter.

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Instrukcja użytkownika ARSoft-WZ3

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

1. Zwiększenie czcionki kolumny krótka treść pisma nadesłanego

MJUP_Instrukcja obsługi aplikacji. wspomagającej

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

PRZEWODNIK PO ETRADER PEKAO ROZDZIAŁ XVIII. ANALIZY I KOMENTARZE SPIS TREŚCI

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

Definicja. Ciąg wejściowy: Funkcja uporządkowująca: Sortowanie polega na: a 1, a 2,, a n-1, a n. f(a 1 ) f(a 2 ) f(a n )

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Eksploracja Zasobów Internetu

Przewodnik użytkownika (instrukcja) AutoMagicTest

Analiza danych tekstowych i języka naturalnego

Instrukcje warunkowe i skoku. Spotkanie 2. Wyrażenia i operatory logiczne. Instrukcje warunkowe: if else, switch.

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

ROZPOCZĘCIE PRACY Z PLATFORMĄ INFRONT

PROGRAM DO PLANOWANIA ZAKUPÓW wg CPV/CPC

tomografia komputerowa

Dane słowa oraz wyrażenia są tłumaczone przy pomocy polecenia Przetwarzanie > Tłumaczenie

Sylabus Moduł 2: Przetwarzanie tekstów

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2019/2020

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

KARTA PRZEDMIOTU. 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

Sage SYMFONIA pakiet KADRY I PŁACE

2. Dostosuj listę Szybkiego Dostępu

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

INSIGNUM Sprzedaż Detaliczna

WPROWADZENIE do Otwartego Systemu Antyplagiatowego

Otwarcie roku FoKa Mini. Instrukcja użytkownika i administratora. Opracowanie Sputnik Software Sp. z o.o

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

JPK Jednolity Plik Kontrolny

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

I. Raport wykonywalności projektu

Wnioski i dyspozycje elektroniczne. Instrukcja użytkownika systemu bankowości internetowej dla firm. BOŚBank24 iboss

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0

INSTRUKCJA DLA AUTORÓW. INFORMATION FOR AUTHORS (Tłumaczenie tytułu artykułu w języku angielskim.)

INSTRUKCJA OBSŁUGI PROGRAMU KSZKOŁA

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej przez użytkowników podobszaru FA

Zmiany w programach LiderSim i ProLider w związku z wejściem w życie od r. rozporządzenia Ministra Finansów z dnia r.

Podstawy Informatyki. Sprawność algorytmów

Instrukcja użytkownika. systemu BIP

Program warsztatów CLARIN-PL

Biblioteka Wirtualnej Nauki

Instrukcja obsługi wewnętrznej poczty mmedica

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej (CAS) przez użytkowników podobszaru PS

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Nr Tytuł Przykład Str.

Materiały dla finalistów

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Zastosowanie Informatyki w Medycynie

Lokalizacja Oprogramowania

Instrukcja użytkownika aplikacji modernizowanego Systemu Informacji Oświatowej

JPK Jednolity Plik Kontrolny

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Obsługa wniosków w wersji Oprogramowania SR, FA i SW

Spis treści tomu pierwszego

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Transkrypt:

TermoPL dopasowany do XML-owego wyjścia Korpusomatu Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN mm@ipipan.waw.pl, agn@ipipan.waw.pl, rychlik@ipipan.waw.pl Warsztaty CLARIN-PL, Warszawa 30 maja 2017

Zadanie Cel ekstrakcji terminologii: wydobycie specyficznej terminologii z tekstów dotyczących wybranej dziedziny. Zastosowania: tworzenie słowników dziedzinowych; tworzenie zasobów do tłumaczenia tekstów; anotacja dokumentów i wspomaganie wyszukiwania odpowiedzi na pytania; przydatne przy streszczaniu dokumentów; wstępny krok przy opracowywaniu ontologii dziedziny;...

Przykład

Realizacja zadania Zgromadzenie tekstów dziedzinowych. Wstępna analiza lingwistyczna tagowanie (przypisanie formy podstawowej, części mowy oraz charakterystyki morfologicznej), można w tym celu użyć Korpusomatu. Identyfikacja fraz kandydatów na terminy. Szeregowanie fraz. Selekcja fraz.

Program Termo.PL Opracowany w ramach projektu Clarin.Pl Java Runtime Environment w wersji 7 lub nowszej; Wymaga Morfeusza 2 do wygenerowania formy podstawowej z uproszczonej formy; Wymaga otagowanego i ujednoznacznionego korpusu danych w jednym z formatów: NKJP; XCES; XML-owe wyjście z Korpusomatu (src/morph.xml); zapis uproszczony: token # lemat # tag. na wyjściu: lista uporządkowanych terminów (w uproszczonych formach lub zrekonstruowanych formach podstawowych wraz z formami znalezionych fraz). Przydatne adresy internetowe http://ws.clarin-pl.eu/termopl.shtml http://zil.ipipan.waw.pl/termopl

Co rozumiemy pod pojęciem terminu? Definicja słownikowa Wyraz albo połączenie wyrazowe o specjalnym, konwencjonalnie ustalonym znaczeniu naukowym lub technicznym; (Doroszewski) Definicja robocza Fraza rzeczownikowa, która w tekstach dziedzinowych występuje dostatecznie często by przypuszczać, że opisuje pojęcie istotne dla dziedziny. Częstość tej frazy w tekstach spoza dziedziny jest niższa.

Struktura gramatyczna terminów w języku polskim rzeczownik, akronim lub skrót rzeczownika: podatek, angiografia, PKB, USG ust.(awa), rzeczownik z przymiotnikiem (który wystąpił po lub rzadziej przed rzeczownikiem): stosunki gospodarcze, granulocyty obojętnochłonne; sekwencja rzeczownika z rzeczownikiem w dopełniaczu: udar n,nom mózgu n,gen ; kodeks n,nom pracy n,gen ; kombinacja powyższych dwóch struktur: europejski adj rynek n,nom usług n,gen finansowych adj, wodonercze niewielkiego stopnia dolnego układu podwójnego nerki prawej;

Struktura gramatyczna terminów w języku polskim fraza rzeczownikowa modyfikowana frazą przyimkową: wierzytelność podatnika wobec skarbu państwa, podatek dochodowy od osoby fizycznej; poziom hormonów we krwi; można uwzględnienić koordynację: bezsporna i wymagalna wierzytelność podatnika wobec skarbu państwa, zapalenie mózgu i rdzenia, oddział alergologii, endokrynologii i pediatrii ogólnej.

Gramatyka (domyślna w programie) NPP : $NAP NAP GEN ; NAP[agreement] : AP N AP ; NAP GEN[case = gen] : NAP; AP : ADJ ADJA DASH ADJ PPAS; N[pos = subst, ger]; ADJ[pos = adj]; ADJA[pos = adja]; PPAS[pos = ppas]; DASH[form = - ];

Wykluczenie niektórych słów/fraz Terminy nie powinny składać się ze: słów wskazujących na określenie czasu, jak np: miesiąc, dzień; nazwy dni i miesięcy, np: styczeń, poniedziałek; przymiotników wymagających kontekstu do interpretacji np: inny, niektóry, jakiś, pewien. Należy wykluczyć przyimki złożone: [w kierunku] zapalenia nerek > kierunek zapalenia nerek; [pod postacią] podatku VAT > postać podatku VAT; [pod kątem] diagnostyki obrazowej > kąt diagnostyki obrazowej; [pod kątem] prostym > kąt prosty.

Szeregowanie terminów Dla każdej frazy kandydackiej p liczona jest wartość C-value: l(p) (freq(p) 1 r(lp) lp LP freq(lp)), C value(p) = if r(lp) > 0, l(p) freq(p), if r(lp) = 0 p rozważana fraza, LP zbiór fraz zawierających p, r(lp) liczba różnych fraz w LP, l(p) = log 2 (length(p)), jeśli p ma długość 1 to przyjmujemy stałą np: l(p) = 0.1; referencja bibliograficzna Frantzi, K., Ananiadou, S., Mima, H.: Automatic recognition of multi-word terms: the C-value/NC-value method. Int. Journal on Digital Libraries 3 (2000) 115 130

Identyfikacja fraz pojedyncza mnoga nom przewlekły nieżyt żołądka przewlekłe nieżyty żołądka gen przewlekłego nieżytu żołądka przewlekłych nieżytów żołądka dat przewlekłemu nieżytowi żołądka przewlekłym nieżytom żołądka acc przewlekły nieżyt żołądka przewlekłe nieżyty żołądka inst przewlekłym nieżytem żołądka przewlekłymi nieżytami żołądka loc przewlekłym nieżycie żołądka przewlekłych nieżytach żołądka Wykorzystujemy uproszczoną formę podstawową: przewlekły nieżyt żołądka > przewlekły nieżyt żołądek; ostra niewydolność nerek > ostry niewydolność nerka.

Problemy z uproszczoną formą podstawową Taką sama uproszczoną formę podstawową mają: frazy w liczbie mnogiej i pojedynczej np. zapalenie ucha i zapalenie uszu, uproszczona: zapalenie ucho; przymiotniki w różnych stopniach (mały, mniejszy) np. miednica mała (częściej mała miednica opisuje rozmiar) podczas gdy miednica mniejsza (określenie anatomiczne), uproszczona: miednica mały; pozytywne i zanegowane imiesłowy przymiotnikowe. powiększony/niepowiększony mają formę podstawową powiększyć inf ; gerundia i imiesłowy maja bezokoliczniki jako formy podstawowe: usunięcie ger kamienia subst:gen operacja, usunięty ppas kamień subst:nom opis kamienia, forma uproszczona: usunąć inf kamień subst.

Konteksty planowa operacja przepukliny pachwinowej lewostronnej operacja przepukliny pachwinowej lewostronnej planowa operacja przepukliny pachwinowej operacja przepukliny pachwinowej przepuklina pachwinowa lewostronna lewostronna przepuklina pachwinowa przepuklina pachwinowa prawostronna przepuklina pachwinowa obustronna prawostronna przepuklina pachwinowa uwięźnięta przepuklina pachwinowa prawostronna

Liczenie kontekstów Metody liczenia kontekstów (ograniczamy do jednego słowa): 1 liczba różnych kontekstów liczona po obu stronach razem; 2 suma różnych kontekstów po obu stronach; 3 maksimum z kontekstów liczonych z lewej i prawj strony osobno. Konteksty dla frazy: przepuklina pachwinowa: 1 operacja lewostronny, operacja [pusty], [pusty] lewostronny, lewostronny [pusty], [pusty] prawostronny, [pusty] obustronny, prawostronny [pusty], uwięźnięty prawostronny ; 2 operacja, lewostronny, prawostronny, obustronny, uwięźnięty ; 3 operacja, lewostronny, prawostronny, uwięźnięty (lewych o jeden więcej).

Problem uciętych fraz Przykłady frazy o silnym powiązaniu słów: w medycynie: pęcherzyk żółciowy, jama brzuszna, staw kolanowy; w ekonomii: papiery wartościowe, fundusz inwestycyjny; w angielskim: contact lens. Gramatycznie poprawne zagnieżdżone frazy: [zapalenie pęcherzyka] żółciowego; [USG jamy] brzusznej; [operacja lewego stawu] kolanowego; [giełda papierów] wartościowych; [uczestnik funduszu] inwestycyjnego; [soft contact] lens.

NPMI Normalised Pointwise Mutual Information NPMI (x, y) = ( ln ) / p(x, y) ln p(x, y) p(x)p(y) Where: x y jest bigramem składajacym się z lematów tokenów x i y, p(x,y) jest prawdopodobiństwem bigramu x y w korpusie, p(x), p(y) jest prawdopodobieństwem unigramów x i y w korpusie. referencja bibliograficzna Gerlof Bouma, 2009, Normalized (pointwise) mutual information in collocation extraction., w: Proceedings of the Biennial GSCL Conference 2009, strony 31 40.

Przykład infekcja górnych dróg oddechowych Noun j Adj i Noun i Adj i infekcja górnych dróg oddechowych infekcja górny droga oddechowy bigram NPMI infekcja górny 0.66 górny droga 0.79 droga oddechowy 0.95

Porównanie dwóch metod Poprawne gramatycznie podfrazy Podfrazy z wykorzystaniem NPMI infekcja górny droga oddechowy infekcja górny droga oddechowy infekcja górnych dróg oddechowych infekcja górnych dróg oddechowych infekcja górnych dróg infekcja infekcja górne drogi oddechowe górne drogi oddechowe górne drogi drogi oddechowe drogi oddechowe drogi drogi

Preferowanie podziału na dwie frazy rzeczownikowe prawidłowa adj mikroflora noun górnych adj dróg noun oddechowych adj > prawidłowa mikroflora oraz górne drogi oddechowe częste adj infekcje noun górnych adj dróg noun oddechowych adj > częste modyfikuje całą frazę infekcje górnych dróg oddechowych Modyfikacja: szukamy najsłabszej pozycji pozwalającej podzielić frazę na dwie podfrazy rzeczownikowe; jeśli różnica pomnięcy nasłabszym miejscem podziału a tym dzielącym na dwie frazy rzeczownikowe jest mniejsza od ustalonego progu to preferujemy podział na dwie frazy rzeczownikowe.

Analiza kontrastywna terminologii Cel Na podstawie porównania wyników ekstrakcji terminologii dla dwóch korpusów mają być wskazane frazy: bardziej specyficzne dla innej dziedziny (porównanie z terminologią wydobytą z innego korpusu dziedzinowego) terminy ogólne np. własny sposób, lewa strona, trudne zadanie (porównanie z korpusem języka ogólnego).

Metody porównań Zaimplementowane metody wykorzystują: Log-Likelihood (LL logarytm wiarygodności): na ile różni się częstość konkretnego terminu w dwóch porównywanych korpusach; Term Frequency Inverse Term Frequency (TFITF): łączy częstość występowania w korpusie dziedzinowym z odwrotną częstością występowania w korpusie ogólnym (liczoną jako stosunek wielkości korpusu do częstości badanego terminu); Contrastive Selection of Multi-Word Terms(CSmw): dla terminów wielowyrazowych, uwzględnia zarówno częstość występowania pełnych terminów, ale też częstość występowania słów stanowiących element główny badanej frazy.

Proszę ściągnąć i przetworzyć Korpusomatem Tekst książki ze strony: https://wolnelektury.pl Autor: Konrad Gliściński Tytuł: Wszystkie prawa zastrzeżone

Otwieramy TermoPL

Opcje gramatyka

Filtry przyimki złożone

Filtry dodawanie nowych

Podfrazy

Zapis wyników

Porównanie z innym korpusem

Wybór korpusu do analizy

Ekstrakcja

Wynik ekstrakcji

Wyłącznie wielowyrazowe

Zebrane formy

Fraza Owa możliwość rozszczepienia uprawnień

ow Proszę dodać ow do listy stop words By wrócić do możliwości ponownego ekstrahowania trzeba jeszcze raz wczytać tekst (klawisz Open)

Terminy bez Owa

Formy uproszczone

Plik do porównywania terminów

Porównanie z NKJP

Wielowyrazowe terminy posortowane po różnicy