Ekstrakcja terminologii z korpusów dziedzinowych

Podobne dokumenty
TermoPL dopasowany do XML-owego wyjścia Korpusomatu

Ekstrakcja terminologii dziedzinowej program TermoPL

Ekstrakcja terminologii z tekstów w języku polskim program TermoPL


Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Analiza danych tekstowych

Autoreferat. 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Wstęp do Językoznawstwa

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Indukcja reguł gramatyki j. polskiego

Instrukcja. 2. Zaloguj się na stronie: => Login => RESEARCHconnect International users => Login now

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

Politechnika Częstochowska, Wydział Zarządzania PRZEWODNIK PO PRZEDMIOCIE

System Korekty Tekstu Polskiego

Algorytmy i złożoności. Wykład 3. Listy jednokierunkowe

KATEGORIA OBSZAR WIEDZY

Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

tomografia komputerowa

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska


NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Spis treści tomu pierwszego

Programowanie komputerów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

I. Program II. Opis głównych funkcji programu... 19

CZĘŚĆ A PIERWSZE KROKI Z KOMPUTEREM

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Definicja. Ciąg wejściowy: Funkcja uporządkowująca: Sortowanie polega na: a 1, a 2,, a n-1, a n. f(a 1 ) f(a 2 ) f(a n )

Instrukcja uŝytkowania programu

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. umiejętność budowania poprawnych struktur zdaniowych oraz użycia poznanych

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

KARTA PRZEDMIOTU. 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur

1. Opis okna podstawowego programu TPrezenter.

ToonDoo Maker tworzenie pojedynczej sceny komiksowej

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Instrukcja użytkownika Internetowej Platformy Edukacyjnej UPRP

WPROWADZENIE do Otwartego Systemu Antyplagiatowego

PRZEWODNIK PO ETRADER PEKAO ROZDZIAŁ XVIII. ANALIZY I KOMENTARZE SPIS TREŚCI

Data wydania: Projekt współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Społecznego

Eksploracja Zasobów Internetu

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2019/2020

Lokalizacja Oprogramowania

Materiały dla finalistów

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. umiejętność budowania poprawnych struktur zdaniowych oraz użycia poznanych

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

NARZĘDZIA Narzędzia Narzędzia

Instrukcja obsługi Zaplecza epk w zakresie zarządzania tłumaczeniami opisów procedur, publikacji oraz poradników przedsiębiorcy

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Układ moczowy. Przypadki kliniczne

Aktualizacja

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Biblioteka Wirtualnej Nauki

ROZPOCZĘCIE PRACY Z PLATFORMĄ INFRONT

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

SYLLABUS. Gramatyka kontrastywna 1 i 2

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP

Logowanie do systemu. Rys. 1 Strona logowania

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ŁACIŃSKIEGO

Wyszukiwanie w Katalogu Bibliotek PW za pomocą multiwyszukiwarki Primo

NIE nowotworom u dzieci

Analiza danych tekstowych i języka naturalnego

Program warsztatów CLARIN-PL

Mariusz Piotrowski Węzeł Centralny OŻK- SB

UWAGA!!! Przed przystąpieniem do zamknięcia roku proszę zrobić kopie bezpieczeństwa

Przewodnik użytkownika (instrukcja) AutoMagicTest

Kryteria ocen z języka polskiego w klasie 4. Ocenę celującą - otrzymuje uczeń, którego wiedza znacznie przekracza poza obowiązujący program nauczania:

Sentinel Playground. Aplikacja dostępna jest pod adresem internetowym: Ogólne informacje o aplikacji

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Sylabus Moduł 2: Przetwarzanie tekstów

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

KRYTERIA WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA FRANCUSKIEGO

Instrukcja obsługi wewnętrznej poczty mmedica

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Informatyka I. Wykład 4. Tablice. Dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2018

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Torbiele przymiedniczkowe nie mogą być mylone z wodonerczem i torbielami okołomiedniczkowymi.

Wstęp do programowania INP001213Wcl rok akademicki 2017/18 semestr zimowy. Wykład 13. Karol Tarnowski A-1 p.

Flex.CRM (contact relation management) System do zarządzania kontaktami

Wersja z dnia

Transkrypt:

Ekstrakcja terminologii z korpusów dziedzinowych Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN mm@ipipan.waw.pl, agn@ipipan.waw.pl, rychlik@ipipan.waw.pl IV cykl wykładów i warsztatów CLARIN-PL, Łódź 4 lutego 2017

Zadanie Cel ekstrakcji terminologii: wydobycie specyficznej terminologii z tekstów dotyczących wybranej dziedziny. Zastosowania: tworzenie słowników dziedzinowych; tworzenie zasobów do tłumaczenia tekstów; anotacja dokumentów i wspomaganie wyszukiwania odpowiedzi na pytania; przydatne przy streszczaniu dokumentów; wstępny krok przy opracowywaniu ontologii dziedziny;...

Przykład

Realizacja zadania Zgromadzenie tekstów dziedzinowych. Wstępna analiza lingwistyczna tagowanie (przypisanie formy podstawowej, części mowy oraz charakterystyki morfologicznej). Identyfikacja fraz kandydatów na terminy. Szeregowanie fraz. Selekcja fraz.

Program Termo.PL Opracowany w ramach projektu Clarin.Pl Java Runtime Environment w wersji 7 lub nowszej; Wymaga Morfeusza 2 do wygenerowania formy podstawowej z uproszczonej formy; Wymaga otagowanego i ujednoznacznionego korpusu danych w jednym z formatów: NKJP; XCES; zapis uproszczony: token # lemat # tag. na wyjściu: lista uporządkowanych terminów (w uproszczonych formach lub zrekonstruowanych formach podstawowych wraz z formami znalezionych fraz). Przydatne adresy internetowe http://ws.clarin-pl.eu/termopl.shtml http://zil.ipipan.waw.pl/termopl

Termo.PL

Termo.PL

Termo.PL sortowanie po długości terminów

Tadeusz Różewicz Uczeń czarnoksiężnika Po co otwarłem oczy Zalewa mnie świat kształtów i barw fala za falą kształt za kształtem barwa za barwą wydany na łup jadowitych zieleni zimnych błękitów intensywnych żółtych słońc jaskrawych czerwonych homarów jestem nienasycony.

Co rozumiemy pod pojęciem terminu? Definicja słownikowa Wyraz albo połączenie wyrazowe o specjalnym, konwencjonalnie ustalonym znaczeniu naukowym lub technicznym; (Doroszewski) Definicja robocza Fraza rzeczownikowa, która w tekstach dziedzinowych występuje dostatecznie często by przypuszczać, że opisuje pojęcie istotne dla dziedziny. Częstość tej frazy w tekstach spoza dziedziny jest niższa.

Struktura gramatyczna terminów w języku polskim rzeczownik, akronim lub skrót rzeczownika: podatek, angiografia, PKB, USG ust.(awa), rzeczownik z przymiotnikiem (który wystąpił po lub rzadziej przed rzeczownikiem): stosunki gospodarcze, granulocyty obojętnochłonne; sekwencja rzeczownika z rzeczownikiem w dopełniaczu: udar n,nom mózgu n,gen ; kodeks n,nom pracy n,gen ; kombinacja powyższych dwóch struktur: europejski adj rynek n,nom usług n,gen finansowych adj, wodonercze niewielkiego stopnia dolnego układu podwójnego nerki prawej;

Struktura gramatyczna terminów w języku polskim fraza rzeczownikowa modyfikowana frazą przyimkową: wierzytelność podatnika wobec skarbu państwa, podatek dochodowy od osoby fizycznej; poziom hormonów we krwi; można uwzględnienić koordynację: bezsporna i wymagalna wierzytelność podatnika wobec skarbu państwa, zapalenie mózgu i rdzenia, oddział alergologii, endokrynologii i pediatrii ogólnej.

Wykluczenie niektórych słów/fraz Terminy nie powinny składać się ze: słów wskazujących na określenie czasu, jak np: miesiąc, dzień; nazwy dni i miesięcy, np: styczeń, poniedziałek; przymiotników wymagających kontekstu do interpretacji np: inny, niektóry, jakiś, pewien. Należy wykluczyć przyimki złożone: [w kierunku] zapalenia nerek > kierunek zapalenia nerek; [pod postacią] podatku VAT > postać podatku VAT; [pod kątem] diagnostyki obrazowej > kąt diagnostyki obrazowej; [pod kątem] prostym > kąt prosty.

Wykluczenie niektórych słów

Wykluczenie niektórych fraz

Gramatyka NPP : $NAP NAP GEN ; NAP[agreement] : AP N AP ; NAP GEN[case = gen] : NAP; AP : ADJ ADJA DASH ADJ PPAS; N[pos = subst, ger]; ADJ[pos = adj]; ADJA[pos = adja]; PPAS[pos = ppas]; DASH[form = - ];

Termo.PL

Szeregowanie terminów Dla każdej frazy kandydackiej p liczona jest wartość C-value: l(p) (freq(p) 1 r(lp) lp LP freq(lp)), C value(p) = if r(lp) > 0, l(p) freq(p), if r(lp) = 0 p rozważana fraza, LP zbiór fraz zawierających p, r(lp) liczba różnych fraz w LP, l(p) = log 2 (length(p)), jeśli p ma długość 1 to przyjmujemy stałą np: l(p) = 0.1; referencja bibliograficzna Frantzi, K., Ananiadou, S., Mima, H.: Automatic recognition of multi-word terms: the C-value/NC-value method. Int. Journal on Digital Libraries 3 (2000) 115 130

Identyfikacja fraz pojedyncza mnoga nom przewlekły nieżyt żołądka przewlekłe nieżyty żołądka gen przewlekłego nieżytu żołądka przewlekłych nieżytów żołądka dat przewlekłemu nieżytowi żołądka przewlekłym nieżytom żołądka acc przewlekły nieżyt żołądka przewlekłe nieżyty żołądka inst przewlekłym nieżytem żołądka przewlekłymi nieżytami żołądka loc przewlekłym nieżycie żołądka przewlekłych nieżytach żołądka Wykorzystujemy uproszczoną formę podstawową: przewlekły nieżyt żołądka > przewlekły nieżyt żołądek; ostra niewydolność nerek > ostry niewydolność nerka.

Problemy z uproszczoną formą podstawową Taką sama uproszczoną formę podstawową mają: frazy w liczbie mnogiej i pojedynczej np. zapalenie ucha i zapalenie uszu, uproszczona: zapalenie ucho; przymiotniki w różnych stopniach (mały, mniejszy) np. miednica mała (częściej mała miednica opisuje rozmiar) podczas gdy miednica mniejsza (określenie anatomiczne), uproszczona: miednica mały; pozytywne i zanegowane imiesłowy przymiotnikowe. powiększony/niepowiększony mają formę podstawową powiększyć inf ; gerundia i imiesłowy maja bezokoliczniki jako formy podstawowe: usunięcie ger kamienia subst:gen operacja, usunięty ppas kamień subst:nom opis kamienia, forma uproszczona: usunąć inf kamień subst.

Konteksty planowa operacja przepukliny pachwinowej lewostronnej operacja przepukliny pachwinowej lewostronnej planowa operacja przepukliny pachwinowej operacja przepukliny pachwinowej przepuklina pachwinowa lewostronna lewostronna przepuklina pachwinowa przepuklina pachwinowa prawostronna przepuklina pachwinowa obustronna prawostronna przepuklina pachwinowa uwięźnięta przepuklina pachwinowa prawostronna

Liczenie kontekstów Metody liczenia kontekstów (ograniczamy do jednego słowa): 1 liczba różnych kontekstów liczona po obu stronach razem; 2 suma różnych kontekstów po obu stronach; 3 maksimum z kontekstów liczonych z lewej i prawj strony osobno. Konteksty dla frazy: przepuklina pachwinowa: 1 operacja lewostronny, operacja [pusty], [pusty] lewostronny, lewostronny [pusty], [pusty] prawostronny, [pusty] obustronny, prawostronny [pusty], uwięźnięty prawostronny ; 2 operacja, lewostronny, prawostronny, obustronny, uwięźnięty ; 3 operacja, lewostronny, prawostronny, uwięźnięty (lewych o jeden więcej).

Problem uciętych fraz Przykłady frazy o silnym powiązaniu słów: w medycynie: pęcherzyk żółciowy, jama brzuszna, staw kolanowy; w ekonomii: papiery wartościowe, fundusz inwestycyjny; w angielskim: contact lens. Gramatycznie poprawne zagnieżdżone frazy: [zapalenie pęcherzyka] żółciowego; [USG jamy] brzusznej; [operacja lewego stawu] kolanowego; [giełda papierów] wartościowych; [uczestnik funduszu] inwestycyjnego; [soft contact] lens.

NPMI Normalised Pointwise Mutual Information NPMI (x, y) = ( ln ) / p(x, y) ln p(x, y) p(x)p(y) Where: x y jest bigramem składajacym się z lematów tokenów x i y, p(x,y) jest prawdopodobiństwem bigramu x y w korpusie, p(x), p(y) jest prawdopodobieństwem unigramów x i y w korpusie. referencja bibliograficzna Gerlof Bouma, 2009, Normalized (pointwise) mutual information in collocation extraction., w: Proceedings of the Biennial GSCL Conference 2009, strony 31 40.

Przykład infekcja górnych dróg oddechowych Noun j Adj i Noun i Adj i infekcja górnych dróg oddechowych infekcja górny droga oddechowy bigram NPMI infekcja górny 0.66 górny droga 0.79 droga oddechowy 0.95

Porównanie dwóch metod Poprawne gramatycznie podfrazy Podfrazy z wykorzystaniem NPMI infekcja górny droga oddechowy infekcja górny droga oddechowy infekcja górnych dróg oddechowych infekcja górnych dróg oddechowych infekcja górnych dróg infekcja infekcja górne drogi oddechowe górne drogi oddechowe górne drogi drogi oddechowe drogi oddechowe drogi drogi

Preferowanie podziału na dwie frazy rzeczownikowe prawidłowa adj mikroflora noun górnych adj dróg noun oddechowych adj > prawidłowa mikroflora oraz górne drogi oddechowe częste adj infekcje noun górnych adj dróg noun oddechowych adj > częste modyfikuje całą frazę infekcje górnych dróg oddechowych Modyfikacja: szukamy najsłabszej pozycji pozwalającej podzielić frazę na dwie podfrazy rzeczownikowe; jeśli różnica pomnięcy nasłabszym miejscem podziału a tym dzielącym na dwie frazy rzeczownikowe jest mniejsza od ustalonego progu to preferujemy podział na dwie frazy rzeczownikowe.

Wybór metod podziału fraz

Analiza kontrastywna terminologii Cel Na podstawie porównania wyników ekstrakcji terminologii dla dwóch korpusów mają być wskazane frazy: bardziej specyficzne dla innej dziedziny (porównanie z terminologią wydobytą z innego korpusu dziedzinowego) terminy ogólne np. własny sposób, lewa strona, trudne zadanie (porównanie z korpusem języka ogólnego).

Metody porównań Zaimplementowane metody wykorzystują: Log-Likelihood (LL logarytm wiarygodności): na ile różni się częstość konkretnego terminu w dwóch porównywanych korpusach; Term Frequency Inverse Term Frequency (TFITF): łączy częstość występowania w korpusie dziedzinowym z odwrotną częstością występowania w korpusie ogólnym (liczoną jako stosunek wielkości korpusu do częstości badanego terminu); Contrastive Selection of Multi-Word Terms(CSmw): dla terminów wielowyrazowych, uwzględnia zarówno częstość występowania pełnych terminów, ale też częstość występowania słów stanowiących element główny badanej frazy.

Porównanie ekonomii z NKJP

Porównanie ekonomii z NKJP

Jak zrobić plik porównawczy Upewnić się, że w zakładce Option -> Search odkliknięte jest porównywanie korpusów; Wyszukać terminy w korpusie służącym do porównań; W zakładce Option -> Save wybrać klawisz środkowy wskazujący pola służące do porównywania korpusów); Zamknąć okienko opcji; Wybrać klawisz Save (program proponuje nazwę). Plik do porównań jest wskazywany następnie w zakładce Search; klawisz Select przy wyborze Contrastive terms

wybór opcji do porównywania terminologii

Możliwość jawnego podania fraz do odfiltrowania