Ekstrakcja terminologii z tekstów w języku polskim program TermoPL



Podobne dokumenty
TermoPL dopasowany do XML-owego wyjścia Korpusomatu

Ekstrakcja terminologii dziedzinowej program TermoPL

Ekstrakcja terminologii z korpusów dziedzinowych

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

IV. Ostre choroby jamy brzusznej PYTANIA. Andrzej Żyluk

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

Podatek przemysłowy (lokalny podatek od działalności usługowowytwórczej) :02:07

RZECZPOSPOLITA POLSKA. Prezydent Miasta na Prawach Powiatu Zarząd Powiatu. wszystkie

Środowiskowe Laboratorium Ciężkich Jonów Uniwersytet Warszawski

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Zarządzanie Zasobami by CTI. Instrukcja

2 Zarządzenie wchodzi w życie z dniem podpisania.

DE-WZP JJ.3 Warszawa,

Zmiany pozycji techniki

Elementy typografii. Technologia Informacyjna Lekcja 22

Instrukcja obsługi Norton Commander (NC) wersja 4.0. Autor: mgr inż. Tomasz Staniszewski

Minimalne wymagania odnośnie przedmiotu zamówienia zawarto w punkcie I niniejszego zapytania.

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

PROJEKTY UCHWAŁ NA NADZWYCZAJNE WALNE ZGROMADZENIE HETAN TECHNOLOGIES SPÓŁKA AKCYJNA W DNIU 25 MAJA 2016 ROKU


Procedura uzyskiwania awansu zawodowego na stopień nauczyciela mianowanego przez nauczycieli szkół i placówek

Wprowadzenie do fleksji

wzór Załącznik nr 5 do SIWZ UMOWA Nr /

Zakupy poniżej euro Zamówienia w procedurze krajowej i unijnej

USTAWA. z dnia 26 czerwca 1974 r. Kodeks pracy. 1) (tekst jednolity)

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

Podstawa prawna: Ustawa z dnia 15 lutego 1992 r. o podatku dochodowym od osób prawnych (t. j. Dz. U. z 2000r. Nr 54, poz. 654 ze zm.

Regulamin rekrutacji do Gimnazjum w Chwaliszewie na rok szkolny 2016/2017

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Warszawa: Dostawa kalendarzy na rok 2017 Numer ogłoszenia: ; data zamieszczenia: OGŁOSZENIE O ZAMÓWIENIU - dostawy

UCHWALA NR XXXIXI210/13 RADY MIASTA LUBARTÓW. z dnia 25 września 2013 r.

SPRAWOZDANIE Z DZIAŁALNOŚCI RADY NADZORCZEJ SPÓŁKI PATENTUS S.A. ZA OKRES

Nadzwyczajne Walne Zgromadzenie Art New media S.A. uchwala, co następuje:

Terminy pisane wielką literą w niniejszym aneksie mają znaczenie nadane im w Prospekcie.

1) Dziekan lub wyznaczony przez niego prodziekan - jako Przewodniczący;

Opracowała: Karolina Król-Komarnicka, kierownik działu kadr i płac w państwowej instytucji

Opłaty wstępne w leasingu jako koszty bezpośrednio związane z uzyskanym przychodem

Regulamin wynajmu lokali użytkowych. Międzyzakładowej Górniczej Spółdzielni Mieszkaniowej w Jaworznie tekst jednolity

oraz nowego średniego samochodu ratowniczo-gaśniczego ze sprzętem ratowniczogaśniczym

Pomiar mocy pobieranej przez napędy pamięci zewnętrznych komputera. Piotr Jacoń K-2 I PRACOWNIA FIZYCZNA

PL-LS Pani Małgorzata Kidawa Błońska Marszałek Sejmu RP

UCHWAŁA NR RADY MIEJSKIEJ W ŁODZI z dnia

Ogólna charakterystyka kontraktów terminowych

Evidence Based Scheduling

Podstawy programowania

KLAUZULE ARBITRAŻOWE

UKŁAD ROZRUCHU SILNIKÓW SPALINOWYCH

Zapytanie ofertowe dotyczące wyboru wykonawcy (biegłego rewidenta) usługi polegającej na przeprowadzeniu kompleksowego badania sprawozdań finansowych

Nowe funkcjonalności

UCHWAŁA NR podjęta przez Zwyczajne Walne Zgromadzenie spółki pod firmą Europejski Fundusz Energii Spółka Akcyjna z siedzibą w Bydgoszczy w dniu roku

PRÓG RENTOWNOŚCI i PRÓG

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

Zaproszenie do składania oferty cenowej

Warszawska Giełda Towarowa S.A.

Harmonogramowanie projektów Zarządzanie czasem

Opis szkolenia. Dane o szkoleniu. Program. BDO - informacje o szkoleniu

Materiał pomocniczy dla nauczycieli kształcących w zawodzie:

Regulamin rekrutacji uczniów do Szkoły Podstawowej nr 35 im. Władysława Łokietka w Zespole Szkolno-Przedszkolnym nr 1 w Poznaniu na rok szkolny

Projektowanie bazy danych

ZAPYTANIE OFERTOWE. Nazwa zamówienia: Wykonanie usług geodezyjnych podziały nieruchomości

Rekrutacją do klas I w szkołach podstawowych w roku szkolnym 2015/2016 objęte są dzieci, które w roku 2015 ukończą:

Elementy cyfrowe i układy logiczne

WYKŁAD 8. Postacie obrazów na różnych etapach procesu przetwarzania

Praca na wielu bazach danych część 2. (Wersja 8.1)

Logowanie do systemu Faktura elektroniczna

ZAPYTANIE OFERTOWE. MERAWEX Sp. z o.o Gliwice ul. Toruńska 8. ROZWÓJ PRZEDSIĘBIORSTWA MERAWEX Sp. z o.o. POPRZEZ EKSPORT.

I. 1) NAZWA I ADRES: Zakład Gospodarki Mieszkaniowej, ul. Monte Cassino 8,

KRYTERIA OCENIANIA WYPOWIEDZI PISEMNYCH KRÓTKA I DŁUŻSZA FORMA UŻYTKOWA

I. 1) NAZWA I ADRES: Zakład Gospodarki Mieszkaniowej, ul. Monte Cassino 8,

REGULAMIN REKRUTACJI DZIECI DO PRZEDSZKOLA SAMORZĄDOWEGO Baśniowa Kraina W BŁASZKACH NA ROK SZKOLNY 2016/2017

PROCEDURY UDZIELANIA ZAMÓWIEŃ PUBLICZNYCH w Powiatowym Urzędzie Pracy w Pile

Walne Zgromadzenie Spółki, w oparciu o regulacje art w zw. z 2 pkt 1 KSH postanawia:

7. REZONANS W OBWODACH ELEKTRYCZNYCH

Uchwała Nr.. /.../.. Rady Miasta Nowego Sącza z dnia.. listopada 2011 roku

z dnia Rozdział 1 Przepisy ogólne

REGULAMIN ZAWIERANIA I WYKONYWANIA TERMINOWYCH TRANSAKCJI WALUTOWYCH

U C H W A Ł A NR XIX/81/2008. Rady Gminy Ostrowite z dnia 21 maja 2008 roku. u c h w a l a s ię:

Informator dla Rodziców dzieci rozpoczynających w roku szkolnym 2016/2017 naukę w szkole podstawowej

Wniosek o rejestrację podmiotu w Krajowym Rejestrze Sądowym 1) FUNDACJA, STOWARZYSZENIE, INNA ORGANIZACJA SPOŁECZNA LUB ZAWODOWA

4.3. Struktura bazy noclegowej oraz jej wykorzystanie w Bieszczadach

Opis postępowania rekrutacyjnego do oddziału przedszkolnego w Szkole Podstawowej im. Królowej Jadwigi w Nowym Chechle

Montowanie styropapy za pomącą łączników mechanicznych

Opodatkowanie spółki komandytowo-akcyjnej; stan aktualny, projektowane zmiany

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Podstawy Informatyki Gramatyki formalne

OFERTA SPRZEDAŻY DZIAŁEK INWESTYCYJNYCH POŁOŻONYCH W CZĘSTOCHOWIE ULICA KORFANTEGO

Ustawienie wózka w pojeździe komunikacji miejskiej - badania. Prawidłowe ustawienie

Automatyka. Etymologicznie automatyka pochodzi od grec.

KONCEPCJA NAUCZANIA PRZEDMIOTU RACHUNKOWOŚĆ SKOMPUTERYZOWANA" NA WYDZIALE ZARZĄDZANIA UNIWERSYTETU GDAŃSKIEGO

U S T AWA. z dnia 2015 r. Art. 1.

Komentarz terapeuta zajęciowy 322[15]-01 Czerwiec 2009

Dokonamy analizy mającej na celu pokazanie czy płeć jest istotnym czynnikiem

UCHWAŁA NR XXVIII/294/2013 RADY GMINY NOWY TARG. z dnia 27 września 2013 r. w sprawie przyjęcia programu 4+ Liczna Rodzina

1. Od kiedy i gdzie należy złożyć wniosek?

PROCEDURA REKRUTACJI DZIECI DO PRZEDSZKOLA NR 2 PROWADZONEGO PRZEZ URZĄD GMINY WE WŁOSZAKOWICACH NA ROK SZKOLNY 2014/2015

Wiedza niepewna i wnioskowanie (c.d.)

Paweł Selera, Prawo do odliczenia i zwrotu podatku naliczonego w VAT, Wolters Kluwer S.A., Warszawa 2014, ss. 372

Satysfakcja pracowników 2006

Przeniesienie lekcji SITA z płyt CD na ipoda touch

Prezentacja dotycząca sytuacji kobiet w regionie Kalabria (Włochy)

Transkrypt:

Ekstrakcja terminologii z tekstów w języku polskim program TermoPL Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Seminarium IPI PAN, 11 stycznia 2016

Zadanie Cel ekstrakcji terminologii: wydobycie specyficznej terminologii z tekstów dotyczących wybranej dziedziny. Zastosowania: tworzenie słowników dziedzinowych; tworzenie zasobów do tłumaczenia tekstów; wstępny krok przy opracowywaniu ontologii; anotacja dokumentów i wspomaganie wyszukiwania odpowiedzi na pytania; przydatne przy streszczaniu dokumentów;...

Przykład

Realizacja zadania Zgromadzenie tekstów dziedzinowych. Wstępna analiza lingwistyczna tagowanie (przypisanie formy podstawowej, części mowy oraz charakterystyki morfologicznej). Identyfikacja fraz kandydatów na terminy. Szeregowanie fraz. Selekcja fraz.

Co rozumiemy pod pojęciem terminu? Definicja słownikowa Wyraz albo połączenie wyrazowe o specjalnym, konwencjonalnie ustalonym znaczeniu naukowym lub technicznym; (Doroszewski) Definicja robocza Fraza rzeczownikowa, która w tekstach dziedzinowych występuje dostatecznie często by przypuszczać, że opisuje pojęcie istotne dla dziedziny. Częstość tej frazy w tekstach spoza dziedziny jest niższa.

Struktura gramatyczna terminów w języku polskim rzeczownik, akronim lub skrót rzeczownika: podatek, angiografia, PKB, USG ust.(awa), rzeczownik z przymiotnikiem (który wystąpił po lub rzadziej przed rzeczownikiem): stosunki gospodarcze, granulocyty obojętnochłonne; sekwencja rzeczownika z rzeczownikiem w dopełniaczu: udar n,nom mózgu n,gen ; kodeks n,nom pracy n,gen ; kombinacja powyższych dwóch struktur: europejski adj rynek n,nom usług n,gen finansowych adj, wodonercze niewielkiego stopnia dolnego układu podwójnego nerki prawej;

Struktura gramatyczna terminów w języku polskim fraza rzeczownikowa modyfikowana frazą przyimkową: wierzytelność podatnika wobec skarbu państwa, podatek dochodowy od osoby fizycznej; poziom hormonów we krwi; można uwzględnienić koordynację: bezsporna i wymagalna wierzytelność podatnika wobec skarbu państwa, zapalenie mózgu i rdzenia, oddział alergologii, endokrynologii i pediatrii ogólnej.

Wykluczenie niektórych słów/fraz Terminy nie powinny składać się ze: słów wskazujących na określenie czasu, jak np: miesiąc, dzień; nazwy dni i miesięcy, np: styczeń, poniedziałek; przymiotników wymagających kontekstu do interpretacji np: inny, niektóry, jakiś, pewien. Należy wykluczyć przyimki złożone: [w kierunku] zapalenia nerek > kierunek zapalenia nerek; [pod postacią] podatku VAT > postać podatku VAT; [pod kątem] diagnostyki obrazowej > kąt diagnostyki obrazowej; [pod kątem] prostym > kąt prosty.

Gramatyka NPP : $NAP NAP GEN ; NAP[agreement] : AP N AP ; NAP GEN[case = gen] : NAP; AP : ADJ ADJA DASH ADJ PPAS; N[pos = subst, ger]; ADJ[pos = adj]; ADJA[pos = adja]; PPAS[pos = ppas]; DASH[form = - ];

Szeregowanie terminów Dla każdej frazy kandydackiej p liczona jest wartość C-value: l(p) (freq(p) 1 r(lp) lp LP freq(lp)), C value(p) = if r(lp) > 0, l(p) freq(p), if r(lp) = 0 p rozważana fraza, LP zbiór fraz zawierających p, r(lp) liczba różnych fraz w LP, l(p) = log 2 (length(p)), jeśli p ma długość 1 to przyjmujemy stałą np: l(p) = 0.1; referencja bibliograficzna Frantzi, K., Ananiadou, S., Mima, H.: Automatic recognition of multi-word terms: the C-value/NC-value method. Int. Journal on Digital Libraries 3 (2000) 115 130

Identyfikacja fraz pojedyncza mnoga nom przewlekły nieżyt żołądka przewlekłe nieżyty żołądka gen przewlekłego nieżytu żołądka przewlekłych nieżytów żołądka dat przewlekłemu nieżytowi żołądka przewlekłym nieżytom żołądka acc przewlekły nieżyt żołądka przewlekłe nieżyty żołądka inst przewlekłym nieżytem żołądka przewlekłymi nieżytami żołądka loc przewlekłym nieżycie żołądka przewlekłych nieżytach żołądka Wykorzystujemy uproszczoną formę podstawową: przewlekły nieżyt żołądka > przewlekły nieżyt żołądek; ostra niewydolność nerek > ostry niewydolność nerka.

Problemy z uproszczoną formą podstawową Taką sama uproszczoną formę podstawową mają: frazy w liczbie mnogiej i pojedynczej np. zapalenie ucha i zapalenie uszu, uproszczona: zapalenie ucho; przymiotniki w różnych stopniach (mały, mniejszy) np. miednica mała (częściej mała miednica opisuje rozmiar) podczas gdy miednica mniejsza (określenie anatomiczne), uproszczona: miednica mały; pozytywne i zanegowane imiesłowy przymiotnikowe. powiększony/niepowiększony mają formę podstawową powiększyć inf ; gerundia i imiesłowy maja bezokoliczniki jako formy podstawowe: usunięcie ger kamienia subst:gen operacja, usunięty ppas kamień subst:nom opis kamienia, forma uproszczona: usunąć inf kamień subst.

Konteksty planowa operacja przepukliny pachwinowej lewostronnej operacja przepukliny pachwinowej lewostronnej planowa operacja przepukliny pachwinowej operacja przepukliny pachwinowej przepuklina pachwinowa lewostronna lewostronna przepuklina pachwinowa przepuklina pachwinowa prawostronna przepuklina pachwinowa obustronna prawostronna przepuklina pachwinowa uwięźnięta przepuklina pachwinowa prawostronna

Liczenie kontekstów Metody liczenia kontekstów (ograniczamy do jednego słowa): 1 liczba różnych kontekstów liczona po obu stronach razem; 2 suma różnych kontekstów po obu stronach; 3 maksimum z kontekstów liczonych z lewej i prawj strony osobno. Konteksty dla frazy: przepuklina pachwinowa: 1 operacja lewostronny, operacja [pusty], [pusty] lewostronny, lewostronny [pusty], [pusty] prawostronny, [pusty] obustronny, prawostronny [pusty], uwięźnięty prawostronny ; 2 operacja, lewostronny, prawostronny, obustronny, uwięźnięty ; 3 operacja, lewostronny, prawostronny, uwięźnięty (lewych o jeden więcej).

Ocena wyników Termin medyczny: ostry nieżyt żołądka (ok. 88 % górnej części listy terminów w testach opisanych w artykule Terminology Extraction from Medical Texts in Polish); Termin ogólny: pora nocy, dół (fragment frazy dół biodrowy); Terminy niepoprawne wynikające z: niedostatków gramatyki: dziewczynka skierowana z frazy dziewczynka skierowana do chirurga; błędów anotacji: Lacidofil zalecenia z dwóch całkowicie odrębnych fraz bez znaków przestankowych (zalecenia otagowane jako dopełniacz a nie mianownik); urwanych fraz: infekcja dróg, USG jamy.

Problem uciętych fraz Przykłady frazy o silnym powiązaniu słów: w medycynie: pęcherzyk żółciowy, jama brzuszna, staw kolanowy; w ekonomii: papiery wartościowe, fundusz inwestycyjny; w angielskim: contact lens. Gramatycznie poprawne zagnieżdżone frazy: [zapalenie pęcherzyka] żółciowego; [USG jamy] brzusznej; [operacja lewego stawu] kolanowego; [giełda papierów] wartościowych; [uczestnik funduszu] inwestycyjnego; [soft contact] lens.

NPMI Normalised Pointwise Mutual Information NPMI (x, y) = ( ln ) / p(x, y) ln p(x, y) p(x)p(y) Where: x y jest bigramem składajacym się z lematów tokenów x i y, p(x,y) jest prawdopodobiństwem bigramu x y w korpusie, p(x), p(y) jest prawdopodobieństwem unigramów x i y w korpusie. referencja bibliograficzna Gerlof Bouma, 2009, Normalized (pointwise) mutual information in collocation extraction., w: Proceedings of the Biennial GSCL Conference 2009, strony 31 40.

Algorytm ustalający frazy zagnieżdżone candidate term (phr) if phr jest poprawną frazą rzeczownikową to dodaj phr do listy terminów if length(phr) > 1 znajdź wszystkie pozycji i, w których phr można podzielić zgodnie z gramatyką for wszystkich pozycju i wylicz NPMI(i-tego bigramu we phr) posortuj NPMI od najmniejszej do największej wartości j := miejsce z najniższą NPMI podziel phr na phr1 i phr2 w j-tym miejscu candidate term(phr1) candidate term(phr2)

Przykład infekcja górnych dróg oddechowych Noun j Adj i Noun i Adj i infekcja górnych dróg oddechowych infekcja górny droga oddechowy bigram NPMI infekcja górny 0.65658 górny droga 0.78773 droga oddechowy 0.95089

Porównanie dwóch metod Poprawne gramatycznie podfrazy Podfrazy z wykorzystaniem NPMI infekcja górny droga oddechowy infekcja górny droga oddechowy infekcja górnych dróg oddechowych infekcja górnych dróg oddechowych infekcja górnych dróg infekcja infekcja górne drogi oddechowe górne drogi oddechowe górne drogi drogi oddechowe drogi oddechowe drogi drogi

Preferowanie podziału na dwie frazy rzeczownikowe prawidłowa adj mikroflora noun górnych adj dróg noun oddechowych adj > prawidłowa mikroflora oraz górne drogi oddechowe częste adj infekcje noun górnych adj dróg noun oddechowych adj > częste modyfikuje całą frazę infekcje górnych dróg oddechowych Modyfikacja: szukamy najsłabszej pozycji pozwalającej podzielić frazę na dwie podfrazy rzeczownikowe; jeśli różnica pomnięcy nasłabszym miejscem podziału a tym dzielącym na dwie frazy rzeczownikowe jest mniejsza od ustalonego progu to preferujemy podział na dwie frazy rzeczownikowe.

Ewaluacja 2000 fraz Poprawne Przyczyna niepoprawności medyczne ogólne gramatyka anotacja obcięte s-phrases 1,778 84 48 25 65 wyłącznie 174 7 8 3 49 s&npmi-phrases 1,823 85 48 27 17 wyłącznie 219 8 8 5 1 Wspólne 1,604 77 40 22 16 Fraza operacja przeszczepienia przesunęła się o 300 pozycji do góry w metodzie z wykorzystaniem NPMI

Selekcja fraz na podstawie korpusu ogólnego jedno. wielo. razem Wszystkie 2,113 464 2,577 C-value większe w NKJP 1,319 193 1,512 C-v med > 3.0 & C-v NKJP > C-v med 96 11 107 2K medyczne & C-v NKJP > C-v med 16 0 16 Najdłuższa wspólna fraza: objawy infekcji górnych dróg oddechowych

Wspólne frazy Wielowyrazowe frazy z C-value powyżej 3.0 w medycznych danych i wyższym C-value w NKJP Korpus medyczny NKJP fraza C-value pozycja C-value position duży stopień 9.25 2,817 16.00 479 jedna strona 4.00 5,266 36.00 131 członek rodzina 4.00 5,509 10.00 963 intensywna terapia 3.00 6,674 4.00 3,260 pani doktor 3.00 6,750 6.50 1,674 jedna noc 3.00 6,750 5.00 1,674 pierwszy etap 3.00 7,051 8.00 1,281 lewa noga 3.00 7,092 5.00 2,472 podjąć decyzję 3.00 7,215 8.00 1,295 własna prośba 3.00 7,238 5.00 2,505 dom dziecka 3.00 7,252 6.00 1,885

Publikacje Marciniak, M. i Mykowiecka, A. Construction of a Medical Corpus Based on Information Extraction Results. Control & Cybernetics, 40(2), 337 360, (2011) Marciniak, M. and Mykowiecka, A. Terminology Extraction from Medical Texts in Polish. Journal of Biomedical Semantics, 5. (2014) Marciniak, M. and Mykowiecka, A. Nested Term Recognition Driven by Word Connection Strength. Terminology, 21(2), 180 204, (2015) Marciniak M. Domain corpora as a source of information Monograph Series, volume 4, Institute of Computer Sciences PAS

Program Opracowany w ramach projektu Clarin.Pl Java Runtime Environment w wersji 7 lub nowszej; Wymaga Morfeusza 2 do wygenerowania formy podstawowej z uproszczonej formy; Wymaga otagowanego i ujednoznacznionego korpusu danych w jednym z formatów: NKJP; XCES; zapis uproszczony: token # lemat # tag. na wyjściu: lista uporządkowanych terminów (w uproszczonych formach lub zrekonstruowanych formach podstawowych wraz z formami znalezionych fraz).

Termo.PL Prezentacja