ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH

Transkrypt

1 Marek Łukasik ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH 1. Rozwój technik komputerowych przyniósł istotną zmianę jakościową w badaniach językoznawczych i doprowadził do narodzin nowej dziedziny lingwistyki komputerowej/informatycznej (ang. computational linguistics). Komputery i dedykowane oprogramowanie nie tylko wzbogaciły warsztat badawczy lingwistyki, ale również przyczyniły się do powstania zupełnie nowych form działalności badawczej, znajdujących się na styku lingwistyki i informatyki, takich jak tłumaczenie maszynowe (ang. machine translation), automatyczne sporządzanie indeksów (ang. automatic indexing), czy automatyczna ekscerpcja terminów (ang. automatic acquisition of terms). Wspólną cechą powyższych dyscyplin jest wykorzystanie na pewnym etapie korpusów tekstowych, niejednokrotnie anotowanych. Nie jest to jednak obszar zarezerwowany wyłącznie dla specjalistów z dziedziny informatyki zajmujących się przetwarzaniem języka naturalnego: anotowane korpusy tekstowe mogą z powodzeniem stać się przydatnym narzędziem w warsztacie terminologa, terminografa czy tłumacza tekstów specjalistycznych. Poniżej przedstawiłem zarys problematyki anotacji (wzbogacania) korpusów tekstowych. Artykuł otwierają ogólne rozważania związane z anotacją korpusów. Na kolejnych stronach zostają one zilustrowane anotacją przykładowego tekstu specjalistycznego. Drugą część pracy stanowi studium przypadku, w którym przedstawiłem możliwości wykorzystania anotowanego korpusu tekstów specjalistycznych do ekscerpcji terminów. 2. Korpus tekstowy to każdy zbiór pisanych lub mówionych tekstów sformułowanych w określonym języku (językach), które zostały zebrane i wybrane według określonych kryteriów [Grucza 2007: 108]. Stosowanie pewnych parametrów doboru materiału językowego świadczy o tym, że korpusy tekstowe powstają z myślą o konkretnym celu badawczym bądź pragmatycznym. Korpus zatem, w rozumieniu współczesnej lingwistyki, nie jest przypadkowym zbiorem tekstów, na przykład zgromadzonym w bibliotece [Grucza 2007: 110; Hunston 2002: 2; Waliński 2005]. Ponadto w literaturze przedmiotu podkreśla się, że obecnie pojecie korpusu tekstowego implikuje elektroniczną postać zgromadzonych danych [Bowker, Pearson 2002: 9; Tsakona 2007: 40 i in.] Korpus tekstów może istnieć zarówno w postaci tzw. czystego tekstu, tj. bez dodatkowych oznaczeń (ang. raw-text corpus), jak również zawierać dodatkowe dane (metadane), które ułatwiają korzystanie i poszerzają możliwości wykorzysta

2 nia korpusu [McEnery 2003: 453]. Zarówno procedurę umieszczania dodatkowych informacji w korpusie, jak i jej produkt, czyli wprowadzone znaczniki/indeksy/tagi (ang. tags) nazywamy anotacją (znakowaniem/indeksowaniem/znakowaniem/tagowaniem), a korpus zawierający takie metadane korpusem anotowanym/adnotowanym/indeksowanym/znakowanym lub otagowanym (ang. annotated/tagged corpus) [Piotrowski 2004; Przepiórkowski, Woliński 2001; Waliński 2005; Woliński 2003 i in.]. Anotacja może dotyczyć: i) dokumentacji korpusu, tj. opisu informacji umożliwiających identyfikację danego tekstu dzięki umieszczeniu w nagłówku dokumentu (ang. header) informacji o tytule, autorze, wydawcy, roku wdania, języku, dziedzinie itd.; ii) struktury dokumentu, tj. opisu informacji o strukturze tekstu, czyli przede wszystkim podziale na sekcje, rozdziały, akapity, oraz o zastosowanych rozwiązaniach typograficznych, graficznych itd.; iii) wybranych cech lingwistycznych poszczególnych elementów występujących w tekście (wyrazów, fraz, transkrypcji w przypadku korpusów transkrybowanych itd.). Przydzielenie znaczników interpretacyjnych o charakterze lingwistycznym, jak również produkt takiego działania nazywamy anotacją lingwistyczną (ang. linguistic annotation). Dzieli się ona na: - anotację części mowy (ang. POS <Part-of-Speech> tagging/annotation), zwaną również anotacją gramatyczną (zob. poniżej); - lematyzację (ang. lemmatization), czyli sprowadzanie różnych form fleksyjnych tego samego wyrazu do jego formy podstawowej (kanonicznej, hasłowej), czyli do formy leksemu (lemmy); - anotację syntaktyczną (ang. syntactic tagging/annotation), czyli ukazanie struktury zdania w podziale na frazy; - anotację semantyczną (ang. semantic tagging/annotation), czyli przydzielenie tagów o charakterze znaczeniowym; - anotację prozodyczną (ang. prosodic tagging/annotation), czyli przydzielenie znaczników ukazujących intonację w korpusach transkrybowanych; - i in. [zob. m.in. Bowker, Pearson 2002: 83-84; EAGLES 1996; Gamper 2001: 115; Grucza 2007: 109; Johansson 1994: 84 i n.; McEnery 2003: 458; McEnery, Wilson 2001: 50; Waliński 2005: 4]. Warto zwrócić uwagę na rozbieżności terminologiczne występujące w literaturze przedmiotu. Dla pojęcia anotacji obejmującej opis dokumentacji i struktury dokumentu niektórzy badacze przyjmują terminy markup/encoding (pol. znakowanie), natomiast termin annotation (pol. anotacja) odnoszą do anotacji lingwistycznej [Bański 2003: 1; Bowker, Pearson 2002: 89]. Inni z kolei dla przedstawionej tu dychotomii wykorzystują odpowiednio terminy annotation oraz linguistic annotation [McEnery, Wilson 2001: 39 i n.]. W dalszej części artykułu będę odnosił się do pojęcia anotacji w najszerszym sensie, czyli tak, jak zostało to zaprezentowane w wyliczeniu powyżej (i-iii). Tam, gdzie okaże się to konieczne, użyty termin zostanie doprecyzowany

3 2.2. Podstawowe możliwości wykorzystania korpusów tekstowych w działalności lingwistycznej, terminologicznej, terminograficznej i translatorycznej zostały pokrótce omówione w innym artykule [zob. Łukasik 2007, Łukasik 2008]. W tym miejscu należy jednak dodać, że w porównaniu z korpusami nieanotowanymi, korpusy anotowane stanowią swoistą wartość dodaną, stąd też znajdują dodatkowe zastosowania lub przyczyniają się do udoskonalenia badań korpusowych. Po pierwsze, umieszczenie w każdym pliku korpusu informacji o charakterze bibliograficznym umożliwia porządkowanie korpusu i pozwala na sprawne odnalezienie tekstów o zadanych atrybutach (np. w badaniach nad idiolektem danego twórcy istnieje możliwość szybkiego wyodrębnienia podkorpusu tekstów danego autora, a w pracy terminologicznej lub terminograficznej wyodrębnienie tekstów konkretnej dziedziny lub napisanych w danym języku). Po drugie, anotacja opisująca strukturę dokumentu jest szczególnie ważna w przypadku tworzenia korpusów paralelnych pozwala bowiem na automatyczne przeprowadzenie uzgodnienia dokumentów tworzących korpus [zob. Łukasik 2008]. Z kolei korpusy anotowane lingwistycznie z jednej strony są niezbędne w badaniach z zakresu tzw. inżynierii lingwistycznej (na przykład w automatycznej analizie języków naturalnych, w tłumaczeniu maszynowym, w automatycznym tworzeniu indeksów, automatycznej ekscerpcji terminów i tworzeniu leksykonów jedno- i dwujęzycznych oraz automatycznym tworzeniu baz terminologicznych) [McEnery, Wilson 2001: 142], z drugiej zaś mogą być bardzo przydatnym narzędziem w rękach każdego lingwisty (np. w badaniach morfologicznych czy syntaktycznych), terminologa (np. przy identyfikacji potencjalnych terminów jedno- i wielowyrazowych, badaniu łączliwości leksykalnej terminów), leksykografa (przy tworzeniu siatki haseł słownika na podstawie precyzyjnych list frekwencyjnych zlematyzoanego korpusu czy przy wyszukiwaniu kolokacji), a nawet psychologa czy psycholingwisty (np. w badaniach niepłynności mowy, ang. speech disfluency). Oczywiście powyższe podsumowanie w żaden sposób nie wyczerpuje możliwości, jakie oferują korpusy anotowane: anotacja może bowiem zostać zaprojektowana na potrzeby konkretnego zadania. W kontekście badań prowadzonych w Katedrze Języków Specjalistycznych jednym rodzajem takiej anotacji mogłaby być anotacja terminologiczna, która polegałaby na półautomatycznym zdefiniowaniu występujących w tekście terminów pod kątem ich przynależności do odpowiednich klas onomazjologicznych lub wykazaniu stopnia terminologiczności danego tekstu. Tak anotowany korpus przyspieszyłby (dzięki częściowej automatyzacji) i zwiększył precyzyjność (dzięki metodom statystycznym) prac terminologicznych i terminograficznych w zakresie: a) analizy leksykonu terminologicznego; b) odtworzenia struktury semantycznej tekstu specjalistycznego, jego analizy statystycznej czy terminologicznej; c) precyzyjnego definiowania pojęć, czyli zachowania odpowiednich proporcji między różnymi klasami terminów a różnymi typami definicji; d) automatyzacji tworzenia siatki haseł konkretnych typów słowników (np

4 terminów teoretycznych vs. nazw nomenklaturowych vs. terminów proceduralnych). Zastosowanie komputerów w omówionym zakresie pozostawiłoby badaczom więcej czasu, który mogliby poświęcić na bardziej wnikliwą analizę materiału badawczego, której nie byłaby w stanie dokonać maszyna. Mimo wielu zalet anotacji, widoczny jest spór wśród badaczy o wartość anotowanych korpusów tekstowych. Polemika dotyczy przede wszystkim kwestii narzucania pewnej interpretacji lingwistycznej danym poddanym anotacji oraz spójności anotacji (polegającej na konsekwentnym przydzielaniu poszczególnych znaczników, np. części mowy, odpowiednim wyrazom) [zob. Sinclair 2003: 83-84; Sinclair 2007: 26 vs. McEnery 2003: ] Największe korpusy tekstowe powstają niejednokrotnie niezależnie w różnych ośrodkach badawczych czy wydawnictwach. W związku z tym często różnią się nie tylko przyjętą metodologią, ale również stroną techniczną, na przykład formatem zapisu danych czy wzorcem anotacji. Ta niekompatybilność powoduje, że dane zgromadzone i opisane w jednym ośrodku badawczym, nie mogą być wykorzystane w innym. Problemy takie próbuje się rozwiązać przyjęciem wspólnych międzynarodowych standardów, które wykorzystywane byłyby przez wszystkie ośrodki, a które odnosiłyby się do struktury znaczników, formatu zapisu, obowiązkowych i fakultatywnych elementów opisujących każdy dokument korpusu i in. Według niektórych badaczy, na czele wprowadzenia ujednoliconych standardów stoi konsorcjum TEI (Text Encoding Initiative) [McEnery, Wilson 2001: 33; Carletta et al. 2004: 450 i n.]. Opracowane przez TEI wytyczne (Guidelines for Electronic Text Encoding and Interchange, obecnie w wersji P5 z listopada 2007r., zob. TEI), znane również powszechnie jako standard TEI, mają na celu promowanie ujednoliconego formatu wymiany wszelkich danych w formie tekstowej, niezależnego od stosowanego oprogramowania. Oprócz ogólnych wytycznych, TEI definiuje szczegółowo m.in. zawartość nagłówków dokumentów, zasady kodowania znaków niestandardowych, opisy transkrypcji, tabel, wzorów i in., jak również zasady indeksowania tak skomplikowanych strukturalnie dokumentów jak elektroniczne słowniki jedno- i wielojęzyczne czy korpusy tekstowe. Określa również ogólne zasady kodowania anotacji lingwistycznych [zob. TEI Guidelines]. Ponieważ wytyczne TEI mają bardzo szerokie spektrum zastosowań w świecie wymiany informacji elektronicznej, w konkretnych aplikacjach stosowane są jedynie wybrane elementy. Ponadto w pewnych obszarach, np. istotnych z punktu widzenia lingwistyki korpusowej, wytyczne TEI zdają się być niekompletne. W pewnym sensie, odpowiedzią na te braki jest standard CES (Corpus Encoding Initiative). Został on zaprojektowany z myślą o wykorzystaniu w szeroko rozumianej inżynierii lingwistycznej, przede wszystkim do wymiany wszelkiego rodzaju danych językowych, m.in. korpusów tekstowych. Standard ten jest zgodny z wytycznymi Text Encoding Initiative, choć stosuje tylko niektóre - 4 -

5 elementy TEI (np. strukturę nagłówka) [zob. CES oraz Bowker, Pearson 2002: 80-81] Anotacja dokumentów, w tym korpusów tekstowych, odbywa się na podstawie ściśle określonych zasad i z wykorzystaniem zdefiniowanych zestawów znaczników. Początkowo zarówno w TEI, jak i w CES jako uniwersalny metajęzyk anotacji dokumentów stosowano język formalny SGML. Jednak w związku z jegp ograniczeniami oraz wymogami kodowania coraz bardziej złożonych dokumentów, w standardzie TEI zaproponowano nowy metajęzyk XML. SGML (Standard Generalized Markup Language) jest hierarchicznie zorientowanym metajęzykiem, umożliwiającym ujednolicony opis struktury i zawartości dokumentu tekstowego zapisanego w formie elektronicznej za pomocą znaczników (tagów). SGML został opracowany jako międzynarodowy standard [ISO 8879:1986], niezależny od platformy sprzętowej oraz środowiska oprogramowania. Dokumenty w standardzie SGML są zapisane w postaci czystego (zwykłego, niezakodowanego) tekstu (ang. plain text). Pola znaczników wyróżnione są za pomocą nawiasów trójkątnych <...>, z tym, że tag początkowy ma postać <... >, natomiast tag końca charakteryzuje dodatkowo ukośnik </...>. Co istotne, same znaczniki występują również w postaci zwykłego tekstu, a nie kodu, który mógłby odczytać jedynie komputer. W związku z tym tagi się częścią opisywanego dokumentu i są przenoszone między komputerami razem z dokumentem. Następcą SGML-a jest XML (Extensible Markup Language), uniwersalny metajęzyk wymiany informacji (przede wszystkim przez sieć Web), podobnie jak SGML niezależny od środowiska sprzętowego oraz stosowanego systemu operacyjnego, rozszerzalny, czyli umożliwiający definiowanie własnych tagów, jednak dzięki któremu można opisać nawet najbardziej skomplikowane strukturalnie dokumenty [zob. SGML, XML oraz Bowker, Pearson 2002: 83; Gamper 2001: 115] Od strony struktury, według standardów TEI, dokument składa się z nagłówka oraz tekstu. W nagłówku umieszczane są metainformacje, które można ogólnie nazwać dokumentacją korpusu (zob. punkt 2.1.) 1. Tego typu dane umożliwiają porządkowanie i wyszukiwanie dokumentów o zadanych atrybutach. Wykorzystuje się do tego specjalne programy wyszukiwawcze (ang. retrieval programs). Tekst z kolei opisany jest pod kątem struktury (podziału na rozdziały, akapity, czy nawet zdania) oraz rozwiązań graficznych i typograficznych [McEnery, Wilson 2001: 35]. 1 Struktura tagów występujących zarówno w nagłówku, jak i opisujących strukturę tekstu jego struktury jest bardzo rozbudowana. Zainteresowanego Czytelnika odsyłam bezpośrednio do dokumentacji standardów CES i TEI, które są dostępne w Internecie (zob. w bibliografii odpowiednio CES i TEI)

6 Celem ilustracji, zarówno w SGML-u, jak i XML-u, tag title odnosi się do tytułu tekstu. Znacznik ten zostaje umieszczony w nagłówku dokumentu i ma następującą postać (wykorzystano tytuł niniejszego artykułu): <title> Anotacja korpusów tekstów specjalistycznych </title> Z kolei w przypadku opisu struktury dokumentu, jako przykładowe można podać następujące tagi: tag wyróżniający akapit: <p>; tag wyróżniający tekst w cudzysłowie: <q> lub wypowiedź ujętą w cudzysłów: <quote>; tag wyróżniający zdanie ortograficzne (rozumiane tu jako ciąg znaków od wielkiej litery do kropki wraz ze spacją, niekoniecznie posiadające wszystkie elementy zdania w sensie lingwistycznym): <s> [zob. TEI Guidelines oraz Johansson 1994: 93]. Poniżej przedstawiono sposób oznaczenia przykładowego zdania z niniejszego artykułu: <s>od strony struktury dokumentu, według standardów TEI, dokument składa się z nagłówka oraz tekstu </s> Do tej pory skrótowo omówiłem anotację odnoszącą się dokumentacji oraz struktury tekstu. Dalej przedstawię dokładniej najpowszechniejszą formą anotacji lingwistycznej, a mianowicie anotację części mowy (POS Part-of-Speech Annotation/Tagging). Anotacja części mowy była jednym z pierwszych rodzajów anotacji lingwistycznej. Produktem takiej anotacji jest specjalny kod, przyjmujący formę znacznika/taga, dołączany do poszczególnych wyrazów i wskazujący część mowy, do której należy dana jednostka leksykalna. Opis taki może być podstawą dalszej obróbki danych korpusowych, a mianowicie analizy składniowej (ang. parsing) czy anotacji semantycznej [McEnery, Wilson 2001: 46]. Istnieją dwa rodzaje anotacji: anotacja osadzona, w której tagi znajdują się bezpośrednio w tekście korpusu (ang. embeded annotation) oraz anotacja zewnętrzna, w której opis poszczególnych elementów tekstu korpusu znajduje się w oddzielnym pliku (ang. standalone annotation). W pierwszym przypadku tagi są widoczne i dlatego muszą zostać w pewien sposób wyodrębnione z zasadniczego tekstu korpusu (na przykład za pomocą podkreślnika dolnego ( _ ) lub nawiasów). W drugim przypadku tekst korpusu pozostaje wolny od dodatkowych znaczników, a opisy są przyporządkowane poszczególnym elementom tekstu za pomocą hiperłączy (dowiązań). Dzięki anotacji zewnętrznej tekst korpusu jest w pełni czytelny, co jest szczególnie istotne w wypadku zastosowania anotacji wielostopniowej. Drugi rodzaj anotacji jest dziś proponowany przez CES, jednak większość - 6 -

7 powszechnie dostępnych programów nie obsługuje tego typu anotacji [Bański 2003: 6 i n.; McEnery, Xiao, Tono 2006: 44 i n.; McEnery, Wilson 2001: 38] Anotacja może być przeprowadzona automatycznie, półautomatycznie lub ręcznie. Oprogramowanie do automatycznej anotacji (ang. tagger) wykorzystuje do tego celu metody probabilistyczne oraz lingwistyczne (np. wcześniej anotowany korpus, tzw. treningowy, na którym program uczy się ; specjalne słowniki; analizatory morfologiczne; itp.). Pierwsze programy tego typu nie charakteryzowały się zbyt dużą dokładnością: na przykład program TAGGIT, który posłużył do anotacji Korpusu Browna (The Brown Corpus), osiągał dokładność na poziomie ok. 77%. Współczesne programy uzyskują precyzję sięgającą 97% (np. CLAWS Constituent Likelihood Automatic Word-tagging System), który posłużył do anotacji Brytyjskiego Korpusu Narodowego (BNC British National Corpus) [zob. CLAWS oraz McEnery 2003: 458]. Jeżeli współczynnik błędu na poziomie 3% jest do przyjęcia, wówczas teksty mające tworzyć korpus można anotować bez przeszkód w pełni automatycznie. Jeśli jednak wymagana jest o wiele wyższa dokładność, automatycznej anotacji musi towarzyszyć weryfikacja dokonywana przez lingwistów-anotatorów. Weryfikacja ta polega na ujednoznacznianiu (ang. disambiguation) kategorii lingwistycznych, które program sklasyfikował jako niejednoznaczne, oraz na rejestracji błędów w celu wprowadzenia zmian w wykorzystywanym oprogramowaniu Jak wspomniałem wyżej, jednym z programów do anotacji części mowy jest CLAWS. Na stronie internetowej Centre for Computer Corpus Research for Language w Lancaster University każdy może poddać anotacji dowolny tekst w języku angielskim o objętości do 300 wyrazów (wersja próbna zob. < Ponadto na stronie zamieszczono również inne przydatne informacje na temat anotacji, m.in. zestawy tagów (ang. tagset), wybraną literaturę przedmiotu, ciekawe odnośniki internetowe i in. Poniżej przedstawiono przykładowe kody z wykazu tagów części mowy w wersji C5 programu CLAWS. Zestaw ten posłużył do anotacji korpusu BNC i w pełnej wersji zawiera niewiele ponad 60 kodów. Najnowszy zestaw, w wersji C7, to już około 160 kodów [zob. BNC2 Guide]. AJ0 AT0 AV0 CJC CJS DPS NN0 NN1 przymiotnik (np. gold, old, beautiful) przedimek (np. the, a, an, no) przysłówek (np. often, well, furthest) spójnik wprowadzający zdanie współrzędnie złożone (np. and, or, but) spójnik wprowadzający zdanie podrzędnie złożone (np. although, when) zaimek dzierżawczy (np. your, their, his) rzeczownik neutralny pod względem liczby (np. aircraft, data) rzeczownik pospolity w liczbie pojedynczej (np. pencil, goose, time) - 7 -

8 NN2 rzeczownik pospolity w liczbie mnogiej (np. pencil, geese, times) NP0 nazwa własna (np. London, Michael, Mars) PNP zaimek osobowy (np. I, you, them) PRF przyimek of PRP przyimek (about, at, in, on, with) PUN tag opisujący znak interpunkcyjny (np.., : ;) VBB forma teraźniejsza czasownika be VHB forma teraźniejsza czasownika have VM0 czasownik modalny (np. will, would, can, could) VVB forma teraźniejsza dowolnego czasownika(np. give, work) VVD forma przeszła dowolnego czasownika (np. gave, worked) VVG forma -ing dowolnego czasownika (np. cooking, working) VVI forma bezokolicznika dowolnego czasownika (np. give, work) VVN imiesłów czasu przeszłego dowolnego czasownika (czyli tzw. III forma czasownika, np. given, worked) VVZ forma czasownika w 3 os. l. poj. (np. gives, works) Tabela 1 Przykładowe kody z zestawu tagów w wersji C5 programu CLAWS. Jak łatwo można zauważyć, kody literowe większości tagów nie są tworzone wyłącznie w postaci czytelnej dla maszyny albo specjalistów mają również ułatwić analizę wszystkim użytkownikom korpusu. W niektórych przypadkach z łatwością można wyprowadzić znaczenie danego kodu, na przykład kod VHB odnosi się do czasownika (ang. verb=v) mieć, posiadać (ang. have=h) w formie podstawowej (ang. base form=b), a kod NN2 do rzeczownika pospolitego w liczbie mnogiej Korzystając z cytowanej wyżej strony internetowej, poddałem anotacji tekst z dziedziny astrofizyki o długości około 1500 wyrazów. Poniżej znajduje się cząstkowy wynik przeprowadzonej anotacji zgodnie z zestawem tagów w wersji C5: Black_AJ0 holes_nn2 are_vbb most_av0 often_av0 detected_vvn by_prp the_at0 radiation_nn1 produced_vvn when_cjs they_pnp gravitationally_av0 pull_vvb in_prp surrounding_aj0 gas_nn1,_, in_prp a_at0 process_nn1 called_vvn accretion_nn1._. The_AT0 efficiency_nn1 with_prp which_dtq the_at0 hot_aj0 gas_nn1 radiates_vvz its_dps thermal_aj0 energy_nn1 strongly_av0 influences_vvz the_at0 geometry_nn1 and_cjc dynamics_nn0 of_prf the_at0 accretion_nn1 flow_nn1._. [Narayan, Quataert, 2005, Black Hole Accretion, Science ] Cały proces anotacji trwał około trzech sekund. Biorąc pod uwagę szybkość łącza internetowego oraz proces generowania nowej strony internetowej, sama anotacja całego fragmentu musiała zająć maszynie o wiele mniej czasu. W powyższym - 8 -

9 tekście tagi są częścią głównego tekstu korpusu i są połączone z wyrazami (i innymi elementami występującymi w tekście) za pomocą podkreślnika. W najnowszej wersji korpusu BNC, wykorzystującego standard TEI oraz metajęzyk XML, tagi występują przed wyrazem i znajdują się między nawiasami trójkątnymi z oznaczeniem w, dla wyrazów oraz c, dla znaków interpunkcyjnych, wraz z atrybutami, którym przypisywana jest konkretna wartość (np. c5=nn2 atrybut c5, któremu przypisano wartość NN2). W ramach każdego taga podawane są następujące informacje: część mowy według zestawu kodów CLAWS w wersji C5 (atrybut c5 ), forma podstawowa wyrazu, będąca wynikiem przeprowadzonej lematyzacji (atrybut hw ang. headword) oraz uproszczony kod części mowy (atrybut pos ). <w c5= AJ0 hw= black pos= ADJ >Black </w> <w c5= NN2 hw= hole pos= SUBST >holes </w> <w c5= VBB hw= be pos= VERB >are </w> <w c5= AV0 hw= most pos= ADV >most </w> <w c5= AJ0 hw= often pos= ADV >often </w> <w c5= VVN hw= detect pos= VERB >detected </w> <w c5= PRP hw= by pos= PREP >by </w> <w c5= AT0 hw= the pos= ART >the </w> <w c5= NN1 hw= radiation pos= SUBST >radiation </w> <w c5= VVN hw= produce pos= VERB >produced </w> <w c5= CJS hw= when pos= ADJ >when </w> <w c5= PNP hw= they pos= PRON >they </w> <w c5= AV0 hw= gravitationally pos= ADV >gravitationally </w> <w c5= VVB hw= pull pos= ADJ >pull </w> <w c5= PRP hw= in pos= ADJ >in </w> <w c5= AJ0 hw= surrounding pos= ADJ >surrounding </w> <w c5= NN1 hw= gas pos= SUBST >gas </w> <c c5= PUN >, </c> <w c5= PRP hw= in pos= PREP >in </w> <w c5= AT0 hw= a pos= ART >a </w> <w c5= NN1 hw= process pos= SUBST >process </w> <w c5= VVN hw= call pos= VERB >called </w> <w c5= NN1 hw= accretion pos= SUBST >accretion</w> <c c5= PUN >. </c> 3. W jednym artykułów zaprezentowałem sposób pozyskiwania terminów jedno- i wielowyrazowych z nieanotowanych korpusów tekstów specjalistycznych przy użyciu dostępnych programów do obróbki danych korpusowych [Łukasik 2007]. Poniżej przedstawiłem metodę ekscerpcji terminologii wykorzystującą korpusy anotowane

10 3.1. Wiele programów korpusowych pozwala na pracę z korpusami anotowanymi (np. MonoConc Pro, AntConc, WordSmith). W przedstawionym poniżej badaniu wykorzystałem anotowany tekst specjalistyczny, fragment którego znajduje się w punkcie , oraz programy AntConc i MonoConc Pro 2.2. Poszczególne etapy badania zilustrowane zostaną zrzutami ekranowymi, na publikację których zgodzili się ich autorzy, odpowiednio Laurence Anthony oraz Michael Barlow. W celu efektywnej pracy z korpusem wykorzystującym anotację osadzoną, w obydwu programach należy najpierw zdefiniować granice tagów (ang. delimiter), tj. podać symbol, który oddziela tag od elementów tekstu. Jest to niezbędne, gdyż w przeciwnym wypadku nie będzie możliwe tekstowe przeszukiwanie korpusu, tzn. bez odwoływania się do anotacji. W naszym tekście granice wyznacza podkreślnik, natomiast w przypadku korpusu BNC byłyby to nawiasy trójkątne otwierające (<w... oraz <c...) oraz zamykające tag (... >) (zob. Ryc. 1 i 2). Granice tagów występujących poza wyrazem. Granice tagów występujących obok wyrazów (w naszym przypadku podkreślnik). Granice tagów nagłówka. Ryc. 1 Definiowanie granic tagów. Program AntConc Granice tagów występujących obok wyrazów. Ryc. 2 Definiowanie granic tagów. Program MonoConc Pro 2.2. Granice tagów występujących poza wyrazem. Tu wzorzec dla BNC. Zdefiniowawszy granice tagów, można przejść do właściwych kwerend służących ekscerpcji terminów. W przypadku korpusu anotowanego i przedstawianych tu programów, do tego celu wykorzystamy funkcję konkordancji (konkordancja to zbiór przykładów występowania danego wyrazu (frazy) w jego bezpośrednim otoczeniu tekstowym; zob. Ryc. 5 i 6)

11 W programie AntConc nie przewidziano oddzielnego okna umożliwiającego przeprowadzenie kwerend konkordancyjnych dla korpusów anotowanych. Aby przeszukać korpus pod kątem występujących w nim tagów, należy skorzystać z symbolu wieloznacznego (ang. wildcard), który w naszym przypadku zastąpi wyraz. Przykładowe zapytanie przedstawiłem na Ryc. 3. Ryc. 3 Kwerenda z wykorzystaniem tagów. Schemat: rzeczownik w l. poj. + rzeczownik w l. poj (NN1). Program AntConc W programie MonoConc Pro istnieje specjalna zakładka umożliwiająca tworzenie zapytań z wykorzystaniem tagów. Jednak przed przeprowadzeniem kwerendy należy o tym program poinformować, po pierwsze wybierając odpowiednią funkcję z listy (Tag Search), po drugie wprowadzając umowny symbol przed właściwym tagiem (tu: & ) (Ryc. 4). Obydwa programy nie ograniczają kreatywności użytkownika, dzięki czemu można przeprowadzać, np. kwerendy mieszane, tj. składające się zarówno z wyrazów, jak i tagów. I tak kwerenda computer &V* umożliwi wyszukanie wszystkich czasowników (wszystkie tagi czasowników rozpoczynają się od litery V) łączących się z rzeczownikiem computer. W ten sposób można badać łączliwość na poziomie części mowy. Poniżej (Ryc. 4) przedstawiłem kwerendę dla zapytania: rzeczownik w dowolnej liczbie + rzeczownik w dowolnej liczbie (schemat tagów: &NN* &NN*). Pole wprowadzania kwerendy. Schemat: rzeczownik + rzeczownik. Pole wyboru sposobu wyszukiwania. Tu z wykorzystaniem tagów. Opcje wyszukiwania, m.in. maksymalna liczba konkordancji, szerokość kontekstu, definicja symboli wieloznacznych itd. Ryc. 4 Kwerenda z wykorzystaniem tagów. Schemat: rzeczownik w dowolnej liczbie (NN*) + rzeczownik w dowolnej liczbie (NN*). Program MonoConc Pro

12 Wynik kwerendy, czyli konkordancja, jest wyświetlana wraz z tagami, które w dowolnej chwili można ukryć, a samą konkordancję uporządkować, na przykład alfabetycznie (Ryc. 5). Ryc. 5 Konkordancja dla schematu tagów NN* + NN* z tagami widocznymi. Program MonoConc Pro 2.2. Ryc. 6 Konkordancja dla schematu tagów NN* + NN* z tagami ukrytymi. Program MonoConc Pro Poniżej przedstawiłem wyniki ekscerpcji terminów jedno- i wielowyrazowych. Na potrzeby niniejszego badania przyjmuję założenie, że większość leksykonów terminologicznych tworzą nominalne jednostki terminologiczne [zob

13 np. Winfield 1995: 414]. Ponieważ wykorzystywany w badaniu tekst nie został zlematyzowany, należało przeprowadzić kwerendy umożliwiające identyfikację terminów w liczbie pojedynczej (tag NN1), mnogiej (NN2) lub będące neutralne lub niejednoznaczne pod względem liczby, np. pluralia tantum (tag NN0). Poza tym pewna część terminów to eponimy, np. promień Schwarzschilda (ang. Scharzschild radius), należało więc w kwerendzie uwzględnić tag nazw własnych (NP0). Ponieważ tagi spełniające wymogi badania są podobne (zaczynają się od litery N), można zbudować kwerendę, która wyszuka wszystkie wystąpienia zadanych kategorii. Należy w tym celu zastosować symbol wieloznaczny, dzięki czemu otrzymujemy następującą kwerendę: &N*. Dzięki niej program odnalazł 392 wyrazy odpowiadające postawionym wymogom. Poniżej znajduje się kompletna lista niepowtarzających się wyrazów: 20%, 3%, accretion, accretor, AGN, amount, analysis, astronomers, astrophysicists, astrophysics, barrier, basis, binaries, bulge, bursts, center, classes, clouds, clusters, collapse, companion, connection, contrast, core, coupling, curiosities, debris, deposits, details, determination, disk, disks, distances, dynamics, Earth, Eddington, efficiency, Einstein, electrons, energy, ergs, event, evidence, evolution, example, existence, explanation, explosions, extremes, Fig. (Figure), flow, focus, forces, form, formation, forms, fraction, fragment, friction, fuel, fusion, galaxies, galaxy, gamma-rays, gas, geometry, gravity, heat, hint, hole, holes, horizon, horizons, host, inflow, jets, JO, light, limit, luminosities, luminosity, manifestations, mass, masses, material, matter, momentum, neutrinos, neutron, nucleus, number, object, objects, observations, orbits, orientation, parameters, parent, physics, place, planets, plasma, plasmas, power, predictions, presence, prevalence, process, processes, protons, radiation, radius, range, rate, rates, region, relativity, research, risk, rocks, role, rotation, scale, scales, self-gravity, signatures, simulation, simulations, source, sources, spectra, speed, spin, star, stars, stresses, structure, Sun, supernovae, supply, surface, surroundings, system, systems, term, theory, thickness, time, times, universe, varieties, volume, waves, Way, weight, wells, world, x-rays, XRBs. Już na podstawie powyżej listy można stwierdzić, że pozyskiwanie terminologii z korpusów tekstów specjalistycznych anotowanych ze względu na części mowy jest o wiele efektywniejsze, niż ekscerpcja terminów z korpusów nieanotwanych (np. przy wykorzystaniu list frekwencyjnych lub n-gramów) większość wyrazów z powyższego wykazu to albo terminy jednowyrazowe, albo elementy terminów wielowyrazowych. Oczywiście wymaga ona początkowego założenia, dotyczącego w przedstawianym tu badaniu fraz nominalnych. Konieczność przyjęcia pewnego założenia początkowego stanowi wyraźne potwierdzenie słów S. Gruczy, który pisze, że [w] praktyce nie sposób zrealizować badań czysto kwantytatywnych. Efekty badań kwantytatywnych są bowiem wysoce zależne od wstępnych decyzji o charakterze kwalitatywnym [Grucza 2008: 192]. Podobne założenie jest konieczne w przypadku pozyskiwania terminów wielowyrazowych. W tym celu wykorzystałem schematy nominalne stosowane w automatycznej ekscerpcji terminologii (w nawiasach podałem odpowiadające im kwerendy zastosowane w niniejszym badaniu):

14 (a) rzeczownik + rzeczownik (&NN* &NN*); (b) przymiotnik + rzeczownik (&AJ0 &NN*); (c) rzeczownik + dowolny przyimek + rzeczownik (&NN* &PRF &NN*); (d) rzeczownik + przyimek of + rzeczownik (&NN* &PRF &NN*) [Jacquemin, Bourigault 2003: 605]. Poniżej znajdują się wyniki przeprowadzonych kwerend (podano wystąpienia niepowtarzające się): (a) 31 wyświetlonych złożeń: accretion disk, accretion disks, accretion flow, accretion rate, companion star, core collapse, disk thickness, event horizon, event horizons, formation process, fuel supply, galaxy mass, gas clouds, hole mass*, host galaxy, neutron stars, parent stars, rotation rate, supply rate*, time scale (b) 135 wyświetlonych złożeń: accreting gas, accreting material, active role, angular momentum, binding energy, black hole, black holes, central object, characteristic rates, collapsing star, collisionless plasma, compelling evidence, current research, dark matter, direct evidence, disk-like structure, dissipated energy, electromagnetic waves, elliptical orbits, energetic explosions, extended system, galactic center, galactic nucleus, gamma-ray bursts, General Relativity, given galaxy, gravitating object, high accretion, hot gas, inefficient accretor, inflowing gas, ionized plasma, known source, large distances, low accretion, magnetic forces, magnetic stresses, major classes, mass accretion, mass energy, mass supply, massive stars, mere curiosities, Milky Way, new star, normal surface, nuclear fuel, nuclear fusion, numerical simulations, observational manifestations, opposite limit, other forces, outside world, potential energy, potential wells, powerful sources, precise explanation, promising explanation, radiative efficiency, relativistic jets, resulting accretion, simple objects, simple physics, small fraction, small volume, solar system, striking predictions, strong hint, sufficient momentum, supermassive holes, surrounding gas, thermal energy, thick accretion, thick disks, thin accretion, thin disks, tight connection, total number, ubiquitous process, ultrarelativistic jets, vertical thickness, virtual surface, x-ray binaries (c) 10 wyświetlonych złożeń: disks in astrophysics, energy via neutrinos, fusion in stars, gas into heat, holes with masses, processes in astrophysics, range in mass, structure on scales (d) 16 wyświetlonych złożeń: accretion of matter, amount of energy, center of mass, clusters of galaxies, disk of gas, disk of planets, evolution of structure, form of friction, inflow of matter, manifestations of accretion, number of stars, prevalence of disks, source of power, sources of x-rays, speed of light Wśród wyrażeń wielowyrazowych wymienionych w podpunktach a-d większość to potencjalne terminy, choć niektóre frazy wymagają dalszej analizy konkordancji lub ew. poszerzenia horyzontu kwerendy (do nawet kilku wyrazów w schemacie) celem odszukania pełnych jednostek wielowyrazowych

15 5. Podsumowując należy stwierdzić, że anotowane gramatycznie korpusy tekstów specjalistycznych mogą stać się nieocenionym narzędziem każdego terminologa, terminografa i tłumacza tekstów specjalistycznych. Wykorzystane w warsztacie powyższych specjalności mogą dostarczyć precyzyjnych danych w zakresie ekscerpcji terminologii, wyszukiwania kolokacji czy konkretnych związków wyrazowych. Nie bez powodu z tego typu korpusów korzysta szerokie grono specjalistów z dziedziny inżynierii lingwistycznej. Z pewnością opracowanie nowych typów anotacji tekstów fachowych i automatyzacja tego procesu może w przyszłości zmienić oblicze badań nad językami specjalistycznymi. BIBLIOGRAFIA: AntConc, wersja , autor programu: Laurence Anthony, dostępny nieodpłatnie na stronie domowej autora: mmmmmmmmmmm < data dostępu: Bański P., 2003, Anotacja zewnętrzna: wpływ architektury korpusu IPI PAN na efektywność jego tworzenia i wykorzystania, artykuł dostępny ze strony internetowej: < data dostępu: Bowker L, Pearson J., 2002, Working with Specialized Language. A practical guide to Using corpora, London: Routledge. BNC2 Guide, BNC POS-tagging Manual. Guidelines to wordclass tagging, dostępny na stronie internetowej < data dostępu: Carletta J. et al., 2004, A generic approach to software support for linguistic annotation using XML, [w:] G. Sampson, D. McCarthy [red.], Corpus Linguistics. Readings in a widening discipline, London, New York: Continuum, s CES, Corpus Encoding Standard, strona internetowa projektu: < data dostępu: CLAWS, CLAWS 7 Manual, < data dostępu: EAGLES, 1996, Recommendations for the Morphosyntactic Annotation of Corpora, dostępny na stronie internetowej: < data dostępu: Gamper J., 2001, Improving Textual Knowledge through Markup and Ontologies, [w:] F. Mayer [red.], Language for Special Purposes: Perspectives for the New Millennium, Tübingen: Gunter Narr Verlag Tübingen, s Grucza S., 2007, O konieczności tworzenia korpusów tekstów specjalistycznych, [w:] S. Grucza [red.], W kręgu teorii i praktyki lingwistycznej, Warszawa: WUW, s

16 Grucza S., 2008, Teksty specjalistyczne : Językowe eksponenty wiedzy specjalistycznej, [w:] Ł. Karpiński, Języki Specjalistyczne 8. Kulturowy i leksykograficzny obraz języków specjalistycznych, Warszawa: Katedra Języków Specjalistycznych, s Hunston S., 2002, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. ISO 8879: 1986, Information processing Text and office systems Standard Generalized Markup Language. Jacquemin C., Bourigault D., 2003, Term extraction and automatic indexing, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s Johansson S., 1994, Encoding a Corpus in Machine-Readable Form: The Approach of the Text Encoding Initiative, [w:] B.T.S Atkins., A. Zampolli [red.], Computational Approaches to the Lexicon, Oxford: Oxford University Press, s Łukasik M., 2007, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. I), [w:] M. Łukasik [red.], Debiuty Naukowe I. Wiedza Korpus Słownik, Warszawa: BAJT Katedra Języków Specjalistycznych, s Łukasik M., 2008, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. II). Korpusy paralelne, [w:] M. Łukasik [red.], Debiuty Naukowe II. Terminologia translatoryka - terminografia, Warszawa: BAJT Katedra Języków Specjalistycznych, s McEnery T., 2003, Corpus linguistics, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s McEnery T., Xiao R., Tono Y., 2006, Corpus-based Language Studies. An advanced resource book, London and New York: Routledge. McEnery T., Wilson A., 2001, Corpus Linguistics. An introduction, Edinburgh: Edinburgh University Press. MonoConc Pro, wersja 2.2, autor programu: Michael Barlow, program dostępny za opłatą. Wersja demonstracyjna programu znajduje się na cytowanej stronie internetowej: < data dostępu: Narayan R., Quataert E., 2005, Black Hole Accretion, [w:] Science, Vol. 307, No. 5706, , s. 63. Piotrowski T., 2004, Komputerowe korpusy tekstowe polszczyzny, artykuł dostępny na stronie domowej autora: < data dostępu: Przepiórkowski A., Woliński M., 2001, Projekt anotacji morfosyntaktycznej korpusu języka polskiego, dokument dostępny na stronie internetowej: < data dostępu:

17 SGML, About Standard Generalized Markup Language, dokument dostępny na stronie internetowej: < data dostępu: Sinclair J., 2003, Corpus creation, [w:] G. Sampson, D. McCarthy [red.], Corpus Linguistics. Readings in a widening discipline, London, New York: Continuum, s Sinclair J., 2007, Language and computing, past and present, [w:] A. Khurshid, M. Rogers [red.], Evidence-based LSP: Translation, Text and Terminology, s TEI, Text Encoding Initiative, strona internetowa projektu: < data dostępu: TEI Guidelines, < data dostępu: Tsakona V., 2007, Bilingualisation in practice: Terminological issues in bilingualising a specialised glossary, [w:] International Journal of Lexicography, Vol. 20, No. 2, s XML, A Technical Introduction to XML, dokument dostępny na stronie internetowej : < data dostępu: Waliński J., 2005, Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej, [w:] B. Lewandowska-Tomaszczyk [red.], Podstawy językoznawstwa korpusowego, Łódź: Wydawnictwo UŁ; dokument dostępny w wersji elektronicznej: < Typologia_korpusow.doc>, data dostępu: 20 września Winfield L., 1995, The special lexicon and problems of EST/ESP, [w:] R. Dirven, J. Vanparys [red.] Current Approaches to the Lexicon. A Selection of Papers Presented at the 18th LAUD Symposium, Duisburg, March, 1993, Woliński M., 2003, System znaczników morfostntaktycznych w korpusie IPI PAN, dokument dostępny na stronie internetowej: < data dostępu: