NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II).

Podobne dokumenty
Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Oprogramowanie typu CAT

1. Ogólne ćwiczenia przygotowawcze

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Formatowanie tekstu przy uz yciu stylo w

Lokalizacja Oprogramowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Dr Marek Łukasik adiunkt w Zakładzie Filologii Angielskiej Instytut Neofilologii, Akademia Pomorska w Słupsku

Biblioteka Wirtualnej Nauki

Praktyczna nauka drugiego języka obcego II

NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMINOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALISTYCZNYCH (CZ. I)

Angielsko-polskie i polsko-angielskie słowniki specjalistyczne ( ) Analiza terminograficzna

INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA.

Patenty azjatyckie dlaczego nie?

KARTA PRZEDMIOTU. semestru 4), B2+ (na początku semestru 5), C1 (na początku semestru 6)

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

ZASADY PUBLIKACJI I WSKAZÓWKI REDAKCYJNE I ARTYKUŁY I ROZPRAWY. Aby artykuł mógł zostać przyjęty do druku, musi spełniać następujące kryteria:

Biblioteka Wirtualnej Nauki

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Lokalizacja Oprogramowania

Rozdział 5: Style tekstu

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

Krzysztof Kadowski. PL-E3579, PL-EA0312,

NARZĘDZIA Narzędzia Narzędzia

NIEZBĘDNIK UŻYTKOWNIKA

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Program warsztatów CLARIN-PL

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Jak dodać wpis? Po zalogowaniu na blog znajdujesz się w panelu administracyjnym. Po lewej stronie widzisz menu:

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

ĆWICZENIE 1 SKŁAD TEKSTU DO DRUKU

Programy wspomagające tłumaczenia (CAT)

Legislator Premium. Jak to działa czyli krótki opis funkcjonalności

Instrukcja obsługi Zaplecza epk w zakresie zarządzania tłumaczeniami opisów procedur, publikacji oraz poradników przedsiębiorcy

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Łączenie liczb i tekstu.

Dane słowa oraz wyrażenia są tłumaczone przy pomocy polecenia Przetwarzanie > Tłumaczenie

Podręcznik użytkownika Obieg dokumentów

Zasady Wykorzystywania Plików Cookies

Wszystko na temat wzoru dokumentu elektronicznego

KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH

EDYCJA TEKSTU MS WORDPAD

LEGISLATOR. Data dokumentu:24 maja 2013 Wersja: 1.3 Autor: Paweł Jankowski, Piotr Jegorow

Przyszłe rozporządzenia UE

TECHNIKI INFORMACJI I KOMUNIKACJI. I SSA I stopnia

Bibliografia Etnografii Polskiej

Semantyczne podobieństwo stron internetowych

Dodawanie grafiki i obiektów


5.5. Wybieranie informacji z bazy

Zadaniem tego laboratorium będzie zaznajomienie się z podstawowymi możliwościami kompozycji strony i grafiki

Narzędzia do automatycznego wydobywania kolokacji

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat

Spis treści. Analiza Ryzyka Instrukcja Użytkowania

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

CAŁOŚĆ OPRACOWANIA POWINNA ZAWIERAĆ MAKSYMALNIE 10 STRON.

OvidSP - Skrócony opis wyszukiwania - Wyszukiwanie proste i złożone,

Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym

Studia Iuridica Toruniensia WYMOGI EDYTORSKIE

System Monitorowania Rozwoju STRATEG

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Bazy danych TERMINOLOGIA

Narzędzia Computer Aided Translation jak i po co ich używać

Instrukcja użytkownika Internetowej Platformy Edukacyjnej UPRP

Studia Iuridica Toruniensia WYMOGI EDYTORSKIE

System MWTB to program, który stwarza warunki do prezentacji Waszej firmy.

ELEKTRONICZNA KSIĄŻKA ZDARZEŃ

W otrzymanym pakiecie źródłowym znajdują się pliki do edycji (tsmart i tsmartdoc). Edytuj tłumaczenia w plikach *.tsmart

Dopuszczalność skanu oferty w postępowaniu o zamówienie publiczne

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

MINIMUM PROGRAMOWE DLA STUDENTÓW MISH od roku akademickiego 2019/2020 SPECJALNOŚĆ PRZEKŁAD I TECHNOLOGIE TŁUMACZENIOWE

PRZEWODNIK PO PRZEDMIOCIE. Teoria przekładu z elementami warsztatu tłumacza Angielski Język Biznesu

SPIS ILUSTRACJI, BIBLIOGRAFIA

Instrukcja do modułu Kontroli Zarządczej (KZ)

UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI

Instalowanie VHOPE i plików biblioteki VHOPE

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

MS Word Długi dokument. Praca z długim dokumentem. Kinga Sorkowska

Pomoc. BIP strona portalu

Sylabus Moduł 2: Przetwarzanie tekstów

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

W oknie tym wybieramy pożądany podział sekcji, strony, kolumny. Naciśnięcie powoduje pojawienie się następującego okna:

Inforex - zarządzanie korpusami i ich anotacja

KATEGORIA OBSZAR WIEDZY

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

System Wymiany Informacji. Instrukcja obsługi mapy

Prezentacja multimedialna MS PowerPoint 2010 (podstawy)

ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH

Narzędzia do automatycznego wydobywania kolokacji

I. Raport wykonywalności projektu

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

PRZEWODNIK PO PRZEDMIOCIE. Teoria przekładu i języków specjalistycznych Angielski Język Biznesu

Transkrypt:

Marek Łukasik NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II). KORPUSY PARALELNE 1. Niniejsze opracowanie jest kontynuacją rozważań zaprezentowanych przeze mnie w pierwszej części artykułu opublikowanego na łamach Debiutów Naukowych I [zob. Łukasik 2007]. Przedstawiłem w nim podstawowe zagadnienia z zakresu lingwistyki korpusowej, zarówno od strony teoretycznej (definicje, miejsce językoznawstwa korpusowego w hierarchii nauk, cechy korpusu tekstowego), jak i od strony praktycznej (techniczne aspekty gromadzenia i przetwarzania zbiorów danych tekstowych oraz przegląd podstawowych funkcji dwóch programów do manipulowania danymi korpusowymi: MonoConc Pro 2.2 oraz AntConc 3.2.1). Rozważania te ujęte zostały w kontekście możliwości wykorzystania korpusów w warsztacie terminologa, terminografa oraz tłumacza tekstów specjalistycznych. Zgodnie z zapowiedzią zawartą w poprzednim artykule, w niniejszej pracy skupię się na innych zastosowaniach narzędzi lingwistyki korpusowej. Z powodu ograniczeń niniejszego tomu przedstawię w nim wyłącznie problematykę pracy z korpusami paralelnymi, natomiast zagadnienia związane z anotacją korpusów tekstowych znajdą się w artykule, który ukaże się na łamach serii Języki Specjalistyczne. 1 2. Każdy korpus, na który składają się teksty dwóch różnych języków nazywamy korpusem dwujęzycznym, natomiast korpus składający się z tekstów minimum trzech języków korpusem wielojęzycznym (ang. bilingual / multilingual corpus) [McEnery, Xiao, Tono 2006: 47]. Istnieją przynajmniej dwa rodzaje korpusów zbudowanych na podstawie tekstów więcej niż jednego języka: korpusy paralelne (ang. parallel corpus) oraz tzw. korpusy porównywalne (ang. comparable corpus). Należy w tym miejscu zaznaczyć, że w literaturze przedmiotu pojawiają się rozbieżności terminologiczne związane z korpusami tego typu. W niniejszej pracy przyjmuję terminy za McEnery, Xiao, Tono [2006: 47]. Korpusem paralelnym jest korpus dwu- lub wielojęzyczny składający się z tekstów oryginalnych oraz ich przekładów na jeden lub więcej języków. Korpus taki może również składać się wyłącznie z translatów [Bowker, Pearson 2002: 92-93]. 1 Niniejszy artykuł traktuję jako naturalną kontynuację części pierwszej, w związku z czym nie dokonuję ponownej eksplikacji omówionych już pojęć. Czytelnika, który nie miał jeszcze możliwości zapoznania się z ww. artykułem, odsyłam do pierwszego tomu Debiutów Naukowych. - 40 -

Korpus porównywalny składa się natomiast z tekstów, które nie są własnymi translatami [Waliński 2005: 4; podkreślenie moje M.Ł.]. Atrybut porównywalny wskazuje na to, że teksty w tego typu korpusie zostały dobrane na podstawie takich samych parametrów (wspólnych cech), np. stylu, gatunku tekstu, tematyki, medium publikacji, daty powstania, stopnia fachowości (w przypadku tekstów specjalistycznych) itd. [Bowker, Pearson 2002: 93; Waliński 2005: 4]. Należy przy tym pamiętać, że we współczesnej lingwistyce samo pojęcie korpus ma ściśle określone znaczenie wykluczające przypadkowy dobór tekstów [Łukasik 2007: 24]. W związku z tym spójność parametryczna dotyczy w równym stopniu wszystkich typów korpusów. Przykładowo, angielsko-polski astronomiczny korpus porównywalny będzie składać się z angielskich i polskich tekstów popularnonaukowych (wspólna cecha stylu i stopnia fachowości tekstu) z zakresu astronomii (wspólna dziedzina), wydanych w określonym interwale czasu (wspólny parametr temporalny). Ponieważ korpusy porównywalne są w rzeczywistości dwoma oddzielnymi korpusami jednojęzycznymi i właściwe im są narzędzia przeznaczone do badań tych ostatnich, nie będziemy się nimi zajmować w dalszej części niniejszej pracy, choć należy podkreślić, że możliwości ich wykorzystania miejscami pokrywają się z możliwościami wykorzystania korpusów paralelnych (zob. punkt 2.3.). 2.1. Jedną z najważniejszych cech a jednocześnie przesłanką funkcjonalności korpusu paralelnego jest jego uzgodnienie (ang. alignment), polegające na takim ustawieniu (lub powiązaniu czy otagowaniu) tekstu, że danemu segmentowi w podkorpusie A (np. zawierającym oryginały) będzie odpowiadał odpowiedni segment w drugim podkorpusie (np. zawierającym tłumaczenia tekstów podkorpusu A). Segmentem takim może być akapit, zdanie, fraza czy nawet pojedynczy wyraz. Wyznaczenia granic poszczególnych segmentów dokonuje się za pomocą separatorów (ang. delimiter), którymi w przypadku korpusu anotowanego będą specjalne tagi początku (np. <seg>) i końca segmentu (</seg>), natomiast w korpusie nieanotowanym separatorem może być np. nowa linijka w tekście (ang. new line delimiter). Obecnie uzgodnienie w większości przypadków odbywa się automatycznie lub półautomatycznie. Pojawia się jednak wiele problemów, gdy tekst nie został uprzednio dobrze opracowany technicznie (np. pozostawiono niejednorodności na poziomie wewnętrznego podziału tekstów) lub pojawiają się rozbieżności wynikające z zastosowanych metod tłumaczenia (np. jednemu zdaniu w tekście A nie odpowiada jedno zdanie w tłumaczeniu (w tekście B), np. powstaje sytuacja, w której pewne fragmenty pozostają nieprzetłumaczone). Na szczęście jednak coraz więcej programów do automatycznego uzgadniania tekstów radzi sobie z tymi problemami [Bowker, Pearson 2002: 102; McEnery, Wilson 2001: 152-153; McEnery, Xiao, Tono 2006: 50]. Programy do automatycznego lub półautomatycznego uzgadniania tekstów wykorzystują do tego procesu zarówno metody statystyczne (np. długość zdań, - 41 -

liczba liter w wyrazach), jak i lingwistyczne (np. wykorzystując do tego celu dedykowane, komputerowe słowniki dwu- i wielojęzyczne) [McEnery, Wilson 2001: 152; McEnery 2003: 455]. Interwencja badacza jest jednak często nieodzownym elementem całego procesu z uwagi na problemy, o których mowa powyżej. W wyidealizowanym przypadku teksty obydwu podkorpusów powinny najlepiej składać się z identycznej liczby akapitów (a nawet zdań). Z półautomatycznym uzgadnianiem tekstów mają do czynienia tłumacze wykorzystujący w swoim fachu narzędzia komputerowe (ang. CAT Computer- Aided Translation), a przede wszystkim pracujący z tzw. pamięciami tłumaczeniowymi (ang. translation memory). Wiele programów wspomagania tłumaczenia umożliwia uzgadnianie istniejących już tłumaczeń i tekstów oryginalnych, jak również tworzenie uzgodnionych pamięci tłumaczeniowych (teoretycznie nieróżniących się bardzo od korpusów paralelnych) na bieżąco, podczas wykonywania tłumaczenia. 2.2. Podstawową zaletą korpusów paralelnych jest możliwość wyświetlania przez dedykowane programy konkordancji dwu- i wielojęzycznych (ang. bilingual/multilingual concordance). Programy takie wyświetlają wszystkie wystąpienia dla danego wyrazu-kwerendy w jego bezpośrednich lewo- i prawostronnych otoczeniach tekstowych (funkcja: KWIC Key Word In Context; zob. Łukasik 2007: 42) w podkorpusie A (np. zawierającym oryginalne teksty) wraz z odpowiadającymi fragmentami tekstu w podkorpusie B (C, D itd.) (np. zawierającym translaty) [Bowker, Pearson 2002: 93; Somers 2003: 525]. Oprócz konkordancji dwu- i wielojęzycznych, współczesne programy zaprojektowane z myślą o korpusach paralelnych składają się zazwyczaj również z innych modułów, m.in. modułu uzgadniania tekstów, modułu frekwencyjnego czy modułu kolokacji. Przykładowa konkordancja dwujęzyczna została przedstawiona na Ryc. 1. 2.3. Korpusy paralelne oraz korpusy równoległe mogą pełnić bardzo ważną rolę zarówno w translatoryce i dydaktyce translacji, jak również w badaniach kontrastywnych, dydaktyce języków obcych, terminologii, leksykografii (terminografii) oraz w inżynierii lingwistycznej (NLP). Dzięki korpusom paralelnym i/lub równoległym tłumacz jest w stanie odnaleźć ekwiwalenty (zob. np. funkcje Translation oraz HotWords programu ParaConc poniżej, punkt 3.1.), porównać lingwistyczne zachowanie jednostek w języku docelowym, a teoria tłumaczenia czy językoznawstwo porównawcze wykorzysta tego typu korpusy w badaniach kontrastywnych. W dydaktyce języków obcych korpusy paralelne mogą pełnić rolę podobną do tej, którą pełni słownik dwujęzyczny [Bowker, Pearson 2002: 103]. W warsztacie terminografa z kolei, dzięki metodom statystycznym, możliwe staje się automatyczne odnalezienie zależności między różnymi korpusami (i to nie tylko na poziomie pojedynczych wyrazów), co może posłużyć do generowania matryc dwu- lub wielojęzycznych słowników specjali- - 42 -

stycznych oraz półautomatycznego tworzenia baz danych terminologicznych. Ponadto uzgodnione korpusy dwu- i wielojęzyczne (przede wszystkim paralelne) są wykorzystywane w tłumaczeniu maszynowym opartym na przykładach (ang. EBMT Example-based Machine Translation) [McEnery, Wilson 2001: 157]. 3. Celem ilustracji możliwości wykorzystania zarówno korpusów paralelnych, jak i programów do ich obsługi, poniżej przedstawiono podstawowe funkcje programu ParaConc w pracy na paralelnym mikrokorpusie stworzonym na potrzeby niniejszego artykułu. Mikrokorpus składał się z angielskich i polskich fragmentów Dyrektywy 2004/108/WE, dostępnej na stronie internetowej bazy EUR-Lex (zob. punkt 4). 3.1. Do najważniejszych funkcji programu ParaConc należą: półautomatyczne uzgadnianie tekstów (dopiero najnowsza wersja programu posiada moduł do przeprowadzania tego typu operacji; zob. McEnery, Wilson 2001: 154-155), generowanie konkordancji równoległych, generowanie frekwencji dla wszystkich podkorpusów, wyświetlanie kolokacji jednocześnie we wszystkich podkorpusach, wyszukiwanie potencjalnych ekwiwalentów dla danej kwerendy. Jak wspomniano w punkcie 2.1., niektóre programy do manipulowania korpusami paralelnymi wymagają usunięcia z tekstu wszelkich formatowań. ParaConc jest tego typu programem. Co więcej, pliki będące częścią korpusu muszą być zapisane w pliku tekstowym (.txt) w formie czystego tekstu (ang. plain text). ParaConc umożliwia obsługę od 2 do 4 języków, co oznacza, że większość operacji (w tym konkordancje dwu- i wielojęzyczne) jest w stanie przeprowadzać jednocześnie na maksimum 4 podkorpusach. Program umożliwia ponadto odpowiednie zdefiniowanie separatorów w przypadku wykorzystywania już uzgodnionych korpusów. 3.2. Jak już wspomniano, najważniejszą zaletą korpusów paralelnych jest możliwość generowania na ich podstawie konkordancji dwu- i wielojęzycznych. Poniżej skupimy się właśnie na tej funkcji. Najpierw jednak przedstawimy równoległą listę frekwencyjną wygenerowaną dla tekstów badanego mikrokorpusu (Ryc. 1). Nie różni się ona zasadniczo od listy frekwencyjnej korpusu jednojęzycznego, z tym wyjątkiem, że przedstawia jednocześnie dane dla wszystkich badanych podkorpusów. - 43 -

Ryc. 1 Dwujęzyczna lista frekwencyjna. Program ParaConc. W przypadku konkordancji dwu- lub wielojęzycznych istnieje możliwość przeprowadzenia kwerendy dla któregokolwiek podkorpusu (Ryc. 2). W przypadku korpusu paralelnego anotowanego lingwistycznie można ponadto przeprowadzić kwerendy uwzględniające tagi. Ryc. 2 Okno kwerendy dla konkordancji dwujęzycznych. Program ParaConc. - 44 -

Po przeprowadzeniu kwerendy (w tym przypadku dla wyrazu compatibility) otwiera się okno konkordancji dwujęzycznej typu KWIC (ang. Key Word in Context. Zob. Ryc. 3). 2 Podświetlenie któregokolwiek wystąpienia wyrazu w pierwszym oknie natychmiast spowoduje podświetlenie odpowiedniego kontekstu w drugim oknie. Ryc. 3 Konkordancja dwujęzyczna dla kwerendy compatibility. Program ParaConc. Jak widać, właściwa konkordancja występuje jedynie w pierwszym oknie (tj. dla podkorpusu, w którym przeprowadziliśmy kwerendę). Program bowiem nie jest (w naszym przypadku) w stanie zidentyfikować ekwiwalentu w drugim podkorpusie. Jednak korzystając z dostępnej w programie funkcji Translations (wyświetlającej najbardziej prawdopodobne ekwiwalenty wyrazu-kwerendy; Ryc. 4) lub funkcji Hot Words (wyświetlającej, oprócz najbardziej prawdopodobnych ekwiwalentów również wyrazy występujące w otoczeniu tekstowym prawdopodobnego ekwiwalentu; Ryc. 5) istnieje możliwość dokonania wyboru najodpowiedniejszego wyrazu. Wybierając z listy konkretny wyraz-ekwiwalent, program: a) automatycznie uporządkuje konkordancje w drugim podkorpusie wg wzoru KWIC, co niezwykle poprawi czytelność wyników (Ryc. 6); b) umożliwi korzystanie ze wszystkich pozostałych zalet konkordancji (np. uszeregowania kontekstów lewo- i prawostronnych w kolejności alfabetycznej); c) pozwoli na korzystanie z innych modułów programu, np. funkcji kolokacji. 2 Więcej na temat konkordancji KWIC zob. Łukasik 2007: 42 i n. - 45 -

Ryc. 4 Funkcja Translations dla kwerendy compatibility. Program ParaConc. Ryc. 5 Funkcja Hot Words dla kwerendy compatibility. Program ParaConc. Ryc. 6 Konkordancja dwujęzyczna dla kwerendy compatibility po wybraniu prawdopodobnego ekwiwalentu. Program ParaConc. Dzięki konkordancji dwu- lub wielojęzycznej w uzgodnionym korpusie paralelnym można w jednej chwili odnaleźć odpowiadające fragmenty tłumaczenia (lub oryginału, jeśli kwerendę przeprowadziliśmy dla podkorpusu składającego się - 46 -

z translatów) wraz ich bezpośrednim otoczeniem tekstowym, co pozwoli odnaleźć ekwiwalenty, umożliwi zbadanie i porównanie zachowania poszczególnych jednostek w tekstach (np. w zakresie ich łączliwości leksykalnej), ułatwi dokonanie oceny tłumaczenia lub nawet różnych wersji tłumaczeń itd. 4. Korpusy paralelne są coraz częściej tworzone lub udostępniane w Internecie. Przykładem trójjęzycznego uzgodnionego korpusu paralelnego jest angielskofrancusko-hiszpański paralelny korpus Międzynarodowego Związku Telekomunikacyjnego ITU (International Telecommunications Union), znanego również pod nazwą The CRATER Corpus. Jest on dostępny na stronie internetowej Lancaster University (http://www.comp.lancs.ac.uk/linguistics/crater/corpus.html). Teksty techniczne, stanowiące bazę tego korpusu, poddano uzgodnieniu na poziomie zdania (a w niektórych przypadkach na poziomie jednostek ponadwyrazowych). Poza tym korpus ten został zlematyzowany oraz anotowany ze względu na części mowy. Uzgodnione segmenty w języku L1 zostały przypisane za pomocą hiperłączy odpowiadającym im segmentom w dwóch pozostałych językach [L2, L3]. Z technicznego punktu widzenia nie ma znaczenia, który język uznamy za wiodący (w przypadku ITU wszystkie trzy języki funkcjonują jako urzędowe). Kliknięcie na odpowiednie łącze poprzedzające dany segment tekstu przeniesie użytkownika do odpowiadającego mu segmentu w wybranym języku. W wersji internetowej nie ma, niestety, możliwości równoległego wyświetlania tekstów. Przykładowy segment podkorpusu w języku angielskim zamieszczono poniżej: [EF183] [ES213] A a AT1 cavity cavity NN1 of of IO defined defined JJ shape shape NN1 and and CC volume volume NN1 used use VVN for for IF the the AT testing testing NN1 of of IO telephone telephone NN1 earphones earphone NN2 or or CC telephone telephone NN1 transmitters transmitter NN2 in in II31 conjunction conjunction II32 with with II33 a a AT1 calibrated calibrated JJ microphone microphone NN1 adapted adapt VVN to to TO measure measure VVI the the AT pressure pressure NN1 developed develop VVN within within II the the AT cavity cavity NN1. [ITU/CRATER CORPUS] Widoczne w tekście znaczniki poprzedzające cały tekst to wspomniane wyżej hiperłącza z oznaczeniami numerycznymi segmentów w poszczególnych językach (EF odnośnik do segmentu w języku francuskim z poziomu segmentu w języku angielskim, ES odnośnik do segmentu w języku hiszpańskim z poziomu segmentu w języku angielskim itd.]. Tekst zasadniczy zaznaczono w korpusie czcionką pogrubioną. Pozostałe elementy to leksemy (tu kodowane kursywą), czyli formy podstawowe danego wyrazu, które są wynikiem przeprowadzonej na korpusie lematyzacji, oraz tagi (posiadające oznaczenia literowe lub literowocyfrowe, np. AT1, NN1, VVN itd.) określające część mowy danej jednostki w tekście, a które zostały przypisane każdemu elementowi w korpusie w procesie nazywanym anotacją lingwistyczną. - 47 -

Ciekawym przykładem dostępnego w Internecie, wielojęzycznego, ciągle aktualizowanego korpusu paralelnego który na pierwszy rzut oka wcale korpusem zdaje się nie być jest zbiór dokumentów prawnych Unii Europejskiej przetłumaczonych na jej języki urzędowe. Zbiór ten, znajdujący się w bazie danych EUR-Lex, jest ogólnie dostępny za pośrednictwem strony internetowej EUR-Lex (http://eur-lex.europa.eu/pl/index.htm). Serwis ten umożliwia wielostronne wyszukiwanie dokumentów (np. za pomocą słów kluczowych, wg typu dokumentu itd.) i udostępnia różne możliwości jego wyświetlania. Jedną z interesujących nas funkcji jest wyświetlenie tekstów równolegle, w dowolnych dwóch parach języków (choć nie wszystkie dokumenty zostały przetłumaczone na wszystkie języki urzędowe UE). Co więcej, wyświetlane teksty są uzgodnione na poziomie akapitów, dzięki czemu cały zbiór nosi cechy korpusu paralelnego. Poza wymienionymi już możliwościami wykorzystania korpusów paralelnych (zob. punkt 2.3.), EUR-Lex może być dodatkowo źródłem zarówno wielojęzycznej terminologii UE, jak i surowych danych, które można wykorzystać przy budowie własnego minikorpusu paralelnego. Poniżej (Ryc. 7) zamieszczono zrzut ekranowy przedstawiający teksty wyświetlone równolegle w języku angielskim i polskim. Ryc. 7 Widok dwujęzyczny tekstu Dyrektywy 2004/108/WE. Dostęp za pośrednictwem EUR-Lex. 5. Zdaję sobie sprawę z tego, że zaprezentowane w obydwu artykułach zagadnienia są jedynie wstępem do problematyki związanej z językoznawstwem korpusowym. Niemniej jednak mam nadzieję, że choć w niewielkim stopniu udało mi się zarysować podstawy tej jakże dziś dynamicznej i szeroko wykorzystywanej - 48 -

gałęzi lingwistyki, jak również zachęcić zainteresowane osoby do przeprowadzenia własnych badań korpusowych. Istnieje szeroka literatura przedmiotu, do której odsyłam zainteresowanego Czytelnika. Wykaz publikacji dostępnych w Bibliotece Uniwersyteckiej Uniwersytetu Warszawskiego zaprezentował Tomasz Michta w pierwszym tomie Debiutów Naukowych [zob. Michta 2007: 67-70]. Bibliografia: AntConc, wersja 3.2.1., autor programu: Laurence Anthony, dostępny nieodpłatnie na stronie domowej autora: mmmmmmmmmmm <http://www.antlab.sci.waseda.ac.jp>, data dostępu: 16.09.2008. Bowker L, Pearson J., 2002, Working with Specialized Language. A practical guide to Using corpora, London: Routledge. Dyrektywa 2004/108/WE, Dyrektywa 2004/108/WE Parlamentu Europejskiego i Rady z dnia 15 grudnia 2004 r. w sprawie zbliżenia ustawodawstw Państw Członkowskich odnoszących się do kompatybilności elektromagnetycznej oraz uchylającą dyrektywę 89/336/EWG, dostęp za pośrednictwem strony internetowej EUR-Lex: <http://eur-lex.europa.eu/pl/index.htm>, data dostępu: 22.09.2008. EUR-Lex, Baza dokumentów prawnych Unii Europejskiej, dostępna za pośrednictwem strony internetowej: <http://eur-lex.europa.eu/pl/index.htm>, data dostępu: 22.09.2008. ITU/CRATER Corpus, dostępny ze strony internetowej Lancaster University, <http://www.comp.lancs.ac.uk/linguistics/crater/corpus.html>, data dostępu: 22.09.2008. Łukasik M., 2007, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. I), [w:] M. Łukasik [red.], Debiuty Naukowe I. Wiedza Korpus Słownik, Warszawa: BAJT Katedra Języków Specjalistycznych, s. 23-37. McEnery T., 2003, Corpus linguistics, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s. 448-463. McEnery T., Wilson A., 2001, Corpus Linguistics. An introduction, Edinborough: Edinborough University Press. McEnery T., Xiao R., Tono Y., 2006, Corpus-Based Language Studies. An advanced resource book, London and New York: Routledge. Michta T., 2007, Bibliografia książek z zakresu lingwistyki korpusowej dostępnych w bibliotekach UW, [w:] M. Łukasik [red.], Debiuty Naukowe I. Wiedza Korpus Słownik, Warszawa: BAJT Katedra Języków Specjalistycznych, s. 67-70. MonoConc Pro, wersja 2.2, autor programu: Michael Barlow, program dostępny za opłatą. Na podanej poniżej stronie internetowej znajduje się wersja demonstracyjna programu: <http://www.athel.com/mono.html>, data dostępu: 15.09.2008. - 49 -

ParaConc, wersja 1.0, program dostępny za opłatą. Na podanej poniżej stronie internetowej znajduje się wersja demonstracyjna programu: <http://www.athel.com/para.html>, data dostępu: 22.09.2008. Somers H., 2003, Machine Translation: latest developments, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s. 512-528. Waliński J., 2005, Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej, [w:] B. Lewandowska-Tomaszczyk [red.], Podstawy językoznawstwa korpusowego, Łódź: Wydawnictwo UŁ; wersja elektroniczna: <http://www.filolog.uni.lodz.pl/elise/emodule/files/ Typologia_korpusow.doc>; data dostępu: 20 września 2007. - 50 -