ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH

Wielkość: px
Rozpocząć pokaz od strony:

Download "ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH"

Transkrypt

1 Marek Łukasik ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH 1. Rozwój technik komputerowych przyniósł istotną zmianę jakościową w badaniach językoznawczych i doprowadził do narodzin nowej dziedziny lingwistyki komputerowej/informatycznej (ang. computational linguistics). Komputery i dedykowane oprogramowanie nie tylko wzbogaciły warsztat badawczy lingwistyki, ale również przyczyniły się do powstania zupełnie nowych form działalności badawczej, znajdujących się na styku lingwistyki i informatyki, takich jak tłumaczenie maszynowe (ang. machine translation), automatyczne sporządzanie indeksów (ang. automatic indexing), czy automatyczna ekscerpcja terminów (ang. automatic acquisition of terms). Wspólną cechą powyższych dyscyplin jest wykorzystanie na pewnym etapie korpusów tekstowych, niejednokrotnie anotowanych. Nie jest to jednak obszar zarezerwowany wyłącznie dla specjalistów z dziedziny informatyki zajmujących się przetwarzaniem języka naturalnego: anotowane korpusy tekstowe mogą z powodzeniem stać się przydatnym narzędziem w warsztacie terminologa, terminografa czy tłumacza tekstów specjalistycznych. Poniżej przedstawiłem zarys problematyki anotacji (wzbogacania) korpusów tekstowych. Artykuł otwierają ogólne rozważania związane z anotacją korpusów. Na kolejnych stronach zostają one zilustrowane anotacją przykładowego tekstu specjalistycznego. Drugą część pracy stanowi studium przypadku, w którym przedstawiłem możliwości wykorzystania anotowanego korpusu tekstów specjalistycznych do ekscerpcji terminów. 2. Korpus tekstowy to każdy zbiór pisanych lub mówionych tekstów sformułowanych w określonym języku (językach), które zostały zebrane i wybrane według określonych kryteriów [Grucza 2007: 108]. Stosowanie pewnych parametrów doboru materiału językowego świadczy o tym, że korpusy tekstowe powstają z myślą o konkretnym celu badawczym bądź pragmatycznym. Korpus zatem, w rozumieniu współczesnej lingwistyki, nie jest przypadkowym zbiorem tekstów, na przykład zgromadzonym w bibliotece [Grucza 2007: 110; Hunston 2002: 2; Waliński 2005]. Ponadto w literaturze przedmiotu podkreśla się, że obecnie pojecie korpusu tekstowego implikuje elektroniczną postać zgromadzonych danych [Bowker, Pearson 2002: 9; Tsakona 2007: 40 i in.] Korpus tekstów może istnieć zarówno w postaci tzw. czystego tekstu, tj. bez dodatkowych oznaczeń (ang. raw-text corpus), jak również zawierać dodatkowe dane (metadane), które ułatwiają korzystanie i poszerzają możliwości wykorzysta

2 nia korpusu [McEnery 2003: 453]. Zarówno procedurę umieszczania dodatkowych informacji w korpusie, jak i jej produkt, czyli wprowadzone znaczniki/indeksy/tagi (ang. tags) nazywamy anotacją (znakowaniem/indeksowaniem/znakowaniem/tagowaniem), a korpus zawierający takie metadane korpusem anotowanym/adnotowanym/indeksowanym/znakowanym lub otagowanym (ang. annotated/tagged corpus) [Piotrowski 2004; Przepiórkowski, Woliński 2001; Waliński 2005; Woliński 2003 i in.]. Anotacja może dotyczyć: i) dokumentacji korpusu, tj. opisu informacji umożliwiających identyfikację danego tekstu dzięki umieszczeniu w nagłówku dokumentu (ang. header) informacji o tytule, autorze, wydawcy, roku wdania, języku, dziedzinie itd.; ii) struktury dokumentu, tj. opisu informacji o strukturze tekstu, czyli przede wszystkim podziale na sekcje, rozdziały, akapity, oraz o zastosowanych rozwiązaniach typograficznych, graficznych itd.; iii) wybranych cech lingwistycznych poszczególnych elementów występujących w tekście (wyrazów, fraz, transkrypcji w przypadku korpusów transkrybowanych itd.). Przydzielenie znaczników interpretacyjnych o charakterze lingwistycznym, jak również produkt takiego działania nazywamy anotacją lingwistyczną (ang. linguistic annotation). Dzieli się ona na: - anotację części mowy (ang. POS <Part-of-Speech> tagging/annotation), zwaną również anotacją gramatyczną (zob. poniżej); - lematyzację (ang. lemmatization), czyli sprowadzanie różnych form fleksyjnych tego samego wyrazu do jego formy podstawowej (kanonicznej, hasłowej), czyli do formy leksemu (lemmy); - anotację syntaktyczną (ang. syntactic tagging/annotation), czyli ukazanie struktury zdania w podziale na frazy; - anotację semantyczną (ang. semantic tagging/annotation), czyli przydzielenie tagów o charakterze znaczeniowym; - anotację prozodyczną (ang. prosodic tagging/annotation), czyli przydzielenie znaczników ukazujących intonację w korpusach transkrybowanych; - i in. [zob. m.in. Bowker, Pearson 2002: 83-84; EAGLES 1996; Gamper 2001: 115; Grucza 2007: 109; Johansson 1994: 84 i n.; McEnery 2003: 458; McEnery, Wilson 2001: 50; Waliński 2005: 4]. Warto zwrócić uwagę na rozbieżności terminologiczne występujące w literaturze przedmiotu. Dla pojęcia anotacji obejmującej opis dokumentacji i struktury dokumentu niektórzy badacze przyjmują terminy markup/encoding (pol. znakowanie), natomiast termin annotation (pol. anotacja) odnoszą do anotacji lingwistycznej [Bański 2003: 1; Bowker, Pearson 2002: 89]. Inni z kolei dla przedstawionej tu dychotomii wykorzystują odpowiednio terminy annotation oraz linguistic annotation [McEnery, Wilson 2001: 39 i n.]. W dalszej części artykułu będę odnosił się do pojęcia anotacji w najszerszym sensie, czyli tak, jak zostało to zaprezentowane w wyliczeniu powyżej (i-iii). Tam, gdzie okaże się to konieczne, użyty termin zostanie doprecyzowany

3 2.2. Podstawowe możliwości wykorzystania korpusów tekstowych w działalności lingwistycznej, terminologicznej, terminograficznej i translatorycznej zostały pokrótce omówione w innym artykule [zob. Łukasik 2007, Łukasik 2008]. W tym miejscu należy jednak dodać, że w porównaniu z korpusami nieanotowanymi, korpusy anotowane stanowią swoistą wartość dodaną, stąd też znajdują dodatkowe zastosowania lub przyczyniają się do udoskonalenia badań korpusowych. Po pierwsze, umieszczenie w każdym pliku korpusu informacji o charakterze bibliograficznym umożliwia porządkowanie korpusu i pozwala na sprawne odnalezienie tekstów o zadanych atrybutach (np. w badaniach nad idiolektem danego twórcy istnieje możliwość szybkiego wyodrębnienia podkorpusu tekstów danego autora, a w pracy terminologicznej lub terminograficznej wyodrębnienie tekstów konkretnej dziedziny lub napisanych w danym języku). Po drugie, anotacja opisująca strukturę dokumentu jest szczególnie ważna w przypadku tworzenia korpusów paralelnych pozwala bowiem na automatyczne przeprowadzenie uzgodnienia dokumentów tworzących korpus [zob. Łukasik 2008]. Z kolei korpusy anotowane lingwistycznie z jednej strony są niezbędne w badaniach z zakresu tzw. inżynierii lingwistycznej (na przykład w automatycznej analizie języków naturalnych, w tłumaczeniu maszynowym, w automatycznym tworzeniu indeksów, automatycznej ekscerpcji terminów i tworzeniu leksykonów jedno- i dwujęzycznych oraz automatycznym tworzeniu baz terminologicznych) [McEnery, Wilson 2001: 142], z drugiej zaś mogą być bardzo przydatnym narzędziem w rękach każdego lingwisty (np. w badaniach morfologicznych czy syntaktycznych), terminologa (np. przy identyfikacji potencjalnych terminów jedno- i wielowyrazowych, badaniu łączliwości leksykalnej terminów), leksykografa (przy tworzeniu siatki haseł słownika na podstawie precyzyjnych list frekwencyjnych zlematyzoanego korpusu czy przy wyszukiwaniu kolokacji), a nawet psychologa czy psycholingwisty (np. w badaniach niepłynności mowy, ang. speech disfluency). Oczywiście powyższe podsumowanie w żaden sposób nie wyczerpuje możliwości, jakie oferują korpusy anotowane: anotacja może bowiem zostać zaprojektowana na potrzeby konkretnego zadania. W kontekście badań prowadzonych w Katedrze Języków Specjalistycznych jednym rodzajem takiej anotacji mogłaby być anotacja terminologiczna, która polegałaby na półautomatycznym zdefiniowaniu występujących w tekście terminów pod kątem ich przynależności do odpowiednich klas onomazjologicznych lub wykazaniu stopnia terminologiczności danego tekstu. Tak anotowany korpus przyspieszyłby (dzięki częściowej automatyzacji) i zwiększył precyzyjność (dzięki metodom statystycznym) prac terminologicznych i terminograficznych w zakresie: a) analizy leksykonu terminologicznego; b) odtworzenia struktury semantycznej tekstu specjalistycznego, jego analizy statystycznej czy terminologicznej; c) precyzyjnego definiowania pojęć, czyli zachowania odpowiednich proporcji między różnymi klasami terminów a różnymi typami definicji; d) automatyzacji tworzenia siatki haseł konkretnych typów słowników (np

4 terminów teoretycznych vs. nazw nomenklaturowych vs. terminów proceduralnych). Zastosowanie komputerów w omówionym zakresie pozostawiłoby badaczom więcej czasu, który mogliby poświęcić na bardziej wnikliwą analizę materiału badawczego, której nie byłaby w stanie dokonać maszyna. Mimo wielu zalet anotacji, widoczny jest spór wśród badaczy o wartość anotowanych korpusów tekstowych. Polemika dotyczy przede wszystkim kwestii narzucania pewnej interpretacji lingwistycznej danym poddanym anotacji oraz spójności anotacji (polegającej na konsekwentnym przydzielaniu poszczególnych znaczników, np. części mowy, odpowiednim wyrazom) [zob. Sinclair 2003: 83-84; Sinclair 2007: 26 vs. McEnery 2003: ] Największe korpusy tekstowe powstają niejednokrotnie niezależnie w różnych ośrodkach badawczych czy wydawnictwach. W związku z tym często różnią się nie tylko przyjętą metodologią, ale również stroną techniczną, na przykład formatem zapisu danych czy wzorcem anotacji. Ta niekompatybilność powoduje, że dane zgromadzone i opisane w jednym ośrodku badawczym, nie mogą być wykorzystane w innym. Problemy takie próbuje się rozwiązać przyjęciem wspólnych międzynarodowych standardów, które wykorzystywane byłyby przez wszystkie ośrodki, a które odnosiłyby się do struktury znaczników, formatu zapisu, obowiązkowych i fakultatywnych elementów opisujących każdy dokument korpusu i in. Według niektórych badaczy, na czele wprowadzenia ujednoliconych standardów stoi konsorcjum TEI (Text Encoding Initiative) [McEnery, Wilson 2001: 33; Carletta et al. 2004: 450 i n.]. Opracowane przez TEI wytyczne (Guidelines for Electronic Text Encoding and Interchange, obecnie w wersji P5 z listopada 2007r., zob. TEI), znane również powszechnie jako standard TEI, mają na celu promowanie ujednoliconego formatu wymiany wszelkich danych w formie tekstowej, niezależnego od stosowanego oprogramowania. Oprócz ogólnych wytycznych, TEI definiuje szczegółowo m.in. zawartość nagłówków dokumentów, zasady kodowania znaków niestandardowych, opisy transkrypcji, tabel, wzorów i in., jak również zasady indeksowania tak skomplikowanych strukturalnie dokumentów jak elektroniczne słowniki jedno- i wielojęzyczne czy korpusy tekstowe. Określa również ogólne zasady kodowania anotacji lingwistycznych [zob. TEI Guidelines]. Ponieważ wytyczne TEI mają bardzo szerokie spektrum zastosowań w świecie wymiany informacji elektronicznej, w konkretnych aplikacjach stosowane są jedynie wybrane elementy. Ponadto w pewnych obszarach, np. istotnych z punktu widzenia lingwistyki korpusowej, wytyczne TEI zdają się być niekompletne. W pewnym sensie, odpowiedzią na te braki jest standard CES (Corpus Encoding Initiative). Został on zaprojektowany z myślą o wykorzystaniu w szeroko rozumianej inżynierii lingwistycznej, przede wszystkim do wymiany wszelkiego rodzaju danych językowych, m.in. korpusów tekstowych. Standard ten jest zgodny z wytycznymi Text Encoding Initiative, choć stosuje tylko niektóre - 4 -

5 elementy TEI (np. strukturę nagłówka) [zob. CES oraz Bowker, Pearson 2002: 80-81] Anotacja dokumentów, w tym korpusów tekstowych, odbywa się na podstawie ściśle określonych zasad i z wykorzystaniem zdefiniowanych zestawów znaczników. Początkowo zarówno w TEI, jak i w CES jako uniwersalny metajęzyk anotacji dokumentów stosowano język formalny SGML. Jednak w związku z jegp ograniczeniami oraz wymogami kodowania coraz bardziej złożonych dokumentów, w standardzie TEI zaproponowano nowy metajęzyk XML. SGML (Standard Generalized Markup Language) jest hierarchicznie zorientowanym metajęzykiem, umożliwiającym ujednolicony opis struktury i zawartości dokumentu tekstowego zapisanego w formie elektronicznej za pomocą znaczników (tagów). SGML został opracowany jako międzynarodowy standard [ISO 8879:1986], niezależny od platformy sprzętowej oraz środowiska oprogramowania. Dokumenty w standardzie SGML są zapisane w postaci czystego (zwykłego, niezakodowanego) tekstu (ang. plain text). Pola znaczników wyróżnione są za pomocą nawiasów trójkątnych <...>, z tym, że tag początkowy ma postać <... >, natomiast tag końca charakteryzuje dodatkowo ukośnik </...>. Co istotne, same znaczniki występują również w postaci zwykłego tekstu, a nie kodu, który mógłby odczytać jedynie komputer. W związku z tym tagi się częścią opisywanego dokumentu i są przenoszone między komputerami razem z dokumentem. Następcą SGML-a jest XML (Extensible Markup Language), uniwersalny metajęzyk wymiany informacji (przede wszystkim przez sieć Web), podobnie jak SGML niezależny od środowiska sprzętowego oraz stosowanego systemu operacyjnego, rozszerzalny, czyli umożliwiający definiowanie własnych tagów, jednak dzięki któremu można opisać nawet najbardziej skomplikowane strukturalnie dokumenty [zob. SGML, XML oraz Bowker, Pearson 2002: 83; Gamper 2001: 115] Od strony struktury, według standardów TEI, dokument składa się z nagłówka oraz tekstu. W nagłówku umieszczane są metainformacje, które można ogólnie nazwać dokumentacją korpusu (zob. punkt 2.1.) 1. Tego typu dane umożliwiają porządkowanie i wyszukiwanie dokumentów o zadanych atrybutach. Wykorzystuje się do tego specjalne programy wyszukiwawcze (ang. retrieval programs). Tekst z kolei opisany jest pod kątem struktury (podziału na rozdziały, akapity, czy nawet zdania) oraz rozwiązań graficznych i typograficznych [McEnery, Wilson 2001: 35]. 1 Struktura tagów występujących zarówno w nagłówku, jak i opisujących strukturę tekstu jego struktury jest bardzo rozbudowana. Zainteresowanego Czytelnika odsyłam bezpośrednio do dokumentacji standardów CES i TEI, które są dostępne w Internecie (zob. w bibliografii odpowiednio CES i TEI)

6 Celem ilustracji, zarówno w SGML-u, jak i XML-u, tag title odnosi się do tytułu tekstu. Znacznik ten zostaje umieszczony w nagłówku dokumentu i ma następującą postać (wykorzystano tytuł niniejszego artykułu): <title> Anotacja korpusów tekstów specjalistycznych </title> Z kolei w przypadku opisu struktury dokumentu, jako przykładowe można podać następujące tagi: tag wyróżniający akapit: <p>; tag wyróżniający tekst w cudzysłowie: <q> lub wypowiedź ujętą w cudzysłów: <quote>; tag wyróżniający zdanie ortograficzne (rozumiane tu jako ciąg znaków od wielkiej litery do kropki wraz ze spacją, niekoniecznie posiadające wszystkie elementy zdania w sensie lingwistycznym): <s> [zob. TEI Guidelines oraz Johansson 1994: 93]. Poniżej przedstawiono sposób oznaczenia przykładowego zdania z niniejszego artykułu: <s>od strony struktury dokumentu, według standardów TEI, dokument składa się z nagłówka oraz tekstu </s> Do tej pory skrótowo omówiłem anotację odnoszącą się dokumentacji oraz struktury tekstu. Dalej przedstawię dokładniej najpowszechniejszą formą anotacji lingwistycznej, a mianowicie anotację części mowy (POS Part-of-Speech Annotation/Tagging). Anotacja części mowy była jednym z pierwszych rodzajów anotacji lingwistycznej. Produktem takiej anotacji jest specjalny kod, przyjmujący formę znacznika/taga, dołączany do poszczególnych wyrazów i wskazujący część mowy, do której należy dana jednostka leksykalna. Opis taki może być podstawą dalszej obróbki danych korpusowych, a mianowicie analizy składniowej (ang. parsing) czy anotacji semantycznej [McEnery, Wilson 2001: 46]. Istnieją dwa rodzaje anotacji: anotacja osadzona, w której tagi znajdują się bezpośrednio w tekście korpusu (ang. embeded annotation) oraz anotacja zewnętrzna, w której opis poszczególnych elementów tekstu korpusu znajduje się w oddzielnym pliku (ang. standalone annotation). W pierwszym przypadku tagi są widoczne i dlatego muszą zostać w pewien sposób wyodrębnione z zasadniczego tekstu korpusu (na przykład za pomocą podkreślnika dolnego ( _ ) lub nawiasów). W drugim przypadku tekst korpusu pozostaje wolny od dodatkowych znaczników, a opisy są przyporządkowane poszczególnym elementom tekstu za pomocą hiperłączy (dowiązań). Dzięki anotacji zewnętrznej tekst korpusu jest w pełni czytelny, co jest szczególnie istotne w wypadku zastosowania anotacji wielostopniowej. Drugi rodzaj anotacji jest dziś proponowany przez CES, jednak większość - 6 -

7 powszechnie dostępnych programów nie obsługuje tego typu anotacji [Bański 2003: 6 i n.; McEnery, Xiao, Tono 2006: 44 i n.; McEnery, Wilson 2001: 38] Anotacja może być przeprowadzona automatycznie, półautomatycznie lub ręcznie. Oprogramowanie do automatycznej anotacji (ang. tagger) wykorzystuje do tego celu metody probabilistyczne oraz lingwistyczne (np. wcześniej anotowany korpus, tzw. treningowy, na którym program uczy się ; specjalne słowniki; analizatory morfologiczne; itp.). Pierwsze programy tego typu nie charakteryzowały się zbyt dużą dokładnością: na przykład program TAGGIT, który posłużył do anotacji Korpusu Browna (The Brown Corpus), osiągał dokładność na poziomie ok. 77%. Współczesne programy uzyskują precyzję sięgającą 97% (np. CLAWS Constituent Likelihood Automatic Word-tagging System), który posłużył do anotacji Brytyjskiego Korpusu Narodowego (BNC British National Corpus) [zob. CLAWS oraz McEnery 2003: 458]. Jeżeli współczynnik błędu na poziomie 3% jest do przyjęcia, wówczas teksty mające tworzyć korpus można anotować bez przeszkód w pełni automatycznie. Jeśli jednak wymagana jest o wiele wyższa dokładność, automatycznej anotacji musi towarzyszyć weryfikacja dokonywana przez lingwistów-anotatorów. Weryfikacja ta polega na ujednoznacznianiu (ang. disambiguation) kategorii lingwistycznych, które program sklasyfikował jako niejednoznaczne, oraz na rejestracji błędów w celu wprowadzenia zmian w wykorzystywanym oprogramowaniu Jak wspomniałem wyżej, jednym z programów do anotacji części mowy jest CLAWS. Na stronie internetowej Centre for Computer Corpus Research for Language w Lancaster University każdy może poddać anotacji dowolny tekst w języku angielskim o objętości do 300 wyrazów (wersja próbna zob. < Ponadto na stronie zamieszczono również inne przydatne informacje na temat anotacji, m.in. zestawy tagów (ang. tagset), wybraną literaturę przedmiotu, ciekawe odnośniki internetowe i in. Poniżej przedstawiono przykładowe kody z wykazu tagów części mowy w wersji C5 programu CLAWS. Zestaw ten posłużył do anotacji korpusu BNC i w pełnej wersji zawiera niewiele ponad 60 kodów. Najnowszy zestaw, w wersji C7, to już około 160 kodów [zob. BNC2 Guide]. AJ0 AT0 AV0 CJC CJS DPS NN0 NN1 przymiotnik (np. gold, old, beautiful) przedimek (np. the, a, an, no) przysłówek (np. often, well, furthest) spójnik wprowadzający zdanie współrzędnie złożone (np. and, or, but) spójnik wprowadzający zdanie podrzędnie złożone (np. although, when) zaimek dzierżawczy (np. your, their, his) rzeczownik neutralny pod względem liczby (np. aircraft, data) rzeczownik pospolity w liczbie pojedynczej (np. pencil, goose, time) - 7 -

8 NN2 rzeczownik pospolity w liczbie mnogiej (np. pencil, geese, times) NP0 nazwa własna (np. London, Michael, Mars) PNP zaimek osobowy (np. I, you, them) PRF przyimek of PRP przyimek (about, at, in, on, with) PUN tag opisujący znak interpunkcyjny (np.., : ;) VBB forma teraźniejsza czasownika be VHB forma teraźniejsza czasownika have VM0 czasownik modalny (np. will, would, can, could) VVB forma teraźniejsza dowolnego czasownika(np. give, work) VVD forma przeszła dowolnego czasownika (np. gave, worked) VVG forma -ing dowolnego czasownika (np. cooking, working) VVI forma bezokolicznika dowolnego czasownika (np. give, work) VVN imiesłów czasu przeszłego dowolnego czasownika (czyli tzw. III forma czasownika, np. given, worked) VVZ forma czasownika w 3 os. l. poj. (np. gives, works) Tabela 1 Przykładowe kody z zestawu tagów w wersji C5 programu CLAWS. Jak łatwo można zauważyć, kody literowe większości tagów nie są tworzone wyłącznie w postaci czytelnej dla maszyny albo specjalistów mają również ułatwić analizę wszystkim użytkownikom korpusu. W niektórych przypadkach z łatwością można wyprowadzić znaczenie danego kodu, na przykład kod VHB odnosi się do czasownika (ang. verb=v) mieć, posiadać (ang. have=h) w formie podstawowej (ang. base form=b), a kod NN2 do rzeczownika pospolitego w liczbie mnogiej Korzystając z cytowanej wyżej strony internetowej, poddałem anotacji tekst z dziedziny astrofizyki o długości około 1500 wyrazów. Poniżej znajduje się cząstkowy wynik przeprowadzonej anotacji zgodnie z zestawem tagów w wersji C5: Black_AJ0 holes_nn2 are_vbb most_av0 often_av0 detected_vvn by_prp the_at0 radiation_nn1 produced_vvn when_cjs they_pnp gravitationally_av0 pull_vvb in_prp surrounding_aj0 gas_nn1,_, in_prp a_at0 process_nn1 called_vvn accretion_nn1._. The_AT0 efficiency_nn1 with_prp which_dtq the_at0 hot_aj0 gas_nn1 radiates_vvz its_dps thermal_aj0 energy_nn1 strongly_av0 influences_vvz the_at0 geometry_nn1 and_cjc dynamics_nn0 of_prf the_at0 accretion_nn1 flow_nn1._. [Narayan, Quataert, 2005, Black Hole Accretion, Science ] Cały proces anotacji trwał około trzech sekund. Biorąc pod uwagę szybkość łącza internetowego oraz proces generowania nowej strony internetowej, sama anotacja całego fragmentu musiała zająć maszynie o wiele mniej czasu. W powyższym - 8 -

9 tekście tagi są częścią głównego tekstu korpusu i są połączone z wyrazami (i innymi elementami występującymi w tekście) za pomocą podkreślnika. W najnowszej wersji korpusu BNC, wykorzystującego standard TEI oraz metajęzyk XML, tagi występują przed wyrazem i znajdują się między nawiasami trójkątnymi z oznaczeniem w, dla wyrazów oraz c, dla znaków interpunkcyjnych, wraz z atrybutami, którym przypisywana jest konkretna wartość (np. c5=nn2 atrybut c5, któremu przypisano wartość NN2). W ramach każdego taga podawane są następujące informacje: część mowy według zestawu kodów CLAWS w wersji C5 (atrybut c5 ), forma podstawowa wyrazu, będąca wynikiem przeprowadzonej lematyzacji (atrybut hw ang. headword) oraz uproszczony kod części mowy (atrybut pos ). <w c5= AJ0 hw= black pos= ADJ >Black </w> <w c5= NN2 hw= hole pos= SUBST >holes </w> <w c5= VBB hw= be pos= VERB >are </w> <w c5= AV0 hw= most pos= ADV >most </w> <w c5= AJ0 hw= often pos= ADV >often </w> <w c5= VVN hw= detect pos= VERB >detected </w> <w c5= PRP hw= by pos= PREP >by </w> <w c5= AT0 hw= the pos= ART >the </w> <w c5= NN1 hw= radiation pos= SUBST >radiation </w> <w c5= VVN hw= produce pos= VERB >produced </w> <w c5= CJS hw= when pos= ADJ >when </w> <w c5= PNP hw= they pos= PRON >they </w> <w c5= AV0 hw= gravitationally pos= ADV >gravitationally </w> <w c5= VVB hw= pull pos= ADJ >pull </w> <w c5= PRP hw= in pos= ADJ >in </w> <w c5= AJ0 hw= surrounding pos= ADJ >surrounding </w> <w c5= NN1 hw= gas pos= SUBST >gas </w> <c c5= PUN >, </c> <w c5= PRP hw= in pos= PREP >in </w> <w c5= AT0 hw= a pos= ART >a </w> <w c5= NN1 hw= process pos= SUBST >process </w> <w c5= VVN hw= call pos= VERB >called </w> <w c5= NN1 hw= accretion pos= SUBST >accretion</w> <c c5= PUN >. </c> 3. W jednym artykułów zaprezentowałem sposób pozyskiwania terminów jedno- i wielowyrazowych z nieanotowanych korpusów tekstów specjalistycznych przy użyciu dostępnych programów do obróbki danych korpusowych [Łukasik 2007]. Poniżej przedstawiłem metodę ekscerpcji terminologii wykorzystującą korpusy anotowane

10 3.1. Wiele programów korpusowych pozwala na pracę z korpusami anotowanymi (np. MonoConc Pro, AntConc, WordSmith). W przedstawionym poniżej badaniu wykorzystałem anotowany tekst specjalistyczny, fragment którego znajduje się w punkcie , oraz programy AntConc i MonoConc Pro 2.2. Poszczególne etapy badania zilustrowane zostaną zrzutami ekranowymi, na publikację których zgodzili się ich autorzy, odpowiednio Laurence Anthony oraz Michael Barlow. W celu efektywnej pracy z korpusem wykorzystującym anotację osadzoną, w obydwu programach należy najpierw zdefiniować granice tagów (ang. delimiter), tj. podać symbol, który oddziela tag od elementów tekstu. Jest to niezbędne, gdyż w przeciwnym wypadku nie będzie możliwe tekstowe przeszukiwanie korpusu, tzn. bez odwoływania się do anotacji. W naszym tekście granice wyznacza podkreślnik, natomiast w przypadku korpusu BNC byłyby to nawiasy trójkątne otwierające (<w... oraz <c...) oraz zamykające tag (... >) (zob. Ryc. 1 i 2). Granice tagów występujących poza wyrazem. Granice tagów występujących obok wyrazów (w naszym przypadku podkreślnik). Granice tagów nagłówka. Ryc. 1 Definiowanie granic tagów. Program AntConc Granice tagów występujących obok wyrazów. Ryc. 2 Definiowanie granic tagów. Program MonoConc Pro 2.2. Granice tagów występujących poza wyrazem. Tu wzorzec dla BNC. Zdefiniowawszy granice tagów, można przejść do właściwych kwerend służących ekscerpcji terminów. W przypadku korpusu anotowanego i przedstawianych tu programów, do tego celu wykorzystamy funkcję konkordancji (konkordancja to zbiór przykładów występowania danego wyrazu (frazy) w jego bezpośrednim otoczeniu tekstowym; zob. Ryc. 5 i 6)

11 W programie AntConc nie przewidziano oddzielnego okna umożliwiającego przeprowadzenie kwerend konkordancyjnych dla korpusów anotowanych. Aby przeszukać korpus pod kątem występujących w nim tagów, należy skorzystać z symbolu wieloznacznego (ang. wildcard), który w naszym przypadku zastąpi wyraz. Przykładowe zapytanie przedstawiłem na Ryc. 3. Ryc. 3 Kwerenda z wykorzystaniem tagów. Schemat: rzeczownik w l. poj. + rzeczownik w l. poj (NN1). Program AntConc W programie MonoConc Pro istnieje specjalna zakładka umożliwiająca tworzenie zapytań z wykorzystaniem tagów. Jednak przed przeprowadzeniem kwerendy należy o tym program poinformować, po pierwsze wybierając odpowiednią funkcję z listy (Tag Search), po drugie wprowadzając umowny symbol przed właściwym tagiem (tu: & ) (Ryc. 4). Obydwa programy nie ograniczają kreatywności użytkownika, dzięki czemu można przeprowadzać, np. kwerendy mieszane, tj. składające się zarówno z wyrazów, jak i tagów. I tak kwerenda computer &V* umożliwi wyszukanie wszystkich czasowników (wszystkie tagi czasowników rozpoczynają się od litery V) łączących się z rzeczownikiem computer. W ten sposób można badać łączliwość na poziomie części mowy. Poniżej (Ryc. 4) przedstawiłem kwerendę dla zapytania: rzeczownik w dowolnej liczbie + rzeczownik w dowolnej liczbie (schemat tagów: &NN* &NN*). Pole wprowadzania kwerendy. Schemat: rzeczownik + rzeczownik. Pole wyboru sposobu wyszukiwania. Tu z wykorzystaniem tagów. Opcje wyszukiwania, m.in. maksymalna liczba konkordancji, szerokość kontekstu, definicja symboli wieloznacznych itd. Ryc. 4 Kwerenda z wykorzystaniem tagów. Schemat: rzeczownik w dowolnej liczbie (NN*) + rzeczownik w dowolnej liczbie (NN*). Program MonoConc Pro

12 Wynik kwerendy, czyli konkordancja, jest wyświetlana wraz z tagami, które w dowolnej chwili można ukryć, a samą konkordancję uporządkować, na przykład alfabetycznie (Ryc. 5). Ryc. 5 Konkordancja dla schematu tagów NN* + NN* z tagami widocznymi. Program MonoConc Pro 2.2. Ryc. 6 Konkordancja dla schematu tagów NN* + NN* z tagami ukrytymi. Program MonoConc Pro Poniżej przedstawiłem wyniki ekscerpcji terminów jedno- i wielowyrazowych. Na potrzeby niniejszego badania przyjmuję założenie, że większość leksykonów terminologicznych tworzą nominalne jednostki terminologiczne [zob

13 np. Winfield 1995: 414]. Ponieważ wykorzystywany w badaniu tekst nie został zlematyzowany, należało przeprowadzić kwerendy umożliwiające identyfikację terminów w liczbie pojedynczej (tag NN1), mnogiej (NN2) lub będące neutralne lub niejednoznaczne pod względem liczby, np. pluralia tantum (tag NN0). Poza tym pewna część terminów to eponimy, np. promień Schwarzschilda (ang. Scharzschild radius), należało więc w kwerendzie uwzględnić tag nazw własnych (NP0). Ponieważ tagi spełniające wymogi badania są podobne (zaczynają się od litery N), można zbudować kwerendę, która wyszuka wszystkie wystąpienia zadanych kategorii. Należy w tym celu zastosować symbol wieloznaczny, dzięki czemu otrzymujemy następującą kwerendę: &N*. Dzięki niej program odnalazł 392 wyrazy odpowiadające postawionym wymogom. Poniżej znajduje się kompletna lista niepowtarzających się wyrazów: 20%, 3%, accretion, accretor, AGN, amount, analysis, astronomers, astrophysicists, astrophysics, barrier, basis, binaries, bulge, bursts, center, classes, clouds, clusters, collapse, companion, connection, contrast, core, coupling, curiosities, debris, deposits, details, determination, disk, disks, distances, dynamics, Earth, Eddington, efficiency, Einstein, electrons, energy, ergs, event, evidence, evolution, example, existence, explanation, explosions, extremes, Fig. (Figure), flow, focus, forces, form, formation, forms, fraction, fragment, friction, fuel, fusion, galaxies, galaxy, gamma-rays, gas, geometry, gravity, heat, hint, hole, holes, horizon, horizons, host, inflow, jets, JO, light, limit, luminosities, luminosity, manifestations, mass, masses, material, matter, momentum, neutrinos, neutron, nucleus, number, object, objects, observations, orbits, orientation, parameters, parent, physics, place, planets, plasma, plasmas, power, predictions, presence, prevalence, process, processes, protons, radiation, radius, range, rate, rates, region, relativity, research, risk, rocks, role, rotation, scale, scales, self-gravity, signatures, simulation, simulations, source, sources, spectra, speed, spin, star, stars, stresses, structure, Sun, supernovae, supply, surface, surroundings, system, systems, term, theory, thickness, time, times, universe, varieties, volume, waves, Way, weight, wells, world, x-rays, XRBs. Już na podstawie powyżej listy można stwierdzić, że pozyskiwanie terminologii z korpusów tekstów specjalistycznych anotowanych ze względu na części mowy jest o wiele efektywniejsze, niż ekscerpcja terminów z korpusów nieanotwanych (np. przy wykorzystaniu list frekwencyjnych lub n-gramów) większość wyrazów z powyższego wykazu to albo terminy jednowyrazowe, albo elementy terminów wielowyrazowych. Oczywiście wymaga ona początkowego założenia, dotyczącego w przedstawianym tu badaniu fraz nominalnych. Konieczność przyjęcia pewnego założenia początkowego stanowi wyraźne potwierdzenie słów S. Gruczy, który pisze, że [w] praktyce nie sposób zrealizować badań czysto kwantytatywnych. Efekty badań kwantytatywnych są bowiem wysoce zależne od wstępnych decyzji o charakterze kwalitatywnym [Grucza 2008: 192]. Podobne założenie jest konieczne w przypadku pozyskiwania terminów wielowyrazowych. W tym celu wykorzystałem schematy nominalne stosowane w automatycznej ekscerpcji terminologii (w nawiasach podałem odpowiadające im kwerendy zastosowane w niniejszym badaniu):

14 (a) rzeczownik + rzeczownik (&NN* &NN*); (b) przymiotnik + rzeczownik (&AJ0 &NN*); (c) rzeczownik + dowolny przyimek + rzeczownik (&NN* &PRF &NN*); (d) rzeczownik + przyimek of + rzeczownik (&NN* &PRF &NN*) [Jacquemin, Bourigault 2003: 605]. Poniżej znajdują się wyniki przeprowadzonych kwerend (podano wystąpienia niepowtarzające się): (a) 31 wyświetlonych złożeń: accretion disk, accretion disks, accretion flow, accretion rate, companion star, core collapse, disk thickness, event horizon, event horizons, formation process, fuel supply, galaxy mass, gas clouds, hole mass*, host galaxy, neutron stars, parent stars, rotation rate, supply rate*, time scale (b) 135 wyświetlonych złożeń: accreting gas, accreting material, active role, angular momentum, binding energy, black hole, black holes, central object, characteristic rates, collapsing star, collisionless plasma, compelling evidence, current research, dark matter, direct evidence, disk-like structure, dissipated energy, electromagnetic waves, elliptical orbits, energetic explosions, extended system, galactic center, galactic nucleus, gamma-ray bursts, General Relativity, given galaxy, gravitating object, high accretion, hot gas, inefficient accretor, inflowing gas, ionized plasma, known source, large distances, low accretion, magnetic forces, magnetic stresses, major classes, mass accretion, mass energy, mass supply, massive stars, mere curiosities, Milky Way, new star, normal surface, nuclear fuel, nuclear fusion, numerical simulations, observational manifestations, opposite limit, other forces, outside world, potential energy, potential wells, powerful sources, precise explanation, promising explanation, radiative efficiency, relativistic jets, resulting accretion, simple objects, simple physics, small fraction, small volume, solar system, striking predictions, strong hint, sufficient momentum, supermassive holes, surrounding gas, thermal energy, thick accretion, thick disks, thin accretion, thin disks, tight connection, total number, ubiquitous process, ultrarelativistic jets, vertical thickness, virtual surface, x-ray binaries (c) 10 wyświetlonych złożeń: disks in astrophysics, energy via neutrinos, fusion in stars, gas into heat, holes with masses, processes in astrophysics, range in mass, structure on scales (d) 16 wyświetlonych złożeń: accretion of matter, amount of energy, center of mass, clusters of galaxies, disk of gas, disk of planets, evolution of structure, form of friction, inflow of matter, manifestations of accretion, number of stars, prevalence of disks, source of power, sources of x-rays, speed of light Wśród wyrażeń wielowyrazowych wymienionych w podpunktach a-d większość to potencjalne terminy, choć niektóre frazy wymagają dalszej analizy konkordancji lub ew. poszerzenia horyzontu kwerendy (do nawet kilku wyrazów w schemacie) celem odszukania pełnych jednostek wielowyrazowych

15 5. Podsumowując należy stwierdzić, że anotowane gramatycznie korpusy tekstów specjalistycznych mogą stać się nieocenionym narzędziem każdego terminologa, terminografa i tłumacza tekstów specjalistycznych. Wykorzystane w warsztacie powyższych specjalności mogą dostarczyć precyzyjnych danych w zakresie ekscerpcji terminologii, wyszukiwania kolokacji czy konkretnych związków wyrazowych. Nie bez powodu z tego typu korpusów korzysta szerokie grono specjalistów z dziedziny inżynierii lingwistycznej. Z pewnością opracowanie nowych typów anotacji tekstów fachowych i automatyzacja tego procesu może w przyszłości zmienić oblicze badań nad językami specjalistycznymi. BIBLIOGRAFIA: AntConc, wersja , autor programu: Laurence Anthony, dostępny nieodpłatnie na stronie domowej autora: mmmmmmmmmmm < data dostępu: Bański P., 2003, Anotacja zewnętrzna: wpływ architektury korpusu IPI PAN na efektywność jego tworzenia i wykorzystania, artykuł dostępny ze strony internetowej: < data dostępu: Bowker L, Pearson J., 2002, Working with Specialized Language. A practical guide to Using corpora, London: Routledge. BNC2 Guide, BNC POS-tagging Manual. Guidelines to wordclass tagging, dostępny na stronie internetowej < data dostępu: Carletta J. et al., 2004, A generic approach to software support for linguistic annotation using XML, [w:] G. Sampson, D. McCarthy [red.], Corpus Linguistics. Readings in a widening discipline, London, New York: Continuum, s CES, Corpus Encoding Standard, strona internetowa projektu: < data dostępu: CLAWS, CLAWS 7 Manual, < data dostępu: EAGLES, 1996, Recommendations for the Morphosyntactic Annotation of Corpora, dostępny na stronie internetowej: < data dostępu: Gamper J., 2001, Improving Textual Knowledge through Markup and Ontologies, [w:] F. Mayer [red.], Language for Special Purposes: Perspectives for the New Millennium, Tübingen: Gunter Narr Verlag Tübingen, s Grucza S., 2007, O konieczności tworzenia korpusów tekstów specjalistycznych, [w:] S. Grucza [red.], W kręgu teorii i praktyki lingwistycznej, Warszawa: WUW, s

16 Grucza S., 2008, Teksty specjalistyczne : Językowe eksponenty wiedzy specjalistycznej, [w:] Ł. Karpiński, Języki Specjalistyczne 8. Kulturowy i leksykograficzny obraz języków specjalistycznych, Warszawa: Katedra Języków Specjalistycznych, s Hunston S., 2002, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. ISO 8879: 1986, Information processing Text and office systems Standard Generalized Markup Language. Jacquemin C., Bourigault D., 2003, Term extraction and automatic indexing, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s Johansson S., 1994, Encoding a Corpus in Machine-Readable Form: The Approach of the Text Encoding Initiative, [w:] B.T.S Atkins., A. Zampolli [red.], Computational Approaches to the Lexicon, Oxford: Oxford University Press, s Łukasik M., 2007, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. I), [w:] M. Łukasik [red.], Debiuty Naukowe I. Wiedza Korpus Słownik, Warszawa: BAJT Katedra Języków Specjalistycznych, s Łukasik M., 2008, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. II). Korpusy paralelne, [w:] M. Łukasik [red.], Debiuty Naukowe II. Terminologia translatoryka - terminografia, Warszawa: BAJT Katedra Języków Specjalistycznych, s McEnery T., 2003, Corpus linguistics, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s McEnery T., Xiao R., Tono Y., 2006, Corpus-based Language Studies. An advanced resource book, London and New York: Routledge. McEnery T., Wilson A., 2001, Corpus Linguistics. An introduction, Edinburgh: Edinburgh University Press. MonoConc Pro, wersja 2.2, autor programu: Michael Barlow, program dostępny za opłatą. Wersja demonstracyjna programu znajduje się na cytowanej stronie internetowej: < data dostępu: Narayan R., Quataert E., 2005, Black Hole Accretion, [w:] Science, Vol. 307, No. 5706, , s. 63. Piotrowski T., 2004, Komputerowe korpusy tekstowe polszczyzny, artykuł dostępny na stronie domowej autora: < data dostępu: Przepiórkowski A., Woliński M., 2001, Projekt anotacji morfosyntaktycznej korpusu języka polskiego, dokument dostępny na stronie internetowej: < data dostępu:

17 SGML, About Standard Generalized Markup Language, dokument dostępny na stronie internetowej: < data dostępu: Sinclair J., 2003, Corpus creation, [w:] G. Sampson, D. McCarthy [red.], Corpus Linguistics. Readings in a widening discipline, London, New York: Continuum, s Sinclair J., 2007, Language and computing, past and present, [w:] A. Khurshid, M. Rogers [red.], Evidence-based LSP: Translation, Text and Terminology, s TEI, Text Encoding Initiative, strona internetowa projektu: < data dostępu: TEI Guidelines, < data dostępu: Tsakona V., 2007, Bilingualisation in practice: Terminological issues in bilingualising a specialised glossary, [w:] International Journal of Lexicography, Vol. 20, No. 2, s XML, A Technical Introduction to XML, dokument dostępny na stronie internetowej : < data dostępu: Waliński J., 2005, Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej, [w:] B. Lewandowska-Tomaszczyk [red.], Podstawy językoznawstwa korpusowego, Łódź: Wydawnictwo UŁ; dokument dostępny w wersji elektronicznej: < Typologia_korpusow.doc>, data dostępu: 20 września Winfield L., 1995, The special lexicon and problems of EST/ESP, [w:] R. Dirven, J. Vanparys [red.] Current Approaches to the Lexicon. A Selection of Papers Presented at the 18th LAUD Symposium, Duisburg, March, 1993, Woliński M., 2003, System znaczników morfostntaktycznych w korpusie IPI PAN, dokument dostępny na stronie internetowej: < data dostępu:

NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II).

NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II). Marek Łukasik NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II). KORPUSY PARALELNE 1. Niniejsze opracowanie jest kontynuacją rozważań

Bardziej szczegółowo

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016

Bardziej szczegółowo

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i Debiuty Naukowe III Leksykon tekst wyraz WARSZAWA 2009-1 - Seria Debiuty Naukowe Redaktor tomu

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

Rola języka XML narzędziem

Rola języka XML narzędziem Wprowadzenie do XML dr inż. Adam Iwaniak Szkolenie w Luboradzy, ZCPWZ, 12-13.02.2009r. Rola języka XML narzędziem Pierwszą rewolucją internetową było dostarczenie ludziom informacji. Znajdujemy się teraz

Bardziej szczegółowo

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane Extensible Markup Language (XML) Wrocław, 15.03.2019 - Java - technologie zaawansowane Wprowadzenie XML jest językiem znaczników (ang. markup language) używanym do definiowania zbioru zasad rozmieszczenia

Bardziej szczegółowo

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych rk Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych pojęć, prawdopodobnie zastanawiasz się, kiedy zaczniesz

Bardziej szczegółowo

Biblioteka Wirtualnej Nauki

Biblioteka Wirtualnej Nauki Biblioteka Wirtualnej Nauki BAZA SCOPUS Scopus jest największą na świecie bibliograficzną bazą abstraktów i cytowań recenzowanej literatury naukowej, wyposażoną w narzędzia bibliometryczne do śledzenia,

Bardziej szczegółowo

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1 WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1 SGML (Standard Generalized Markup Language) Standardowy uogólniony język znaczników służący do ujednolicania struktury i formatu różnego typu informacji (danych). Twórcy

Bardziej szczegółowo

Angielsko-polskie i polsko-angielskie słowniki specjalistyczne ( ) Analiza terminograficzna

Angielsko-polskie i polsko-angielskie słowniki specjalistyczne ( ) Analiza terminograficzna UNIWERSYTET WARSZAWSKI KATEDRA JĘZYKÓW SPECJALISTYCZNYCH M a r e k Ł u k a s i k Angielsko-polskie i polsko-angielskie słowniki specjalistyczne (1990-2006) Analiza terminograficzna Warszawa 2007-1 - Niniejsze

Bardziej szczegółowo

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl Plan wykładu Wprowadzenie: historia rozwoju technik znakowania tekstu Motywacje dla prac nad XML-em Podstawowe koncepcje XML-a XML jako metajęzyk

Bardziej szczegółowo

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)

Bardziej szczegółowo

Program warsztatów CLARIN-PL

Program warsztatów CLARIN-PL W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19

Bardziej szczegółowo

WSKAZÓWKI DLA AUTORÓW REFERATÓW

WSKAZÓWKI DLA AUTORÓW REFERATÓW WSKAZÓWKI DLA AUTORÓW REFERATÓW Spis treści: I. Wymogi formalne... 2 II. WZÓR... 3 III. Bibliografia... 4 IV. Streszczenie... 5 V. Cytaty i przypisy... 6 VI. Tabele, rysunki, wzory... 7 1 I. Wymogi formalne

Bardziej szczegółowo

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE

Bardziej szczegółowo

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie

Bardziej szczegółowo

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 W celu zwiększenia indeksowania i przeszukiwania publikacji autorskich przez naukowe wyszukiwarki internetowe, należy

Bardziej szczegółowo

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9

Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9 Zasady Nazewnictwa Dokumentów 2007-11-08 Strona 1 z 9 Spis treści I. Wstęp... 3 II. Znaczenie spójnych zasady nazewnictwa... 3 III. Zasady nazewnictwa wybrane zagadnienia... 3 1. Język oraz forma nazewnictwa...

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30 Politechnika Częstochowska, Wydział Zarządzania PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu PNJA Gramatyka Praktyczna Kierunek Angielski Język Biznesu Forma studiów stacjonarne Poziom kwalifikacji I stopnia

Bardziej szczegółowo

Struktura artykułu naukowego. IMRAD - Introduction, Methods, Results, and Discussion Wprowadzenie Metody Wyniki Dyskusja

Struktura artykułu naukowego. IMRAD - Introduction, Methods, Results, and Discussion Wprowadzenie Metody Wyniki Dyskusja Struktura artykułu naukowego IMRAD - Introduction, Methods, Results, and Discussion Wprowadzenie Metody Wyniki Dyskusja Proces badawczy a części artykułu CZĘŚĆ PROCESU BADAWCZEGO Co zrobiłem i osiągnąłem?

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra

Bardziej szczegółowo

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Bibliografia: Ahmad, Khurshid -- Lee Gillam 2002 Sharing the knowledge of experts. Fachsprache, Vol. 24, No. 1-2: 1-19. Atkins, Sue -- Charles J. Fillmore -- Christopher R. Johnson 2003 Lexicographic relevance:

Bardziej szczegółowo

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski Terminologia 1. Terminologia jako dyscyplina naukowa. 2. Terminologia jako zbiór terminów (słownictwo specjalistyczne).

Bardziej szczegółowo

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą

Bardziej szczegółowo

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych Laboratorium Technologii Informacyjnych Projektowanie Baz Danych Komputerowe bazy danych są obecne podstawowym narzędziem służącym przechowywaniu, przetwarzaniu i analizie danych. Gromadzone są dane w

Bardziej szczegółowo

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu XXVIII Letnia Szkoła Naukowa Metodologii Nauk Empirycznych Zakopane, 12-14.05.2014 Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu Maciej Zaborowicz Instytut Inżynierii

Bardziej szczegółowo

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Bardziej szczegółowo

Tom 6 Opis oprogramowania

Tom 6 Opis oprogramowania Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa

Bardziej szczegółowo

Zasady przydziału symboli PKT

Zasady przydziału symboli PKT Zasady przydziału symboli PKT PKT służy w założeniu do płytkiego (ogólnego) klasyfikowania dokumentów (którymi będą przeważnie analizy w przeglądach dokumentacyjnych, pozycje w informatorach i księgach

Bardziej szczegółowo

Skrócona instrukcja obsługi

Skrócona instrukcja obsługi Web of Science Skrócona instrukcja obsługi ISI WEB OF KNOWLEDGE SM Można przeszukiwać ponad 9 00 czasopism w ponad językach z różnych dziedzin nauk ścisłych, społecznych i humanistycznych, aby znaleźć

Bardziej szczegółowo

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Krzysztof Kadowski. PL-E3579, PL-EA0312, Krzysztof Kadowski PL-E3579, PL-EA0312, kadowski@jkk.edu.pl Bazą danych nazywamy zbiór informacji w postaci tabel oraz narzędzi stosowanych do gromadzenia, przekształcania oraz wyszukiwania danych. Baza

Bardziej szczegółowo

Gramatyka kontrastywna polsko-angielska. III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II. Profil ogólnoakademicki 2012-2013

Gramatyka kontrastywna polsko-angielska. III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II. Profil ogólnoakademicki 2012-2013 PRZEWODNIK PO PRZEDMIOCIE I. KARTA PRZEDMIOTU: Gramatyka kontrastywna polsko-angielska III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II Profil ogólnoakademicki 2012-2013 CEL PRZEDMIOTU

Bardziej szczegółowo

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki

Bardziej szczegółowo

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL #1 Wartościowa treść Treść artykułu powinna być unikatowa (algorytm wyszukiwarki nisko ocenia skopiowaną zawartość, a na strony zawierające powtórzoną treść może zostać nałożony filtr, co skutkuje spadkiem

Bardziej szczegółowo

ISBN

ISBN 1 Copyright by Wydawnictwo HANDYBOOKS Poznań 2014 Wszelkie prawa zastrzeżone. Każda reprodukcja lub adaptacja całości bądź części niniejszej publikacji, niezależnie od zastosowanej techniki reprodukcji

Bardziej szczegółowo

KARTA PRZEDMIOTU. semestru 4), B2+ (na początku semestru 5), C1 (na początku semestru 6)

KARTA PRZEDMIOTU. semestru 4), B2+ (na początku semestru 5), C1 (na początku semestru 6) KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Zajęcia specjalizacyjne (językoznawstwo) 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW:

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Główną Uniwersytetu Medycznego w Poznaniu. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i

Bardziej szczegółowo

2 Podstawy tworzenia stron internetowych

2 Podstawy tworzenia stron internetowych 2 Podstawy tworzenia stron internetowych 2.1. HTML5 i struktura dokumentu Podstawą działania wszystkich stron internetowych jest język HTML (Hypertext Markup Language) hipertekstowy język znaczników. Dokument

Bardziej szczegółowo

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII Rozdział 1 Ocenę dopuszczającą otrzymuje uczeń, który: Przy pomocy kolegów lub nauczyciela łączy nazwy czynności

Bardziej szczegółowo

KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH

KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH Sylwia TWARDO Szkoła Języków Obcych, Uniwersytet Warszawski, Warszawa KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH Streszczenie. Korpusy tekstowe to zbiory tekstów zapisane w postaci

Bardziej szczegółowo

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego. 2. KIERUNEK: Logistyka. 3. POZIOM STUDIÓW: studia pierwszego stopnia

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego. 2. KIERUNEK: Logistyka. 3. POZIOM STUDIÓW: studia pierwszego stopnia KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego 2. KIERUNEK: Logistyka 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I i II, semestr 1, 2, 3

Bardziej szczegółowo

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08 Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.

Bardziej szczegółowo

Niektóre zasady pisania prac dyplomowych

Niektóre zasady pisania prac dyplomowych Niektóre zasady pisania prac dyplomowych Praca dyplomowa licencjacka/inżynierska Wymaga samodzielnego rozwiązania problemu zawodowego, technicznego lub badawczego w zakresie wiedzy zdobytej podczas studiów.

Bardziej szczegółowo

Ewa Lang Marzena Marcinek

Ewa Lang Marzena Marcinek Ewa Lang Marzena Marcinek Biblioteka Seminarium Politechniki Łódzkiej, Krakowskiej i Lwowskiej, Łódź, 27-28.03.2012 r. Bibliografia Publikacji Pracowników to dziedzinowa bibliograficzna baza danych obejmująca

Bardziej szczegółowo

KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat z języka angielskiego. 2. KIERUNEK: Mechanika i Budowa Maszyn. 3. POZIOM STUDIÓW: I stopnia

KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat z języka angielskiego. 2. KIERUNEK: Mechanika i Budowa Maszyn. 3. POZIOM STUDIÓW: I stopnia KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat z języka angielskiego 2. KIERUNEK: Mechanika i Budowa Maszyn 3. POZIOM STUDIÓW: I stopnia 4. ROK/ SEMESTR STUDIÓW: II/4 5. LICZBA PUNKTÓW ECTS: 3 6. LICZBA

Bardziej szczegółowo

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI ul. Wspólna 1/3 00-529 Warszawa ZASADY NAZEWNICTWA DOKUMENTÓW XML Projekt współfinansowany Przez Unię Europejską Europejski Fundusz

Bardziej szczegółowo

Ontologie, czyli o inteligentnych danych

Ontologie, czyli o inteligentnych danych 1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania

Bardziej szczegółowo

Szczegółowy opis języka HTML5 znajdziemy w specyfikacji, która jest dostępna pod adresem

Szczegółowy opis języka HTML5 znajdziemy w specyfikacji, która jest dostępna pod adresem HTML (ang. Hyper Text Markup Language) jest to język znaczników używany do tworzenia stron internetowych. Obecnie stosowane są dwie wersje tego języka: HTML 4.01, która obowiązuje już od dawna, oraz HTML5,

Bardziej szczegółowo

Metody indeksowania dokumentów tekstowych

Metody indeksowania dokumentów tekstowych Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie

Bardziej szczegółowo

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com Korpusy błędów

Bardziej szczegółowo

MS Word 2010. Długi dokument. Praca z długim dokumentem. Kinga Sorkowska 2011-12-30

MS Word 2010. Długi dokument. Praca z długim dokumentem. Kinga Sorkowska 2011-12-30 MS Word 2010 Długi dokument Praca z długim dokumentem Kinga Sorkowska 2011-12-30 Dodawanie strony tytułowej 1 W programie Microsoft Word udostępniono wygodną galerię wstępnie zdefiniowanych stron tytułowych.

Bardziej szczegółowo

Relacyjne bazy danych a XML

Relacyjne bazy danych a XML Relacyjne bazy danych a XML Anna Pankowska aniap@amu.edu.pl Internet, SQLiXMLwbiznesie Internet nieoceniony sposób komunikacji z klientami, pracownikami i partnerami handlowymi przyspiesza transakcje finansowe

Bardziej szczegółowo

Biblioteka Wirtualnej Nauki

Biblioteka Wirtualnej Nauki Biblioteka Wirtualnej Nauki BAZA EBSCO EBSCO Publishing oferuje użytkownikom w Polsce dostęp online do pakietu podstawowego baz danych w ramach projektu Electronic Information for Libraries Direct eifl

Bardziej szczegółowo

Aktualizację kodów można przeprowadzić na trzy sposoby:

Aktualizację kodów można przeprowadzić na trzy sposoby: 1. Od miesiąca lipca 2015 w SINFZ wchodzi do użytku nowa wersja słownika kodów grup zawodowych i specjalności personelu zgodna z rozporządzeniem Ministra Pracy i Polityki Społecznej Zdrowia z dnia 7 sierpnia

Bardziej szczegółowo

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu

Bardziej szczegółowo

GML w praktyce geodezyjnej

GML w praktyce geodezyjnej GML w praktyce geodezyjnej Adam Iwaniak Kon-Dor s.c. Konferencja GML w praktyce, 12 kwietnia 2013, Warszawa SWING Rok 1995, standard de jure Wymiany danych pomiędzy bazami danych systemów informatycznych

Bardziej szczegółowo

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego. 2. KIERUNEK: Turystyka i rekreacja. 3. POZIOM STUDIÓW: I stopnia

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego. 2. KIERUNEK: Turystyka i rekreacja. 3. POZIOM STUDIÓW: I stopnia KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego 2. KIERUNEK: Turystyka i rekreacja 3. POZIOM STUDIÓW: I stopnia 4. ROK/ SEMESTR STUDIÓW: II/1 5. LICZBA PUNKTÓW ECTS: 2 6. LICZBA GODZIN:

Bardziej szczegółowo

Bibliografia Etnografii Polskiej

Bibliografia Etnografii Polskiej Bibliografia Etnografii Polskiej INSTRUKCJA DLA UŻYTKOWNIKU YTKOWNIKÓW Bibliografia Etnografii Polskiej (BEP) to baza bibliograficzna, która prezentuje dorobek tylko polskich autorów z zakresu antropologii

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4. Ocena celująca (6): Ocena bardzo dobra (5): Otrzymuje uczeń, który:

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4. Ocena celująca (6): Ocena bardzo dobra (5): Otrzymuje uczeń, który: Ocena celująca (6): WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4 Otrzymuje uczeń, który: a) posiadł wiedzę i umiejętności wyznaczone programem nauczania, samodzielnie i twórczo rozwija własne uzdolnienia

Bardziej szczegółowo

KORPUSY JĘZYKOWE JAK MOGĄ POMÓC W NAUCE JĘZYKA OBCEGO?

KORPUSY JĘZYKOWE JAK MOGĄ POMÓC W NAUCE JĘZYKA OBCEGO? Mirosława PODHAJECKA, Instytut Filologii Angielskiej, Uniwersytet Opolski, Opole KORPUSY JĘZYKOWE JAK MOGĄ POMÓC W NAUCE JĘZYKA OBCEGO? Streszczenie. Korpusy językowe stanowią ogromne zbiory tekstów, które

Bardziej szczegółowo

Wprowadzenie do baz danych

Wprowadzenie do baz danych Wprowadzenie do baz danych Bazy danych stanowią obecnie jedno z ważniejszych zastosowań komputerów. Podstawowe zalety komputerowej bazy to przede wszystkim szybkość przetwarzania danych, ilość dostępnych

Bardziej szczegółowo

A/ Prace w zakresie nauk biomedycznych

A/ Prace w zakresie nauk biomedycznych Uwaga! Do prac licencjackich można mieć wgląd tylko na podstawie pisemnej zgody promotora. Wymagane jest podanie konkretnego tytułu pracy. Udostępniamy prace do wglądu tylko z ostatniego roku akademickiego.

Bardziej szczegółowo

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku Janusz S. Bień Katedra Lingwistyki Formalnej UW Język polski wczoraj, dziś, jutro W 100. rocznicę urodzin prof. S.

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii

Bardziej szczegółowo

Środowisko XML (Extensible Markup Language).

Środowisko XML (Extensible Markup Language). Środowisko XML (Extensible Markup Language). W skrócie Idea: XML standard opisu informacji Uniwersalne, proste, samoopisujące się dokumenty Źródła: Geneza SGML Specyfikacja www.w3.org Składania: XML to

Bardziej szczegółowo

01. Rodzaj publikacji artykuł, recenzja, sprawozdanie, wywiad 01.1 Język publikacji Nazwa języka, np. polski 02. Autor/autorzy publikacji

01. Rodzaj publikacji artykuł, recenzja, sprawozdanie, wywiad 01.1 Język publikacji Nazwa języka, np. polski 02. Autor/autorzy publikacji Dokumentował/a: imię i nazwisko studenta Źródło cytujące: 01. Rodzaj publikacji artykuł, recenzja, sprawozdanie, wywiad 01.1 Język publikacji Nazwa języka, np. polski 02. Autor/autorzy publikacji Nazwisko/imiona/(rodzaj

Bardziej szczegółowo

Edycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek

Edycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek Edycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek Edycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek Informacje dla studentów (Dziekanat)

Bardziej szczegółowo

Praca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk

Praca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk Praca licencjacka Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk 1.Wymagania formalne 1. struktura pracy zawiera: stronę tytułową, spis treści, Wstęp, rozdziały merytoryczne (teoretyczne

Bardziej szczegółowo

Microsoft Word jak zrobić bibliografię

Microsoft Word jak zrobić bibliografię Microsoft Word 2007 - jak zrobić bibliografię Naukowcy, studenci, a także i licealiści piszą zwykle prace naukowe, dyplomowe czy semestralne. Trzeba się w nich niejednokrotnie powoływać na rozmaite źródła.

Bardziej szczegółowo

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego. 2. KIERUNEK: Bezpieczeństwo Narodowe

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego. 2. KIERUNEK: Bezpieczeństwo Narodowe KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego 2. KIERUNEK: Bezpieczeństwo Narodowe 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I i II, semestr

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4. Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl

Bardziej szczegółowo

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol) KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Zajęcia specjalizacyjne (językoznawstwo) 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW:

Bardziej szczegółowo

Agnieszka Sawicka Od terminologii do słownika specjalistycznego czyli jak skonstruować słownik profesjonalisty

Agnieszka Sawicka Od terminologii do słownika specjalistycznego czyli jak skonstruować słownik profesjonalisty Agnieszka Sawicka Od terminologii do słownika specjalistycznego czyli jak skonstruować słownik profesjonalisty Językoznawstwo : współczesne badania, problemy i analizy językoznawcze 5, 145-151 2011 JĘZYKOZNAWSTWO

Bardziej szczegółowo

Łączenie liczb i tekstu.

Łączenie liczb i tekstu. Łączenie liczb i tekstu. 1 (Pobrane z slow7.pl) Rozpoczynamy od sposobu pierwszego. Mamy arkusz przedstawiony na rysunku poniżej w którym zostały zawarte wypłaty pracowników z wykonanym podsumowaniem.

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

ŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA BIBLIOTECZNE CZ. 2

ŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA BIBLIOTECZNE CZ. 2 ŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA W KATOWICACH PRZYSPOSOBIENIE BIBLIOTECZNE CZ. 2 WYSZUKIWANIE I ZAMAWIANIE WYSZUKIWANIE KATALOG PRZEGLĄDAĆ MOŻESZ BEZ LOGOWANIA. DOPIERO GDY CHCESZ COŚ ZAMÓWIĆ MUSISZ SIĘ ZALOGOWAĆ

Bardziej szczegółowo

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011 2 Multimedialne bazy danych Andrzej Łachwa, WFAiIS UJ 2011 Bazy tekstów języka naturalnego Wiele systemów wyszukiwania informacji w tekstach nie działa na oryginalnym materiale tekstowym, ale na opisach

Bardziej szczegółowo

1. LET S COMMUNICATE! LEKCJA

1. LET S COMMUNICATE! LEKCJA Wymagania edukacyjne na poszczególne oceny, sposoby sprawdzania osiągnięć edukacyjnych oraz warunki i tryb uzyskania oceny wyższej niż przewidywana Język angielski podręcznik Voices 1, wyd.macmillan Nr

Bardziej szczegółowo

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - angielski. 2. KIERUNEK: Pedagogika. 3. POZIOM STUDIÓW: studia pierwszego stopnia

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - angielski. 2. KIERUNEK: Pedagogika. 3. POZIOM STUDIÓW: studia pierwszego stopnia KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Język obcy - angielski 2. KIERUNEK: Pedagogika 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I i II, semestr 1, 2, 3 i 4 5. LICZBA PUNKTÓW

Bardziej szczegółowo

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O

Bardziej szczegółowo

WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO

WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO ZAŁOŻENIA REDAKCYJNE Pismo Dialog Edukacyjny ma charakter popularno-naukowy. Artykuł może być zaopatrzony w bibliografię. Zasady redagowania zob. poniżej. Objętość

Bardziej szczegółowo

Instrukcja dla autorów monografii

Instrukcja dla autorów monografii Instrukcja dla autorów monografii SPIS TREŚCI czcionka Times New Roman (dalej: TNR), rozmiar 16 STRESZCZENIE TNR 11... 6 1. WSTĘP... 7 2. ROZDZIAŁ 2... 23 2.1. Podrozdział TNR 11... 36 2.2. Podrozdział

Bardziej szczegółowo

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: PNJA gramatyka praktyczna 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I, semestr

Bardziej szczegółowo

Oprogramowanie. do analizy tekstów. Wstęp. Potrzeby użytkowników językowych baz danych. Elżbieta Gajek

Oprogramowanie. do analizy tekstów. Wstęp. Potrzeby użytkowników językowych baz danych. Elżbieta Gajek Oprogramowanie do analizy tekstów 67 Elżbieta Gajek Wstęp Technika komputerowa zapewnia językoznawcom narzędzia do korzystania z baz danych, które nazywane są korpusami językowymi. Korpus jest to wybór

Bardziej szczegółowo

Bazy danych - wykład wstępny

Bazy danych - wykład wstępny Bazy danych - wykład wstępny Wykład: baza danych, modele, hierarchiczny, sieciowy, relacyjny, obiektowy, schemat logiczny, tabela, kwerenda, SQL, rekord, krotka, pole, atrybut, klucz podstawowy, relacja,

Bardziej szczegółowo

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki Instytut Informatyki Literatura http://www.w3c.org/tr/ - Technical Reports K. B. Stall - XML Family of Specifications, Addison-Wesley 2003 P. Kazienko, K. Gwiazda - XML na poważnie, Helion 2002 XML Rozszerzalny

Bardziej szczegółowo

Darmowy artykuł, opublikowany na: www.fluent.com.pl

Darmowy artykuł, opublikowany na: www.fluent.com.pl Copyright for Polish edition by Bartosz Goździeniak Data: 4.06.2013 Tytuł: Pytanie o czynność wykonywaną w czasie teraźniejszym Autor: Bartosz Goździeniak e-mail: bgozdzieniak@gmail.com Darmowy artykuł,

Bardziej szczegółowo

1. Przypisy, indeks i spisy.

1. Przypisy, indeks i spisy. 1. Przypisy, indeks i spisy. (Wstaw Odwołanie Przypis dolny - ) (Wstaw Odwołanie Indeks i spisy - ) Przypisy dolne i końcowe w drukowanych dokumentach umożliwiają umieszczanie w dokumencie objaśnień, komentarzy

Bardziej szczegółowo

Rozdział 4 KLASY, OBIEKTY, METODY

Rozdział 4 KLASY, OBIEKTY, METODY Rozdział 4 KLASY, OBIEKTY, METODY Java jest językiem w pełni zorientowanym obiektowo. Wszystkie elementy opisujące dane, za wyjątkiem zmiennych prostych są obiektami. Sam program też jest obiektem pewnej

Bardziej szczegółowo

1. Zaczynamy! (9) 2. Edycja dokumentów (33)

1. Zaczynamy! (9) 2. Edycja dokumentów (33) 1. Zaczynamy! (9) Uruchamiamy program Word i co z tego wynika... (10) o Obszar roboczy, czyli miejsce do pracy (12) Otwieranie dokumentów w programie Word (14) o Tworzenie nowego dokumentu (14) o Otwieranie

Bardziej szczegółowo

FORMAT MARC 21 dla rekordów stosowanych w BAZACH BIBLIOGRAFICZNYCH

FORMAT MARC 21 dla rekordów stosowanych w BAZACH BIBLIOGRAFICZNYCH Zintegrowany System Zarządzania Biblioteką SOWA2/MARC21 FORMAT MARC 21 dla rekordów stosowanych w BAZACH BIBLIOGRAFICZNYCH Poznań 2011 1 Spis treści 1. Wstęp...3 2. Zredagowany wydruk bibliografii...4

Bardziej szczegółowo