ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH
|
|
- Marian Bednarski
- 6 lat temu
- Przeglądów:
Transkrypt
1 Marek Łukasik ANOTACJA KORPUSÓW TEKSTÓW SPECJALISTYCZNYCH 1. Rozwój technik komputerowych przyniósł istotną zmianę jakościową w badaniach językoznawczych i doprowadził do narodzin nowej dziedziny lingwistyki komputerowej/informatycznej (ang. computational linguistics). Komputery i dedykowane oprogramowanie nie tylko wzbogaciły warsztat badawczy lingwistyki, ale również przyczyniły się do powstania zupełnie nowych form działalności badawczej, znajdujących się na styku lingwistyki i informatyki, takich jak tłumaczenie maszynowe (ang. machine translation), automatyczne sporządzanie indeksów (ang. automatic indexing), czy automatyczna ekscerpcja terminów (ang. automatic acquisition of terms). Wspólną cechą powyższych dyscyplin jest wykorzystanie na pewnym etapie korpusów tekstowych, niejednokrotnie anotowanych. Nie jest to jednak obszar zarezerwowany wyłącznie dla specjalistów z dziedziny informatyki zajmujących się przetwarzaniem języka naturalnego: anotowane korpusy tekstowe mogą z powodzeniem stać się przydatnym narzędziem w warsztacie terminologa, terminografa czy tłumacza tekstów specjalistycznych. Poniżej przedstawiłem zarys problematyki anotacji (wzbogacania) korpusów tekstowych. Artykuł otwierają ogólne rozważania związane z anotacją korpusów. Na kolejnych stronach zostają one zilustrowane anotacją przykładowego tekstu specjalistycznego. Drugą część pracy stanowi studium przypadku, w którym przedstawiłem możliwości wykorzystania anotowanego korpusu tekstów specjalistycznych do ekscerpcji terminów. 2. Korpus tekstowy to każdy zbiór pisanych lub mówionych tekstów sformułowanych w określonym języku (językach), które zostały zebrane i wybrane według określonych kryteriów [Grucza 2007: 108]. Stosowanie pewnych parametrów doboru materiału językowego świadczy o tym, że korpusy tekstowe powstają z myślą o konkretnym celu badawczym bądź pragmatycznym. Korpus zatem, w rozumieniu współczesnej lingwistyki, nie jest przypadkowym zbiorem tekstów, na przykład zgromadzonym w bibliotece [Grucza 2007: 110; Hunston 2002: 2; Waliński 2005]. Ponadto w literaturze przedmiotu podkreśla się, że obecnie pojecie korpusu tekstowego implikuje elektroniczną postać zgromadzonych danych [Bowker, Pearson 2002: 9; Tsakona 2007: 40 i in.] Korpus tekstów może istnieć zarówno w postaci tzw. czystego tekstu, tj. bez dodatkowych oznaczeń (ang. raw-text corpus), jak również zawierać dodatkowe dane (metadane), które ułatwiają korzystanie i poszerzają możliwości wykorzysta
2 nia korpusu [McEnery 2003: 453]. Zarówno procedurę umieszczania dodatkowych informacji w korpusie, jak i jej produkt, czyli wprowadzone znaczniki/indeksy/tagi (ang. tags) nazywamy anotacją (znakowaniem/indeksowaniem/znakowaniem/tagowaniem), a korpus zawierający takie metadane korpusem anotowanym/adnotowanym/indeksowanym/znakowanym lub otagowanym (ang. annotated/tagged corpus) [Piotrowski 2004; Przepiórkowski, Woliński 2001; Waliński 2005; Woliński 2003 i in.]. Anotacja może dotyczyć: i) dokumentacji korpusu, tj. opisu informacji umożliwiających identyfikację danego tekstu dzięki umieszczeniu w nagłówku dokumentu (ang. header) informacji o tytule, autorze, wydawcy, roku wdania, języku, dziedzinie itd.; ii) struktury dokumentu, tj. opisu informacji o strukturze tekstu, czyli przede wszystkim podziale na sekcje, rozdziały, akapity, oraz o zastosowanych rozwiązaniach typograficznych, graficznych itd.; iii) wybranych cech lingwistycznych poszczególnych elementów występujących w tekście (wyrazów, fraz, transkrypcji w przypadku korpusów transkrybowanych itd.). Przydzielenie znaczników interpretacyjnych o charakterze lingwistycznym, jak również produkt takiego działania nazywamy anotacją lingwistyczną (ang. linguistic annotation). Dzieli się ona na: - anotację części mowy (ang. POS <Part-of-Speech> tagging/annotation), zwaną również anotacją gramatyczną (zob. poniżej); - lematyzację (ang. lemmatization), czyli sprowadzanie różnych form fleksyjnych tego samego wyrazu do jego formy podstawowej (kanonicznej, hasłowej), czyli do formy leksemu (lemmy); - anotację syntaktyczną (ang. syntactic tagging/annotation), czyli ukazanie struktury zdania w podziale na frazy; - anotację semantyczną (ang. semantic tagging/annotation), czyli przydzielenie tagów o charakterze znaczeniowym; - anotację prozodyczną (ang. prosodic tagging/annotation), czyli przydzielenie znaczników ukazujących intonację w korpusach transkrybowanych; - i in. [zob. m.in. Bowker, Pearson 2002: 83-84; EAGLES 1996; Gamper 2001: 115; Grucza 2007: 109; Johansson 1994: 84 i n.; McEnery 2003: 458; McEnery, Wilson 2001: 50; Waliński 2005: 4]. Warto zwrócić uwagę na rozbieżności terminologiczne występujące w literaturze przedmiotu. Dla pojęcia anotacji obejmującej opis dokumentacji i struktury dokumentu niektórzy badacze przyjmują terminy markup/encoding (pol. znakowanie), natomiast termin annotation (pol. anotacja) odnoszą do anotacji lingwistycznej [Bański 2003: 1; Bowker, Pearson 2002: 89]. Inni z kolei dla przedstawionej tu dychotomii wykorzystują odpowiednio terminy annotation oraz linguistic annotation [McEnery, Wilson 2001: 39 i n.]. W dalszej części artykułu będę odnosił się do pojęcia anotacji w najszerszym sensie, czyli tak, jak zostało to zaprezentowane w wyliczeniu powyżej (i-iii). Tam, gdzie okaże się to konieczne, użyty termin zostanie doprecyzowany
3 2.2. Podstawowe możliwości wykorzystania korpusów tekstowych w działalności lingwistycznej, terminologicznej, terminograficznej i translatorycznej zostały pokrótce omówione w innym artykule [zob. Łukasik 2007, Łukasik 2008]. W tym miejscu należy jednak dodać, że w porównaniu z korpusami nieanotowanymi, korpusy anotowane stanowią swoistą wartość dodaną, stąd też znajdują dodatkowe zastosowania lub przyczyniają się do udoskonalenia badań korpusowych. Po pierwsze, umieszczenie w każdym pliku korpusu informacji o charakterze bibliograficznym umożliwia porządkowanie korpusu i pozwala na sprawne odnalezienie tekstów o zadanych atrybutach (np. w badaniach nad idiolektem danego twórcy istnieje możliwość szybkiego wyodrębnienia podkorpusu tekstów danego autora, a w pracy terminologicznej lub terminograficznej wyodrębnienie tekstów konkretnej dziedziny lub napisanych w danym języku). Po drugie, anotacja opisująca strukturę dokumentu jest szczególnie ważna w przypadku tworzenia korpusów paralelnych pozwala bowiem na automatyczne przeprowadzenie uzgodnienia dokumentów tworzących korpus [zob. Łukasik 2008]. Z kolei korpusy anotowane lingwistycznie z jednej strony są niezbędne w badaniach z zakresu tzw. inżynierii lingwistycznej (na przykład w automatycznej analizie języków naturalnych, w tłumaczeniu maszynowym, w automatycznym tworzeniu indeksów, automatycznej ekscerpcji terminów i tworzeniu leksykonów jedno- i dwujęzycznych oraz automatycznym tworzeniu baz terminologicznych) [McEnery, Wilson 2001: 142], z drugiej zaś mogą być bardzo przydatnym narzędziem w rękach każdego lingwisty (np. w badaniach morfologicznych czy syntaktycznych), terminologa (np. przy identyfikacji potencjalnych terminów jedno- i wielowyrazowych, badaniu łączliwości leksykalnej terminów), leksykografa (przy tworzeniu siatki haseł słownika na podstawie precyzyjnych list frekwencyjnych zlematyzoanego korpusu czy przy wyszukiwaniu kolokacji), a nawet psychologa czy psycholingwisty (np. w badaniach niepłynności mowy, ang. speech disfluency). Oczywiście powyższe podsumowanie w żaden sposób nie wyczerpuje możliwości, jakie oferują korpusy anotowane: anotacja może bowiem zostać zaprojektowana na potrzeby konkretnego zadania. W kontekście badań prowadzonych w Katedrze Języków Specjalistycznych jednym rodzajem takiej anotacji mogłaby być anotacja terminologiczna, która polegałaby na półautomatycznym zdefiniowaniu występujących w tekście terminów pod kątem ich przynależności do odpowiednich klas onomazjologicznych lub wykazaniu stopnia terminologiczności danego tekstu. Tak anotowany korpus przyspieszyłby (dzięki częściowej automatyzacji) i zwiększył precyzyjność (dzięki metodom statystycznym) prac terminologicznych i terminograficznych w zakresie: a) analizy leksykonu terminologicznego; b) odtworzenia struktury semantycznej tekstu specjalistycznego, jego analizy statystycznej czy terminologicznej; c) precyzyjnego definiowania pojęć, czyli zachowania odpowiednich proporcji między różnymi klasami terminów a różnymi typami definicji; d) automatyzacji tworzenia siatki haseł konkretnych typów słowników (np
4 terminów teoretycznych vs. nazw nomenklaturowych vs. terminów proceduralnych). Zastosowanie komputerów w omówionym zakresie pozostawiłoby badaczom więcej czasu, który mogliby poświęcić na bardziej wnikliwą analizę materiału badawczego, której nie byłaby w stanie dokonać maszyna. Mimo wielu zalet anotacji, widoczny jest spór wśród badaczy o wartość anotowanych korpusów tekstowych. Polemika dotyczy przede wszystkim kwestii narzucania pewnej interpretacji lingwistycznej danym poddanym anotacji oraz spójności anotacji (polegającej na konsekwentnym przydzielaniu poszczególnych znaczników, np. części mowy, odpowiednim wyrazom) [zob. Sinclair 2003: 83-84; Sinclair 2007: 26 vs. McEnery 2003: ] Największe korpusy tekstowe powstają niejednokrotnie niezależnie w różnych ośrodkach badawczych czy wydawnictwach. W związku z tym często różnią się nie tylko przyjętą metodologią, ale również stroną techniczną, na przykład formatem zapisu danych czy wzorcem anotacji. Ta niekompatybilność powoduje, że dane zgromadzone i opisane w jednym ośrodku badawczym, nie mogą być wykorzystane w innym. Problemy takie próbuje się rozwiązać przyjęciem wspólnych międzynarodowych standardów, które wykorzystywane byłyby przez wszystkie ośrodki, a które odnosiłyby się do struktury znaczników, formatu zapisu, obowiązkowych i fakultatywnych elementów opisujących każdy dokument korpusu i in. Według niektórych badaczy, na czele wprowadzenia ujednoliconych standardów stoi konsorcjum TEI (Text Encoding Initiative) [McEnery, Wilson 2001: 33; Carletta et al. 2004: 450 i n.]. Opracowane przez TEI wytyczne (Guidelines for Electronic Text Encoding and Interchange, obecnie w wersji P5 z listopada 2007r., zob. TEI), znane również powszechnie jako standard TEI, mają na celu promowanie ujednoliconego formatu wymiany wszelkich danych w formie tekstowej, niezależnego od stosowanego oprogramowania. Oprócz ogólnych wytycznych, TEI definiuje szczegółowo m.in. zawartość nagłówków dokumentów, zasady kodowania znaków niestandardowych, opisy transkrypcji, tabel, wzorów i in., jak również zasady indeksowania tak skomplikowanych strukturalnie dokumentów jak elektroniczne słowniki jedno- i wielojęzyczne czy korpusy tekstowe. Określa również ogólne zasady kodowania anotacji lingwistycznych [zob. TEI Guidelines]. Ponieważ wytyczne TEI mają bardzo szerokie spektrum zastosowań w świecie wymiany informacji elektronicznej, w konkretnych aplikacjach stosowane są jedynie wybrane elementy. Ponadto w pewnych obszarach, np. istotnych z punktu widzenia lingwistyki korpusowej, wytyczne TEI zdają się być niekompletne. W pewnym sensie, odpowiedzią na te braki jest standard CES (Corpus Encoding Initiative). Został on zaprojektowany z myślą o wykorzystaniu w szeroko rozumianej inżynierii lingwistycznej, przede wszystkim do wymiany wszelkiego rodzaju danych językowych, m.in. korpusów tekstowych. Standard ten jest zgodny z wytycznymi Text Encoding Initiative, choć stosuje tylko niektóre - 4 -
5 elementy TEI (np. strukturę nagłówka) [zob. CES oraz Bowker, Pearson 2002: 80-81] Anotacja dokumentów, w tym korpusów tekstowych, odbywa się na podstawie ściśle określonych zasad i z wykorzystaniem zdefiniowanych zestawów znaczników. Początkowo zarówno w TEI, jak i w CES jako uniwersalny metajęzyk anotacji dokumentów stosowano język formalny SGML. Jednak w związku z jegp ograniczeniami oraz wymogami kodowania coraz bardziej złożonych dokumentów, w standardzie TEI zaproponowano nowy metajęzyk XML. SGML (Standard Generalized Markup Language) jest hierarchicznie zorientowanym metajęzykiem, umożliwiającym ujednolicony opis struktury i zawartości dokumentu tekstowego zapisanego w formie elektronicznej za pomocą znaczników (tagów). SGML został opracowany jako międzynarodowy standard [ISO 8879:1986], niezależny od platformy sprzętowej oraz środowiska oprogramowania. Dokumenty w standardzie SGML są zapisane w postaci czystego (zwykłego, niezakodowanego) tekstu (ang. plain text). Pola znaczników wyróżnione są za pomocą nawiasów trójkątnych <...>, z tym, że tag początkowy ma postać <... >, natomiast tag końca charakteryzuje dodatkowo ukośnik </...>. Co istotne, same znaczniki występują również w postaci zwykłego tekstu, a nie kodu, który mógłby odczytać jedynie komputer. W związku z tym tagi się częścią opisywanego dokumentu i są przenoszone między komputerami razem z dokumentem. Następcą SGML-a jest XML (Extensible Markup Language), uniwersalny metajęzyk wymiany informacji (przede wszystkim przez sieć Web), podobnie jak SGML niezależny od środowiska sprzętowego oraz stosowanego systemu operacyjnego, rozszerzalny, czyli umożliwiający definiowanie własnych tagów, jednak dzięki któremu można opisać nawet najbardziej skomplikowane strukturalnie dokumenty [zob. SGML, XML oraz Bowker, Pearson 2002: 83; Gamper 2001: 115] Od strony struktury, według standardów TEI, dokument składa się z nagłówka oraz tekstu. W nagłówku umieszczane są metainformacje, które można ogólnie nazwać dokumentacją korpusu (zob. punkt 2.1.) 1. Tego typu dane umożliwiają porządkowanie i wyszukiwanie dokumentów o zadanych atrybutach. Wykorzystuje się do tego specjalne programy wyszukiwawcze (ang. retrieval programs). Tekst z kolei opisany jest pod kątem struktury (podziału na rozdziały, akapity, czy nawet zdania) oraz rozwiązań graficznych i typograficznych [McEnery, Wilson 2001: 35]. 1 Struktura tagów występujących zarówno w nagłówku, jak i opisujących strukturę tekstu jego struktury jest bardzo rozbudowana. Zainteresowanego Czytelnika odsyłam bezpośrednio do dokumentacji standardów CES i TEI, które są dostępne w Internecie (zob. w bibliografii odpowiednio CES i TEI)
6 Celem ilustracji, zarówno w SGML-u, jak i XML-u, tag title odnosi się do tytułu tekstu. Znacznik ten zostaje umieszczony w nagłówku dokumentu i ma następującą postać (wykorzystano tytuł niniejszego artykułu): <title> Anotacja korpusów tekstów specjalistycznych </title> Z kolei w przypadku opisu struktury dokumentu, jako przykładowe można podać następujące tagi: tag wyróżniający akapit: <p>; tag wyróżniający tekst w cudzysłowie: <q> lub wypowiedź ujętą w cudzysłów: <quote>; tag wyróżniający zdanie ortograficzne (rozumiane tu jako ciąg znaków od wielkiej litery do kropki wraz ze spacją, niekoniecznie posiadające wszystkie elementy zdania w sensie lingwistycznym): <s> [zob. TEI Guidelines oraz Johansson 1994: 93]. Poniżej przedstawiono sposób oznaczenia przykładowego zdania z niniejszego artykułu: <s>od strony struktury dokumentu, według standardów TEI, dokument składa się z nagłówka oraz tekstu </s> Do tej pory skrótowo omówiłem anotację odnoszącą się dokumentacji oraz struktury tekstu. Dalej przedstawię dokładniej najpowszechniejszą formą anotacji lingwistycznej, a mianowicie anotację części mowy (POS Part-of-Speech Annotation/Tagging). Anotacja części mowy była jednym z pierwszych rodzajów anotacji lingwistycznej. Produktem takiej anotacji jest specjalny kod, przyjmujący formę znacznika/taga, dołączany do poszczególnych wyrazów i wskazujący część mowy, do której należy dana jednostka leksykalna. Opis taki może być podstawą dalszej obróbki danych korpusowych, a mianowicie analizy składniowej (ang. parsing) czy anotacji semantycznej [McEnery, Wilson 2001: 46]. Istnieją dwa rodzaje anotacji: anotacja osadzona, w której tagi znajdują się bezpośrednio w tekście korpusu (ang. embeded annotation) oraz anotacja zewnętrzna, w której opis poszczególnych elementów tekstu korpusu znajduje się w oddzielnym pliku (ang. standalone annotation). W pierwszym przypadku tagi są widoczne i dlatego muszą zostać w pewien sposób wyodrębnione z zasadniczego tekstu korpusu (na przykład za pomocą podkreślnika dolnego ( _ ) lub nawiasów). W drugim przypadku tekst korpusu pozostaje wolny od dodatkowych znaczników, a opisy są przyporządkowane poszczególnym elementom tekstu za pomocą hiperłączy (dowiązań). Dzięki anotacji zewnętrznej tekst korpusu jest w pełni czytelny, co jest szczególnie istotne w wypadku zastosowania anotacji wielostopniowej. Drugi rodzaj anotacji jest dziś proponowany przez CES, jednak większość - 6 -
7 powszechnie dostępnych programów nie obsługuje tego typu anotacji [Bański 2003: 6 i n.; McEnery, Xiao, Tono 2006: 44 i n.; McEnery, Wilson 2001: 38] Anotacja może być przeprowadzona automatycznie, półautomatycznie lub ręcznie. Oprogramowanie do automatycznej anotacji (ang. tagger) wykorzystuje do tego celu metody probabilistyczne oraz lingwistyczne (np. wcześniej anotowany korpus, tzw. treningowy, na którym program uczy się ; specjalne słowniki; analizatory morfologiczne; itp.). Pierwsze programy tego typu nie charakteryzowały się zbyt dużą dokładnością: na przykład program TAGGIT, który posłużył do anotacji Korpusu Browna (The Brown Corpus), osiągał dokładność na poziomie ok. 77%. Współczesne programy uzyskują precyzję sięgającą 97% (np. CLAWS Constituent Likelihood Automatic Word-tagging System), który posłużył do anotacji Brytyjskiego Korpusu Narodowego (BNC British National Corpus) [zob. CLAWS oraz McEnery 2003: 458]. Jeżeli współczynnik błędu na poziomie 3% jest do przyjęcia, wówczas teksty mające tworzyć korpus można anotować bez przeszkód w pełni automatycznie. Jeśli jednak wymagana jest o wiele wyższa dokładność, automatycznej anotacji musi towarzyszyć weryfikacja dokonywana przez lingwistów-anotatorów. Weryfikacja ta polega na ujednoznacznianiu (ang. disambiguation) kategorii lingwistycznych, które program sklasyfikował jako niejednoznaczne, oraz na rejestracji błędów w celu wprowadzenia zmian w wykorzystywanym oprogramowaniu Jak wspomniałem wyżej, jednym z programów do anotacji części mowy jest CLAWS. Na stronie internetowej Centre for Computer Corpus Research for Language w Lancaster University każdy może poddać anotacji dowolny tekst w języku angielskim o objętości do 300 wyrazów (wersja próbna zob. < Ponadto na stronie zamieszczono również inne przydatne informacje na temat anotacji, m.in. zestawy tagów (ang. tagset), wybraną literaturę przedmiotu, ciekawe odnośniki internetowe i in. Poniżej przedstawiono przykładowe kody z wykazu tagów części mowy w wersji C5 programu CLAWS. Zestaw ten posłużył do anotacji korpusu BNC i w pełnej wersji zawiera niewiele ponad 60 kodów. Najnowszy zestaw, w wersji C7, to już około 160 kodów [zob. BNC2 Guide]. AJ0 AT0 AV0 CJC CJS DPS NN0 NN1 przymiotnik (np. gold, old, beautiful) przedimek (np. the, a, an, no) przysłówek (np. often, well, furthest) spójnik wprowadzający zdanie współrzędnie złożone (np. and, or, but) spójnik wprowadzający zdanie podrzędnie złożone (np. although, when) zaimek dzierżawczy (np. your, their, his) rzeczownik neutralny pod względem liczby (np. aircraft, data) rzeczownik pospolity w liczbie pojedynczej (np. pencil, goose, time) - 7 -
8 NN2 rzeczownik pospolity w liczbie mnogiej (np. pencil, geese, times) NP0 nazwa własna (np. London, Michael, Mars) PNP zaimek osobowy (np. I, you, them) PRF przyimek of PRP przyimek (about, at, in, on, with) PUN tag opisujący znak interpunkcyjny (np.., : ;) VBB forma teraźniejsza czasownika be VHB forma teraźniejsza czasownika have VM0 czasownik modalny (np. will, would, can, could) VVB forma teraźniejsza dowolnego czasownika(np. give, work) VVD forma przeszła dowolnego czasownika (np. gave, worked) VVG forma -ing dowolnego czasownika (np. cooking, working) VVI forma bezokolicznika dowolnego czasownika (np. give, work) VVN imiesłów czasu przeszłego dowolnego czasownika (czyli tzw. III forma czasownika, np. given, worked) VVZ forma czasownika w 3 os. l. poj. (np. gives, works) Tabela 1 Przykładowe kody z zestawu tagów w wersji C5 programu CLAWS. Jak łatwo można zauważyć, kody literowe większości tagów nie są tworzone wyłącznie w postaci czytelnej dla maszyny albo specjalistów mają również ułatwić analizę wszystkim użytkownikom korpusu. W niektórych przypadkach z łatwością można wyprowadzić znaczenie danego kodu, na przykład kod VHB odnosi się do czasownika (ang. verb=v) mieć, posiadać (ang. have=h) w formie podstawowej (ang. base form=b), a kod NN2 do rzeczownika pospolitego w liczbie mnogiej Korzystając z cytowanej wyżej strony internetowej, poddałem anotacji tekst z dziedziny astrofizyki o długości około 1500 wyrazów. Poniżej znajduje się cząstkowy wynik przeprowadzonej anotacji zgodnie z zestawem tagów w wersji C5: Black_AJ0 holes_nn2 are_vbb most_av0 often_av0 detected_vvn by_prp the_at0 radiation_nn1 produced_vvn when_cjs they_pnp gravitationally_av0 pull_vvb in_prp surrounding_aj0 gas_nn1,_, in_prp a_at0 process_nn1 called_vvn accretion_nn1._. The_AT0 efficiency_nn1 with_prp which_dtq the_at0 hot_aj0 gas_nn1 radiates_vvz its_dps thermal_aj0 energy_nn1 strongly_av0 influences_vvz the_at0 geometry_nn1 and_cjc dynamics_nn0 of_prf the_at0 accretion_nn1 flow_nn1._. [Narayan, Quataert, 2005, Black Hole Accretion, Science ] Cały proces anotacji trwał około trzech sekund. Biorąc pod uwagę szybkość łącza internetowego oraz proces generowania nowej strony internetowej, sama anotacja całego fragmentu musiała zająć maszynie o wiele mniej czasu. W powyższym - 8 -
9 tekście tagi są częścią głównego tekstu korpusu i są połączone z wyrazami (i innymi elementami występującymi w tekście) za pomocą podkreślnika. W najnowszej wersji korpusu BNC, wykorzystującego standard TEI oraz metajęzyk XML, tagi występują przed wyrazem i znajdują się między nawiasami trójkątnymi z oznaczeniem w, dla wyrazów oraz c, dla znaków interpunkcyjnych, wraz z atrybutami, którym przypisywana jest konkretna wartość (np. c5=nn2 atrybut c5, któremu przypisano wartość NN2). W ramach każdego taga podawane są następujące informacje: część mowy według zestawu kodów CLAWS w wersji C5 (atrybut c5 ), forma podstawowa wyrazu, będąca wynikiem przeprowadzonej lematyzacji (atrybut hw ang. headword) oraz uproszczony kod części mowy (atrybut pos ). <w c5= AJ0 hw= black pos= ADJ >Black </w> <w c5= NN2 hw= hole pos= SUBST >holes </w> <w c5= VBB hw= be pos= VERB >are </w> <w c5= AV0 hw= most pos= ADV >most </w> <w c5= AJ0 hw= often pos= ADV >often </w> <w c5= VVN hw= detect pos= VERB >detected </w> <w c5= PRP hw= by pos= PREP >by </w> <w c5= AT0 hw= the pos= ART >the </w> <w c5= NN1 hw= radiation pos= SUBST >radiation </w> <w c5= VVN hw= produce pos= VERB >produced </w> <w c5= CJS hw= when pos= ADJ >when </w> <w c5= PNP hw= they pos= PRON >they </w> <w c5= AV0 hw= gravitationally pos= ADV >gravitationally </w> <w c5= VVB hw= pull pos= ADJ >pull </w> <w c5= PRP hw= in pos= ADJ >in </w> <w c5= AJ0 hw= surrounding pos= ADJ >surrounding </w> <w c5= NN1 hw= gas pos= SUBST >gas </w> <c c5= PUN >, </c> <w c5= PRP hw= in pos= PREP >in </w> <w c5= AT0 hw= a pos= ART >a </w> <w c5= NN1 hw= process pos= SUBST >process </w> <w c5= VVN hw= call pos= VERB >called </w> <w c5= NN1 hw= accretion pos= SUBST >accretion</w> <c c5= PUN >. </c> 3. W jednym artykułów zaprezentowałem sposób pozyskiwania terminów jedno- i wielowyrazowych z nieanotowanych korpusów tekstów specjalistycznych przy użyciu dostępnych programów do obróbki danych korpusowych [Łukasik 2007]. Poniżej przedstawiłem metodę ekscerpcji terminologii wykorzystującą korpusy anotowane
10 3.1. Wiele programów korpusowych pozwala na pracę z korpusami anotowanymi (np. MonoConc Pro, AntConc, WordSmith). W przedstawionym poniżej badaniu wykorzystałem anotowany tekst specjalistyczny, fragment którego znajduje się w punkcie , oraz programy AntConc i MonoConc Pro 2.2. Poszczególne etapy badania zilustrowane zostaną zrzutami ekranowymi, na publikację których zgodzili się ich autorzy, odpowiednio Laurence Anthony oraz Michael Barlow. W celu efektywnej pracy z korpusem wykorzystującym anotację osadzoną, w obydwu programach należy najpierw zdefiniować granice tagów (ang. delimiter), tj. podać symbol, który oddziela tag od elementów tekstu. Jest to niezbędne, gdyż w przeciwnym wypadku nie będzie możliwe tekstowe przeszukiwanie korpusu, tzn. bez odwoływania się do anotacji. W naszym tekście granice wyznacza podkreślnik, natomiast w przypadku korpusu BNC byłyby to nawiasy trójkątne otwierające (<w... oraz <c...) oraz zamykające tag (... >) (zob. Ryc. 1 i 2). Granice tagów występujących poza wyrazem. Granice tagów występujących obok wyrazów (w naszym przypadku podkreślnik). Granice tagów nagłówka. Ryc. 1 Definiowanie granic tagów. Program AntConc Granice tagów występujących obok wyrazów. Ryc. 2 Definiowanie granic tagów. Program MonoConc Pro 2.2. Granice tagów występujących poza wyrazem. Tu wzorzec dla BNC. Zdefiniowawszy granice tagów, można przejść do właściwych kwerend służących ekscerpcji terminów. W przypadku korpusu anotowanego i przedstawianych tu programów, do tego celu wykorzystamy funkcję konkordancji (konkordancja to zbiór przykładów występowania danego wyrazu (frazy) w jego bezpośrednim otoczeniu tekstowym; zob. Ryc. 5 i 6)
11 W programie AntConc nie przewidziano oddzielnego okna umożliwiającego przeprowadzenie kwerend konkordancyjnych dla korpusów anotowanych. Aby przeszukać korpus pod kątem występujących w nim tagów, należy skorzystać z symbolu wieloznacznego (ang. wildcard), który w naszym przypadku zastąpi wyraz. Przykładowe zapytanie przedstawiłem na Ryc. 3. Ryc. 3 Kwerenda z wykorzystaniem tagów. Schemat: rzeczownik w l. poj. + rzeczownik w l. poj (NN1). Program AntConc W programie MonoConc Pro istnieje specjalna zakładka umożliwiająca tworzenie zapytań z wykorzystaniem tagów. Jednak przed przeprowadzeniem kwerendy należy o tym program poinformować, po pierwsze wybierając odpowiednią funkcję z listy (Tag Search), po drugie wprowadzając umowny symbol przed właściwym tagiem (tu: & ) (Ryc. 4). Obydwa programy nie ograniczają kreatywności użytkownika, dzięki czemu można przeprowadzać, np. kwerendy mieszane, tj. składające się zarówno z wyrazów, jak i tagów. I tak kwerenda computer &V* umożliwi wyszukanie wszystkich czasowników (wszystkie tagi czasowników rozpoczynają się od litery V) łączących się z rzeczownikiem computer. W ten sposób można badać łączliwość na poziomie części mowy. Poniżej (Ryc. 4) przedstawiłem kwerendę dla zapytania: rzeczownik w dowolnej liczbie + rzeczownik w dowolnej liczbie (schemat tagów: &NN* &NN*). Pole wprowadzania kwerendy. Schemat: rzeczownik + rzeczownik. Pole wyboru sposobu wyszukiwania. Tu z wykorzystaniem tagów. Opcje wyszukiwania, m.in. maksymalna liczba konkordancji, szerokość kontekstu, definicja symboli wieloznacznych itd. Ryc. 4 Kwerenda z wykorzystaniem tagów. Schemat: rzeczownik w dowolnej liczbie (NN*) + rzeczownik w dowolnej liczbie (NN*). Program MonoConc Pro
12 Wynik kwerendy, czyli konkordancja, jest wyświetlana wraz z tagami, które w dowolnej chwili można ukryć, a samą konkordancję uporządkować, na przykład alfabetycznie (Ryc. 5). Ryc. 5 Konkordancja dla schematu tagów NN* + NN* z tagami widocznymi. Program MonoConc Pro 2.2. Ryc. 6 Konkordancja dla schematu tagów NN* + NN* z tagami ukrytymi. Program MonoConc Pro Poniżej przedstawiłem wyniki ekscerpcji terminów jedno- i wielowyrazowych. Na potrzeby niniejszego badania przyjmuję założenie, że większość leksykonów terminologicznych tworzą nominalne jednostki terminologiczne [zob
13 np. Winfield 1995: 414]. Ponieważ wykorzystywany w badaniu tekst nie został zlematyzowany, należało przeprowadzić kwerendy umożliwiające identyfikację terminów w liczbie pojedynczej (tag NN1), mnogiej (NN2) lub będące neutralne lub niejednoznaczne pod względem liczby, np. pluralia tantum (tag NN0). Poza tym pewna część terminów to eponimy, np. promień Schwarzschilda (ang. Scharzschild radius), należało więc w kwerendzie uwzględnić tag nazw własnych (NP0). Ponieważ tagi spełniające wymogi badania są podobne (zaczynają się od litery N), można zbudować kwerendę, która wyszuka wszystkie wystąpienia zadanych kategorii. Należy w tym celu zastosować symbol wieloznaczny, dzięki czemu otrzymujemy następującą kwerendę: &N*. Dzięki niej program odnalazł 392 wyrazy odpowiadające postawionym wymogom. Poniżej znajduje się kompletna lista niepowtarzających się wyrazów: 20%, 3%, accretion, accretor, AGN, amount, analysis, astronomers, astrophysicists, astrophysics, barrier, basis, binaries, bulge, bursts, center, classes, clouds, clusters, collapse, companion, connection, contrast, core, coupling, curiosities, debris, deposits, details, determination, disk, disks, distances, dynamics, Earth, Eddington, efficiency, Einstein, electrons, energy, ergs, event, evidence, evolution, example, existence, explanation, explosions, extremes, Fig. (Figure), flow, focus, forces, form, formation, forms, fraction, fragment, friction, fuel, fusion, galaxies, galaxy, gamma-rays, gas, geometry, gravity, heat, hint, hole, holes, horizon, horizons, host, inflow, jets, JO, light, limit, luminosities, luminosity, manifestations, mass, masses, material, matter, momentum, neutrinos, neutron, nucleus, number, object, objects, observations, orbits, orientation, parameters, parent, physics, place, planets, plasma, plasmas, power, predictions, presence, prevalence, process, processes, protons, radiation, radius, range, rate, rates, region, relativity, research, risk, rocks, role, rotation, scale, scales, self-gravity, signatures, simulation, simulations, source, sources, spectra, speed, spin, star, stars, stresses, structure, Sun, supernovae, supply, surface, surroundings, system, systems, term, theory, thickness, time, times, universe, varieties, volume, waves, Way, weight, wells, world, x-rays, XRBs. Już na podstawie powyżej listy można stwierdzić, że pozyskiwanie terminologii z korpusów tekstów specjalistycznych anotowanych ze względu na części mowy jest o wiele efektywniejsze, niż ekscerpcja terminów z korpusów nieanotwanych (np. przy wykorzystaniu list frekwencyjnych lub n-gramów) większość wyrazów z powyższego wykazu to albo terminy jednowyrazowe, albo elementy terminów wielowyrazowych. Oczywiście wymaga ona początkowego założenia, dotyczącego w przedstawianym tu badaniu fraz nominalnych. Konieczność przyjęcia pewnego założenia początkowego stanowi wyraźne potwierdzenie słów S. Gruczy, który pisze, że [w] praktyce nie sposób zrealizować badań czysto kwantytatywnych. Efekty badań kwantytatywnych są bowiem wysoce zależne od wstępnych decyzji o charakterze kwalitatywnym [Grucza 2008: 192]. Podobne założenie jest konieczne w przypadku pozyskiwania terminów wielowyrazowych. W tym celu wykorzystałem schematy nominalne stosowane w automatycznej ekscerpcji terminologii (w nawiasach podałem odpowiadające im kwerendy zastosowane w niniejszym badaniu):
14 (a) rzeczownik + rzeczownik (&NN* &NN*); (b) przymiotnik + rzeczownik (&AJ0 &NN*); (c) rzeczownik + dowolny przyimek + rzeczownik (&NN* &PRF &NN*); (d) rzeczownik + przyimek of + rzeczownik (&NN* &PRF &NN*) [Jacquemin, Bourigault 2003: 605]. Poniżej znajdują się wyniki przeprowadzonych kwerend (podano wystąpienia niepowtarzające się): (a) 31 wyświetlonych złożeń: accretion disk, accretion disks, accretion flow, accretion rate, companion star, core collapse, disk thickness, event horizon, event horizons, formation process, fuel supply, galaxy mass, gas clouds, hole mass*, host galaxy, neutron stars, parent stars, rotation rate, supply rate*, time scale (b) 135 wyświetlonych złożeń: accreting gas, accreting material, active role, angular momentum, binding energy, black hole, black holes, central object, characteristic rates, collapsing star, collisionless plasma, compelling evidence, current research, dark matter, direct evidence, disk-like structure, dissipated energy, electromagnetic waves, elliptical orbits, energetic explosions, extended system, galactic center, galactic nucleus, gamma-ray bursts, General Relativity, given galaxy, gravitating object, high accretion, hot gas, inefficient accretor, inflowing gas, ionized plasma, known source, large distances, low accretion, magnetic forces, magnetic stresses, major classes, mass accretion, mass energy, mass supply, massive stars, mere curiosities, Milky Way, new star, normal surface, nuclear fuel, nuclear fusion, numerical simulations, observational manifestations, opposite limit, other forces, outside world, potential energy, potential wells, powerful sources, precise explanation, promising explanation, radiative efficiency, relativistic jets, resulting accretion, simple objects, simple physics, small fraction, small volume, solar system, striking predictions, strong hint, sufficient momentum, supermassive holes, surrounding gas, thermal energy, thick accretion, thick disks, thin accretion, thin disks, tight connection, total number, ubiquitous process, ultrarelativistic jets, vertical thickness, virtual surface, x-ray binaries (c) 10 wyświetlonych złożeń: disks in astrophysics, energy via neutrinos, fusion in stars, gas into heat, holes with masses, processes in astrophysics, range in mass, structure on scales (d) 16 wyświetlonych złożeń: accretion of matter, amount of energy, center of mass, clusters of galaxies, disk of gas, disk of planets, evolution of structure, form of friction, inflow of matter, manifestations of accretion, number of stars, prevalence of disks, source of power, sources of x-rays, speed of light Wśród wyrażeń wielowyrazowych wymienionych w podpunktach a-d większość to potencjalne terminy, choć niektóre frazy wymagają dalszej analizy konkordancji lub ew. poszerzenia horyzontu kwerendy (do nawet kilku wyrazów w schemacie) celem odszukania pełnych jednostek wielowyrazowych
15 5. Podsumowując należy stwierdzić, że anotowane gramatycznie korpusy tekstów specjalistycznych mogą stać się nieocenionym narzędziem każdego terminologa, terminografa i tłumacza tekstów specjalistycznych. Wykorzystane w warsztacie powyższych specjalności mogą dostarczyć precyzyjnych danych w zakresie ekscerpcji terminologii, wyszukiwania kolokacji czy konkretnych związków wyrazowych. Nie bez powodu z tego typu korpusów korzysta szerokie grono specjalistów z dziedziny inżynierii lingwistycznej. Z pewnością opracowanie nowych typów anotacji tekstów fachowych i automatyzacja tego procesu może w przyszłości zmienić oblicze badań nad językami specjalistycznymi. BIBLIOGRAFIA: AntConc, wersja , autor programu: Laurence Anthony, dostępny nieodpłatnie na stronie domowej autora: mmmmmmmmmmm < data dostępu: Bański P., 2003, Anotacja zewnętrzna: wpływ architektury korpusu IPI PAN na efektywność jego tworzenia i wykorzystania, artykuł dostępny ze strony internetowej: < data dostępu: Bowker L, Pearson J., 2002, Working with Specialized Language. A practical guide to Using corpora, London: Routledge. BNC2 Guide, BNC POS-tagging Manual. Guidelines to wordclass tagging, dostępny na stronie internetowej < data dostępu: Carletta J. et al., 2004, A generic approach to software support for linguistic annotation using XML, [w:] G. Sampson, D. McCarthy [red.], Corpus Linguistics. Readings in a widening discipline, London, New York: Continuum, s CES, Corpus Encoding Standard, strona internetowa projektu: < data dostępu: CLAWS, CLAWS 7 Manual, < data dostępu: EAGLES, 1996, Recommendations for the Morphosyntactic Annotation of Corpora, dostępny na stronie internetowej: < data dostępu: Gamper J., 2001, Improving Textual Knowledge through Markup and Ontologies, [w:] F. Mayer [red.], Language for Special Purposes: Perspectives for the New Millennium, Tübingen: Gunter Narr Verlag Tübingen, s Grucza S., 2007, O konieczności tworzenia korpusów tekstów specjalistycznych, [w:] S. Grucza [red.], W kręgu teorii i praktyki lingwistycznej, Warszawa: WUW, s
16 Grucza S., 2008, Teksty specjalistyczne : Językowe eksponenty wiedzy specjalistycznej, [w:] Ł. Karpiński, Języki Specjalistyczne 8. Kulturowy i leksykograficzny obraz języków specjalistycznych, Warszawa: Katedra Języków Specjalistycznych, s Hunston S., 2002, Corpora in Applied Linguistics, Cambridge: Cambridge University Press. ISO 8879: 1986, Information processing Text and office systems Standard Generalized Markup Language. Jacquemin C., Bourigault D., 2003, Term extraction and automatic indexing, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s Johansson S., 1994, Encoding a Corpus in Machine-Readable Form: The Approach of the Text Encoding Initiative, [w:] B.T.S Atkins., A. Zampolli [red.], Computational Approaches to the Lexicon, Oxford: Oxford University Press, s Łukasik M., 2007, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. I), [w:] M. Łukasik [red.], Debiuty Naukowe I. Wiedza Korpus Słownik, Warszawa: BAJT Katedra Języków Specjalistycznych, s Łukasik M., 2008, Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych (cz. II). Korpusy paralelne, [w:] M. Łukasik [red.], Debiuty Naukowe II. Terminologia translatoryka - terminografia, Warszawa: BAJT Katedra Języków Specjalistycznych, s McEnery T., 2003, Corpus linguistics, [w:] R. Mitkov [red.], The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press, s McEnery T., Xiao R., Tono Y., 2006, Corpus-based Language Studies. An advanced resource book, London and New York: Routledge. McEnery T., Wilson A., 2001, Corpus Linguistics. An introduction, Edinburgh: Edinburgh University Press. MonoConc Pro, wersja 2.2, autor programu: Michael Barlow, program dostępny za opłatą. Wersja demonstracyjna programu znajduje się na cytowanej stronie internetowej: < data dostępu: Narayan R., Quataert E., 2005, Black Hole Accretion, [w:] Science, Vol. 307, No. 5706, , s. 63. Piotrowski T., 2004, Komputerowe korpusy tekstowe polszczyzny, artykuł dostępny na stronie domowej autora: < data dostępu: Przepiórkowski A., Woliński M., 2001, Projekt anotacji morfosyntaktycznej korpusu języka polskiego, dokument dostępny na stronie internetowej: < data dostępu:
17 SGML, About Standard Generalized Markup Language, dokument dostępny na stronie internetowej: < data dostępu: Sinclair J., 2003, Corpus creation, [w:] G. Sampson, D. McCarthy [red.], Corpus Linguistics. Readings in a widening discipline, London, New York: Continuum, s Sinclair J., 2007, Language and computing, past and present, [w:] A. Khurshid, M. Rogers [red.], Evidence-based LSP: Translation, Text and Terminology, s TEI, Text Encoding Initiative, strona internetowa projektu: < data dostępu: TEI Guidelines, < data dostępu: Tsakona V., 2007, Bilingualisation in practice: Terminological issues in bilingualising a specialised glossary, [w:] International Journal of Lexicography, Vol. 20, No. 2, s XML, A Technical Introduction to XML, dokument dostępny na stronie internetowej : < data dostępu: Waliński J., 2005, Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej, [w:] B. Lewandowska-Tomaszczyk [red.], Podstawy językoznawstwa korpusowego, Łódź: Wydawnictwo UŁ; dokument dostępny w wersji elektronicznej: < Typologia_korpusow.doc>, data dostępu: 20 września Winfield L., 1995, The special lexicon and problems of EST/ESP, [w:] R. Dirven, J. Vanparys [red.] Current Approaches to the Lexicon. A Selection of Papers Presented at the 18th LAUD Symposium, Duisburg, March, 1993, Woliński M., 2003, System znaczników morfostntaktycznych w korpusie IPI PAN, dokument dostępny na stronie internetowej: < data dostępu:
NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II).
Marek Łukasik NARZĘDZIA LINGWISTYKI KORPUSOWEJ W WARSZTACIE TERMI- NOLOGA, TERMINOGRAFA I TŁUMACZA TEKSTÓW SPECJALI- STYCZNYCH (CZ. II). KORPUSY PARALELNE 1. Niniejsze opracowanie jest kontynuacją rozważań
Bardziej szczegółowoKorpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Bardziej szczegółowoKatedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz
Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i Debiuty Naukowe III Leksykon tekst wyraz WARSZAWA 2009-1 - Seria Debiuty Naukowe Redaktor tomu
Bardziej szczegółowoLingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Bardziej szczegółowoForma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Bardziej szczegółowoRola języka XML narzędziem
Wprowadzenie do XML dr inż. Adam Iwaniak Szkolenie w Luboradzy, ZCPWZ, 12-13.02.2009r. Rola języka XML narzędziem Pierwszą rewolucją internetową było dostarczenie ludziom informacji. Znajdujemy się teraz
Bardziej szczegółowoExtensible Markup Language (XML) Wrocław, Java - technologie zaawansowane
Extensible Markup Language (XML) Wrocław, 15.03.2019 - Java - technologie zaawansowane Wprowadzenie XML jest językiem znaczników (ang. markup language) używanym do definiowania zbioru zasad rozmieszczenia
Bardziej szczegółowoPo zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych
rk Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych pojęć, prawdopodobnie zastanawiasz się, kiedy zaczniesz
Bardziej szczegółowoBiblioteka Wirtualnej Nauki
Biblioteka Wirtualnej Nauki BAZA SCOPUS Scopus jest największą na świecie bibliograficzną bazą abstraktów i cytowań recenzowanej literatury naukowej, wyposażoną w narzędzia bibliometryczne do śledzenia,
Bardziej szczegółowoWYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1
WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1 SGML (Standard Generalized Markup Language) Standardowy uogólniony język znaczników służący do ujednolicania struktury i formatu różnego typu informacji (danych). Twórcy
Bardziej szczegółowoAngielsko-polskie i polsko-angielskie słowniki specjalistyczne ( ) Analiza terminograficzna
UNIWERSYTET WARSZAWSKI KATEDRA JĘZYKÓW SPECJALISTYCZNYCH M a r e k Ł u k a s i k Angielsko-polskie i polsko-angielskie słowniki specjalistyczne (1990-2006) Analiza terminograficzna Warszawa 2007-1 - Niniejsze
Bardziej szczegółowoextensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl
extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl Plan wykładu Wprowadzenie: historia rozwoju technik znakowania tekstu Motywacje dla prac nad XML-em Podstawowe koncepcje XML-a XML jako metajęzyk
Bardziej szczegółowoWłodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)
Bardziej szczegółowoProgram warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Bardziej szczegółowoWSKAZÓWKI DLA AUTORÓW REFERATÓW
WSKAZÓWKI DLA AUTORÓW REFERATÓW Spis treści: I. Wymogi formalne... 2 II. WZÓR... 3 III. Bibliografia... 4 IV. Streszczenie... 5 V. Cytaty i przypisy... 6 VI. Tabele, rysunki, wzory... 7 1 I. Wymogi formalne
Bardziej szczegółowoKorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
Bardziej szczegółowoCLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
Bardziej szczegółowoProgramowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat
Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie
Bardziej szczegółowoWSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1
WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 W celu zwiększenia indeksowania i przeszukiwania publikacji autorskich przez naukowe wyszukiwarki internetowe, należy
Bardziej szczegółowoKORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie
Bardziej szczegółowoNarzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Bardziej szczegółowoZasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9
Zasady Nazewnictwa Dokumentów 2007-11-08 Strona 1 z 9 Spis treści I. Wstęp... 3 II. Znaczenie spójnych zasady nazewnictwa... 3 III. Zasady nazewnictwa wybrane zagadnienia... 3 1. Język oraz forma nazewnictwa...
Bardziej szczegółowoLokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Bardziej szczegółowoSemantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana
Bardziej szczegółowoPRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30
Politechnika Częstochowska, Wydział Zarządzania PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu PNJA Gramatyka Praktyczna Kierunek Angielski Język Biznesu Forma studiów stacjonarne Poziom kwalifikacji I stopnia
Bardziej szczegółowoStruktura artykułu naukowego. IMRAD - Introduction, Methods, Results, and Discussion Wprowadzenie Metody Wyniki Dyskusja
Struktura artykułu naukowego IMRAD - Introduction, Methods, Results, and Discussion Wprowadzenie Metody Wyniki Dyskusja Proces badawczy a części artykułu CZĘŚĆ PROCESU BADAWCZEGO Co zrobiłem i osiągnąłem?
Bardziej szczegółowoNarzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Bardziej szczegółowoNarzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Bardziej szczegółowoZarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Bardziej szczegółowoBibliografia: Ahmad, Khurshid -- Lee Gillam 2002 Sharing the knowledge of experts. Fachsprache, Vol. 24, No. 1-2: 1-19. Atkins, Sue -- Charles J. Fillmore -- Christopher R. Johnson 2003 Lexicographic relevance:
Bardziej szczegółowoJacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski
Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski Terminologia 1. Terminologia jako dyscyplina naukowa. 2. Terminologia jako zbiór terminów (słownictwo specjalistyczne).
Bardziej szczegółowoWK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą
Bardziej szczegółowoLaboratorium Technologii Informacyjnych. Projektowanie Baz Danych
Laboratorium Technologii Informacyjnych Projektowanie Baz Danych Komputerowe bazy danych są obecne podstawowym narzędziem służącym przechowywaniu, przetwarzaniu i analizie danych. Gromadzone są dane w
Bardziej szczegółowoJak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu
XXVIII Letnia Szkoła Naukowa Metodologii Nauk Empirycznych Zakopane, 12-14.05.2014 Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu Maciej Zaborowicz Instytut Inżynierii
Bardziej szczegółowoElektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
Bardziej szczegółowoTom 6 Opis oprogramowania
Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa
Bardziej szczegółowoZasady przydziału symboli PKT
Zasady przydziału symboli PKT PKT służy w założeniu do płytkiego (ogólnego) klasyfikowania dokumentów (którymi będą przeważnie analizy w przeglądach dokumentacyjnych, pozycje w informatorach i księgach
Bardziej szczegółowoSkrócona instrukcja obsługi
Web of Science Skrócona instrukcja obsługi ISI WEB OF KNOWLEDGE SM Można przeszukiwać ponad 9 00 czasopism w ponad językach z różnych dziedzin nauk ścisłych, społecznych i humanistycznych, aby znaleźć
Bardziej szczegółowoKrzysztof Kadowski. PL-E3579, PL-EA0312,
Krzysztof Kadowski PL-E3579, PL-EA0312, kadowski@jkk.edu.pl Bazą danych nazywamy zbiór informacji w postaci tabel oraz narzędzi stosowanych do gromadzenia, przekształcania oraz wyszukiwania danych. Baza
Bardziej szczegółowoGramatyka kontrastywna polsko-angielska. III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II. Profil ogólnoakademicki 2012-2013
PRZEWODNIK PO PRZEDMIOCIE I. KARTA PRZEDMIOTU: Gramatyka kontrastywna polsko-angielska III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II Profil ogólnoakademicki 2012-2013 CEL PRZEDMIOTU
Bardziej szczegółowoSystemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych
Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki
Bardziej szczegółowo#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL
#1 Wartościowa treść Treść artykułu powinna być unikatowa (algorytm wyszukiwarki nisko ocenia skopiowaną zawartość, a na strony zawierające powtórzoną treść może zostać nałożony filtr, co skutkuje spadkiem
Bardziej szczegółowoISBN
1 Copyright by Wydawnictwo HANDYBOOKS Poznań 2014 Wszelkie prawa zastrzeżone. Każda reprodukcja lub adaptacja całości bądź części niniejszej publikacji, niezależnie od zastosowanej techniki reprodukcji
Bardziej szczegółowoKARTA PRZEDMIOTU. semestru 4), B2+ (na początku semestru 5), C1 (na początku semestru 6)
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Zajęcia specjalizacyjne (językoznawstwo) 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW:
Bardziej szczegółowoMultiwyszukiwarka EBSCO Discovery Service - przewodnik
Multiwyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Główną Uniwersytetu Medycznego w Poznaniu. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i
Bardziej szczegółowo2 Podstawy tworzenia stron internetowych
2 Podstawy tworzenia stron internetowych 2.1. HTML5 i struktura dokumentu Podstawą działania wszystkich stron internetowych jest język HTML (Hypertext Markup Language) hipertekstowy język znaczników. Dokument
Bardziej szczegółowoWymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII
Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII Rozdział 1 Ocenę dopuszczającą otrzymuje uczeń, który: Przy pomocy kolegów lub nauczyciela łączy nazwy czynności
Bardziej szczegółowoKORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH
Sylwia TWARDO Szkoła Języków Obcych, Uniwersytet Warszawski, Warszawa KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH Streszczenie. Korpusy tekstowe to zbiory tekstów zapisane w postaci
Bardziej szczegółowoKARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego. 2. KIERUNEK: Logistyka. 3. POZIOM STUDIÓW: studia pierwszego stopnia
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego 2. KIERUNEK: Logistyka 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I i II, semestr 1, 2, 3
Bardziej szczegółowoSpis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08
Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.
Bardziej szczegółowoNiektóre zasady pisania prac dyplomowych
Niektóre zasady pisania prac dyplomowych Praca dyplomowa licencjacka/inżynierska Wymaga samodzielnego rozwiązania problemu zawodowego, technicznego lub badawczego w zakresie wiedzy zdobytej podczas studiów.
Bardziej szczegółowoEwa Lang Marzena Marcinek
Ewa Lang Marzena Marcinek Biblioteka Seminarium Politechniki Łódzkiej, Krakowskiej i Lwowskiej, Łódź, 27-28.03.2012 r. Bibliografia Publikacji Pracowników to dziedzinowa bibliograficzna baza danych obejmująca
Bardziej szczegółowoKARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat z języka angielskiego. 2. KIERUNEK: Mechanika i Budowa Maszyn. 3. POZIOM STUDIÓW: I stopnia
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat z języka angielskiego 2. KIERUNEK: Mechanika i Budowa Maszyn 3. POZIOM STUDIÓW: I stopnia 4. ROK/ SEMESTR STUDIÓW: II/4 5. LICZBA PUNKTÓW ECTS: 3 6. LICZBA
Bardziej szczegółowoMINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI
MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI ul. Wspólna 1/3 00-529 Warszawa ZASADY NAZEWNICTWA DOKUMENTÓW XML Projekt współfinansowany Przez Unię Europejską Europejski Fundusz
Bardziej szczegółowoOntologie, czyli o inteligentnych danych
1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania
Bardziej szczegółowoSzczegółowy opis języka HTML5 znajdziemy w specyfikacji, która jest dostępna pod adresem
HTML (ang. Hyper Text Markup Language) jest to język znaczników używany do tworzenia stron internetowych. Obecnie stosowane są dwie wersje tego języka: HTML 4.01, która obowiązuje już od dawna, oraz HTML5,
Bardziej szczegółowoMetody indeksowania dokumentów tekstowych
Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie
Bardziej szczegółowoZautomatyzowane tworzenie korpusów błędów dla języka polskiego
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com Korpusy błędów
Bardziej szczegółowoMS Word 2010. Długi dokument. Praca z długim dokumentem. Kinga Sorkowska 2011-12-30
MS Word 2010 Długi dokument Praca z długim dokumentem Kinga Sorkowska 2011-12-30 Dodawanie strony tytułowej 1 W programie Microsoft Word udostępniono wygodną galerię wstępnie zdefiniowanych stron tytułowych.
Bardziej szczegółowoRelacyjne bazy danych a XML
Relacyjne bazy danych a XML Anna Pankowska aniap@amu.edu.pl Internet, SQLiXMLwbiznesie Internet nieoceniony sposób komunikacji z klientami, pracownikami i partnerami handlowymi przyspiesza transakcje finansowe
Bardziej szczegółowoBiblioteka Wirtualnej Nauki
Biblioteka Wirtualnej Nauki BAZA EBSCO EBSCO Publishing oferuje użytkownikom w Polsce dostęp online do pakietu podstawowego baz danych w ramach projektu Electronic Information for Libraries Direct eifl
Bardziej szczegółowoAktualizację kodów można przeprowadzić na trzy sposoby:
1. Od miesiąca lipca 2015 w SINFZ wchodzi do użytku nowa wersja słownika kodów grup zawodowych i specjalności personelu zgodna z rozporządzeniem Ministra Pracy i Polityki Społecznej Zdrowia z dnia 7 sierpnia
Bardziej szczegółowoTom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania
Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu
Bardziej szczegółowoGML w praktyce geodezyjnej
GML w praktyce geodezyjnej Adam Iwaniak Kon-Dor s.c. Konferencja GML w praktyce, 12 kwietnia 2013, Warszawa SWING Rok 1995, standard de jure Wymiany danych pomiędzy bazami danych systemów informatycznych
Bardziej szczegółowoKARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego. 2. KIERUNEK: Turystyka i rekreacja. 3. POZIOM STUDIÓW: I stopnia
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego 2. KIERUNEK: Turystyka i rekreacja 3. POZIOM STUDIÓW: I stopnia 4. ROK/ SEMESTR STUDIÓW: II/1 5. LICZBA PUNKTÓW ECTS: 2 6. LICZBA GODZIN:
Bardziej szczegółowoBibliografia Etnografii Polskiej
Bibliografia Etnografii Polskiej INSTRUKCJA DLA UŻYTKOWNIKU YTKOWNIKÓW Bibliografia Etnografii Polskiej (BEP) to baza bibliograficzna, która prezentuje dorobek tylko polskich autorów z zakresu antropologii
Bardziej szczegółowoWYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4. Ocena celująca (6): Ocena bardzo dobra (5): Otrzymuje uczeń, który:
Ocena celująca (6): WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4 Otrzymuje uczeń, który: a) posiadł wiedzę i umiejętności wyznaczone programem nauczania, samodzielnie i twórczo rozwija własne uzdolnienia
Bardziej szczegółowoKORPUSY JĘZYKOWE JAK MOGĄ POMÓC W NAUCE JĘZYKA OBCEGO?
Mirosława PODHAJECKA, Instytut Filologii Angielskiej, Uniwersytet Opolski, Opole KORPUSY JĘZYKOWE JAK MOGĄ POMÓC W NAUCE JĘZYKA OBCEGO? Streszczenie. Korpusy językowe stanowią ogromne zbiory tekstów, które
Bardziej szczegółowoWprowadzenie do baz danych
Wprowadzenie do baz danych Bazy danych stanowią obecnie jedno z ważniejszych zastosowań komputerów. Podstawowe zalety komputerowej bazy to przede wszystkim szybkość przetwarzania danych, ilość dostępnych
Bardziej szczegółowoA/ Prace w zakresie nauk biomedycznych
Uwaga! Do prac licencjackich można mieć wgląd tylko na podstawie pisemnej zgody promotora. Wymagane jest podanie konkretnego tytułu pracy. Udostępniamy prace do wglądu tylko z ostatniego roku akademickiego.
Bardziej szczegółowoDygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku
Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku Janusz S. Bień Katedra Lingwistyki Formalnej UW Język polski wczoraj, dziś, jutro W 100. rocznicę urodzin prof. S.
Bardziej szczegółowoInforex - zarządzanie korpusami i ich anotacja
Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii
Bardziej szczegółowoŚrodowisko XML (Extensible Markup Language).
Środowisko XML (Extensible Markup Language). W skrócie Idea: XML standard opisu informacji Uniwersalne, proste, samoopisujące się dokumenty Źródła: Geneza SGML Specyfikacja www.w3.org Składania: XML to
Bardziej szczegółowo01. Rodzaj publikacji artykuł, recenzja, sprawozdanie, wywiad 01.1 Język publikacji Nazwa języka, np. polski 02. Autor/autorzy publikacji
Dokumentował/a: imię i nazwisko studenta Źródło cytujące: 01. Rodzaj publikacji artykuł, recenzja, sprawozdanie, wywiad 01.1 Język publikacji Nazwa języka, np. polski 02. Autor/autorzy publikacji Nazwisko/imiona/(rodzaj
Bardziej szczegółowoEdycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek
Edycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek Edycja pracy dyplomowej (technicznej, inżynierskiej) Przygotowała: prof. B. Kostek Informacje dla studentów (Dziekanat)
Bardziej szczegółowoPraca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk
Praca licencjacka Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk 1.Wymagania formalne 1. struktura pracy zawiera: stronę tytułową, spis treści, Wstęp, rozdziały merytoryczne (teoretyczne
Bardziej szczegółowoMicrosoft Word jak zrobić bibliografię
Microsoft Word 2007 - jak zrobić bibliografię Naukowcy, studenci, a także i licealiści piszą zwykle prace naukowe, dyplomowe czy semestralne. Trzeba się w nich niejednokrotnie powoływać na rozmaite źródła.
Bardziej szczegółowoKARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego. 2. KIERUNEK: Bezpieczeństwo Narodowe
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka angielskiego 2. KIERUNEK: Bezpieczeństwo Narodowe 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I i II, semestr
Bardziej szczegółowoInforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.
Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl
Bardziej szczegółowoKARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Zajęcia specjalizacyjne (językoznawstwo) 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW:
Bardziej szczegółowoAgnieszka Sawicka Od terminologii do słownika specjalistycznego czyli jak skonstruować słownik profesjonalisty
Agnieszka Sawicka Od terminologii do słownika specjalistycznego czyli jak skonstruować słownik profesjonalisty Językoznawstwo : współczesne badania, problemy i analizy językoznawcze 5, 145-151 2011 JĘZYKOZNAWSTWO
Bardziej szczegółowoŁączenie liczb i tekstu.
Łączenie liczb i tekstu. 1 (Pobrane z slow7.pl) Rozpoczynamy od sposobu pierwszego. Mamy arkusz przedstawiony na rysunku poniżej w którym zostały zawarte wypłaty pracowników z wykonanym podsumowaniem.
Bardziej szczegółowoEGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
Bardziej szczegółowoŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA BIBLIOTECZNE CZ. 2
ŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA W KATOWICACH PRZYSPOSOBIENIE BIBLIOTECZNE CZ. 2 WYSZUKIWANIE I ZAMAWIANIE WYSZUKIWANIE KATALOG PRZEGLĄDAĆ MOŻESZ BEZ LOGOWANIA. DOPIERO GDY CHCESZ COŚ ZAMÓWIĆ MUSISZ SIĘ ZALOGOWAĆ
Bardziej szczegółowoMultimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011
2 Multimedialne bazy danych Andrzej Łachwa, WFAiIS UJ 2011 Bazy tekstów języka naturalnego Wiele systemów wyszukiwania informacji w tekstach nie działa na oryginalnym materiale tekstowym, ale na opisach
Bardziej szczegółowo1. LET S COMMUNICATE! LEKCJA
Wymagania edukacyjne na poszczególne oceny, sposoby sprawdzania osiągnięć edukacyjnych oraz warunki i tryb uzyskania oceny wyższej niż przewidywana Język angielski podręcznik Voices 1, wyd.macmillan Nr
Bardziej szczegółowoKARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - angielski. 2. KIERUNEK: Pedagogika. 3. POZIOM STUDIÓW: studia pierwszego stopnia
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Język obcy - angielski 2. KIERUNEK: Pedagogika 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I i II, semestr 1, 2, 3 i 4 5. LICZBA PUNKTÓW
Bardziej szczegółowoWydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
Bardziej szczegółowoWSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO
WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO ZAŁOŻENIA REDAKCYJNE Pismo Dialog Edukacyjny ma charakter popularno-naukowy. Artykuł może być zaopatrzony w bibliografię. Zasady redagowania zob. poniżej. Objętość
Bardziej szczegółowoInstrukcja dla autorów monografii
Instrukcja dla autorów monografii SPIS TREŚCI czcionka Times New Roman (dalej: TNR), rozmiar 16 STRESZCZENIE TNR 11... 6 1. WSTĘP... 7 2. ROZDZIAŁ 2... 23 2.1. Podrozdział TNR 11... 36 2.2. Podrozdział
Bardziej szczegółowoKARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: PNJA gramatyka praktyczna 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I, semestr
Bardziej szczegółowoOprogramowanie. do analizy tekstów. Wstęp. Potrzeby użytkowników językowych baz danych. Elżbieta Gajek
Oprogramowanie do analizy tekstów 67 Elżbieta Gajek Wstęp Technika komputerowa zapewnia językoznawcom narzędzia do korzystania z baz danych, które nazywane są korpusami językowymi. Korpus jest to wybór
Bardziej szczegółowoBazy danych - wykład wstępny
Bazy danych - wykład wstępny Wykład: baza danych, modele, hierarchiczny, sieciowy, relacyjny, obiektowy, schemat logiczny, tabela, kwerenda, SQL, rekord, krotka, pole, atrybut, klucz podstawowy, relacja,
Bardziej szczegółowoWprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki
Instytut Informatyki Literatura http://www.w3c.org/tr/ - Technical Reports K. B. Stall - XML Family of Specifications, Addison-Wesley 2003 P. Kazienko, K. Gwiazda - XML na poważnie, Helion 2002 XML Rozszerzalny
Bardziej szczegółowoDarmowy artykuł, opublikowany na: www.fluent.com.pl
Copyright for Polish edition by Bartosz Goździeniak Data: 4.06.2013 Tytuł: Pytanie o czynność wykonywaną w czasie teraźniejszym Autor: Bartosz Goździeniak e-mail: bgozdzieniak@gmail.com Darmowy artykuł,
Bardziej szczegółowo1. Przypisy, indeks i spisy.
1. Przypisy, indeks i spisy. (Wstaw Odwołanie Przypis dolny - ) (Wstaw Odwołanie Indeks i spisy - ) Przypisy dolne i końcowe w drukowanych dokumentach umożliwiają umieszczanie w dokumencie objaśnień, komentarzy
Bardziej szczegółowoRozdział 4 KLASY, OBIEKTY, METODY
Rozdział 4 KLASY, OBIEKTY, METODY Java jest językiem w pełni zorientowanym obiektowo. Wszystkie elementy opisujące dane, za wyjątkiem zmiennych prostych są obiektami. Sam program też jest obiektem pewnej
Bardziej szczegółowo1. Zaczynamy! (9) 2. Edycja dokumentów (33)
1. Zaczynamy! (9) Uruchamiamy program Word i co z tego wynika... (10) o Obszar roboczy, czyli miejsce do pracy (12) Otwieranie dokumentów w programie Word (14) o Tworzenie nowego dokumentu (14) o Otwieranie
Bardziej szczegółowoFORMAT MARC 21 dla rekordów stosowanych w BAZACH BIBLIOGRAFICZNYCH
Zintegrowany System Zarządzania Biblioteką SOWA2/MARC21 FORMAT MARC 21 dla rekordów stosowanych w BAZACH BIBLIOGRAFICZNYCH Poznań 2011 1 Spis treści 1. Wstęp...3 2. Zredagowany wydruk bibliografii...4
Bardziej szczegółowo