1. Wstęp. 2. Co to jest homonimia? Biuletyn Polskiego Towarzystwa Językoznawczego LVIII, Warszawa
|
|
- Stanisława Sikora
- 8 lat temu
- Przeglądów:
Transkrypt
1 Biuletyn Polskiego Towarzystwa Językoznawczego LVIII, Warszawa Marek Świdziński, Magdalena Derwojedowa, Michał Rudolf Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich 1. Wstęp Przedmiotem uwagi jest w niniejszym artykule zjawisko homonimii. Cel stawiamy sobie trojaki. Chcemy, po pierwsze, zaproponować pewną regulację terminologiczną, mianowicie wprowadzić parę terminów dehomonimizacja i desynkretyzacja. Po drugie, poinformujemy o paru projektach naukowych, w jakie jesteśmy zaangażowani; projekty te podejmują między innymi, w aspekcie teoretycznym lub praktycznym, problematykę homonimii. Po trzecie, przedstawimy pewne obserwacje ilościowe tyczące homonimii w systemie języka polskiego i w tekście polskim. Przyjmujemy tu punkt widzenia polonistyczny (nie: ogólnolingwistyczny), czysto fleksyjny (nie: składniowy) oraz techniczny (nie: teoretyczny). Przedmiotem analiz będzie tekst pisany. Poniższą triadę terminów przyjmujemy bez dyskusji za Salonim i Świdzińskim (2001: 85): słowo napis ograniczony spacjami lub znakami interpunkcyjnymi; forma wyrazowa słowo z interpretacją gramatyczną i semantyczną (klasa gramatyczna, wartości kategorii fleksyjnych, nazwa jednostki słownikowej); leksem zbiór form wyrazowych o tym samym lub regularnie zróżnicowanym odniesieniu do rzeczywistości (i, w ideale, o podobnym kształcie). 2. Co to jest homonimia? Homonimia w szerokim sensie to zjawisko równokształtności jednostek tekstowych będących realizacjami różnych jednostek systemowych. Ograniczymy się niżej do słów, a więc do form wyrazowych (i to tylko niektórych, mianowicie syntetycznych), pozostawiając poza zakresem zainteresowania homonimiczne leksemy, homonimiczne frazy, homonimiczne zdania itp. Przedmiotem refleksji będzie niżej homonimia morfologiczna. Oto przykłady jednostek homonimicznych: (1) Matka dziewczyny odprowadza dziewczyny do szkoły. dziewczyny(dop,poj) dziewczyny(bier,mno) (2) Dzielę się z tymi chłopakami chłopakami do butów. chłopakami(narz,mno) CHŁOPAK 1 młody mężczyzna chłopakami(narz,mno) CHŁOPAK 2 przyrząd do zdejmowania butów (3) Mieszkacie obok Piotra, a Maria mieszka obok. obok OBOK 1 (przyimek) obok OBOK 2 (partykuło-przysłówek) Nie przyjmujemy w ogóle istnienia leksemów homonimicznych, choć zdarza się to w literaturze. Leksemy nie są przecież jednostkami tekstowymi, rozwijanie zaś idei homonimii częściowej jest teoretycznie błędne i może mieć co najwyżej walor dydaktyczny (por. Buttler (1988)). Frazy i zdania homonimiczne, takie jak w przykładach niżej: 1
2 (4) Nie znoszę kolegi matki. Nie znoszę czyjego kolegi? Nie znoszę czyjej matki? (5) Dziecko gryzie szczenię. dziecko(mian,poj) i szczenię(bier,poj) szczenię(mian,poj) i dziecko(bier,poj) (6) Piotr rysował godzinę. Piotr rysował co? Piotr rysował jak długo? są co prawda, prymarnie, jednostkami tekstowymi, ale poziomu wyższego niż słowo. Dla słów typu dziewczyny, chłopakami, obok zaproponowano roboczą nazwę homoforma, którą przywołuje w swej monografii Systemowość polskiej homonimii międzyparadygmatycznej Elżbieta Awramiuk (Awramiuk (1999: 23)). 3. Homonimia tradycyjnie i strukturalnie W językoznawstwie tradycyjnym homonimia jako osobny problem teoretyczny, według naszej wiedzy, w ogóle nie zaistniała. Kompendia gramatyczne w rodzaju podręczników Stanisława Szobera (1953), Witolda Doroszewskiego (1952) czy Zenona Klemensiewicza (1962) cechuje absolutny brak przełożenia słownikowego. Jeśli podaje się jakiegokolwiek wzorce, to nigdy nie towarzyszą im listy realizujących je jednostek. Słowniki zamieszczają nierzadko sieci paradygmatyczne z wypełnieniem niektórych klatek skrótowymi zapisami typu M. = B. (mianownik = biernik), ale w informacji przyhasłowej ograniczają się do wypisania form wyrazowych różnokształtnych, czyli różnych słów (por. np. SJP Dor., SJP PWN, SWJP, ISJP). Próbę całościowego i słownikowego zarazem ujęcia problemu przynoszą słowniki homonimów Danuty Buttler i zespołu (SFPH, Buttler (1988)), ale podstawy teoretyczne tych opracowań są wątpliwe. Zadany w nich opis odznacza się z jednej strony sporą redundancją, z drugiej jest wyraźnie niepełny. Homonimia to, dla tradycyjnego lingwisty, swego rodzaju lokalna osobliwość pewnego języka (por. Buttler (1970)), a w wymiarze praktycznym problem stylistyki lub glottodydaktyki. Nie inaczej dzieje się w lingwistyce z kręgu strukturalizmu europejskiego od czasów Ferdynanda de Saussure a (Saussure (1916)). Ujmując rzecz z pewną przesadą, powiedzieć można, że wizja języka naturalnego jako dwuklasowego systemu semiotycznego kładzie zdecydowany nacisk na syntezę, czyli wytwarzanie wyrażenia językowego, nie na analizę, czyli odbiór. System dwuklasowy to model kompetencji rodzimego użytkownika, przede wszystkim tekstotwórczej: to model nadawcy. Strukturalista postuluje dla opisywanego języka sieć opozycji. Kształty jednostek językowych wchodzących w te opozycje są dla niego mniej istotne; istotne są jedynie rzeczywiste różnice kształtu. Homonimia to neutralizacja opozycji, a więc, z aksjologicznego punktu widzenia, patologia systemu. Homoforma nie jest jednostką systemową, a to, że pewna forma wyrazowa podziela kształt z inną, nie daje żadnej nowej opozycji czy kategorii gramatycznej; wręcz przeciwnie. Ciekawe, że problematyka homonimii (różnej od składniowej) jest zupełnie obca tradycji generatywnej. 4. Homonimia w lingwistyce informatycznej Prawdziwy przełom przyniosły dekady ostatnie. Już pierwsze zastosowania komputerów do edycji otworzyły możliwości operowania korpusami tekstowymi zapisanymi na nośniku 2
3 elektronicznym. Wraz z błyskawicznym wzrostem mocy obliczeniowych oraz pojemności nośników rosnąć zaczęły korpusy, tak że ręczne korzystanie z nich stało się niemożliwe, a projektowanie narzędzi programistycznych przetwarzania tekstu zatrudniło i do dziś zatrudnia rzesze informatyków na całym świecie. Nastała era NLP (= Natural Language Processing), era automatycznego przetwarzania tekstów. Na pierwszy plan wysunęła się analiza tekstu morfologiczna, składniowa, wreszcie semantyczna. Tekst dostępny urządzeniu analizującemu jest oczywiście obiektem unilateralnym; jego rozbiór to bilateralizacja. Mówiąc znów z pewną przesadą, urządzenie owo automatyczny analizator uważać można za model odbiorcy tekstu. Wyrażenie językowe zostanie zbilateralizowane (odebrane, zanalizowane, zrozumiane), jeśli jego składniki rozpozna się właściwie. Problem homonimii ma zatem wagę pierwszorzędną, a procedury rozwiązywania homonimii, czyli odkrywania właściwej interpretacji, stanowią warunek sine qua non skuteczności działania narzędzi NLP. Korpus zapisany na nośniku udostępniany jest często w postaci konkordancji, a więc alfabetycznej listy słów z kontekstem (KWIC Key Word in Context). Aby w analizowanym tekście dane słowo będące kształtem pewnej homoformy dostało właściwą interpretację, interpretacje te muszą być zapisane w słowniku czy leksykonie będącym listą form wyrazowych. Korpus poddany częściowej choćby bilateralizacji nazywać się zwykło korpusem znakowanym (tagged corpus). Znakowania na wstępnym etapie dokonuje się ręcznie. Tak było i z pierwszym na gruncie polskim korpusem znakowanym. U schyłku lat sześćdziesiątych powstał mianowicie korpus słownika frekwencyjnego polszczyzny, zapisany od razu na nośniku. Słownik ten ukazał się najpierw, w latach , w postaci serii tomów pod nazwą Słownictwo współczesnego języka polskiego. Listy frekwencyjne (np. Słownictwo (1974)), a potem, w roku 1990, jako tom zbiorczy Słownik frekwencyjny polszczyzny współczesnej (SFPW). Oto przykładowa próbka z tego korpusu: (7) PO*1 najpotezniejszym251 i najstarszym251 bo naturalnym251 z'rodlem energii121 jest promieniowanie111 slon'ca121. gdyby udalo501 się znalez'c' technicznie dogodne241 rozwiazanie141 problemu wykorzystania121 tej221 energii121, staloby501 sie ono niewyczerpalnym251 z'rodlem energii121 elektrycznej221 na66 ziemi161. wielki211 uczony111 juliot-curie/ byl nawet zdania121, Ze rozwiazanie111 zagadnienia121 wykorzystania121 energii121 slon'ca121 jest zadaniem wazniejszym251 niz9 wykorzystanie111 energii121 atomowej221. Jak łatwo zauważyć, niektórym słowom przypisano pewne wartości liczbowe. Słowo z kodem jest kształtem jakiejś homoformy, słowo bez kodu ma jedną interpretację. 5. Rozwiązanie homonimii Przytoczona wyżej próbka pokazuje, że homoformy są w tekście polskim bardzo częste. Liczący 500 tysięcy słów korpus SFPW zawiera niemal 58% słów kodowanych. Oznacza to, że więcej niż co drugie wystąpienie słowa jest kształtem homoformy (szacunek ten zweryfikujemy w dół w dalszych punktach tego artykułu). 3
4 Niech słowo tekstowe tonie posłuży za przykład słowa, mówiąc obrazowo, silnie homonimicznego. Oto jego interpretacje: (8) tonie: Czasownik, 3 osoba, liczba pojedyncza, czas teraźniejszy ( TONĄĆ) (9) tonie: Rzeczownik żeński, mianownik, liczba mnoga ( TOŃ) (10) tonie: Rzeczownik żeński, biernik, liczba mnoga ( TOŃ) (11) tonie: Rzeczownik żeński, wołacz, liczba mnoga ( TOŃ) (12) tonie: Rzeczownik męsko-rzeczowy, miejscownik, liczba pojedyncza ( TON) (13) tonie: Rzeczownik męsko-rzeczowy, wołacz, liczba pojedyncza ( TON) (14) tonie: Rzeczownik żeński, celownik, liczba pojedyncza ( TONA) (15) tonie: Rzeczownik żeński, miejscownik, liczba pojedyncza ( TONA) Homonimia w węższym sensie to równokształtność form wyrazowych należących do dwóch leksemów (jest to homonimia międzyparadygmatyczna w nomenklaturze Elżbiety Awramiuk (1999: 7)). Homoforma homonimiczna to takie słowo, które jest wykładnikiem tekstowym form wyrazowych należących do dwóch leksemów. Parami form homonimicznych są na przykład pary (8)-(9), (8)-(12), (8)-(14). Synkretyzmem nazywa się równokształtność form wyrazowych wewnątrz jednego leksemu (homonimia wewnątrzparadygmatyczna, Awramiuk (1999: 7)). Homoforma synkretyczna to takie słowo, które jest wykładnikiem tekstowym form wyrazowych należących do jednego leksemu. Synkretyzm ilustrują np. pary (9)-(10), (12)-(13), (14)-(15). Dana homoforma może reprezentować: (a) parę form wyrazowych synkretycznych, (b) parę form wyrazowych niesynkretycznych (każda o jednej interpretacji), (c) parę typu forma wyrazowa niesynkretyczna forma wyrazowa synkretyczna. Oto przykłady: (16) tonie: celownik lub miejscownik, liczba pojedyncza ( TONA) miejscownik lub wołacz, liczba pojedyncza ( TON) (ad (a)) (17) gra: mianownik, liczba pojedyncza ( GRA) 3 osoba, liczba pojedyncza, czas teraźniejszy ( GRAĆ) (ad (b)) (18) pierze: 3 osoba, liczba pojedyncza, czas teraźniejszy ( PRAĆ) mianownik lub biernik, lub wołacz, liczba pojedyncza ( PIERZE) (ad (c)) A oto para terminów, które chcemy wprowadzić. Zinterpretowanie homoformy polegające na przypisaniu jej odpowiednich leksemów nazwiemy dehomonimizacją. Jest to operacja wielkiej ważności dla leksykografa. Na wstępnym etapie pracy z korpusem potrzebuje on takiego pogrupowania jednostek tekstowych w leksemy, aby koncypując opis danego hasła mieć pod ręką materiał ilustrujący tylko określone hasło. W tradycji anglosaskiej mówi się o lematyzacji, czyli przyporządkowaniu danemu słowu odpowiedniej formy hasłowej. Dehomonimizacja to rozwiązanie homonimii w węższym sensie, czyli homonimii międzyparadygmatycznej. Zinterpretowanie homoformy polegające na przypisaniu jej odpowiednich charakterystyk gramatycznych to desynkretyzacja. Dla słownikarza rzecz trzeciorzędna, desynkretyzacja jest 4
5 bardzo istotna z punktu widzenia celów automatycznej analizy składniowej. Desynkretyzacja to rozwiązanie homonimii wewnątrzparadygmatycznej. Jak pokazują przykłady (8)-(15), bilateralizacja homoformy jest zwykle zarazem dehomonimizacją i desynkretyzacją. Można by zatem zaproponować i trzeci termin, nieco ciężki: dehomoformizacja na oznaczenie każdego rozpoznania analizowanego słowa, tzn. zarówno dehomonimizacji, jak desynkretyzacji. Odpowiednikiem dehomoformizacji jest w tradycji anglojęzycznej disambiguation. Jeśli powstaje zadanie rozwiązania homonimii w szerszym sensie (a więc dehomoformizacji ) danego tekstu, to wynik może być dwojaki. Przy słabym rozumieniu rozwiązanie homonimii polega na podaniu listy wszystkich możliwych interpretacji danego słowa (wszystkich możliwych leksemów, wszystkich możliwych form wyrazowych, których dane słowo jest wykładnikiem tekstowym). Przy rozumieniu mocnym chodzi oczywiście o wskazanie interpretacji właściwej w ideale: jednej jedynej (jednego leksemu, jednej formy wyrazowej). Wynikiem słabej dehomoformizacji słowa tonie jest lista interpretacji (8)-(15). Wynikiem dehomoformizacji mocnej jest rozpoznanie słowa tonie w poniższych przykładach: (19) Frachtowiec właśnie tonie. (20) W jego ładowniach było po tonie węgla i po dwie tony oleju. (21) Każdej uratowanej tonie będziemy radzi. jako odpowiednio (8), (15) i (14). Rzeczywistym celem automatycznej analizy tekstu jest dehomoformizacja mocna, czyli, mówiąc intuicyjnie, ujednoznacznienie. Konkordancja zbudowana po udanej mocnej dehomoformizacji grupuje słowa równokształtne w klasy form wyrazowych jednoznacznych. 6. Trzy projekty naukowe Problematyka homonimii znajduje się w centrum uwagi projektu naukowego Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych, który podjęty został w roku 2001 przez Instytut Języka Polskiego Uniwersytetu Warszawskiego we współpracy z Redakcją Słowników PWN (grant KBN nr 5 H01D ). Kierownikiem projektu jest Andrzej Markowski, a głównymi wykonawcami Marek Świdziński i Mirosław Bańko. Jako podstawę empiryczną projekt wykorzystuje obszerne fragmenty Korpusu Redakcji Słowników PWN (por. ISJP: lvi-lxi). Zadanie badawcze sformułowano następująco: Celem projektu jest opracowanie narzędzi (programów) do obsługi wielkich korpusów języka polskiego, czyli rozpoznawania form fleksyjnych występujących w tekście, ich lematyzacji i dehomonimizacji, wyszukiwania wszystkich form danego leksemu, automatycznego i ręcznego znakowania tekstów oraz do budowania konkordancji. Zadanie to ma charakter interdyscyplinarny. Wymaga dogłębnej wiedzy lingwistycznej, by stworzyć rygorystyczny i systematyczny opis sporego wycinka polszczyzny, i informatycznej, by stworzyć wydajne i wygodne dla użytkownika oprogramowanie. (Wniosek (2000: 2)). Jak widać, przetwarzanie korpusów, o które w projekcie chodzi, to właśnie przede wszystkim operacje rozwiązywania homonimii lematyzacja (czyli, zgodnie z naszym nazewnictwem, dehomonimizacja) oraz dehomonimizacja (czyli to, co nazwaliśmy desynkretyzacją). 5
6 Narzędzia rozpoznawania form wyrazowych dostarcza program analizy morfologicznej AMOR autorstwa Joanny Rabiegi-Wiśniewskiej i Michała Rudolfa, przygotowany w latach W odróżnieniu od innych analizatorów morfologicznych, takich jak SAM Krzysztofa Szafrana (Szafran (1994)) czy analizator Roberta Wołosza (Wołosz (2000)), które reprezentują podejście a tergo (por. Tokarski (1993)), AMOR jest analizatorem a fronte i opiera się na danych specjalnie przygotowanego słownika gramatycznego leksemów polskich. Informację o tym analizatorze można znaleźć w niniejszym tomie Biuletynu (Rabiega-Wiśniewska i Rudolf (2003)) oraz w artykule Świdzińskiego, Rabiegi-Wiśniewskiej i Rudolfa (w druku). AMOR traktuje formę wyrazową jako połączenie podstawy (części wspólnej) i zakończenia (części różnej). Analizę prowadzi się od lewej do prawej, poszukując dla danego początku odpowiedniego zakończenia. Jeśli takie połączenie zapisane jest w słowniku, analiza jest spełniona. AMOR przyporządkowuje rozpoznawanemu słowu listę wszystkich możliwych interpretacji (ze względu na dany słownik). Jest to słaba dehomoformizacja. Trzeci projekt to przygotowywany przez Michała Rudolfa automatyczny analizator składniowy, znany w środowisku pod nazwą SKŁADAK lub ASA (= Automatic Syntactic Analyser). Analizator pomyślany został jako urządzenie znajdujące dla przetwarzanego wypowiedzenia najprawdopodobniejszą interpretację składniową. Dlatego nastawiony jest na dehomoformizację mocną. Choć SKŁADAK to przedsięwzięcie zdecydowanie naukowe, wykorzystanie odpowiedniej wersji tego narzędzia do przetwarzanie wielkich korpusów tekstowych rysuje się wyraźnie. Dodajmy, że SKŁADAK wykorzystuje moduł analizy fleksyjnej pochodny w stosunku do AMOR-a (por. Świdziński, Rabiega-Wiśniewska i Rudolf (w druku)). 7. Homonimie i synkretyzmy w aspekcie jakościowym Homonimie i synkretyzmy, chociaż z punktu widzenia teorii gramatycznej wydają się nieistotne, mają w procesie automatycznego przetwarzania tekstów znaczenie fundamentalne, i to zarówno w aspekcie jakościowym, jak i ilościowym. Strukturalnie rzecz biorąc, homonimie są raczej nieregularne, raczej nieseryjne i raczej nieprzewidywalne, podczas gdy synkretyzmy dają się interpretować jako fakty regularne, seryjne i przewidywalne. Oczywiście wszystkie powtarzalne odpowiedniości zachodzące między jednostkami języka można systematyzować, nawet bez jawnej refleksji funkcjonalnej. Tak postąpiła ze zjawiskami homonimii Elżbieta Awramiuk, sprowadzając je do 133 modeli zebranych w obszernym Aneksie (Awramiuk (2000: )). Dla każdego modelu autorka podaje informację o produktywności, a także serię przykładów często bardzo długą. Oto kilka takich modeli: (22) Model (M-F)1+a: fizyk fizyki fizykom fizykami fizykach fizyka FIZYK lub FIZYKA Model bardzo produktywny (23) Model (F-Adj)2: czapla czapli czaplą czaple CZAPLA lub CZAPLI Model rzadki (24) Model -li(v p -V ł ): pili 6
7 PILIĆ lub PIĆ Model rzadki (25) Model -ej(v p -Adv): jaśniej JAŚNIEĆ lub JASNY Model produktywny (26) Model -i(ln-p): dzięki DZIĘKI 1 (rzeczownik) lub DZIĘKI 2 (przyimek) Model izolowany Ponieważ przykłady powyższe służą jedynie zasygnalizowaniu pewnego rozwiązania problemu, nie wprowadzamy tutaj notacji, odsyłając do książki. Typowe synkretyzmy polszczyzny można łatwo wyczytać z tabel odmiany w różnych kompendiach gramatycznych lub słownikowych. Podajmy znów parę przykładów: (27) Rzeczowniki męskie typowe : mianownik = biernik (rodzaj męsko-rzeczowy, liczba pojedyncza) Samochód jedzie. Widzę samochód. dopełniacz = biernik (rodzaje męsko-żywotne, liczba pojedyncza) Nie widzę psa. Widzę psa. mianownik = biernik = wołacz (rodzaje męsko-nieosobowe, liczba mnoga) Psy wyją. Mam psy. Psy, nie wyjcie! (28) Rzeczowniki żeńskie typowe grupy I-IV (Tokarski (1973)): celownik = miejscownik (liczba pojedyncza) Dziwią się szkole. Był w szkole. mianownik = biernik = wołacz (liczba mnoga) Foki wyją. Mam foki. Foki, nie wyjcie! (29) Przymiotniki: dopełniacz, liczba pojedyncza, rodzaje męskie / rodzaj nijaki = biernik, liczba pojedyncza, rodzaje męsko-żywotne Brakuje dobrego człowieka / psa / przyrządu / oka. Widzę dobrego człowieka / psa. dopełniacz = celownik = miejscownik (liczba pojedyncza, rodzaj żeński) Nie było niskiej dziewczyny. Dziwią się niskiej inflacji. Usiadł na niskiej ławce. narzędnik, liczba pojedyncza, rodzaje męskie / rodzaj nijaki = miejscownik, liczba pojedyncza, rodzaje męskie / rodzaj nijaki = celownik, liczba mnoga, wszystkie rodzaje Wyręczam się nowym uczniem / urządzeniem. Mówili o nowym uczniu / urządzeniu. Szedł ku nowym uczniom / uczennicom / urządzeniom. 8. Homonimie i synkretyzmy w aspekcie ilościowym Pokażemy teraz statystykę obserwacyjną homonimii i synkretyzmów w słowniku i tekście polskim. Jest rzeczą oczywistą, że oszacowanie stopnia homonimiczności danego języka zależy od teorii, czyli od przyjętego opisu. 7
8 Im więcej leksemów postulujemy, tym więcej homonimów. Jeśli zapiszemy w słowniku jeden leksem PŁYWAK, słowa pływak, pływakowi, pływaki to nie homonimy; gdyby rozróżnić trzy leksemy: męsko-osobowy PŁYWAK 1, męsko-zwierzęcy PŁYWAK 2, męsko-rzeczowy PŁYWAK 3, wszystkie powyższe słowa byłyby kształtami homonimów. Im więcej kategorii fleksyjnych lub ich wartości, tym więcej synkretyzmów. Jeśli do opisu rzeczowników wprowadzimy kategorię deprecjatywności, słowo malarze będzie kształtem formy wyrazowej synkretycznej: niedeprecjatywnej (ci chłopi, ubecy, malarze) i deprecjatywnej (te chłopy, ubeki, malarze) (por. Saloni (1988)). Gdyby do paradygmatu czasownikowego wprowadzić dodatkową klatkę bezokolicznik_2 (dla słowa będącego składnikiem niefinitywnym analitycznej formy tzw. czasu przyszłego złożonego), wszystkie słowa będące kształtami formy bezokolicznikowej byłyby synkretyczne (Chcę spać. Będę spać.). Dane poniższe po części pochodzą ze słownika programu AMOR, po części zaś są wynikiem analizy tekstu długości nieco ponad 2 milionów słów przeprowadzonej przez ten program. AMOR to analizator morfologiczny, który przejmuje inwentarz kategorii gramatycznych od Saloniego i Świdzińskiego (2001). Poniższa tabela pokazuje udział homoform w słowniku AMOR-a: Jednostka Liczba Leksemy Formy wyrazowe Różnokształtne formy wyrazowe (bez synkretyzmów) Różnokształtne formy wyrazowe homonimiczne 6225 Formy wyrazowe homonimiczne Formy wyrazowe mające co najmniej 2 interpretacje Słownik AMOR-a obejmuje 75 tysięcy leksemów. Rozpisany na formy wyrazowe, jest listą długości niemal 1,4 miliona słów. Słów o więcej niż jednej interpretacji jest w słowniku niemal 700 tysięcy (co drugie słowo w słowniku, a więc w systemie, jest kształtem homoformy). Tylko 6 tysięcy słów reprezentuje homoformy homonimiczne, czyli reprezentujące formy wyrazowe różnych leksemów. Liczba w przedostatnim wierszu tabeli jest wyższa niż dwukrotność liczby z wiersza poprzedniego, ponieważ homoforma homonimiczna reprezentować może więcej niż dwa leksemy. Jak widać, na liście homoform przytłaczającą większość stanowią homoformy synkretyczne. W kolejnej tabeli zebrano typy leksemów najsilniej obciążone homonimią i synkretyzmem: Lp Jednostka Liczba 1. przymiotnik II rzeczownik żeński IV rzeczownik męski III rzeczownik żeński III rzeczownik męski IV czasownik Vc czasownik I 599 8
9 8. czasownik Via rzeczownik nijaki I czasownik III 465 Przymiotniki II to leksemy przymiotnikowe o tematach twardych z wyjątkiem zakończonych na k, g (grupy 2, 3 bez k, g i 4 Saloniego (1992)). Pozostałe typy leksemów odpowiadają grupom deklinacyjnym i koniugacyjnym Tokarskiego (1973). Podajmy przykłady leksemów: 1. WESOŁY 2. SZKOŁA 3. KRUK 4. DROGA 5. KOT 6. BIEC 7. CZYTAĆ 8. KUPIĆ 9. CZYTANIE 10. BIELEĆ Warto przy okazji zauważyć, że synkretyzmy w polszczyźnie są typowe dla deklinacji; to tłumaczy wysokie notowania przymiotników i czterech klas rzeczowników w powyższej tabeli. Koniugacja synkretyzmów nie zna. Czasowniki czterech wymienionych wyżej grup uwikłane są w homonimie, a nie synkretyzmy. Ostatnia tabela podaje wyniki analizy dwumilionowego korpusu tekstu polskiego (jest to podzbiór Korpusu PWN): Jednostka Liczba Procent Słowa Formy wyrazowe mające więcej niż 1 interpretację Formy wyrazowe homonimiczne Jak widać, niemal co drugie słowo w tekście polskim jest kształtem homoformy. Co ósme słowo dopuszcza dwie różne interpretacje słownikowe. Synkretyzmy zatem przeważają zdecydowanie nad homonimiami. Wspomnieliśmy wyżej, że w korpusie SFPW 58 słów na 100 stanowi, według autorów słownika, kształt homoformy. Wielkość ta zdecydowanie różni się od procent w naszej tabeli. Jest to dobra ilustracja naszego stwierdzenia z początku tego punktu, że opis ilościowy homonimii zależy od podstaw teoretycznych. Otóż autorzy SFPW kodowali własności składniowe przyimków, przyporządkowując równokształtne formy przyimków o różnym rządzie osobnym leksemom (Idę na bal.: na NA 1 Jestem na balu.: na NA 2 ). Ponieważ przyimki to klasa gramatyczna o bardzo wysokiej frekwencji tekstowej, stąd różnica między tymi szacunkami. 9
10 9. Podsumowanie Z punktu widzenia odbiorcy tekstu, zwłaszcza odbiorcy nie będącego rodzimym użytkownikiem danego języka, rozwiązanie homonimii morfologicznej w szerokim sensie dla danego słowa tekstowego to albo odgadnięcie leksemu, którego formy wyrazowej kształtem jest to słowo, albo odgadnięcie interpretacji gramatycznej tej formy wyrazowej. Rozpoznawanie automatyczne form wyrazowych jest również odgadywaniem. Efektywny program takiej analizy wykorzystuje najróżniejsze metody znajdowania właściwego rozwiązania, czyli dehomoformizacji mocnej od metod probabilistycznych po jakościowe, składniowe (por. np. Hajič i Hladká (1997), Hajič (1998), Oliva (w druku)). Niech poniższa garść przykładów posłuży za ilustrację. Pewne słowa mogą być rozpoznawane bezskładniowo. Jeśli w przetwarzanym tekście znajdziemy słowo brać, to niemal na pewno jest to forma bezokolicznikowa leksemu BRAĆ 1. Po prostu leksem ten jest ma w tekście polskim frekwencję o wiele rzędów wielkości wyższą niż rzeczownik BRAĆ 2. W korpusie SFPW leksem BRAĆ 1 ma 170 wystąpień, leksem BRAĆ 2 jedno. Podobnie słowo dziewczynie to raczej kształt formy miejscownikowej niż celownikowej leksemu DZIEWCZYNA, te pierwsze bowiem są tekstowo znacznie częstsze niż ostatnie. Ale wypowiedzenie Studencka brać nie podoba się dziewczynie. zawiera i formę mało prawdopodobnego leksemu BRAĆ 2, i rzadszą od miejscownikowej formę celownikową. Inna metoda ujednoznacznienia jest prymitywnie składniowa. Nie zakłada ona użycia analizatora składniowego. Oglądamy mianowicie najbliższy kontekst rozpoznawanego słowa, próbując aparatem analizy morfologicznej zbilateralizować sąsiednie słowo (poprzednie lub następne). Jeśli słowo tonie znajduje się w bezpośrednim sąsiedztwie słowa dobrym, to jest wysoce prawdopodobne, że reprezentuje ono formę wyrazową rzeczownika TON o wartości miejscownika liczby pojedynczej. Ale w wypowiedzeniach Jan w kajaku dobrym tonie., Źli boją się wody, dobrym tonie służą. czy Dobrym tonie złota się nie przyglądać niech ci dobrzy patrzą na srebro. słowo tonie ma zupełnie inne interpretacje. Niewątpliwie kluczem do rozwiązania problemu mocnej dehomoformizacji jest wyrafinowana analiza składniowa. Pamiętać jednak trzeba, że w językach silnie fleksyjnych typu polszczyzny analiza składniowa musi wychodzić od danych analizatora morfologicznego. Oba te moduły są w istocie nierozłączne. To dopiero pokazuje, jak trudnym zadaniem jest zbudowanie efektywnego urządzenia do rozwiązywania homonimii. Summary Two kinds of disambiguation in the automatic processing of large Polish text corpora In the article, problems of morphological homonymy are discussed. A word is regarded as homonymous if it corresponds to more than one linguistic unit, i.e., more than one word-form. A homonymous word may either represent two different lexemes (homonymy proper), or two different word-forms of one lexeme (syncretism). It is very important from the computational perspective to properly disambiguate homonymous words. Disambiguation is either lexical (lemmatization), or inflectional. Two Polish terms are proposed for those types of disambiguation: dehomonimizacja and desynkretyzacja, respectively. 10
11 We mention three scientific projects that are currently developed at the Institute of Polish, Warsaw University. Their aim is to provide various computational tools for automatic processing of large Polish text corpora. They include, among others, a morphological analyzer AMOR and a syntactic analyzer SKŁADAK (ASA); the latter is still under construction. Some quantitative data about Polish homonymy are given. Homonymy in Polish is both lexicon- and grammar-typical. In the lexicon for AMOR which comprises a list of word-forms almost every other unit is a homonymous word; among them, less than every hundredth word represents a lexical homonym. Finally, examination of a 2-million corpus shows that 44.70% of words are ambiguous of which almost every forth is lexically ambiguous. Literatura Awramiuk, E. (1999): Systemowość polskiej hominimii międzyparadygmatycznej. Białystok. Buttler, D. (1970): Dlaczego polszczyzna uchodzi za język niehomonimiczny?. Poradnik Językowy, z Buttler, D. (1988): Słownik polskich homonimów całkowitych. Wrocław. Doroszewski, W. (1952): Podstawy gramatyki polskiej. Warszawa. ISJP: Inny słownik języka polskiego PWN. Red. M. Bańko. Warszawa Hajič, J (1998): Automatic Processing of Czech: between Morphology and Syntax. MFF UK, Charles University. Prague. Hajič, J., Hladká, B. (1997): Tagging of inflective languages: a comparison. Proceedings of the ANLP 97, , Washington, DC. Association for Computational Linguistics, Morristown, New Jersey. Klemensiewicz, Z. (1962): Podstawowe wiadomości z gramatyki języka polskiego. Warszawa. Oliva, K. (w druku): Linguistics-based tagging of Czech: disambiguation of se as a testcase, [W:] Proceedings of the Fourth European Conference Formal Description of Slavic Languages at Potsdam, November 28-30th, Rabiega-Wiśniewska, J., Rudolf, M. (2003): AMOR program automatycznej analizy fleksyjnej tekstu polskiego. Biuletyn PTJ, t. LIX. Saloni, Z. (1988): O tzw. formach nieosobowych męskosobowych we współczesnej polszczyźnie. Biuletyn PTJ, t. XLI, Saloni, Z. (1992): Rygorystyczny opis polskiej deklinacji przymiotnikowej. [W:] Filologia Polska. Prace Językoznawcze 16. Uniwersytet Gdański. Gdańsk, Saloni, Z., Świdziński, M. (2001): Składnia współczesnego języka polskiego. Wyd. IV. Warszawa. Saussure, F. de (1916): Course de linguistique générale. Lausanne Paris. SFPH: Słownik polskich form homonimicznych. Red. D. Buttler, oprac. T. Branicka, D. Buttler, J. Tokarski, E. Witan. Warszawa SFPW: I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak, Słownik frekwencyjny współczesnej polszczyzny. Red. Z. Saloni. Kraków T. I-II. SJP Dor.: Słownik języka polskiego PAN. Red. W. Doroszewski. Warszawa T. I-X i Suplement. SJP PWN: Słownik języka polskiego. Red. M. Szymczak. Warszawa T. I-III. Słownictwo (1974): I. Kurcz, A. Lewicki, J. Sambor, J. Woronczak, Słownictwo współczesnego języka polskiego. Listy frekwencyjne. Warszawa. Tom I. Teksty popularnonaukowe. 11
12 SWJP: Słownik współczesnego języka polskiego. Red. B. Dunaj. Warszawa Szafran, K. (1994): Automatyczna analiza fleksyjna tekstu polskiego (na podstawie Schematycznego indeksu a tergo Jana Tokarskiego). Niepublikowana rozprawa doktorska. Warszawa. Szober, S. (1953): Gramatyka języka polskiego. Warszawa. Wyd. III. Świdziński, M., Rabiega-Wiśniewska, J., Rudolf, M. (w druku): Towards a bi-modular automatic analyzer of large Polish text corpora. [W:] Proceedings of the Fourth European Conference Formal Description of Slavic Languages at Potsdam, November 28-30th, Tokarski, J. (1973)): Fleksja polska. Warszawa. Tokarski, J. (1993): Schematyczny indeks a tergo polskich form wyrazowych. Oprac. i red. Z. Saloni. Warszawa. Wniosek (2000): A. Markowski, Wniosek o finansowanie projektu badawczego Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych. KBN. Warszawa. Wołosz, R. (2000): Efektywna metoda analizy i syntezy morfologicznej w języku polskim. Niepublikowana rozprawa doktorska. Warszawa. 12
Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa
Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,
Lingwistyka korpusowa w Polsce źródła, stan, perspektywy
LingVaria Nr 1, 2006 Lingwistyka korpusowa w Polsce źródła, stan, perspektywy Marek Świdziński Instytut Języka Polskiego Uniwersytet Warszawski 1. Wstęp Niniejszy szkic, adresowany przede wszystkim do
Wstęp do Językoznawstwa
Wstęp do Językoznawstwa Prof. Nicole Nau UAM, IJ, Językoznawstwo Komputerowe Dziesiąte zajęcie 08.12.2015 Składnia: Co bada? Jak bada? Konstrukcja składniowa a) ciąg (zespół) form wyrazowych związanych
OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak
Nazwa przedmiotu Kod przedmiotu OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) 09.03.20/ k, 1, II Humanistyczny Instytut/Katedra Instytut Filologii Polskiej i Kulturoznawstwa Specjalność/specjalizacja
OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU Nazwa
SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny
Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny SYLLABUS Instytut Filologii Polskiej i Lingwistyki Stosowanej Zakład Językoznawstwa Kierunek Podyplomowe Studium Filologii Polskiej
Gramatyka opisowa języka polskiego Kod przedmiotu
Gramatyka opisowa języka polskiego - opis przedmiotu Informacje ogólne Nazwa przedmiotu Gramatyka opisowa języka polskiego Kod przedmiotu 09.3-WH-FiP-GOP-1-K-S14_pNadGen0FA8C Wydział Kierunek Wydział Humanistyczny
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
LINGWISTYKA KORPUSOWA W POLSCE ŹRÓDŁA, STAN, PERSPEKTYWY
LingVaria Rok I (2006) nr 1 Marek Świdziński Uniwersytet Warszawski LINGWISTYKA KORPUSOWA W POLSCE ŹRÓDŁA, STAN, PERSPEKTYWY Wstęp Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-
Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA
Spis treści 5 Spis treści Przedmowa... 13 Przedmowa do wydania II... 14 Część pierwsza MORFOLOGIA 1. RZECZOWNIK... 17 1.1. Podział rzeczowników... 17 1.2. Rodzaj... 17 1.2.1. Rodzaj męsko-żeński... 18
O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1
O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN Beata Trawiński SFB 441 Eberhard-Karls-Universität Tübingen trawinski@sfs.uni-tuebingen.de Rygorystyczny opis języków naturalnych
SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK
5 SPIS TREŚCI Spis treści... 5-12 Wstęp... 13-14 Wykaz skrótów, symboli i terminów gramatycznych... 15-16 MIANOWNIK... 17-65 TABELA prezentująca końcówki fleksyjne rzeczowników... 17 RZECZOWNIK, PRZYMIOTNIK...
Nakład pracy studenta bilans punktów ECTS Obciążenie studenta
Lp. Element Opis 1 Nazwa Wstęp do językoznawstwa 2 Typ obowiązkowy 3 Instytut Instytut Nauk Humanistyczno-Społecznych i Turystyki Kod 4 PPWSZ-FA-1-15t-s/n Kierunek, kierunek: filologia 5 specjalność, specjalność:
OPIS PRZEDMIOTU. gramatyka opisowa języka polskiego (składnia) Humanistyczny. Instytut Filologii Polskiej i Kulturoznawstwa.
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU Nazwa
OPIS MODUŁU (PRZEDMIOTU) filologia polska. prof. dr hab. Andrzej S. Dyszak
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS MODUŁU (PRZEDMIOTU)
Nr Tytuł Przykład Str.
Spis treści Nr Tytuł Przykład Str. 1. Bezokolicznik Ӏ Pytania bezokolicznika:?? Zakończenia bezokolicznika -, -, - 10 2. Czasowniki niedokonane i dokonane Użycie postaci czasowników Nieregularne formy
SYLLABUS. Leksykologia i leksykografia
SYLLABUS Lp. Element Opis 1 2 Nazwa Typ Leksykologia i leksykografia Obowiązkowy 3 Instytut Instytut Nauk Humanistyczno-Społecznych i Turystyki 4 5 Kod Kierunek, specjalność, poziom i profil PPWSZ-FP-1-45-s
Języki programowania zasady ich tworzenia
Strona 1 z 18 Języki programowania zasady ich tworzenia Definicja 5 Językami formalnymi nazywamy każdy system, w którym stosując dobrze określone reguły należące do ustalonego zbioru, możemy uzyskać wszystkie
Kategorie gramatyczne polszczyzny
Uniwersytet Kardynała Stefana Wyszyńskiego 1 Pojęcie kategorii gramatycznej 2 3 Pojęcie kategorii gramatycznej i jej wartości Kategoria gramatyczna swoisty (stały, regularny, obligatoryjny) podział zbioru
Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997
1 Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997 SPIS TREŚCI WSTĘP... 1 WYKŁAD 1: WPROWADZENIE DO JĘZYKOZNAWSTWA
Eksploracja Zasobów Internetu
document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms When Google encounters a hyphen ( ) in a query term, e.g.,
Wykaz skrótów 17. Grafia pierwszej edycji Księgi Syracha wobec druków z pierwszej połowy XVI wieku 19. Grafia pierwszej edycji Księgi Syracha 21
Słowo wstępne 11 Wykaz skrótów 17 Grafia pierwszej edycji Księgi Syracha wobec druków z pierwszej połowy XVI wieku 19 Grafia pierwszej edycji Księgi Syracha 21 Grafia pierwszej edycji Księgi Syracha wobec
Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67
Spis treści Wykaz skrótów... 11 Przedmowa... 15 Podziękowania... 17 ROZDZIAŁ 1 Wprowadzenie: założenia metodologiczne i teoretyczne... 19 1. Cel i układ pracy...... 19 2. Język jako przedmiot badań...
2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK
OPIS MODUŁU KSZTAŁCENIA (SYLABUS) I. Informacje ogólne 1. Nazwa modułu kształcenia: JĘZYKOZNAWSTWO OGÓLNE 2. Kod modułu kształcenia: 08-KODM-JOG 3. Rodzaj modułu kształcenia: OBLIGATORYJNY 4. Kierunek
Korpusowe badania składniowe
derwojed@uw.edu.pl Sesja korpusowa 16 lipca 2009 r. 1 Wstęp: korpus tekstów 2 A. Wierzbicka, System składniowy prozy polskiego renesansu 3 M. Świdziński, Własności składniowe wypowiedników polskich 4 M.
Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz
Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i Debiuty Naukowe III Leksykon tekst wyraz WARSZAWA 2009-1 - Seria Debiuty Naukowe Redaktor tomu
Wprowadzenie do składni
Uniwersytet Kardynała Stefana Wyszyńskiego 1 Przedmiot składni i jej miejsce w systemie języka 2 3 Hierarchia jednostek języka nielinearne linearne (liniowe) cechy dystynktywne semantyczne dystynktywne,
Gramatyka kontrastywna polsko-angielska. III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II. Profil ogólnoakademicki 2012-2013
PRZEWODNIK PO PRZEDMIOCIE I. KARTA PRZEDMIOTU: Gramatyka kontrastywna polsko-angielska III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II Profil ogólnoakademicki 2012-2013 CEL PRZEDMIOTU
Gramatyka. języka rosyjskiego z ćwiczeniami
Gramatyka języka rosyjskiego z ćwiczeniami Autor Dorota Dziewanowska Projekt graficzny okładki i strony tytułowej Krzysztof Kiełbasiński Ilustracje Maja Chmura (majachmura@wp.pl) Krzysztof Kiełbasiński
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN
Walenty słownik walencyjny języka polskiego z kontrolą i koordynacją Filip Skwarski IPI PAN 5 listopada 2012 r. Układ 1 Wstęp Istniejące opisy walencyjne Po co nam kolejny słownik walencyjny? Opracowanie
Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki
Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki 1. Cele lekcji a) Wiadomości Uczeń: podaje definicję rzeczownika, zna pojęcie deklinacji, wymienia wszystkie przypadki rzeczownika,
5. FLEKSJA IMIENNA. 1. Rzeczownik i jego kategorie fleksyjne. 2. Liczba
5. FLEKSJA IMIENNA 1. Rzeczownik i jego kategorie fleksyjne Rzeczowniki to klasa leksemów odmiennych, odmieniających się przez przypadek, ale nie przez rodzaj. Definicję tę spełniają tradycyjne rzeczowniki,
1 Jednostka słownika: morfem czy słowo?
3 APARAT POJĘCIOWY MORFOLOGII 1 Jednostka słownika: morfem czy słowo? Język naturalny jest systemem dwuklasowym znaków. Znaki jednej z tych klas znaki złożone składają się ze znaków drugiej klasy, znaków
JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE
MACIEJ MATASEK JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE 1 Copyright by Wydawnictwo HANDYBOOKS Poznań 2014 Wszelkie prawa zastrzeżone. Każda reprodukcja lub adaptacja całości bądź części
INTUICJE. Zespół norm, wzorców, reguł postępowania, które zna każdy naukowiec zajmujący się daną nauką (Bobrowski 1998)
PARADYGMAT INTUICJE Zespół norm, wzorców, reguł postępowania, które zna każdy naukowiec zajmujący się daną nauką (Bobrowski 1998) PIERWSZE UŻYCIA językoznawstwo: Zespół form deklinacyjnych lub koniugacyjnych
Sylabus przedmiotu / modułu kształcenia
Sylabus przedmiotu / modułu kształcenia Nazwa przedmiotu/modułu kształcenia: Kultura języka polskiego Nazwa w języku angielskim: Culture of the Polish language Język wykładowy: polski Kierunek studiów,
SYLLABUS. Gramatyka kontrastywna 1 i 2
SYLLABUS L p. Element Nazwa Typ Opis Gramatyka kontrastywna i obowiązkowy 3 Instytut Nauk Humanistyczno-Społecznych i Turystyki 4 5 Kod Kierunek, specjalność, poziom i profil PPWSZ-FA--343t-s PPWSZ-FA--343t-n
OPIS MODUŁU (PRZEDMIOTU)
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS MODUŁU (PRZEDMIOTU)
Kategorie imienne polszczyzny
Uniwersytet Kardynała Stefana Wyszyńskiego 1 Przypadek, liczba, rodzaj 2 3 Kategorie imienne i werbalne Kategorie imienne przypadek liczba rodzaj *stopień *deprecjatywność Kategorie werbalne tryb czas
SYLLABUS. Gramatyka kontrastywna
SYLLABUS L p. Element Nazwa Typ Opis Gramatyka kontrastywna obowiązkowy 3 Instytut Nauk Humanistyczno-Społecznych i Turystyki 4 5 Kod Kierunek, specjalność, poziom i profil PPWSZ-FA--4n-s PPWSZ-FA--4n-n
Tekst powinien być pisany czcionką Times New Roman, 12 punktów, przy zastosowaniu interlinii 1,5.
PRZYGOTOWANIE TEKSTU DO DRUKU Redakcja półrocznika "Porównania" prosi o dołączenie do tekstów streszczeń artykułów w języku polskim i angielskim o objętości do 100 słów wraz ze słowami kluczowymi w języku
Lekcja : Tablice + pętle
Lekcja : Tablice + pętle Wprowadzenie Oczywiście wiesz już jak dużo można osiągnąć za pomocą tablic oraz jak dużo można osiągnąć za pomocą pętli, jednak tak naprawdę prawdziwe możliwości daje połączenie
Słowa jako zwierciadło świata
SYLLABUS Lp. Element Opis 1 2 Nazwa modułu Typ modułu Słowa jako zwierciadło świata do wyboru 3 Instytut Instytut Nauk HumanistycznoSpołecznych i Turystyki 4 5 Kod modułu Kierunek, specjalność, poziom
3. Cele sformułowane w języku ucznia: dowiesz się, czym są przypadki rzeczownika, dowiesz się, jak odmieniać rzeczownik przez przypadki
Scenariusz lekcji języka polskiego w klasie IV 1. Temat lekcji: O siedmiu przypadkach. rzeczownika. ( temat zgodny z podstawą programową rozporządzenia MEN z dnia 27.08.2012r. oraz zmianami z 30.05.2014r.
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu DEC-2012/07/B/HS2/00570 Magdalena Derwojedowa Witold Kieraś Danuta Skowrońska Robert
Wstęp do Językoznawstwa
Wstęp do Językoznawstwa Prof. Nicole Nau UAM, IJ, Językoznawstwo Komputerowe Ósme zajęcie 24.11.2015 Morfologia: definicja "Morfologia jest działem gramatyki, której przedmiotem jest opis wewnętrznej budowy
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
Darmowy artykuł, opublikowany na: www.fluent.com.pl
Copyright for Polish edition by Bartosz Goździeniak Data: 4.06.2013 Tytuł: Pytanie o czynność wykonywaną w czasie teraźniejszym Autor: Bartosz Goździeniak e-mail: bgozdzieniak@gmail.com Darmowy artykuł,
Idę drogą tupiąc nogą. Problemy pisowni wyrazów z ą, ę, em, en, om, on
Idę drogą tupiąc nogą. Problemy pisowni wyrazów z ą, ę, em, en, om, on 1. Cele lekcji a) Wiadomości Uczeń: zna podstawowe zasady pisowni wyrazów z ą, ę, om, on, em, en, zna różnice w wymowie i piśmie omawianych
r. rok szkolny 2012/2013
04.04.2013r. rok szkolny 2012/2013 Do sprawdzianu po szkole podstawowej przystąpiło 71 uczniów. Wszyscy uczniowie pisali sprawdzian w wersji standardowej. Struktura arkusza sprawdzającego umiejętności
Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone
Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone Mariusz Urbański Instytut Psychologii UAM Mariusz.Urbanski@.edu.pl Dzisiejsza opowieść pochodzi z Wykładów z logiki Marka Tokarza. kognitywistyka,
KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA
KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA Nazwa kierunku studiów: Informatyczne Techniki Zarządzania Ścieżka kształcenia: IT Project Manager, Administrator Bezpieczeństwa
Działania naprawcze po analizie wyników sprawdzianu zewnętrznego Szkoły Podstawowej nr 21 w Bytomiu Bytom, wrzesień 2016 r.
Działania naprawcze po analizie wyników sprawdzianu zewnętrznego Szkoły Podstawowej nr 21 w Bytomiu Bytom, wrzesień 2016 r. str. 1 I. uczniów. Zadania szczegółowe uczniów klasy Ia, uczniów klasy IIa, IIb,
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
OGÓLNOPOLSKI SPRAWDZIAN KOMPETENCJI TRZECIOKLASISTY OPERON 2015
OGÓLNOPOLSKI SPRAWDZIAN KOMPETENCJI TRZECIOKLASISTY OPERON 2015 Analiza wyników badań umiejętności językowych i umiejętności matematycznych uczniów klas III Szkoły Podstawowej nr 2 im. Jan Kochanowskiego
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI
Ocena celująca KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI Poziom kompetencji językowej ucznia wykracza poza wiadomości i umiejętności przewidziane dla klasy szóstej. - uczeń potrafi przyjąć
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego
Uniwersytet Kardynała Stefana Wyszyńskiego 1 Klasyfikacja tradycyjna 2 3 Pojęcie części mowy. Kryteria klasyfikacji Cześć mowy klasa leksemów o wspólnych cechach semantycznych / fleksyjnych / składniowych.
Nazywanie zwierząt domowych. Opisywanie ludzi. Rozmawianie o przedmiotach szkolnych. Opisywanie sposobów spędzania wolnego czasu.
Program pracy z uczennicą klasy VI Justyną Siupik na wyrównawcze zajęcia z języka angielskiego Nauczyciel prowadzący: Karolina Zoła (zajęcia w ramach godzin kartowych) Cele ogólne: 1. Zapewnienie maksimum
SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Bieżący sylabus w semestrze zimowym roku 2016/17
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS DOTYCZY CYKLU KSZTAŁCENIA 2016-2018 Bieżący sylabus w semestrze zimowym roku 2016/17 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/
W obrębie polskiego języka narodowego należy wydzielić dwa systemy:
Wykład nr 2 W obrębie polskiego języka narodowego należy wydzielić dwa systemy: a) polszczyznę ogólną (zwaną literacką); b)polszczyznę gwarową (gwary ludowe). Jest to podział dokonany ze względu na zasięg
Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI
Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI Normy wymagań na oceny w klasie IV Ocena dopuszczająca W zakresie gramatyki
Matematyka dyskretna. Andrzej Łachwa, UJ, /10
Matematyka dyskretna Andrzej Łachwa, UJ, 2018 andrzej.lachwa@uj.edu.pl 10/10 Podziały i liczby Stirlinga Liczba Stirlinga dla cykli (często nazywana liczbą Stirlinga pierwszego rodzaju) to liczba permutacji
PRZEDMIOTOWY SYSTEM OCENIANIA
PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK ANGIELSKI Klasy 4-6 1. Na lekcję uczeń zawsze powinien przynieść podręcznik, zeszyt ćwiczeń i zeszyt do języka angielskiego oraz pomoce wskazane przez nauczyciela. 2.
Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.
Andrzej Wiśniewski Logika I Materiały do wykładu dla studentów kognitywistyki Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu. 1 Logika Klasyczna obejmuje dwie teorie:
WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4. Ocena celująca (6): Ocena bardzo dobra (5): Otrzymuje uczeń, który:
Ocena celująca (6): WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4 Otrzymuje uczeń, który: a) posiadł wiedzę i umiejętności wyznaczone programem nauczania, samodzielnie i twórczo rozwija własne uzdolnienia
KIERUNKOWE EFEKTY KSZTAŁCENIA
KIERUNKOWE EFEKTY KSZTAŁCENIA WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA
System znaczników morfosyntaktycznych w korpusie IPI PAN
strona 1, POLONICA??? PL ISSN 0137-9712 MARCIN WOLIŃSKI System znaczników morfosyntaktycznych w korpusie IPI PAN Niniejszy artykuł opisuje zasady znakowania 1 morfosyntaktycznego tekstów języka polskiego
SYLLABUS. specjalność: dziennikarska i nauczycielska. poziom kształcenia: studia pierwszego. profil kształcenia: praktyczny
SYLLABUS Lp. Element Opis 1 2 Nazwa Typ Kultura języka Obowiązkowy 3 Instytut Instytut Nauk Humanistyczno-Społecznych i Turystyki 4 5 Kod Kierunek, specjalność, poziom i profil PPWSZ-FP-1-17-s kierunek:
ISBN
1 Copyright by Wydawnictwo HANDYBOOKS Poznań 2014 Wszelkie prawa zastrzeżone. Każda reprodukcja lub adaptacja całości bądź części niniejszej publikacji, niezależnie od zastosowanej techniki reprodukcji
Uchwała o zmianach w programie studiów doktoranckich. 1. Plan roku I studiów doktoranckich obejmuje następujące przedmioty:
Uchwała o zmianach w programie studiów doktoranckich 1. Plan roku I studiów doktoranckich obejmuje następujące przedmioty: a) Konwersatorium I 30 godzin 3 ECTS b) Konwersatorium II 30 godzin 3 ECTS c)
Efekty kształcenia dla kierunku studiów Etyka prowadzonego w Instytucie Filozofii UJ. Studia pierwszego stopnia profil ogólnoakademicki
Efekty kształcenia dla kierunku studiów Etyka prowadzonego w Instytucie Filozofii UJ Studia pierwszego stopnia profil ogólnoakademicki Lp. K_W01 K_W02 Nazwa Wydziału: Wydział Filozoficzny Nazwa kierunku
OGÓLNOAKADEMICKI. Kierunek studiów ASTRONOMIA o profilu ogólnoakademickim należy do obszaru kształcenia w zakresie nauk ścisłych.
Załącznik do uchwały nr 243 Senatu Uniwersytetu Zielonogórskiego z dnia 28 lutego 2018 r. I. EFEKTY KSZTAŁCENIA 1. Tabela odniesień efektów kierunkowych do efektów obszarowych z komentarzami EFEKTY KSZTAŁCENIA
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Wprowadzenie. Teoria automatów i języków formalnych. Literatura (1)
Wprowadzenie Teoria automatów i języków formalnych Dr inŝ. Janusz Majewski Katedra Informatyki Literatura (1) 1. Aho A. V., Sethi R., Ullman J. D.: Compilers. Principles, Techniques and Tools, Addison-Wesley,
Wprowadzenie do logiki Język jako system znaków słownych
Wprowadzenie do logiki Język jako system znaków słownych Mariusz Urbański Instytut Psychologii UAM Mariusz.Urbanski@.edu.pl język system znaków słownych skoro system, to musi być w tym jakiś porządek;
Praktyczna nauka drugiego języka obcego II
OPIS PRZEDMIOTÓW DO PLANU STUDIÓWNA ROK AKADEMICKI 2016/2017 PLAN STUDIÓW kierunek studiów: Filologia germańska profil studiów: ogólnoakademicki stopień: II ( ) forma studiów: stacjonarne specjalność:
OGÓLNOPOLSKIE BADANIE UMIEJĘTNOŚCI TRZECIOKLASISTÓW 2015 w Szkole Podstawowej nr 6 im. Henryka Sienkiewicza w Pruszkowie
OGÓLNOPOLSKIE BADANIE UMIEJĘTNOŚCI TRZECIOKLASISTÓW 2015 w Szkole Podstawowej nr 6 im. Henryka Sienkiewicza w Pruszkowie WYNIKI - ANALIZA - WNIOSKI Opracowanie: IWONA CHUDZIKIEWICZ Pruszków, dn. 18 czerwca
frazy bezokolicznikowej we współczesnym zdaniu polskim
Uniwersytet Mikołaja Kopernika Rozprawa habilitacyjna Małgorzata Gębka-Wolak Pozycje składniowe frazy bezokolicznikowej we współczesnym zdaniu polskim Toruń 2011 Spis treści Wstęp...................................
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Efekty uczenia się na kierunku. Logistyka (studia pierwszego stopnia o profilu praktycznym)
Efekty uczenia się na kierunku Załącznik nr 2 do uchwały nr 412 Senatu Uniwersytetu Zielonogórskiego z dnia 29 maja 2019 r. Logistyka (studia pierwszego stopnia o profilu praktycznym) Tabela 1. Kierunkowe
EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA
EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA POZIOM ROZSZERZONY FORMUŁA DO 2014 ( STARA MATURA ) ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1,R2 MAJ 2018 Uwaga: Akceptowane są wszystkie odpowiedzi
CIĄGI wiadomości podstawowe
1 CIĄGI wiadomości podstawowe Jak głosi definicja ciąg liczbowy to funkcja, której dziedziną są liczby naturalne dodatnie (w zadaniach oznacza się to najczęściej n 1) a wartościami tej funkcji są wszystkie
Lekcja V I.3.7 I.3.8 I.3.9
Lekcja V I.3.7 I.3.8 I.3.9 Fleksja Dział gramatyki zajmujący się odmianą wyrazów. Budowa wyrazu: TEMAT FLEKSYJNY + KOŃCÓWKA Deklinacja L. poj. M. dom Ø C. dom - owi Koniugacja 1. Grzebię 2. Grzebiesz 3.
Programowanie komputerów
Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych
Załącznik do Uchwały RWA nr 2/d/12/2017 z dnia r.
Załącznik do Uchwały RWA nr 2/d/12/2017 z dnia 6.12.2017 r. Wydział Architektury Kierunkowe efekty kształcenia wraz z odniesieniem do obszarów kształcenia w zakresie nauk technicznych i kompetencji inżynierskich
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)
Kontrola i ocena pracy ucznia.
Kontrola i ocena pracy ucznia. Formy kontroli 1. Kontrola bieżąca (w formie oceny udziału w lekcji, odpowiedzi ustnych, niezapowiedzianych kartkówek i innych form testów osiągnięć szkolnych) to sprawdzanie
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
FIZYKA II STOPNIA. TABELA ODNIESIENIA EFEKTÓW KIERUNKOWYCH DO EFEKTÓW PRK POZIOM 7 Symbol Efekty kształcenia dla kierunku studiów FIZYKA.
Załącznik nr 2 do uchwały nr 421 Senatu Uniwersytetu Zielonogórskiego z dnia 29 maja 2019 r. Opis zakładanych efektów uczenia się z przyporządkowaniem kierunku studiów do dziedzin nauki i dyscyplin naukowych
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Wymagania edukacyjne z języka niemieckiego dla klasy trzeciej gimnazjum
Wymagania edukacyjne z języka niemieckiego dla klasy trzeciej gimnazjum Treści nauczania / temat rozdziału Wymagania na 2/3/4 zgodnie z kryteriami zawartymi w PZO Uczeń: Wymagania edukacyjne Starter! -
UMIEJĘTNOŚCI JĘZYKOWE
Raport z Ogólnopolskiego Sprawdzianu Kompetencji Trzecioklasisty OPERON 2016 w Szkole Podstawowej nr 6 im. Henryka Sienkiewicza w Pruszkowie Ogólnopolski Sprawdzian Kompetencji Trzecioklasisty odbył się
Efekty kształcenia dla kierunku studiów ENGLISH STUDIES (STUDIA ANGLISTYCZNE) studia pierwszego stopnia profil ogólnoakademicki
Załącznik nr 2 do Uchwały Nr XXIII 24.5/15 z dnia 25 marca 2015 r. Efekty kształcenia dla kierunku studiów ENGLISH STUDIES (STUDIA ANGLISTYCZNE) studia pierwszego stopnia profil ogólnoakademicki Umiejscowienie
INFORMATYKA a FILOZOFIA
INFORMATYKA a FILOZOFIA (Pytania i odpowiedzi) Pytanie 1: Czy potrafisz wymienić pięciu filozofów, którzy zajmowali się także matematyką, logiką lub informatyką? Ewentualnie na odwrót: Matematyków, logików
II. Kontrola i ocena pracy ucznia.
II. Kontrola i ocena pracy ucznia. Formy kontroli I Liceum Ogólnokształcące 1. Kontrola bieżąca (w formie oceny udziału w lekcji, odpowiedzi ustnych, niezapowiedzianych kartkówek i innych form testów osiągnięć