NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

Podobne dokumenty
Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

Instrukcja korzystania z wyszukiwarki do Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII wieku (do 1772 r.)

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Gramatyka. języka rosyjskiego z ćwiczeniami

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBEUSZ. Włodzimierza Grußczyńſkiego, Dorotę Adamiec, Renatę Bronikowſką Inſtytut Języka Polſkiego PAN

Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń Co lubisz robić? Czym się interesujesz?

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Nr Tytuł Przykład Str.

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

43. Narzędnik Liczba mnoga

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

SPIS TREŚCI WSTĘP... 11

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

2. Zdanie z orzeczeniem przymiotnikowym (model podstawowy, negacja, pytania) Przysłówki stopnia (,,,,, ) Inne formy wyrażające stopień Zaimek

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

System znaczników morfosyntaktycznych w korpusie IPI PAN

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

VIARA MALDJIEVA PRAKTYCZNA GRAMATYKA JĘZYKA BUŁGARSKIEGO DLA POLAKÓW

PRZECZĄCYM 44 ROZKAZUJĄCYM ZAIMEK PRZYMIOTNY WSKAZUJĄCY (L'ADJECTIF DÉMONSTRATIF) 47 5

Rozdział 1 Klasyczny język japoński wprowadzenie... 13

Lekcja V I.3.7 I.3.8 I.3.9

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2019/2020

Analizator fleksyjny Morfeusz 2

Gramatyka praktyczna języka rosyjskiego. z ćwiczeniami

4. Zaimek wskazujący Zaimek względny Zaimek pytający Zaimek nieokreślony 55

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO

Części mowy - powtórzenie

SPIS TREŚCI SZWEDZKIM

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Kategorie werbalne polszczyzny

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

SPIS TREŚCI

FORMY CZASOWNIKA W TEKŚCIE MÓWIONYM W UJĘCIU STATYSTYCZNYM

ZAGADNIENIA GRAMATYCZNE

KRYTERIA WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA FRANCUSKIEGO

Księgarnia PWN: Albina Gołubiewa, Magdalena Kuratczyk - Gramatyka języka rosyjskiego z ćwiczeniami. Przedmowa CZASOWNIKI ( )

i INSTYTUT PODSTAW INFORMATYKI

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Księgarnia PWN: Tomasz Karpowicz - Kultura języka polskiego. T. 3. I. Wymowa

KRYTERIA WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA FRANCUSKIEGO

polski ENCYKLOPEDIA W TABELACH Wydawnictwo Adamantan

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V

Kategorie imienne polszczyzny

KARTA PRZEDMIOTU. 9. FORMA REALIZACJI PRZEDMIOTU: ćwiczenia 10. WYMAGANIA WSTĘPNE: znajomość języka rosyjskiego na poziomie B1

Program nauczania przedmiotu: Język rosyjski, poziom B2.1

Cele uczenia się Język Niemiecki Poziom A1 Celem nauki języka niemieckiego na poziomie A1 jest nabycie podstawowej sprawności słuchania, mówienia,

Spis treści tomu pierwszego

WYMAGANIA Z JĘZYKA NIEMIECKIEGO NA POSZCZEGÓLNE OCENY DLA KLASY I GIMNAZJUM /klasa Ia/ Wymagania zostały opracowane zgodnie z nową postawą programową

Indukcja reguł gramatyki j. polskiego

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

SPIS TREŚCI SPIS TREŚCI 1. WYMOWA NORWESKA 10

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Zarządzanie rolami jakie może pełnić serwer System prosi o wybór roli jaklą ma spełniać serwer.

SPRAWDZIAN ODBĘDZIE SIĘ O GODZINIE 16:00 FORMA SPRAWDZIANU:

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka rosyjskiego. 2. KIERUNEK: Turystyka i rekreacja

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

KLASA I OCENĘ CELUJĄCĄ: otrzymuje uczeń, którego wiedza i umiejętności znacznie wykraczają poza obowiązujący program nauczania.

Katedra Filologii Rosyjskiej Filologia rosyjska studia I stopnia

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka rosyjskiego. 2. KIERUNEK: filologia, specjalność filologia angielska

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Kategorie gramatyczne polszczyzny

Wstęp do Językoznawstwa

Lematyzacja w ręcznej anotacji milionowego podkorpusu Narodowego Korpusu Języka Polskiego ciekawe przypadki

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Struktura zestawu zadań z języka polskiego. Kompetencje piątoklasistów 2015

Lekcja VI I.3.5) I.3.6)

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Przymiotniki stopniowane nieregularnie 23 Stopniowanie przymiotnika w porównaniach 24 Miejsce przymiotnika w zdaniu

Wymagania edukacyjne z języka francuskiego dla kl. I

Kryteria oceniania z języka polskiego KLASA V

Sprawozdanie z egzaminu maturalnego z języka kaszubskiego przeprowadzonego w województwie pomorskim w roku szkolnym 2013/2014

Szczegółowe kryteria ocen z języka polskiego w klasie pierwszej gimnazjum

Problematyka szyku wyrazów w nauczaniu języka polskiego jako obcego

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - Lektorat języka niemieckiego. 2. KIERUNEK: Bezpieczeństwo Narodowe

ÊTRE EN PLEINE FORME! Test do każdego z etapów Konkursu składa się z zadań opartych na podstawie programowej i tematyce wiodącej Konkursu.

Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP

GRAMATYKA ANGIELSKA DLA ZAAWANSOWANYCH

Niezbędnik Ósmoklasisty

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

Typy wymagań konotacyjnychpolskich leksemów i form

I. Tematyka: LE TRAVAIL ET L ARGENT. Zakres wiedzy i umiejętności:

WYMAGANIA NA POSZCZEGÓLNE STOPNIE SZKOLNE W KLASYFIKACJI ROCZNEJ I ŚRÓDROCZNEJ KLASA II

Korpus Dyskursu Parlamentarnego

KATEGORIE GRAMATYCZNE (IMIENNE)

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Ściągawka do Narodowego Korpusu Języka Polskiego

KARTA PRZEDMIOTU. w języku polskim w języku angielskim USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW FORMY, SPOSOBY I METODY PROWADZENIA ZAJĘĆ

Testowy dokument raz dwa trzy

Transkrypt:

NAKŁADKA KORPUSOWA OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY (NKJP, KORBA) Emanuel Modrzejewski modrzejewski.emanuel@gmail.com

DOTYCHCZASOWE NAKŁADKI KORPUSOWE: Polsko-rosyjski i rosyjsko-polski korpus równoległy Korpus języka młodzieży początku XXI wieku

WADY: przełożenie fleksemów 1:1 ułatwienie jedynie dla zaawansowanych użytkowników wymagana dobra znajomość tagsetu akomodacyjność, aglutynant, kublik,... brak możliwości wyszukiwania kilku elementów jednocześnie problem z MWE, elementami nieciągłymi, konkordancjami brak obostrzeń = zirytowany użytkownik czasownik w mianowniku da 0 wyników

ZAŁOŻENIA: ułatwienie przeszukiwania, szczególnie dla nielingwistów np. nazwy własne dla historyków, literaturoznawców, itd. stosunkowo łatwa modyfikowalność nakładki w Pythonie i.jsonie dostosowywanie do różnic między P1 a P2, tworzenie wersji dla korpusów opartych o Poliqarpa niwelowanie różnic w tagsetach możliwość stworzenia wersji działającej na dwóch korpusach intuicyjne rozumienie części mowy vs. fleksemy próba wydobycia czasownikowych jednostek nieciągłych np. kategorii gramatycznych typu czas, możliwość tworzenia kwerend opartych o części zdania (prawie)

PROBLEMY: kategorie nieprzewidziane w NKJP: czas, tryb, strona nieciągłość jednostek trudności z transformacyjnością robił -> był robiony ; (praet: ROBIĆ -> praet: BYĆ + ppas: ROBIĆ) bardzo rozbudowane kwerendy brak podłączenia do NKJP, mała weryfikowalność

analityczne stopniowanie przymiotników i przysłówków bardziej biały bielszy czasy złożone, strona bierna, tryby niech [on] będzie [dobrze] zrobiony osoba które[ś zrobił] które zrobił [!aglt] formy finitywne vs. konstrukcje czasownikowe był był zrobiony wartości kategorii dla części elementów będzie robić będzie robił wyrażenia przyimkowe, skróty, burkinostki, partykuły...

RÓŻNICE W TAGSETACH (NKJP VS. KORBA) liczebniki przymiotnikowe (adjnum) i przysłówkowe (advnum) drugi, dwukrotny i podwójnie, dwakroć przymiotniki niezłożone (adjb) i przyprzymiotnikowe (adja) polsku, zdrów i polsko- BYĆ w czasie zaprzeszłym (plusq) był (zrobił) aglutynant aorystyczny (agltor) (by)ch (zrobił) imiesłów przymiotnikowy czynny (pactb) i bierny (ppasb) w odmianie niezłożonej będęcy i umęczon imiesłów przeszły (ppraet) osiwiały fragment, dawna ~burkinostka (frag) Ali (Pasza) liczby arabskie (dig) i rzymskie (romandig) liczba podwójna (du) dwiema niewiastama rodzaje: nieznany narańczagami męski nieżywotny (mnanim) stół męski żywotny 1 i 2 (manim1, manim2) tygrysowie i heretyki przymnogi 1 i 2 (p1, p2) państwo i arcaby aspekt nieokreślony (biasp) aresztować

PROBLEMY Z JĘZYKIEM BAROKOWYM: z mojego punktu widzenia: interpunkcja (niedzielące kropki w zdaniu, średniki po skrótach) kreatywność autorów wtrącenia z języków obcych dystrybucja aglutynantów i partykuł Nie z tego ś ty Pani grona nie mógł że m ja in omni foro incorrupto tej speciem fraudis dochodzić z punktu widzenia użytkownika: nietypowe realizacje (również dialekty) nieujednolicony zapis pójdźcie, pódźcie skomplikowany język zapytań (Poliqarp2)

STRUKTURA: budowa gałęzi: wszystkie możliwe kombinacje spełniające założenie, tu: tryb przypuszczający w stronie biernej specyfikacja poszczególnych tokenów ([base=nie]* [(pos=praet & base=być)] [(base=by & pos=qub)] [(pos!="adj conj comp interp subst pred" & pos!=verb)]{,5} [base=nie]* [pos=ppas]) ([base=nie]* [pos=ppas] [(pos!="adj conj comp interp subst pred" & pos!=verb)]{,5} [base=nie]* [(pos=praet & base=być)] [(base=by & pos=qub)]) ([base=nie]* [(pos=praet & base=być)] [(base=by & pos=qub)] [pos=aglt] [(pos!="adj conj comp interp subst pred" & pos!=verb)]{,5} [base=nie]* [pos=ppas]) ([base=nie]* [pos=ppas] [(pos!="adj conj comp interp subst pred" & pos!=verb)]{,5} [base=nie]* [(pos=praet & base=być)] [(base=by & pos=qub)] [pos=aglt])

METRYCZKA

czasowniki... (tylko te właściwe) 13634 ZNAKÓW

WERSJA TESTOWA POD NKJP niestety tylko na sucho... python interpreter_regul_zapytan.py reguly.json przymiotnik stopien_najwyzszy_przymiotnik

WERSJA TESTOWA POD KORBĘ

DO ZROBIENIA: skuteczniejsze i bardziej zwięzłe kwerendy dodanie metryczki bardziej estetyczny interface... mam nadzieję... większa modyfikowalność ze strony użytkownika; ustalanie części mowy, operatorów i tagów wyszukiwanie równoległe dla +dwóch dowolnych korpusów (również z uwzględnieniem różnic w językach zapytań i tagsetach)

CO DALEJ? części mowy vs. segmenty funkcjonalne a NLP czasownik strona bierna negacja (nie) wykładnik trybu przypuszczającego (by) dokładność vs. wydajność ile mogą wytrzymać serwery? złoty środek konstrukcja wieloelementowa kilka elementów

* Interpreter: GUI: Reguły: Bartosz Zaborowski Jakub Kostrzewa Emanuel Modrzejewski w ramach projektu: Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772) (grant 0036/NPRH2/H11/81/2012) strona korpusu (w budowie): korba.edu.pl przykłady na podstawie: Zasady znakowania morfosyntaktycznego w projekcie KorBa pod red. W. Gruszczyńskiego * Bohatyr Straszny, Francesco Andreini, tłum. Krzysztof Piekarski, Kraków 1695, s.139 (http://rcin.org.pl/dlibra/doccontent?id=1049).