Analizator fleksyjny Morfeusz 2

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analizator fleksyjny Morfeusz 2"

Transkrypt

1 Analizator fleksyjny Morfeusz 2 Katarzyna Krasnowska-Kieraś Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Lublin, 25 września 2019 Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

2 Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

3 Analiza fleksyjna Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

4 Analiza fleksyjna Podstawowe pojęcia Forma fleksyjna Forma wyrazowa/fleksyjna to abstrakcyjna jednostka języka składająca się z wykładnika wraz z określeniem cech gramatycznych, np.: piec, rzeczownik rodz. męskiego w mianowniku liczby pojedynczej piec, rzeczownik rodz. męskiego w bierniku liczby pojedynczej piec, bezokolicznik czasownika niedokonanego kotka, rzeczownik rodz. żeńskiego w mianowniku liczby pojedynczej kotka, rzeczownik rodz. męskiego w dopełniaczu liczby pojedynczej Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

5 Analiza fleksyjna Podstawowe pojęcia Forma fleksyjna Forma wyrazowa/fleksyjna to abstrakcyjna jednostka języka składająca się z wykładnika wraz z określeniem cech gramatycznych, np.: piec, rzeczownik rodz. męskiego w mianowniku liczby pojedynczej piec, rzeczownik rodz. męskiego w bierniku liczby pojedynczej piec, bezokolicznik czasownika niedokonanego kotka, rzeczownik rodz. żeńskiego w mianowniku liczby pojedynczej kotka, rzeczownik rodz. męskiego w dopełniaczu liczby pojedynczej Znacznik (tag) fleksyjny to zwarty zapis cechy gramatycznych formy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

6 Analiza fleksyjna Podstawowe pojęcia Forma fleksyjna Forma wyrazowa/fleksyjna to abstrakcyjna jednostka języka składająca się z wykładnika wraz z określeniem cech gramatycznych, np.: piec, subst:sg:nom:m3 piec, subst:sg:acc:m3 piec, inf:imperf kotka, subst:sg:nom:f kotka, subst:sg:gen:m2 Znacznik (tag) fleksyjny to zwarty zapis cechy gramatycznych formy. Więcej o systemie znaczników Morfeusza w dalszej części wykładu. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

7 Analiza fleksyjna Podstawowe pojęcia Leksem Leksem to abstrakcyjna jednostka języka, zbiór form wyrazowych, np.: kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 kotka kotki kotce kotkę kotką kotce kotko kotki kotek kotkom kotki kotkami kotkach kotki subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

8 Analiza fleksyjna Podstawowe pojęcia Leksem Leksem to abstrakcyjna jednostka języka, zbiór form wyrazowych, np.: KOTEK KOTKA kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 kotka kotki kotce kotkę kotką kotce kotko kotki kotek kotkom kotki kotkami kotkach kotki subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f Lemat to umowny identyfikator leksemu, tradycyjnie równokształtny z wykładnikiem pewnej jego formy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

9 Analiza fleksyjna Podstawowe pojęcia Homonimia i synkretyzm Różne formy wyrazowe mogą posiadać równokształtne (identyczne) wykładniki w obrębie jednego (synkretyzm) lub różnych (homonimia) leksemów. kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki KOTEK subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

10 Analiza fleksyjna Podstawowe pojęcia Homonimia i synkretyzm Różne formy wyrazowe mogą posiadać równokształtne (identyczne) wykładniki w obrębie jednego (synkretyzm) lub różnych (homonimia) leksemów. KOTEK KOTKA kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 kotka kotki kotce kotkę kotką kotce kotko kotki kotek kotkom kotki kotkami kotkach kotki subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

11 Analiza fleksyjna Podstawowe pojęcia Segmentacja Słowo to maksymalny ciąg znaków (odcinek tekstu) nie zawierający odstępów ani znaków interpunkcyjnych. Segment to minimalny ciąg znaków podlegający interpretacji fleksyjnej. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

12 Analiza fleksyjna Podstawowe pojęcia Analiza fleksyjna i tagowanie Analiza fleksyjna (morfologiczna) to identyfikacja wszystkich form wyrazowych, których dany segment może być wykładnikiem. Ujednoznacznianie fleksyjne to określenie na podstawie kontekstu, jako którą z możliwych form interpretować dane wystąpienie segmentu. Tagowanie = analiza + ujednoznacznienie. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

13 Analiza fleksyjna Podstawowe pojęcia Przykład: analiza fleksyjna Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf tort TORT subst:sg:nom:m3 TORT subst:sg:acc:m3.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

14 Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf tort TORT subst:sg:nom:m3 TORT subst:sg:acc:m3.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

15 Analiza fleksyjna Podstawowe pojęcia Przykład: analiza fleksyjna Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

16 Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf? piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3? PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

17 Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf? piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf?.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

18 Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f? MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3? PIEC subst:sg:acc:m3 PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

19 Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf? MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3? PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

20 Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

21 Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

22 Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

23 Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Powiedziała, że przyszli ście. Powiedziała, że ście przyszli. Powiedziała, żeby ście przyszli. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

24 Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Powiedziała, że przyszli ście. Powiedziała, że ście przyszli. Powiedziała, żeby ście przyszli. Świnie ście! Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

25 Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Powiedziała, że przyszli ście. Powiedziała, że ście przyszli. Powiedziała, żeby ście przyszli. Świnie ście! Segmentacja polszczyzny jest uwikłana słownikowo. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

26 Analiza fleksyjna Model fleksyjny Morfeusza Kategoria gramatyczna W gramatyce szkolnej to, przez co odmieniają się części mowy : przypadek, liczba, rodzaj,... Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

27 Analiza fleksyjna Model fleksyjny Morfeusza Kategoria gramatyczna W gramatyce szkolnej to, przez co odmieniają się części mowy : przypadek, liczba, rodzaj,... W Morfeuszu ujęcie dystrubucyjne w stylu Saloniego. Klasyfikacja na podstawie typu kontekstów, w których poprawne jest wystąpienie danej formy, np.: stoi kot/dziewczyna *stoi kota/dziewczynę widzę kota/dziewczynę *widzę kot/dziewczyna pewna kategoria gramatyczna (przypadek) powinna odróżniać formy kot i dziewczyna od form kota i dziewczynę. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

28 Analiza fleksyjna Model fleksyjny Morfeusza Kategoria gramatyczna Forma kształt (wykładnik): stoi kot/dziewczyna/stół widzę kota/dziewczynę/stół *widzę kot/dziewczyna *stoi kota/dziewczynę dwie różne (ale równokształtne) formy stół. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

29 Analiza fleksyjna Model fleksyjny Morfeusza Leksem Pogrupowanie form na podstawie identyczności lub regularnego zróżnicowania odniesienia do obiektów pozajęzykowych. 1 1 Z. Saloni, Klasyfikacja gramatyczna leksemów polskich, Język Polski, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

30 Analiza fleksyjna Model fleksyjny Morfeusza Fleksem 2 Zbiór form danego leksemu zróżnicowanych ze względu na te same kategorie. Klasa fleksemów część mowy : rzeczowniki mają liczbę, przypadek i rodzaj, przymiotniki mają liczbę, przypadek, rodzaj i stopień. Kategoria może być dla danej klasy fleksemów: fleksyjna ( odmienia się przez ), np.: przypadek dla rzeczowników i przymiotników, rodzaj dla przymiotników. selektywna ( słownikowa ), np.: rodzaj dla rzeczowników, aspekt (dokonany/niedokonany) dla fleksemów czasownikowych. 2 J. S. Bień, Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji, Wydawnictwa UW, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

31 Program Morfeusz Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

32 Program Morfeusz Analizator i generator fleksyjny Morfeusz Morfeusz, wersja 2 opracowana w Zespole Inżynierii Lingwistycznej IPI PAN w ramach CLARIN-PL: Wersja demonstracyjna on-line: Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

33 Program Morfeusz Morfeusz w innych projektach Narodowy Korpus Języka Polskiego: treebanki i parsery: Świgra i Składnica: PDB (treebank zależnościowy): POLFIE (gramatyka LFG): korpusy historyczne: tekstów z XVII i XVIII w. (do 1772 r.): tekstów z lat : narzędzie Korpusomat: Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

34 Program Morfeusz Dystrybucja programu Zasadniczą postać programu stanowi moduł programistyczny, który można wbudować w tworzone przez siebie programy w C/C++. Dla mniej technicznie ukierunkowanych użytkowników przygotowano interfejs okienkowy. Istnieje również interfejs działający w konsoli (wierszu poleceń). Udostępniamy kod źródłowy i kompilaty dla Linuksa, Mac OS X i Windows; 32- i 64-bitowe. Dodatkowe moduły umożliwiają użycie Morfeusza z poziomu Pythona i Javy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

35 Program Morfeusz Interfejs okienkowy Morfeusza Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

36 Program Morfeusz Reprezentacja wyników analizy Co CO subst:sg:nom.acc:n2 1 ś BYĆ aglt:sg:sec:imperf:nwok 0 Coś COŚ subst:sg:nom.acc:n2 2 zrobił 3? 4 ZROBIĆ? praet:sg:m1.m2.m3:perf interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

37 Program Morfeusz Informacje dodatkowe Morfeusz 2 dodaje w wynikach analizy dwa elementy, które nie są ściśle fleksyjne: prostą klasyfikację nazw własnych, kwalifikatory. Lublin,Lublin,subst:sg:nom.acc:m3,nazwa_geograficzna,_ Kasia,Kasia,subst:sg:nom:f,imi,_ t,ten,adj:sg:inst:f:pos,_,_ t,ten,adj:sg:acc:f:pos,_,pot. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

38 Program Morfeusz Lematyzacja Leksem PARA: Uczestnicy tańczą parami. Zatrucie parami rtęci jest praktycznie niemożliwe bez jednoczesnego poparzenia. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

39 Program Morfeusz Lematyzacja Leksem PARA: Uczestnicy tańczą parami. Zatrucie parami rtęci jest praktycznie niemożliwe bez jednoczesnego poparzenia. Leksemy ZAMEK:S1 i ZAMEK:S2: Jakoś odruchowo przekręciła gałkę zamka, a potem nacisnęła klamkę. Na dziedzińcu zamku lubelskiego natrafiono na fragmenty konstrukcji zrębowej drewnianej chaty. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

40 Program Morfeusz Lematyzacja Lematy ok leksemów w SGJP wymagają elementu ujednoznaczniającego. Po dwukropku dodano do lematu oznaczenie części mowy: PIEC:S i PIEC:V. Jeżeli to nie wystarczyło, dodano oznaczenie cyfrowe: ZAMEK:S1 (zamka) i ZAMEK:S2 (zamku), SŁAĆ:V1 (ślę) i SŁAĆ:V2 (ścielę). Analizator zwraca takie lematy. Generator dla argumentu "piec:s" zwróci formy odmiany rzeczownika PIEC:S, a dla argumentu "piec" formy zarówno rzeczownika jak i czasownika. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

41 Program Morfeusz Dostępne słowniki Morfeusz jest dystrybuowany z dwoma słownikami: SGJP (domyślny, ponad 300 tysięcy leksemów ponad 4 miliony wykładników form Polimorf ( Kolejne wydania Morfeusza są generowane automatycznie co tydzień. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

42 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

43 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

44 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

45 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

46 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

47 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, rodzaj: żeński, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

48 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, rodzaj: żeński, stopień: wyższy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

49 Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, rodzaj: żeński, stopień: wyższy. Nie rozróżnia kategorii fleksyjnych i selektywnych. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

50 Program Morfeusz System znaczników Kategoria rodzaju gramatycznego Klasy rodzajowe według Mańczaka (1956): m1 m2 m3 n f acc. sing. tego ten to tę acc. pl. tych te Ten zbiór wartości jest używany w znakowaniu NKJP. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

51 Program Morfeusz System znaczników Kategoria rodzaju gramatycznego Klasy rodzajowe według Saloniego (1976): m1 m2 m3 n1 n2 f p1 p2 p3 acc. sing. tego ten to tę acc. pl. tych te tych te acc. pl. pięciu pięć pięcioro pięć pięcioro Ten zbiór wartości jest używany w SGJP i wcześniejszych wersjach analizatora Morfeusz. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

52 Program Morfeusz System znaczników Kategoria rodzaju gramatycznego W bieżącej wersji Morfeusza: kategoria rodzaju o wartościach m1, m2, m3, f, n; kategoria przyrodzaju o wartościach col (zbiorowy), ncol (główny), pt (zbiorowy plurale tantum) stosowana wyłącznie w znacznikach rzeczowników i liczebników. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

53 Program Morfeusz System znaczników Fleksemy czasownikowe Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

54 Program Morfeusz System znaczników Fleksemy czasownikowe Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

55 Program Morfeusz System znaczników Fleksemy czasownikowe fin impt praet imps inf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

56 Program Morfeusz Opcje programu Notacja kropkowa W domyślnym trybie działania Morfeusza kilka interpretacji może być zakodowanych w jednym znaczniku: fajne FAJNY adj:pl:acc:m2.m3.f.n:pos adj:pl:nom.voc:m2.m3.f.n:pos adj:sg:acc:n:pos adj:sg:nom.voc:n:pos Przy wyłączonej notacji kropkowej wyjście z analizatora jest mniej zwięzłe, ale każda interpretacja występuje osobno. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

57 Program Morfeusz Opcje programu Bez notacji kropkowej fajne FAJNY adj:pl:acc:m2:pos fajne adj:pl:acc:m3:pos fajne adj:pl:acc:f:pos fajne adj:pl:acc:n:pos fajne adj:pl:nom:m2:pos fajne adj:pl:nom:m3:pos fajne adj:pl:nom:f:pos fajne adj:pl:nom:n:pos fajne adj:pl:voc:m2:pos fajne adj:pl:voc:m3:pos fajne adj:pl:voc:f:pos fajne adj:pl:voc:n:pos fajne adj:sg:acc:n:pos fajne adj:sg:nom:n:pos fajne adj:sg:voc:n:pos Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

58 Program Morfeusz Opcje programu Segmentacja form czasu przeszłego Wariant fundamentalistyczny (split): widział WIDZIEĆ praet:sg:m1.m2.m3:imperf em BYĆ aglt:sg:pri:imperf:wok Wariant pragmatyczny (composite): widziałem WIDZIEĆ praet:sg:m1.m2.m3:pri:imperf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

59 Program Morfeusz Opcje programu Wariant split Co zrobiłaś? / Coś zrobiła? Co CO subst:sg:acc:n:ncol zrobiła ZROBIĆ praet:sg:f:perf ś BYĆ aglt:sg:sec:imperf:nwok?? interp Co CO subst:sg:acc:n:ncol ś BYĆ aglt:sg:sec:imperf:nwok zrobiła ZROBIĆ praet:sg:f:perf?? interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

60 Program Morfeusz Opcje programu Wariant composite Co zrobiłaś? / Coś zrobiła? Co CO subst:sg:acc:n:ncol zrobiłaś ZROBIĆ praet:sg:f:sec:perf?? interp Co CO subst:sg:acc:n:ncol ś BYĆ aglt:sg:sec:imperf:nwok zrobiła ZROBIĆ praet:sg:f:ter:perf?? interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

61 Program Morfeusz Opcje programu Segmentacja form trybu warunkowego Wariant split: widział WIDZIEĆ praet:sg:m1.m2.m3:imperf by BY part m BYĆ aglt:sg:pri:imperf:wok Wariant composite (nowy znacznik cond): widziałbym WIDZIEĆ cond:sg:m1.m2.m3:pri:imperf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

62 Program Morfeusz Opcje programu Wariant split Zjadłabym coś / Coś bym zjadła Zjadła ZJEŚĆ praet:sg:f:perf by BY part m BYĆ aglt:sg:pri:imperf:nwok coś COŚ subst:sg:acc:n:ncol Coś COŚ subst:sg:acc:n:ncol by BY part m BYĆ aglt:sg:pri:imperf:nwok zjadła ZJEŚĆ praet:sg:f:perf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

63 Program Morfeusz Opcje programu Wariant split Zjadłabym coś / Coś bym zjadła Zjadłabym ZJEŚĆ cond:sg:f:pri:perf coś COŚ subst:sg:acc:n:ncol Coś COŚ subst:sg:acc:n:ncol by BY part m BYĆ aglt:sg:pri:imperf:nwok zjadła ZJEŚĆ praet:sg:f:ter:perf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

64 Program Morfeusz Opcje programu Łączliwość aglutynantów Słownik Morfeusza niesie ze sobą również definicje sposobów łączenia segmentów (głównie aglutynantów). Dla domyślnych słowników dostępne są opcje: strict (rygorystyczna): ograniczona do typowych połączeń, i permissive (liberalna): dopuszczająca swobodniejsze, rzadsze połączenia. Można zdefiniować kolejne warianty i rozpoznawać słowa typu: Potrzebowałżebyś, pytam na koniec, tego strachu wstrętnego i bezsilnej wściekłości. (Lem, Przyjaciel Automateusza) Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

65 Program Morfeusz Opcje programu Wariant strict (+split) Myślałeś, żem zapomniała? Głupiś! Myślał MYŚLEĆ praet:sg:m1.m2.m3:imperf eś BYĆ aglt:sg:sec:imperf:wok,, interp że ŻE comp m BYĆ aglt:sg:pri:imperf:nwok zapomniała ZAPOMNIEĆ praet:sg:f:ter:perf?? interp Głupiś GŁUPIŚ ign!! interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

66 Program Morfeusz Opcje programu Wariant permissive (+split) Myślałeś, żem zapomniała? Głupiś! Myślał MYŚLEĆ praet:sg:m1.m2.m3:imperf eś BYĆ aglt:sg:sec:imperf:wok,, interp że ŻE comp m BYĆ aglt:sg:pri:imperf:nwok zapomniała ZAPOMNIEĆ praet:sg:f:ter:perf?? interp Głupi GŁUPI adj:sg:nom.voc:m1.m2.m3:pos ś BYĆ aglt:sg:sec:imperf:nwok!! interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

67 Program Morfeusz Opcje programu Wielkie litery Morfeusz ma trzy tryby czułości na wielkie litery: brak wielkie i małe litery nie wpływają na rozpoznawanie form, strict (rygorystyczna), conditional (warunkowa; tryb domyślny). Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

68 Program Morfeusz Opcje programu Bez czułości na wielkie litery Lublin LUBLIN subst:sg:nom.acc:m3 nazwa_pospolita LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna lublin LUBLIN subst:sg:nom.acc:m3 nazwa_pospolita LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna Andrzej ANDRZEJ subst:sg:nom:m1 imi andrzej ANDRZEJ subst:sg:nom:m1 imi Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

69 Program Morfeusz Opcje programu Wariant strict Lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna Andrzej ANDRZEJ subst:sg:nom:m1 imi andrzej ANDRZEJ ign Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

70 Program Morfeusz Opcje programu Wariant conditional Lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna Andrzej ANDRZEJ subst:sg:nom:m1 imi andrzej ANDRZEJ subst:sg:nom:m1 imi Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

71 Ujednoznacznianie fleksyjne Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

72 Ujednoznacznianie fleksyjne Analiza, ujednoznacznianie, tagowanie Analiza fleksyjna (morfologiczna) to identyfikacja wszystkich form wyrazowych, których dany segment może być wykładnikiem. Ujednoznacznianie fleksyjne to określenie na podstawie kontekstu, jako którą z możliwych form interpretować dane wystąpienie segmentu. Tagowanie = analiza + ujednoznacznienie. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

73 Ujednoznacznianie fleksyjne Concraft 2 program Jakuba Waszczuka: pracuje bezpośrednio na grafach fleksyjnych Morfeusza (z niejednoznacznościami segmentacji!), wytrenowany na milionowym ręcznie znakowanym podkorpusie NKJP, zawiera moduł zgadujący znaczniki (ale nie lematy) dla nieznanych słów, zawiera również moduł dzielący tekst na zdania. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

74 Ujednoznacznianie fleksyjne Concraft 2 Wersja demonstracyjna Concrafta 2 na stronie Morfeusza (opcja Tagowanie): Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

75 Tworzenie słowników Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

76 Tworzenie słowników Zawartość słownika Dane wbudowywane w binarny plik słownikowy Morfeusza: słownik lub słowniki źródłowe, reguły łączenia segmentów, definicja tagsetu. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

77 Tworzenie słowników Postać źródłowa słownika Gda«sk Gda«sk subst:sg:acc:m3 geograficzna Gda«sk Gda«sk subst:sg:nom:m3 geograficzna Gda«ska Gda«sk subst:sg:gen:m3 geograficzna Gda«ski Gda«sk subst:pl:nom:m3 geograficzna Gda«skiem Gda«sk subst:sg:inst:m3 geograficzna funkcja funkcja subst:sg:nom:f pospolita funkcjach funkcja subst:pl:loc:f pospolita funkcjami funkcja subst:pl:inst:f pospolita funkcje funkcja subst:pl:acc:f pospolita funkcje funkcja subst:pl:nom:f pospolita funkcje funkcja subst:pl:voc:f pospolita rzad. funkcji funkcja subst:pl:gen:f pospolita funkcji funkcja subst:sg:gen:f pospolita funkcjo funkcja subst:sg:voc:f pospolita rzad. funkcjom funkcja subst:pl:dat:f pospolita funkcyj funkcja subst:pl:gen:f pospolita arch. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

78 Tworzenie słowników Morfeusz Builder (Linux) Istnieje również wersja programu działająca w wierszu poleceń. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

79 Tworzenie słowników Przykład tworzenia leksemu w Kuźni Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

80 Tworzenie słowników Przykład tworzenia leksemu w Kuźni Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

81 Tworzenie słowników Przykład tworzenia leksemu w Kuźni Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

82 Tworzenie słowników Dziękuję za uwagę. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września / 59

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,

Bardziej szczegółowo

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ... MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA 2014 1/28 Zespół Małgorzata Marciniak nadzór ogólny Marcin Woliński specyfikacja Michał Lenart implementacja Jan Daciuk konsultacja automatologiczna

Bardziej szczegółowo

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016

Bardziej szczegółowo

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,

Bardziej szczegółowo

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych 1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych Marcin Wolińſki, Witold Kieraś, Dorota Komo ńska, Emanuel Modrzejewſki Zespół Inżynieriey Lingw tyczney In ytut Pod aw Informatyki Polſkiey Akademii Nauk

Bardziej szczegółowo

Kategorie imienne polszczyzny

Kategorie imienne polszczyzny Uniwersytet Kardynała Stefana Wyszyńskiego 1 Przypadek, liczba, rodzaj 2 3 Kategorie imienne i werbalne Kategorie imienne przypadek liczba rodzaj *stopień *deprecjatywność Kategorie werbalne tryb czas

Bardziej szczegółowo

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie

Bardziej szczegółowo

PoliMorf otwarty słownik morfologiczny

PoliMorf otwarty słownik morfologiczny PoliMorf otwarty słownik morfologiczny Marcin Woliński Marcin Miłkowski Maciej Ogrodniczuk Adam Przepiórkowski Łukasz Szałkiewicz Jan Szejko j IPI PAN, 5 grudnia 2011 Plan prezentacji 1 Projekt CESAR 2

Bardziej szczegółowo

Marcin Woliński. Morfeusz 2. Dokumentacja techniczna i użytkowa. 6 września 2018

Marcin Woliński. Morfeusz 2. Dokumentacja techniczna i użytkowa. 6 września 2018 Marcin Woliński Morfeusz 2 Dokumentacja techniczna i użytkowa 6 września 2018 Spis treści 1. Wprowadzenie podstawowe pojęcia................... 2 1.1. Analiza morfologiczna.......................... 3

Bardziej szczegółowo

Nr Tytuł Przykład Str.

Nr Tytuł Przykład Str. Spis treści Nr Tytuł Przykład Str. 1. Bezokolicznik Ӏ Pytania bezokolicznika:?? Zakończenia bezokolicznika -, -, - 10 2. Czasowniki niedokonane i dokonane Użycie postaci czasowników Nieregularne formy

Bardziej szczegółowo

Kategorie gramatyczne polszczyzny

Kategorie gramatyczne polszczyzny Uniwersytet Kardynała Stefana Wyszyńskiego 1 Pojęcie kategorii gramatycznej 2 3 Pojęcie kategorii gramatycznej i jej wartości Kategoria gramatyczna swoisty (stały, regularny, obligatoryjny) podział zbioru

Bardziej szczegółowo

Gramatyka. języka rosyjskiego z ćwiczeniami

Gramatyka. języka rosyjskiego z ćwiczeniami Gramatyka języka rosyjskiego z ćwiczeniami Autor Dorota Dziewanowska Projekt graficzny okładki i strony tytułowej Krzysztof Kiełbasiński Ilustracje Maja Chmura (majachmura@wp.pl) Krzysztof Kiełbasiński

Bardziej szczegółowo

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Bardziej szczegółowo

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie Warszawa, Wiedza Powszechna 2007 Publikacja przygotowana w latach 2003 2006 w ramach projektu Słownik gramatyczny języka polskiego, sponsorowanego przez Komitet Badań Naukowych (nr rejestracyjny 2 H01D

Bardziej szczegółowo

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE

Bardziej szczegółowo

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

System znaczników morfosyntaktycznych w korpusie IPI PAN

System znaczników morfosyntaktycznych w korpusie IPI PAN strona 1, POLONICA??? PL ISSN 0137-9712 MARCIN WOLIŃSKI System znaczników morfosyntaktycznych w korpusie IPI PAN Niniejszy artykuł opisuje zasady znakowania 1 morfosyntaktycznego tekstów języka polskiego

Bardziej szczegółowo

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)

Bardziej szczegółowo

Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego

Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego Uniwersytet Kardynała Stefana Wyszyńskiego 1 Klasyfikacja tradycyjna 2 3 Pojęcie części mowy. Kryteria klasyfikacji Cześć mowy klasa leksemów o wspólnych cechach semantycznych / fleksyjnych / składniowych.

Bardziej szczegółowo

Języki programowania zasady ich tworzenia

Języki programowania zasady ich tworzenia Strona 1 z 18 Języki programowania zasady ich tworzenia Definicja 5 Językami formalnymi nazywamy każdy system, w którym stosując dobrze określone reguły należące do ustalonego zbioru, możemy uzyskać wszystkie

Bardziej szczegółowo

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski. NAKŁADKA KORPUSOWA OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY (NKJP, KORBA) Emanuel Modrzejewski modrzejewski.emanuel@gmail.com DOTYCHCZASOWE NAKŁADKI KORPUSOWE: Polsko-rosyjski i rosyjsko-polski korpus

Bardziej szczegółowo

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN Podstawowe informacje o projekcie Projekt realizowany przez IJP

Bardziej szczegółowo

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r. Tagset barokowy problemy opracowania zestawu kategorii morfologicznych i ich wartości na potrzeby Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w. (do 1772 r.) Włodzimierz Gruszczyński Instytut

Bardziej szczegółowo

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak Nazwa przedmiotu Kod przedmiotu OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) 09.03.20/ k, 1, II Humanistyczny Instytut/Katedra Instytut Filologii Polskiej i Kulturoznawstwa Specjalność/specjalizacja

Bardziej szczegółowo

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O

Bardziej szczegółowo

Wprowadzenie do morfologii

Wprowadzenie do morfologii Uniwersytet Kardynała Stefana Wyszyńskiego 1 Przedmiot i zakres gramatyki opisowej 2 Morfem, morf, opozycja morfologiczna Typy morfemów 3 Hierarchia jednostek języka nielinearne linearne (liniowe) cechy

Bardziej szczegółowo

Wprowadzenie do składni

Wprowadzenie do składni Uniwersytet Kardynała Stefana Wyszyńskiego 1 Przedmiot składni i jej miejsce w systemie języka 2 3 Hierarchia jednostek języka nielinearne linearne (liniowe) cechy dystynktywne semantyczne dystynktywne,

Bardziej szczegółowo

Programowanie w języku Python. Grażyna Koba

Programowanie w języku Python. Grażyna Koba Programowanie w języku Python Grażyna Koba Kilka definicji Program komputerowy to ciąg instrukcji języka programowania, realizujący dany algorytm. Język programowania to zbiór określonych instrukcji i

Bardziej szczegółowo

Język jako hierarchiczny system dwuklasowy

Język jako hierarchiczny system dwuklasowy Uniwersytet Kardynała Stefana Wyszyńskiego 1 Hierarchia jednostek języka 2 3 Jednostki planu parole Wielkie zwierzę zbiegło ostatnio z zoo. Dyrekcja wydała oświadczenie, że zwierzę to nie jest jednak groźne

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU Nazwa

Bardziej szczegółowo

Komputerowa weryfikacja gramatyki Świdzińskiego

Komputerowa weryfikacja gramatyki Świdzińskiego Marcin Woliński Komputerowa weryfikacja gramatyki Świdzińskiego 12 maja 2005 j INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. J. K. Ordona 21, 01-237 Warszawa Automatyczna analiza składniowa Niniejsza

Bardziej szczegółowo

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka niemieckiego w klasie VII-ej w roku szkolnym 2017/2018

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka niemieckiego w klasie VII-ej w roku szkolnym 2017/2018 Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka niemieckiego w klasie VII-ej w roku szkolnym 2017/2018 OCENA NIEDOSTATECZNA wystawiana jest wtedy, kiedy uczeń mimo

Bardziej szczegółowo

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego Kategorialny Parser Składniowo-Semantyczny dla języka polskiego Wojciech Jaworski Instytut Informatyki Uniwersytetu Warszawskiego Instytut Podstaw Informatyki Polskiej Akademii Nauk 26 kwietnia 2016 Wojciech

Bardziej szczegółowo

Cele kształcenia wymagania ogólne

Cele kształcenia wymagania ogólne Cele kształcenia wymagania ogólne konieczne ocena: dopuszczająca podstawowe ocena: dostateczna rozszerzone ocena: dobra dopełniające ocena: bardzo dobra ponadprogramowe ocena: celująca I Kształcenie literackie

Bardziej szczegółowo

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN IV cykl wykªadów i warsztatów CLARIN-PL Šód¹

Bardziej szczegółowo

Podstawy Kompilatorów

Podstawy Kompilatorów Podstawy Kompilatorów Laboratorium 3 Uwaga: Do wykonania poniższych zadań związanych z implementacją niezbędny jest program LEX oraz kompilator. Dla środowiska Linux mogą to być: Darmowa wersja generatora

Bardziej szczegółowo

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA Spis treści 5 Spis treści Przedmowa... 13 Przedmowa do wydania II... 14 Część pierwsza MORFOLOGIA 1. RZECZOWNIK... 17 1.1. Podział rzeczowników... 17 1.2. Rodzaj... 17 1.2.1. Rodzaj męsko-żeński... 18

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 EGZMIN W KLSIE TRZECIEJ GIMNZJUM W ROKU SZKOLNYM 2018/2019 CZĘŚĆ 1. JĘZYK POLSKI ZSDY OCENINI ROZWIĄZŃ ZDŃ RKUSZ GH-P8 KWIECIEŃ 2019 Zadanie 1. (0 1) D Zadanie 2. (0 1) NIE Zadanie 3. (0 1) II. naliza

Bardziej szczegółowo

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I Natalia Kotsyba, IBI AL UW 3 marca 2010 Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi w postaci elektronicznej,

Bardziej szczegółowo

Wstęp do Językoznawstwa

Wstęp do Językoznawstwa Wstęp do Językoznawstwa Prof. Nicole Nau UAM, IJ, Językoznawstwo Komputerowe Ósme zajęcie 24.11.2015 Morfologia: definicja "Morfologia jest działem gramatyki, której przedmiotem jest opis wewnętrznej budowy

Bardziej szczegółowo

LEM wydobywanie statystyk z korpusów

LEM wydobywanie statystyk z korpusów LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia

Bardziej szczegółowo

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą

Bardziej szczegółowo

Programowanie komputerów

Programowanie komputerów Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych

Bardziej szczegółowo

Porównywanie tagerów dopuszczajacych niejednoznaczności

Porównywanie tagerów dopuszczajacych niejednoznaczności Porównywanie tagerów dopuszczajacych niejednoznaczności (na przykładzie tagerów wykorzystanych w Korpusie IPI PAN) 3 listopad 2008 Plan prezentacji 1 Wprowadzenie Problem niejednoznaczności Poprawna interpretacja

Bardziej szczegółowo

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK 5 SPIS TREŚCI Spis treści... 5-12 Wstęp... 13-14 Wykaz skrótów, symboli i terminów gramatycznych... 15-16 MIANOWNIK... 17-65 TABELA prezentująca końcówki fleksyjne rzeczowników... 17 RZECZOWNIK, PRZYMIOTNIK...

Bardziej szczegółowo

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V (ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania ocen niższych pozytywnych) OCENA CELUJĄCA Otrzymuje ją uczeń, którego wiedza znacznie wykracza

Bardziej szczegółowo

OPIS MODUŁU (PRZEDMIOTU)

OPIS MODUŁU (PRZEDMIOTU) Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS MODUŁU (PRZEDMIOTU)

Bardziej szczegółowo

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Adam Przepiórkowski Korpus IPI PAN wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN WARSZAWA 2004 Instytut Podstaw Informatyki Polska Akademia Nauk ul. Ordona 21 01-237 Warszawa Copyright 2004 by Adam Przepiórkowski

Bardziej szczegółowo

Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń Co lubisz robić? Czym się interesujesz?

Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń Co lubisz robić? Czym się interesujesz? Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń 18-22 Co lubisz robić? Czym się interesujesz? Koniugacje: -m, -sz., -ę, -esz, -ę, - Opis rodziny i siebie.

Bardziej szczegółowo

SYLLABUS. Leksykologia i leksykografia

SYLLABUS. Leksykologia i leksykografia SYLLABUS Lp. Element Opis 1 2 Nazwa Typ Leksykologia i leksykografia Obowiązkowy 3 Instytut Instytut Nauk Humanistyczno-Społecznych i Turystyki 4 5 Kod Kierunek, specjalność, poziom i profil PPWSZ-FP-1-45-s

Bardziej szczegółowo

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Aleksander Buczyński 2006.06.26 Poliqarp - stan obecny Zwracane są kolejne konteksty wystąpień ciągów segmentów pasujących

Bardziej szczegółowo

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ Copyright by Nowa Era Sp. z o.o. Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje [ ]. PP Zadanie

Bardziej szczegółowo

Instrukcja. opracował Marcin Oleksy

Instrukcja. opracował Marcin Oleksy Instrukcja opracował Marcin Oleksy Wstęp Zarządzanie korpusem Flagi Flagowanie korpusu Usuwanie i edytowanie flag Użytkownicy Przypisywanie użytkowników Role użytkowników Cofnięcie dostępu Podkorpusy Tworzenie

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2016 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN Elektroniczny

Bardziej szczegółowo

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki Analiza leksykalna 1 Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych (tokenów)

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2018 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

Eksploracja Zasobów Internetu

Eksploracja Zasobów Internetu document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms When Google encounters a hyphen ( ) in a query term, e.g.,

Bardziej szczegółowo

Spis treści tomu pierwszego

Spis treści tomu pierwszego Spis treści tomu pierwszego WSTĘP.... 11 DŹWIĘK JAKO ZJAWISKO FIZYCZNE...15 CHARAKTERYSTYKA AKUSTYCZNA I AUDYTYWNA DŹWIĘKÓW MOWY.. 17 SŁUCH...20 WYŻSZE PIĘTRA UKŁADU SŁUCHOWEGO...22 EMISJE OTOAKUSTYCZNE...25

Bardziej szczegółowo

Budowa i oprogramowanie komputerowych systemów sterowania. Laboratorium 4. Metody wymiany danych w systemach automatyki DDE

Budowa i oprogramowanie komputerowych systemów sterowania. Laboratorium 4. Metody wymiany danych w systemach automatyki DDE Budowa i oprogramowanie komputerowych systemów sterowania Laboratorium 4 Metody wymiany danych w systemach automatyki DDE 1 Wprowadzenie do DDE DDE (ang. Dynamic Data Exchange) - protokół wprowadzony w

Bardziej szczegółowo

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1 Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1 Arkusz egzaminu próbnego składał się z 22 zadań różnego typu.

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P2 KWIECIEŃ 2017 Zadanie 1. (0 1) FP Zadanie 2. (0 1) B Zadanie 3. (0 1)

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2019 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIECIEŃ 2016 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r. Korpusy językowe podstawowa terminologia i metody tworzenia Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r. Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi, wykorzystywany

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 EGZAMIN W KLASIE TRZEIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 ZĘŚĆ 1. JĘZYK POLSKI ZASADY OENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIEIEŃ 2018 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek zawartych

Bardziej szczegółowo

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny SYLLABUS Instytut Filologii Polskiej i Lingwistyki Stosowanej Zakład Językoznawstwa Kierunek Podyplomowe Studium Filologii Polskiej

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z JĘZYKA HISZPAŃSKIEGO

WYMAGANIA EDUKACYJNE Z JĘZYKA HISZPAŃSKIEGO SŁOWNICTWO + WYMAGANIA EDUKACYJNE Z JĘZYKA HISZPAŃSKIEGO KLASA 8SP. Uczeń posługuje się bardzo podstawowym zasobem słownictwa z zakresu: 1. Człowiek 2. Dom 3. Szkoła 4. Praca 5. Życie rodzinne i towarzyskie

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

Programowanie w języku C++ Grażyna Koba

Programowanie w języku C++ Grażyna Koba Programowanie w języku C++ Grażyna Koba Kilka definicji: Program komputerowy to ciąg instrukcji języka programowania, realizujący dany algorytm. Język programowania to zbiór określonych instrukcji i zasad

Bardziej szczegółowo

Wymiar poziomy: oś na której umieszczono instancje klasyfikatorów biorące udział w interakcji.

Wymiar poziomy: oś na której umieszczono instancje klasyfikatorów biorące udział w interakcji. Wymiar poziomy: oś na której umieszczono instancje klasyfikatorów biorące udział w interakcji. Wymiar pionowy: oś czasu przedstawiajaca ułożone chronologicznie komunikaty Podstawowe notacje graficzne Konceptualny

Bardziej szczegółowo

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com Korpusy błędów

Bardziej szczegółowo

System Korekty Tekstu Polskiego

System Korekty Tekstu Polskiego Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona

Bardziej szczegółowo

O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1

O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1 O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN Beata Trawiński SFB 441 Eberhard-Karls-Universität Tübingen trawinski@sfs.uni-tuebingen.de Rygorystyczny opis języków naturalnych

Bardziej szczegółowo

Programowanie w C++ Wykład 10. Katarzyna Grzelak. 21 maja K.Grzelak (Wykład 10) Programowanie w C++ 1 / 21

Programowanie w C++ Wykład 10. Katarzyna Grzelak. 21 maja K.Grzelak (Wykład 10) Programowanie w C++ 1 / 21 Programowanie w C++ Wykład 10 Katarzyna Grzelak 21 maja 2018 K.Grzelak (Wykład 10) Programowanie w C++ 1 / 21 Makefiles K.Grzelak (Wykład 10) Programowanie w C++ 2 / 21 Kompilacja programu zapisanego w

Bardziej szczegółowo

Gramatyka opisowa języka polskiego Kod przedmiotu

Gramatyka opisowa języka polskiego Kod przedmiotu Gramatyka opisowa języka polskiego - opis przedmiotu Informacje ogólne Nazwa przedmiotu Gramatyka opisowa języka polskiego Kod przedmiotu 09.3-WH-FiP-GOP-1-K-S14_pNadGen0FA8C Wydział Kierunek Wydział Humanistyczny

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13

Bardziej szczegółowo

KATEGORIA OBSZAR WIEDZY

KATEGORIA OBSZAR WIEDZY Moduł 3 - Przetwarzanie tekstów - od kandydata wymaga się zaprezentowania umiejętności wykorzystywania programu do edycji tekstu. Kandydat powinien wykonać zadania o charakterze podstawowym związane z

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4. Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl

Bardziej szczegółowo

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby

Bardziej szczegółowo

Kryteria ocen z języka polskiego w klasie 4. Ocenę celującą - otrzymuje uczeń, którego wiedza znacznie przekracza poza obowiązujący program nauczania:

Kryteria ocen z języka polskiego w klasie 4. Ocenę celującą - otrzymuje uczeń, którego wiedza znacznie przekracza poza obowiązujący program nauczania: Kryteria ocen z języka polskiego w klasie 4 Ocenę celującą - otrzymuje uczeń, którego wiedza znacznie przekracza poza obowiązujący program nauczania: Bierze udział i osiąga sukcesy w konkursach szkolnych

Bardziej szczegółowo

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych rk Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych pojęć, prawdopodobnie zastanawiasz się, kiedy zaczniesz

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P8 KWIECIEŃ 2016 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje

Bardziej szczegółowo

Księgarnia PWN: Albina Gołubiewa, Magdalena Kuratczyk - Gramatyka języka rosyjskiego z ćwiczeniami. Przedmowa CZASOWNIKI ( )

Księgarnia PWN: Albina Gołubiewa, Magdalena Kuratczyk - Gramatyka języka rosyjskiego z ćwiczeniami. Przedmowa CZASOWNIKI ( ) Spis treœci Księgarnia PWN: Albina Gołubiewa, Magdalena Kuratczyk - Gramatyka języka rosyjskiego z ćwiczeniami Przedmowa.................................. 13 CZASOWNIKI ( ) 1 Czas przesz³y... 16 2 Nieregularne

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii

Bardziej szczegółowo

Systemy operacyjne. Laboratorium 9. Perl wyrażenia regularne. Jarosław Rudy Politechnika Wrocławska 28 lutego 2017

Systemy operacyjne. Laboratorium 9. Perl wyrażenia regularne. Jarosław Rudy Politechnika Wrocławska 28 lutego 2017 Systemy operacyjne Laboratorium 9 Perl wyrażenia regularne Jarosław Rudy Politechnika Wrocławska 28 lutego 2017 Temat obejmuje wykorzystanie wyrażeń regularnych w perlu. Wyrażenia same w sobie są w zasadzie

Bardziej szczegółowo

Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki

Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki 1. Cele lekcji a) Wiadomości Uczeń: podaje definicję rzeczownika, zna pojęcie deklinacji, wymienia wszystkie przypadki rzeczownika,

Bardziej szczegółowo

ADAM PRZEPIÓRKOWSKI. Składniowe uwarunkowania znakowania morfosyntaktycznego

ADAM PRZEPIÓRKOWSKI. Składniowe uwarunkowania znakowania morfosyntaktycznego POLONICA??? PL ISSN 0137-9712 ADAM PRZEPIÓRKOWSKI Składniowe uwarunkowania znakowania morfosyntaktycznego w korpusie IPI PAN Jedna z siedmiu złotych maksym Geoffrey a Leecha dotyczących lingwistycznego

Bardziej szczegółowo

Lekcja V I.3.7 I.3.8 I.3.9

Lekcja V I.3.7 I.3.8 I.3.9 Lekcja V I.3.7 I.3.8 I.3.9 Fleksja Dział gramatyki zajmujący się odmianą wyrazów. Budowa wyrazu: TEMAT FLEKSYJNY + KOŃCÓWKA Deklinacja L. poj. M. dom Ø C. dom - owi Koniugacja 1. Grzebię 2. Grzebiesz 3.

Bardziej szczegółowo

Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone

Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone Mariusz Urbański Instytut Psychologii UAM Mariusz.Urbanski@.edu.pl Dzisiejsza opowieść pochodzi z Wykładów z logiki Marka Tokarza. kognitywistyka,

Bardziej szczegółowo

Open Access w technologii językowej dla języka polskiego

Open Access w technologii językowej dla języka polskiego Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 EGZMIN W KLSIE TRZECIEJ GIMNZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 1. JĘZYK POLSKI ZSDY OCENINI ROZWIĄZŃ ZDŃ RKUSZ GH-P8 KWIECIEŃ 2018 Zadanie 1. (0 1) Zadanie 2. (0 1) C Zadanie 3. (0 1) 3. Świadomość językowa.

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015 EGZMIN W KLSIE TRZECIEJ GIMNZJUM W ROKU SZKOLNYM 2014/2015 CZĘŚĆ 1. JĘZYK POLSKI ZSDY OCENINI ROZWIĄZŃ ZDŃ RKUSZ GH-P7 KWIECIEŃ 2015 Zadanie 1. (0 1) PP Zadanie 2. (0 1) Zadanie 3. (0 1) II. naliza i interpretacja

Bardziej szczegółowo

Język jako hierarchiczny system dwuklasowy

Język jako hierarchiczny system dwuklasowy Uniwersytet Kardynała Stefana Wyszyńskiego 1 Hierarchia jednostek języka 2 3 Jednostki planu parole Wielkie zwierzę zbiegło ostatnio z zoo. Dyrekcja wydała oświadczenie, że zwierzę to nie jest groźne dla

Bardziej szczegółowo

Kryteria oceniania z języka polskiego KLASA V

Kryteria oceniania z języka polskiego KLASA V KLASA V OCENĘ CELUJĄCĄ, otrzymuje uczeń, którego wiedza znacznie wykracza poza obowiązującą podstawę programową: twórczo i samodzielnie rozwija własne uzdolnienia i zainteresowania, proponuje rozwiązania

Bardziej szczegółowo