WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I
|
|
- Rafał Bednarek
- 8 lat temu
- Przeglądów:
Transkrypt
1 WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I Natalia Kotsyba, IBI AL UW 3 marca 2010
2 Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi w postaci elektronicznej, wykorzystywany dla celów analizy lingwistycznej (The American Heritage Dictionary of the English Language) surowy bądź anotowany jedno- lub wielojęzyczny (komparatywny/równoległy) reprezentatywny; zrównoważony; specjalistyczny mały (do 1 mln słów) lub duży (od kilkudziesięciu mln słów i wyżej) Jakie istnieją rodzaje korpusów?
3 Czym jest korpus równoległy? Zbiór par tekstów (eng. bitexts) w dwóch albo więcej językach Запропонована модель виглядає доволі переконливо... Proponowany model wygląda dość przekonująco...
4 Czemu służą korpusy? Baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla osób uczących się języka Baza danych dla analizy lingwistycznej Punkt wyjścia do konstrukcji wiarygodnych słowników
5 Jak tworzymy korpusy? Dobieramy obszerny zbiór tekstów reprezentujących różne style językowe (np. artykuł, notatka prasowa, korespondencja, dokumentacja techniczna, literatura piękna). Znakujemy surowiec za pomocą odpowiednich narzędzi: lematyzator, analizator morfologiczny, aligner. Jakie narzędzia są stosowane do tworzenia korpusów?
6 Narzędzia do znakowania Lematyzator (poziom Google'a) dokonuje analizy morfologicznej w oparciu o heurystyki ( %29) jest przydatny w przypadku braku analizatora morfologicznego, ale wyniki wymagają weryfikacji Lemat podstawowa forma słowa; forma hasłowa, od greckiego λήμμα.
7 Narzędzia do znakowania Analizator morfologiczny wyznacza formę lub formy (w przypadku homonimii) podstawowe słowa oraz jego charakterystyki gramatyczne na podstawie bazy słownikowej oraz reguł gramatycznych miał 1. mieć, czasownik, 3os lp, cz. przeszły, tr. orzekający miał, rzeczownik, mianownik lp. r.męski... Istniejące analizatory języka polskiego: Marcin Woliński et al., IPI PAN (Morfeusz) Krzysztof Szafran, MIM UW M. Gajęcki et al., AGH
8 Narzędzia do znakowania Aligner służy do wyrównywania tekstów równoległych, przyporządkowując nawzajem odpowiadające sobie ich fragmenty typowymi fragmentami są zdania lub akapity Problem: jak wyróżnić i dopasować zdania?
9 Korpus IPI PAN od korpus.pl Ile słów jest tutaj zakodowano? <tok> <orth>porządek</orth> <lex><base>porządek</base><ctag>subst:sg:acc:m3</ctag></lex> <lex disamb="1"> <base>porządek</base><ctag>subst:sg:nom:m3</ctag> </lex> </tok> <tok> <orth>dzienny</orth> <lex><base>dzienny</base><ctag>adj:sg:acc:m3:pos</ctag></lex> <lex><base>dzienny</base><ctag>adj:sg:nom:m1:pos</ctag></lex> <lex><base>dzienny</base><ctag>adj:sg:nom:m2:pos</ctag></lex> <lex disamb="1"> <base>dzienny</base><ctag>adj:sg:nom:m3:pos</ctag> </lex> </tok>
10 Segmentacja wyrazów i zdań (2.1) Kiedy to się działo? W latach 40. Stany Zjednoczone włączyły się do wojny. (2.2) Skorzystać z Yahoo! Marek i jego koledzy nie chcieli. Ile zdań w 2.1 i 2.2? (uzasadnienie) (3.1) Bo ja się naprawdę boję głośno roześmiać. Ile lematów? (3.4) a. Dawno nie śpiewałam i nie tańczyłam. b. Dawnom nie śpiewała i nie tańczyła. (3.5) a. Kiedyś zatańczyłbym i zaśpiewałbym tam. b. Kiedyś bym tam zaśpiewał i zatańczył. Ile słów? Źródło tutaj i dalej: Adam Przepiórkowski. Korpus IPI PAN. Wersja wstępna. WARSZAWA 2004, dostępny na korpus.pl Kiedyś przyszedł doń, znaszli, itp. (Ile segmentów?)
11 Segmentacja wyrazów w Korpusie IPI PAN: zasady Za odrębne segmenty uznane są partykuły by, -ż(e) i -li; odrębnym segmentem jest poprzyimkowa nieakcentowana forma zaimka -ń; wyrazy złożone pisane przez łącznik są dzielone na segmenty; nie są natomiast dzielone skrótowce zawierające łącznik sygnalizujący odmianę, np. PRL-u; dzielone na segmenty są także występujące na końcu zdania formy kończące się kropką, np. skróty typu itd., itp., liczby pisane cyframi w znaczeniu porządkowym i inicjały, np. itp., George W. itp. ; W wypadku, gdy takie formy liczb nie występują na końcu zdania, są one uznawane za pojedyncze segmenty (haplologia kropki); znaki punktuacji są segmentami też (łącznie z łącznikiem).
12 Policz segmenty wg zasad KIPI Pojechalibyśmy z Janem M. Rokitą i Janem Nowakiem- Jeziorańskim na sesję polsko-amerykańską, gdyby nas zaprosił George W. Byłaby to nasza już 2. doń podróż od czasów PRL-u, a może i 3., czy nawet 4.
13 Dezambiguacja (ujednoznacznienie) Ile interpretacji? Podaj charakterystyki gramatyczne każdego słowa w każdej interpretacji, przykład na slajdzie 7. Miałem miał Jaki przypadek? (2.3) Pożądała go. (2.5) Pamiętam ją pijaną. Por. (2.4) a. Pożądał ją. b. Pożądał jej. (2.6) a. Pamiętam go pijanego. b. Pamiętam go pijanym.
14 Skróty w KIPI partykuło-przysłówki (żargonowo kubliki ): itp., itd., np., etc., jw., przymiotniki: tzw., śp., ww., rzeczowniki: br., cd., przyimki: ds. (prep:gen), pt. (prep:nom), formy nieprzeszłe czasownika: cdn.
15 Struktura znaczników morfosyntaktycznych (tag=znacznik, tagset=zestaw znaczników) Znaczniki (tagi) określają formę podstawową (tzw. lemat) i charakterystykę morfoskładniową danego segmentu (tzw. znacznik morfosyntaktyczny). Każdy znacznik morfosyntaktyczny jest ciągiem wartości rozdzielonych dwukropkami, np.: subst:sg:nom:m1 dla segmentu chłopiec. Pierwsza wartość, np. subst, określa klasę gramatyczną (w KIPI są nazywane fleksemami za Januszem Bieniem), następne zaś, np. sg, nom i m1 wartości odpowiednich dla tej klasy kategorii gramatycznych.
16 Klasy (fleksemy) i kategorie gramatyczne w KIPI: pierwsze przybliżenie Fleksemy: subst, depr, num, numcol, adj, adja, adjp, adv, ppron12, ppron3, siebie, fin, bedzie, aglt, praet, impt, imps, inf, pcon, pant, ger, pact, ppas, winien, pred, prep, conj, qub, xxs, xxx, ign, interp Kategorie i ich wartości: num (sg, pl); case (nom, gen, dat, acc, inst, loc, voc); gen (f, m1, m2,m3, n); per (pri, sec, ter); deg (pos, comp, sup); asp (imperf, perf); neg (aff, neg); akc (akc _go_, nakc)_jego_; praep (praep _niego_, npraep _jego_); acc (congr _dwaj_, rec _pięcioma_), agl (agl _niosł_, nagl _niósł_); wok (wok -em, nwok -m) Bardziej szczegółowy opis można znaleźć w materiałach następnych zajęć.
17 Wyszukiwanie w KIPI online: Wyszukiwanie bezpośrednie formy wyrazów. Wystarczy wprowadzić dany ciąg do okienka wyszukiwania, np.: kwiatek Kwiatek kwiatek/i (przełącznik /i pozwala na ignorowanie kasztowości liter) Wielkość prawego i lewego kontekstu można dostosować w opcjach wyszukiwarki. Wyniki wyszukiwania można sortować według lewego albo prawego kontekstu, rosnąco (a fronte) bądź spadająco (a tergo), zob. opcje wyszukiwarki.
18 Wyszukiwanie w KIPI: informacje zawarte w znakowaniu Obecność znakowania (anotacji, informacji o) w Korpusie pozwala na ograniczenie wyników wyszukiwania ze względów na: strukturę tekstów (zdania, akapity) metadane, czyli dane o danych, np. autor, tytuł tekstu, styl, czas napisania utworu rozbudowane dane gramatyczne
19 Wyrażenia regularne (REGEXP, regular expressions) Wyrażenia regularne to są zwarte sposoby zapisywania wzorów ciągów, które chcemy znaleźć w tekstach. Niektóre znaki w wyrażeniach regularnych pełnią specjalne funkcję i są nazywane znakami specjalnymi albo metaznakami:?, *, +,!,.,,,, {, }, [, ], (, ) oraz liczby naturalne pisane cyframi arabskimi. Jeżeli mają być częścią wyszukiwanych ciągów, należy je poprzedzić ukośnikiem, np. \?, \,, itd. Kropka. w regexp oznacza dowolny znak?, *, +, wskazują na ilość powtózeń fragmentu ciągu (kwantyfikatory), zob. przykłady i definicje dalej {, }, w takich nawiasach wpisujemy liczbę oczekiwanych powtórzeń zadanego ciągu [, ],, nawiasy kwadratowe i kreska pionowa są używane dla deklaracji alternatyw (, ), nawiasy okrągłe są używane dla wyodrębnienia fragmentów ciagów będących grupami znaków
20 Wybrane wyrażenia regularne (przećwiczenie za pomocą Poliqarpu) Ala Ela ( = alternatywa) [AEO]la ( [] = zestaw alternatyw) beza? (? = jedno albo zero wystąpień, np. bez, beza) bez. (. = dowolny znak, np. beza, bezy, ~bez) bez.? (bez, beza, bezy, bezą, ~ bezami).z.z..z.z..? a*by ( * = zero albo więcej wystąpień, np. aby, aaaby, ~abbyy) Ala.* (Ala, Alabama) ala.* /i (ala, ala, alabaster).*al+ ( + = jedno lub więcej wystąpień) al, all, a, robal, alll, Gall (Które nie pasuje?)
21 Wyrażenia regularne cd (przećwiczenie za pomocą Poliqarpu) "(pod na za)jecha.*" segmenty zaczynające się od podjecha, najecha i zajecha, np. podjechał, zajechawszy. Kwantyfikator {n,m} oznacza od n do m wystąpień znaku lub wyrażenia zawartego w nawiasy okrągłe bezpośrednio przed nim: a{1,3}b.* /i (Aby, aaaby, ABBYY, ABBA) {3} dokładnie 3 wystąpienia {3,} co najmniej 3 wystąpienia, tzn. od 3 i wyżej {,3} co najwięcej 3 wystąpienia, tzn. od zera do 3 "[bcćdfghjklłmnńprsśtwzżź]{4,}[aąeęioóuy]"/i segmenty składające się z co najmniej 4 spółgłosek i dokładnie jednej samogłoski, np. źdźbła i Chrzczę
22 Wyrażenia regularne cd (przećwiczenie za pomocą Poliqarpu) ".*(la){3,}.* segmenty, w których ciąg la występuje przynajmniej 3 razy pod rząd, np. tralalala, sialalala Specykacje segmentów podane powyżej muszą pasować do całych segmentów, stąd konieczność umieszczenia po obu stronach ciągu (la){3,} w zapytaniu wyżej wyrażenia.*, pasującego do dowolnego ciągu znaków. Ten sam efekt zostanie osiągnięty przy użyciu flagi /x, oznaczającej, że dana specykacja segmentu musi pasować przynajmniej do części danego segmentu, niekoniecznie do całego segmentu: "(la){3,}"/x "(la){3,}"/ix (dodatkowa flaga /i każe ignorować wielkość liter): segmenty, w których występuje ciąg lalala, LaLAla itp., np. tralalala, SiaLaLALA.
Indukcja reguł gramatyki j. polskiego
Indukcja reguł gramatyki języka polskiego dr inż. m.golebski@elka.pw.edu.pl Instytut Informatyki Politechnika Warszawska 25 lutego 2008 Plan prezentacji 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą
Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie
Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie wersja robocza 14 sierpnia 2018 r. Spis treści Wprowadzenie......................................... 1 1. Segmentacja........................................
Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa
Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.
Korpusy językowe podstawowa terminologia i metody tworzenia Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r. Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi, wykorzystywany
Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe
Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe (na przykładzie Korpusu tekstów polskich XVII-XVIII wieku) W. Gruszczyński R. Bronikowska IJP PAN Porównywane
Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu
Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN IV cykl wykªadów i warsztatów CLARIN-PL Šód¹
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)
Poszukiwanie struktury w danych naprzykładzieanalizykorespondencji
Jest to tekst związany z odczytem wygłoszonym na XLIV Szkole Matematyki Poglądowej Do czego to się przydaje?, Sulejów, styczeń 2010. Poszukiwanie struktury w danych naprzykładzieanalizykorespondencji Przemysław
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
Ściągawka do Narodowego Korpusu Języka Polskiego
Ściągawka do Narodowego Korpusu Języka Polskiego Adam Przepiórkowski, Aleksander Buczyński, Jakub Wilk January 2, 2012 Niniejszy dokument zawiera fragmenty publikacji Korpus IPI PAN. Wersja wstępna, które
Analizator fleksyjny Morfeusz 2
Analizator fleksyjny Morfeusz 2 Katarzyna Krasnowska-Kieraś Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Lublin, 25 września 2019 Katarzyna Krasnowska-Kieraś Morfeusz
Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN
Adam Przepiórkowski Korpus IPI PAN wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN WARSZAWA 2004 Instytut Podstaw Informatyki Polska Akademia Nauk ul. Ordona 21 01-237 Warszawa Copyright 2004 by Adam Przepiórkowski
Języki formalne i automaty Ćwiczenia 6
Języki formalne i automaty Ćwiczenia 6 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Wyrażenia regularne... 2 Standardy IEEE POSIX Basic Regular Expressions (BRE) oraz Extended
NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.
NAKŁADKA KORPUSOWA OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY (NKJP, KORBA) Emanuel Modrzejewski modrzejewski.emanuel@gmail.com DOTYCHCZASOWE NAKŁADKI KORPUSOWE: Polsko-rosyjski i rosyjsko-polski korpus
Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.
Tagset barokowy problemy opracowania zestawu kategorii morfologicznych i ich wartości na potrzeby Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w. (do 1772 r.) Włodzimierz Gruszczyński Instytut
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com Korpusy błędów
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
Instrukcja korzystania z wyszukiwarki do Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII wieku (do 1772 r.)
Instrukcja korzystania z wyszukiwarki do Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII wieku (do 1772 r.) Spis treści Wprowadzenie.......................................... 1 1. Teksty w korpusie
MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...
MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA 2014 1/28 Zespół Małgorzata Marciniak nadzór ogólny Marcin Woliński specyfikacja Michał Lenart implementacja Jan Daciuk konsultacja automatologiczna
Opracował: Piotr Wachowiak wykorzystując materiał Adama Wolańskiego
Opracował: Piotr Wachowiak wykorzystując materiał Adama Wolańskiego ZASADY EDYCJI TEKSTÓW NAUKOWYCH Wskazówki pomocne przy pisaniu pracy dyplomowej, magisterskiej i doktorskiej I. Formatowanie tekstu:
LEM wydobywanie statystyk z korpusów
LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia
Bank częściowo ujednoznacznionych struktur LFG
Bank częściowo ujednoznacznionych struktur LFG Katarzyna Krasnowska 1 Witold Kieraś 1,2 1 IPI PAN 2 IJP UW 7 października 2013 Katarzyna Krasnowska Witold Kieraś Bank struktur LFG 7 października 2013 1
CZYTANIE CICHE ZE ZROZUMIENIEM
Edukacja polonistyczna klasa 2 PISANIE - kryteria pięknego pisania 1. Pismo utrzymuję w liniaturze. 2. Litery w wyrazach są z sobą połączone. 3. Unikam skreśleń i poprawek. 4. Wyraz błędnie napisany przekreślam
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie
Korpus Dyskursu Parlamentarnego
Korpus Dyskursu Parlamentarnego Maciej Ogrodniczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki PAN Warsztaty CLARIN-PL Lublin, 25 września 2019 r. Korpus Dyskursu Parlamentarnego W pigułce:
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Michaª Wasiluk Zbigniew Gawªowicz Instytut Podstaw Informatyki PAN IX cykl
Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne
Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Aleksander Buczyński 2006.06.26 Poliqarp - stan obecny Zwracane są kolejne konteksty wystąpień ciągów segmentów pasujących
Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII
Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII Rozdział 1 Ocenę dopuszczającą otrzymuje uczeń, który: Przy pomocy kolegów lub nauczyciela łączy nazwy czynności
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
j INSTYTUT PODSTAW INFORMATYKI
j INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. Jana Kazimierza 5, 01-248 Warszawa AGNIESZKA PATEJUK i ADAM PRZEPIÓRKOWSKI Co i kiedy można skoordynować w polskim oraz czy i jak to opisać w LFG
Polsko ukraiński korpus równoległy (PolUKR) 1
MAGDALENA TURSKA (bez afiliacji) NATALIA KOTSYBA Instytut Slawistyki PAN Polsko ukraiński korpus równoległy (PolUKR) 1 1. Korpusy i korpusy równoległe. Obecnie można zaobserwować stale i szybko rosnące
Wstęp do informatyki 2011/2012. Wyrażenia regularne (sed)
Wstęp do informatyki 2011/2012 Wyrażenia regularne (sed) Sed sed [OPCJE] polecenia [plik_wejściowy]... sed [OPCJE] -f skrypt_z_poleceniami_seda [plik_wejściowy]... Edytor strumieniowy stosowany do przetwarzania
System znaczników morfosyntaktycznych w korpusie IPI PAN
strona 1, POLONICA??? PL ISSN 0137-9712 MARCIN WOLIŃSKI System znaczników morfosyntaktycznych w korpusie IPI PAN Niniejszy artykuł opisuje zasady znakowania 1 morfosyntaktycznego tekstów języka polskiego
Wymagania edukacyjne z języka polskiego. dla klasy III gimnazjum
Wymagania edukacyjne z języka polskiego dla klasy III gimnazjum PO UKOŃCZENIU KLASY III UCZEŃ POWINIEN UMIEĆ : -wyróżnić czasowniki w formie osobowej i nieosobowej, określić formy gramatyczne, odmienić
Wyrażenia regularne. Regular expressions. aka. Regexp
Regular expressions aka Regexp Historia: teoria automatów oraz teoria języków formalnych Stephen Cole Kleene (1909-1994) lata 50 badania nad zbiorami regularnymi oraz teorią rekursji język programowania
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Michaª Wasiluk Instytut Podstaw Informatyki PAN V cykl wykªadów i warsztatów
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN Podstawowe informacje o projekcie Projekt realizowany przez IJP
Nr Tytuł Przykład Str.
Spis treści Nr Tytuł Przykład Str. 1. Bezokolicznik Ӏ Pytania bezokolicznika:?? Zakończenia bezokolicznika -, -, - 10 2. Czasowniki niedokonane i dokonane Użycie postaci czasowników Nieregularne formy
Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych
rk Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych pojęć, prawdopodobnie zastanawiasz się, kiedy zaczniesz
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Systemy operacyjne. Laboratorium 9. Perl wyrażenia regularne. Jarosław Rudy Politechnika Wrocławska 28 lutego 2017
Systemy operacyjne Laboratorium 9 Perl wyrażenia regularne Jarosław Rudy Politechnika Wrocławska 28 lutego 2017 Temat obejmuje wykorzystanie wyrażeń regularnych w perlu. Wyrażenia same w sobie są w zasadzie
ZASADY REDAGOWANIA PRACY LICENCJACKIEJ
1 ZASADY REDAGOWANIA PRACY LICENCJACKIEJ ZASADY OGÓLNE Praca licencjacka pisana jest samodzielnie przez studenta. Format papieru: A4. Objętość pracy: 40-90 stron. Praca drukowana jest dwustronnie. Oprawa:
1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych
1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych Marcin Wolińſki, Witold Kieraś, Dorota Komo ńska, Emanuel Modrzejewſki Zespół Inżynieriey Lingw tyczney In ytut Pod aw Informatyki Polſkiey Akademii Nauk
Gramatyka. języka rosyjskiego z ćwiczeniami
Gramatyka języka rosyjskiego z ćwiczeniami Autor Dorota Dziewanowska Projekt graficzny okładki i strony tytułowej Krzysztof Kiełbasiński Ilustracje Maja Chmura (majachmura@wp.pl) Krzysztof Kiełbasiński
Wyższej Szkoły Przedsiębiorczości i Marketingu w Chrzanowie
ZASADY PRZYGOTOWANIA PRACY KOŃCOWEJ NA STUDIACH PODYPLOMOWYCH PEDAGOGIKA KWALIFIKACYJNA DLA NAUCZYCIELI PRZEDMIOTÓW ZAWOWOWYCH PROWADZONYCH W RAMACH PROJEKTU "NAUCZYCIEL NA 6+" Wyższej Szkoły Przedsiębiorczości
Punktowanie i numerowanie
Punktowanie i numerowanie Aby szybko ponumerować lub wypunktować dowolne akapity musimy zaznaczyć wybrany tekst, który ma być punktowany lub numerowany. Następnie wybieramy jedną z ikon na pasku narzędziowym
(Nazwisko, 2012, s ) Kolejne odsyłacze w tekście w nawiasie Nowak (2010) Nowak (2010) (Nowak, 2010) (Nowak, 2010) Nowak, Kowalski (2002)
Styl APA Wyróżnia się dwa rodzaje przypisów ze względu na ich funkcje. Są to: przypisy uzupełniające podstawowe informacje zawarte głównym oraz przypisy informujące o prawach autorskich. Należy do niezbędnego
Instrukcje dla zawodników
Płock, 17 marca 2018 r. Instrukcje dla zawodników Arkusze otwieramy na wyraźne polecenie komisji. Wszystkie poniższe instrukcje zostaną odczytane i wyjaśnione. 1. Arkusz składa się z 3 zadań. 2. Każde
Opracowanie książki w formacie MARC 21/ SOWA2
Opracowanie książki w formacie MARC 21/ SOWA2 Materiał pomocniczy do kursu e-learningowego Wojewódzkiej Biblioteki Publicznej i Centrum Animacji Kultury w Poznaniu CZĘŚĆ 2 Kurs dostępny na: www.wbp.poznan.ekursy.eu
System Korekty Tekstu Polskiego
Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona
Przypisy i bibliografia załącznikowa Cz.1b. Elementy opisu i zalecana kolejność ich występowania w przypisach do drukowanych i elektronicznych
Przypisy i bibliografia załącznikowa Cz.1b. Elementy opisu i zalecana kolejność ich występowania w przypisach do drukowanych i elektronicznych zasobów informacji 1 Elementy opisu bibliograficznego AUTOR
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Wyrażenia regularne. Wyrażenia regularne 1/41
Wyrażenia regularne Wyrażenia regularne 1/41 Wyrażenia regularne 2/41 Po co wyrażenia regularne? Polecenie: $ grep est tekst.txt Zawartość tekst.txt To jest plik tekstowy. Testujemy narzędzie grep. Trzecia
Lematyzacja w ręcznej anotacji milionowego podkorpusu Narodowego Korpusu Języka Polskiego ciekawe przypadki
POLONICA XXXIII PL ISSN 0137-9712 ŁUKASZ SZAŁKIEWICZ Lematyzacja w ręcznej anotacji milionowego podkorpusu Narodowego Korpusu Języka Polskiego ciekawe przypadki 1. Wprowadzenie Należałoby na początku wyjaśnić
SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie
Warszawa, Wiedza Powszechna 2007 Publikacja przygotowana w latach 2003 2006 w ramach projektu Słownik gramatyczny języka polskiego, sponsorowanego przez Komitet Badań Naukowych (nr rejestracyjny 2 H01D
Porównywanie tagerów dopuszczajacych niejednoznaczności
Porównywanie tagerów dopuszczajacych niejednoznaczności (na przykładzie tagerów wykorzystanych w Korpusie IPI PAN) 3 listopad 2008 Plan prezentacji 1 Wprowadzenie Problem niejednoznaczności Poprawna interpretacja
O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1
O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN Beata Trawiński SFB 441 Eberhard-Karls-Universität Tübingen trawinski@sfs.uni-tuebingen.de Rygorystyczny opis języków naturalnych
Księgarnia PWN: Tomasz Karpowicz - Kultura języka polskiego. T. 3. I. Wymowa
Księgarnia PWN: Tomasz Karpowicz - Kultura języka polskiego. T. 3 Spis treści Wstęp... 11 I. Wymowa 1. Natura polskiej wymowy... 15 1.1. Zbiór polskich głosek... 16 1.2. Relacje między głoską a fonemem...
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
Standardy pracy licencjackiej dla Instytutu Ekonomicznego PWSZ w Głogowie
Standardy pracy licencjackiej dla Instytutu Ekonomicznego PWSZ w Głogowie Trzy egzemplarze pracy + wersja elektroniczna na płycie CD (rtf. doc.) + praca w kopercie. Oprawa miękka, przeźroczysta. Strona
ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI
ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI W dniu 14.02.2017r. odbył się próbny egzamin gimnazjalny z języka polskiego. Do
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P2 KWIECIEŃ 2017 Zadanie 1. (0 1) FP Zadanie 2. (0 1) B Zadanie 3. (0 1)
Kryteria ocen - język angielski - klasa V Project 2
Kryteria ocen - język angielski - klasa V Project 2 Ocena celująca Introduction bezbłędnie wita się i żegna przedstawia się, płynnie podaje swoje dane personalne bezbłędnie pyta o umiejętności; mowi, co
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
Przypisy Są to: naczelna zasada konsekwentność
PRZYPISY Przypisy Są to: to objaśnienia i uwagi odnoszące się do poszczególnych wyrazów, zwrotów lub fragmentów tekstu, powiązanie z tekstem za pomocą odsyłaczy, umieszcza się na dole strony, do której
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P8 KWIECIEŃ 2016 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje
Instrukcja przygotowania artykułów do publikacji
Międzynarodowa Konferencja Naukowa Innowacje w nowoczesnych organizacjach Ekonomiczne i społeczne efekty Jubileusz 20-lecia Małopolskiej Wyższej Szkoły Ekonomicznej w Tarnowie Instrukcja przygotowania
Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6
Spis treści I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6 III. Dokumenty powiązane z wybranym hasłem 7 IV. Moje hasła 10 1)
Rozdział 7 Relacje równoważności
Rozdział 7 Relacje równoważności Pojęcie relacji. Załóżmy, że dany jest niepusty zbiór A oraz własność W, którą mogą mieć niektóre elementy zbioru A. Własność W wyznacza pewien podzbiór W A zbioru A, złożony
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
ZADANIA DOMOWE STYCZNIA
ZADANIA DOMOWE 21-22 STYCZNIA Szkoła Podstawowa Klasa 0a Klasa 0b Klasa Ia Klasa Ib Klasa Ic ZESZYT ĆWICZEŃ CZ. 3- zad. 4 str. 4, zad. 4 str. 5 Dokończyć str. 21 z karty pracy. Klasa Id Dokończyć str.
Podręcznik edycji tekstu dla inteligentnych
Podręcznik edycji tekstu dla inteligentnych Spis treści Ogólne zasady edycji tekstu...3 Struktura dokumentu tekstowego...3 Strona...3 Akapit...3 Znak...3 Znaki niedrukowane...4 Twarda spacja, miękki i
Uwagi dotyczące techniki pisania pracy
Uwagi dotyczące techniki pisania pracy Każdy rozdział/podrozdział musi posiadać przynajmniej jeden akapit treści. Niedopuszczalne jest tworzenie tytułu rozdziału którego treść zaczyna się kolejnym podrozdziałem.
Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego
Arytmetyka cyfrowa Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego (binarnego). Zapis binarny - to system liczenia
ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI
ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI W dniu 16.01.2018r. odbył się próbny egzamin gimnazjalny z języka polskiego. Do
1. Ogólne ćwiczenia przygotowawcze
1. Ogólne ćwiczenia przygotowawcze Poniższe ćwiczenia o charakterze ogólnym zostały opracowane do zastosowania we wszystkich dialogach i monologach IVY. Aby wykonać dodatkowe ćwiczenia, dotyczące danego
MATERIAŁY DYDAKTYCZNE. Streszczenie: Z G Łukasz Próchnicki NIP w ramach projektu nr RPMA /15
MATERIAŁY DYDAKTYCZNE w ramach projektu nr RPMA.10.01.01-14-3849/15 Streszczenie: Aktywności platformy Moodle Wiki, Opinia zwrotna NIP 799-174-10-88 Spis treści 1. Wiki... 2 2. Opinia zwrotna... 5 str.
MS Access - bazy danych.
MS Access - bazy danych. Sugerowany sposób rozwiązania problemów. Pomoc dla Lektury - ćwiczenie 1. Wykorzystaj kreator kwerend i utwórz zapytanie dla tabeli Lektury z kryterium b* (wielkość liter bez znaczenia)
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa
KRYTERIA OCEN Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLAS IV ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE IV i VI SZKOŁY PODSTAWOWEJ.
Polska Szkoła w Moss im. Jana Brzechwy KRYTERIA OCEN Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLAS IV ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE IV i VI SZKOŁY PODSTAWOWEJ. Nr dopuszczenia
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN Elektroniczny
NaCoBeZu na co będę zwracać uwagę. Nauka o języku
NaCoBeZu na co będę zwracać uwagę Komunikacja językowa: Nauka o języku znam pojęcia z zakresu komunikacji językowej: schemat komunikacyjny; nadawca; odbiorca; komunikat; kod; kontekst ; znaki niewerbalne
Struktura zestawu zadań z języka polskiego. Kompetencje piątoklasistów 2015
Struktura zestawu zadań z języka polskiego Kompetencje piątoklasistów 2015 Zadanie 1. Po przeczytaniu wiersza można stwierdzić, że jego tytuł wyraża 2. Wybierz poprawne wypełnienie luk. 3. Zdanie Teraz
Przykłady zastosowań funkcji tekstowych w arkuszu kalkulacyjnym
S t r o n a 1 Bożena Ignatowska Przykłady zastosowań funkcji tekstowych w arkuszu kalkulacyjnym Wprowadzenie W artykule zostaną omówione zagadnienia związane z wykorzystaniem funkcji tekstowych w arkuszu
PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI
PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI KLASY I VI I. Ocenianie osiągnięć uczniów w zakresie języka kaszubskiego ma na celu : - zmierzenie wyników pracy ucznia, - ujawnienie jego osiągnięć i braków,
Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9
Zasady Nazewnictwa Dokumentów 2007-11-08 Strona 1 z 9 Spis treści I. Wstęp... 3 II. Znaczenie spójnych zasady nazewnictwa... 3 III. Zasady nazewnictwa wybrane zagadnienia... 3 1. Język oraz forma nazewnictwa...
KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V
KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V OCENA CELUJĄCĄ otrzymuje ją uczeń, który opanował pełny zakres wiadomości i umiejętności określonych programem nauczania dla klasy V oraz: twórczo i samodzielnie
CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych
wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej
Standardy pracy licencjackiej dla Instytutu Humanistycznego PWSZ w Głogowie
Standardy pracy licencjackiej dla Instytutu Humanistycznego PWSZ w Głogowie Trzy egzemplarze pracy + wersja elektroniczna na płycie CD (rtf. doc.) + praca w kopercie. Oprawa miękka, przeźroczysta. Grzbiety
WSKAZÓWKI WYDAWNICZE DLA AUTORÓW
Załącznik nr 2 do Regulaminu Wydawnictwa WSKAZÓWKI WYDAWNICZE DLA AUTORÓW 1) Komitet Redakcyjny nie przyjmuje prac (wydawnictwo zwarte lub artykuł), które zostały już opublikowane lub też zostały złożone
WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO
WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO ZAŁOŻENIA REDAKCYJNE Pismo Dialog Edukacyjny ma charakter popularno-naukowy. Artykuł może być zaopatrzony w bibliografię. Zasady redagowania zob. poniżej. Objętość
Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki
Analiza leksykalna 1 Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych (tokenów)
Dalsze cytowania (w tym cytowania pracy kilku autorów, a także autorów korporatywnych) przedstawiono w poniższej tabeli: w tekście w nawiasie
Styl APA Wyróżnia się dwa rodzaje przypisów ze względu na ich funkcje. Są to: przypisy uzupełniające podstawowe informacje zawarte w tekście głównym oraz przypisy informujące o prawach autorskich. Należy
Instrukcja wyszukiwania w katalogach i bazach Biblioteki
Instrukcja wyszukiwania w katalogach i bazach Biblioteki http://aleph.dbp.wroc.pl:8991/f Informacje o zbiorach Biblioteki przechowywane są w systemie bibliotecznym Aleph. Interfejs www systemu podzielony
Definiowanie języka przez wyrażenie regularne(wr)
Wykład3,str1 Definiowanie języka przez wyrażenie regularne(wr) DEFINICJA: (wyrażenia regularne) M(specjalneznakinienależącedoalfabetu:{,},, ) literyalfabetusąwr złożeniawrsąwr: jeśliw 1 iw 2 sąwr,to{w