Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Podobne dokumenty
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Aparat pojęciowy wybranych systemów przetwarzania tekstów polskich

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

01. Rodzaj publikacji artykuł, recenzja, sprawozdanie, wywiad 01.1 Język publikacji Nazwa języka, np. polski 02. Autor/autorzy publikacji

Aneks, wykazy, słowniki. Informacje otaczające tekst główny

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Opracował: Piotr Wachowiak wykorzystując materiał Adama Wolańskiego

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

OPIS MODUŁU (PRZEDMIOTU)

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Spis treści OPIS PLIKU W FORMACIE CSV Z DANYMI PPE LUB EP 1

Paostwowa Wyższa Szkoła Zawodowa w Płocku Dariusz Wardowski

Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997

OPIS PRZEDMIOTU. gramatyka opisowa języka polskiego (składnia) Humanistyczny. Instytut Filologii Polskiej i Kulturoznawstwa.

Wstęp do programowania INP003203L rok akademicki 2016/17 semestr zimowy. Laboratorium 1. Karol Tarnowski A-1 p.

Logika dla socjologów Część 2: Przedmiot logiki

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

Komputerowa weryfikacja gramatyki Świdzińskiego

Opracowanie książki w formacie MARC 21/ SOWA2

Niektóre zasady pisania prac dyplomowych

Wstęp do Językoznawstwa

WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO

Analiza na składniki bezpośrednie jako sposób prezentacji struktury wypowiedzenia

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

ZASADY REDAGOWANIA PRACY LICENCJACKIEJ

Lingwistyka korpusowa w Polsce źródła, stan, perspektywy

Zadanie analizy leksykalnej

Uwagi dotyczące techniki pisania pracy

SYLLABUS. Leksykologia i leksykografia

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Copyright by Wydawnictwo Lingo sp. j., Warszawa 2014 ISBN:

LINGWISTYKA KORPUSOWA W POLSCE ŹRÓDŁA, STAN, PERSPEKTYWY

Wymogi edytorskie dla artykułów przygotowywanych do Zeszytów Naukowych Wyższej Szkoły Zarządzania i Bankowości w Krakowie

Tematy lekcji informatyki klasa 4a luty/marzec 2013

Podstawowe zasady składu tekstu

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Wprowadzenie: języki, symbole, alfabety, łańcuchy Języki formalne i automaty. Literatura

29. Poprawność składniowa i strukturalna dokumentu XML

I GMINNE DYKTANDO 2017 POD HONOROWYM PATRONATEM WÓJTA GMINY IŁOWO-OSADA R E G U L A M I N

Korekta OCR problemy i rozwiązania

Ortografia i interpunkcja polska Kod przedmiotu

AUTOMATYKA INFORMATYKA

Matematyczna wieża Babel. 4. Ograniczone maszyny Turinga o językach kontekstowych materiały do ćwiczeń

Wyższej Szkoły Przedsiębiorczości i Marketingu w Chrzanowie

Współczesne narzędzia leksykograficzne a analiza tekstów dawniejszych

Programowanie w języku Python. Grażyna Koba

Cele kształcenia wymagania ogólne

Rola języka XML narzędziem

Posłowie redaktora. Książka Szpakowicza została wydana technika małej poligrafii istotnie ograniczająca

Kilka najważniejszych zasad składania tekstów

Języki programowania zasady ich tworzenia

Definiowanie języka przez wyrażenie regularne(wr)

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

1. Podstawy budowania wyra e regularnych (Regex)

POLITECHNIKA POZNAŃSKA TYTUŁ PRACY PISZEMY W MIEJSCU TEGO TEKSTU

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

WZÓR STRUKTURALNY ELEKTRONICZNEJ KARTY ZAPYTANIA

Korpus języka polskiej społeczności na Ukrainie i metody jego utworzenia

POLITECHNIKA POZNAŃSKA. Kilka informacji dla piszących pracę w LaTeX-u

Wprowadzenie do informatyki i użytkowania komputerów. Kodowanie informacji System komputerowy

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

ORTOGRAFICZNA RYWALIZACJA O SREBRNE PIÓRO REGULAMIN XIV KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII KLAS III

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

CZYTANIE DYSLEKTYCZNE PORADNIA PSYCHOLOGICZNO PEDAGOGICZNA NR 2 W ELBLĄGU ANNA LASSMANN

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE VI

Trochę o plikach wsadowych (Windows)

Podstawy Zarządzania

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

W y m a g a n i a EDUKACJA POLONISTYCZNA KLASA I SP

Jak profesjonalnie pisać teksty w edytorach tekstu? Na jakie drobiazgi należałoby zwrócić szczególną uwagę?

AKADEMIA MORSKA W SZCZECINIE WI-ET / IIT / ZTT. Instrukcja do zajęc laboratoryjnych nr 1 AUTOMATYZACJA I ROBOTYZACJA PROCESÓW PRODUKCYJNYCH

Zapytanie ofertowe. 1. Część I: publikację Noblesse oblige. Rozmowy o Zygmuncie Mycielskim autorstwa Beaty Bolesławskiej-Lewandowskiej.

O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1

Język polski: gramatyka, kultura języka.

Ćwiczenie nr 1: Systemy liczbowe

Programowanie w języku C++ Grażyna Koba

Zasady interpretacji Raportu antyplagiatowego

Bielskiego Mistrza Ortografii 2014

Kryteria oceniania osiągnięć uczniów (wymagania konieczne wiadomości i umiejętności): Dostosowane dla wszystkich etapów kształcenia.

Wymagania edukacyjne z języka polskiego dla klasy II gimnazjum

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Dostarczenie studentom dogłębnej wiedzy na temat angielskiego systemu fonologicznego.

Jak interpretować raport?

Uniwersytet Śląski w Katowicach str. 1 Wydział Filologiczny Katedra Międzynarodowych Studiów Polskich

Gramatyka opisowa języka polskiego Kod przedmiotu

Kodowanie informacji. Przygotował: Ryszard Kijanka

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Projekt zmian ROZPORZĄDZENIA MINISTRA SPRAWIEDLIWOŚCI z dnia 24 stycznia 2005 r. w sprawie wynagrodzenia za czynności tłumacza przysięgłego

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Warszawa, dnia 28 lutego 2017 r. Poz. 391

CitiDirect Ewolucja Bankowości

Podstawy Zarządzania

KARTA PRZEDMIOTU. M2/2/7 w języku polskim Gramatyka opisowa 2 w języku angielskim Descriptive grammar 2 USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW

Podstawy Kompilatorów

Transkrypt:

Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni, Świdziński Marcin Woliński Czy to jest ważne? Czy to jest ważne? Robert Wołosz Robert Wołosz Robert Wołosz Adam Przepiórkowski Adam Przepiórkowski Marcin Woliński Robert Wołosz Robert Wołosz Robert Wołosz Robert Wołosz

Spis treści 0 Robert Wołosz Robert Wołosz Marcin Woliński Michał Rudolf Michał Rudolf Status pojęcia słowa Słowo a wyraz Słowo w potocznym rozumieniu Marcin Woliński Marcin Woliński Adam Przepiórkowski Michał Rudolf Pisownia łączna i rozłączna Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa 16-17.09.2003

LXIII Zjazd PTJ, Warszawa 16-17.09.2003 1 Janusz S. Bień Aparat pojęciowy wybranych systemów przetwarzania tekstów polskich 17.09.2005

Pomor, Humor 2 Robert Wołosz Efektywna metoda analizy i syntezy morfologicznej w języku polskim. Niepublikowana praca doktorska. Wydział Polonistyki, Uniwersytet Warszawski, Warszawa 2000.

Morfeusz SIAT 3 Marcin Woliński. Komputerowa weryfikacja gramatyki Świdzińskiego. Niepublikowana praca doktorska. Instytut Podstaw Informatyki PAN, Warszawa 2004. http://nlp.ipipan.waw.pl/~wolinski/ morfeusz/

Poliqarp 4 Adam Przepiórkowski. Korpus IPi PAN. Wersja wstępna. Instytut Podstaw Informatyki PAN Warszawa 2004. http://korpus.pl

Holmes 5 Michał Rudolf. Metody automatycznej analizy korpusu tekstów polskich: pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych. Praca doktorska. Wydział Polonistyki, Uniwersytet Warszawski, Warszawa 2003.

Holmes 6 Michał Rudolf. Metody automatycznej analizy korpusu tekstów polskich: pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych. Wydział Polonistyki, Uniwersytet Warszawski, Warszawa 2004[2005].

Kryteria wyboru 7 Aparat pojęciowy wybranych systemów przetwarzania tekstów polskich

Robert Wołosz 8 Rozumienie terminów słowo, forma hasłowa, forma wyrazowa i leksem przejmuję z pracy: Saloni Świdziński, 1998.

Marcin Woliński 9 Punktem wyjścia dla dalszych rozważań będzie system pojęciowy Składni współczesnego języka polskiego.

Adam Przepiórkowski 10 Wiele rozwiązań opisanych w niniejszym rozdziale zostało zaczerpniętych z prac Zygmunta Saloniego i jego współpracowników

Michał Rudolf 11 W niniejszej pracy przyjmuję w większości opis fleksji i składni polskiej przedstawiony w Składni współczesnego języka polskiego

Niebieska gramatyka 12

Saloni, Świdziński 13 Ciąg liter pomiędzy sąsiednimi spacjami będziemy nazywać słowem.

Marcin Woliński 14 Definicja słowa, choć przejrzysta, nie odpowiada w pełni intuicji językowej

Czy to jest ważne? 15 http://korpus.pwn.pl/ Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości 34,5 miliona słów.

Czy to jest ważne? 16 http://pelcra.ia.uni.lodz.pl/ corpora_pl.php Część zbioru (obecnie - 30 milionów słów) zostało już opracowane jako zbilansowany korpus

Robert Wołosz 17 Przedmiotem analizy są słowa graficzne, rozumiane jako ciągi liter między dwoma spacjami lub znakami o wartości spacji.

Robert Wołosz 18 Do alfabetu wejdą pewne znaki na prawach liter

Robert Wołosz 19 Nie zaliczymy do liter znaków przestankowych ani znaków graficznych. Należy jednak uczynić wyjątek dla kropki w ustabilizowanych skrótach.

Adam Przepiórkowski 20 słowa rozumiane jako maksymalne ciągi znaków nie będących separatorami słów,

Adam Przepiórkowski 21 separatorami słów są odstępy oraz znaki interpunkcyjne z wyłączeniem dywizu, kropki będącej częścią skrótu oraz apostrofu w formach takich jak Chomsky ego i (de) l Hospitala.

Marcin Woliński 22 Tymczasem wydaje się wygodne uznanie napisu Lagrange a za jedno słowo. Dotyczy to również napisów takich jak ping-pong i PRL-u. Horthy ego

Robert Wołosz 23 Do alfabetu wejdą pewne znaki na prawach liter: a) apostrof - w języku polskim najczęściej w środku słowa, por. dell arte (SJPDor.), Horthy ego

Robert Wołosz 24 Do alfabetu wejdą pewne znaki na prawach liter: [... ] d) łącznik, czyli dywiz [... ]

Robert Wołosz 25 d) łącznik, czyli dywiz (czasami pojawia się on w sposób ustabilizowany w słowach, których części nie funkcjonują samodzielnie, por. tse-tse, cza-cza, tam-tamista (SJPDor.) - inaczej niż mający wyraźne cechy samodzielnego słowa człon polsko- w złożeniach typu polsko-radziecki [... ]).

Robert Wołosz 26 Do alfabetu wejdą pewne znaki na prawach liter: [... ] b) cyfry - pisane łącznie z tradycyjnymi literami alfabetu, por. 126p, F-16;

Robert Wołosz 27 Do alfabetu wejdą pewne znaki na prawach liter: [... ] c) ukośnik (kreska ukośna: /) - pisany z tradycyjnymi literami alfabetu, por. m/s (SPP);

Robert Wołosz 28 Nie zaliczymy do liter znaków przestankowych ani znaków graficznych. Należy jednak uczynić wyjątek dla kropki w ustabilizowanych skrótach.

Marcin Woliński 29 Kolejnym problematycznym znakiem jest kropka, która występuje w tekście w dwóch funkcjach: jako znak interpunkcyjny oraz jako obowiązkowa część skrótu. W tym drugim wypadku kropkę traktuję jako część słowa.

Michał Rudolf 30 Napisem nazywać będę dowolną sekwencją znaków (liter, cyfr), być może zawierającą dywiz, która stanowi samodzielny fragment tekstu, to jest zarówno przed nią, jak i po niej znajduje się spacja, znak interpunkcyjny lub granica wypowiedzenia. Oprócz tego napisem jest każdy znak interpunkcyjny.

Michał Rudolf 31 Słowo to napis nie będący znakiem interpunkcyjnym, interpretowany bez uwzględniania kontekstu.

Status pojęcia słowa 32 Słowo: unilateralne czy bilateralne?

Słowo a wyraz 33 Słowo: unilateralne Wyraz: bilateralny

Słowo w potocznym rozumieniu 34 Słowo: opłata za telegram opłata za ogłoszenie drobne [... ] podwójne pstryknięcie myszą

Marcin Woliński 35 Znaki interpunkcyjne są traktowane jako pełnoprawne składniki wypowiedzenia, w związku z czym ich brak powoduje, że wypowiedzenie staje się nieakceptowane przez gramatykę.

Marcin Woliński 36 Dla konsekwencji również segmenty złożone ze znaków interpunkcyjnych [... ]

Adam Przepiórkowski 37 Znaki interpunkcyjne będące separatorami słów traktowane są jako osobne segmenty. [... ]

Michał Rudolf 38 Oprócz tego napisem jest każdy znak interpunkcyjny.

Pisownia łączna i rozłączna 39 Czyś pisał? Czy pisałeś?

Szkoła Tokarskiego 40 Czy+ś pisał? Czy pisał+eś?

Marcin Woliński 41 Miałem miał. Ile interpretacji?

Adam Przepiórkowski 42 interpretowalne ciągi znaków nazywać będziemy segmentami [... ]

Korpus IPI PAN 43 Segmenty: 360 446 336 Słowa: 291 187 457 Współczynnik: 1,24%

Inne pojęcia 44 fleksemy kubliki burkinostki...

LXIII Zjazd PTJ, Warszawa 16-17.09.2003 45 Dziękuję za uwagę! Proszę o pytania.