Glosa do sprawy 300 tysięcy polskich słów

Podobne dokumenty
Eliza Małek Jan Wawrzyńczyk FOTOGLOSY DO REJESTRÓW WSPÓŁCZESNEGO SŁOWNICTWA POLSKIEGO

Word. Korespondencja seryjna

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

SPRAWOZDANIE ZE SPRAWDZIANU NA ZAKOŃCZENIE NAUKI W DRUGIEJ KLASIE GIMNAZJUM - JĘZYK POLSKI WSiP; CZERWIEC 2016

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Katarzyna Wojewoda-Buraczyńska Koncepcja multicentryczności prawa a derywacyjne argumenty systemowe. Studenckie Zeszyty Naukowe 9/13, 84-87

INSTRUKCJA DLA OPERATORA

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa III Magdalena Pajor GRAMATYKA I SŁOWNICTWO. Poziomy wymagań:

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Treści nauczania zgodne z podstawą programową:

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Takie chińskie esperanto byłoby oczywiście prostsze od japońskiego czy chińskiego, ale dla Francuza, Polaka, czy

Kryteria oceniania wiadomości i umiejętności z języka angielskiego klasy IV-VI

Systemy liczbowe. Bibliografia: Urządzenia techniki komputerowej, K. Wojtuszkiewicz

UNIWERSYTET ŚLĄSKI W KATOWICACH

Algorytmy i schematy blokowe

1. Rozwijanie treści pracy zgodnie z tytułem. 2. Przechodzenie od ogółu do szczegółu. 3. Zgodność treści z tytułem punktu. 4. Jednolitość formatu

Raport Specjalny: 3 Największe Mity. Skutecznej Komunikacji w Języku Obcym

Słowniki i inne przydatne adresy. oprac. dr Aneta Drabek

SZCZEGÓŁOWE KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO OBOWIĄZUJĄCE OD ROKU SZKOLNEGO 2019/2020. (dla uczniów po szkole podstawowej) OCENA CELUJĄCA

Metodyki i techniki programowania

ZAŁOŻENIA FILOZOFICZNE

PRZEDMIOTOWE ZASADY OCENIANIA z języka angielskiego W KLASACH 1-3

Angielsko-polskie i polsko-angielskie słowniki specjalistyczne ( ) Analiza terminograficzna

Algorytm. a programowanie -

PRZYGOTOWANIE ŚWIADECTW DO DRUKU ZA POMOCĄ dziennik.librus.pl

2017/2018 WGGiOS AGH. LibreOffice Base

Zasady oceniania wewnątrzszkolnego z języka francuskiego/hiszpańskiego w klasie I-III

Dydaktyka Informatyki uwagi do treści nauczania I

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

1. Zasady oceniania na lekcji j. niemieckiego są zgodne z zasadami wewnątrzszkolnego oceniania zawartymi w Statucie Szkoły.

WYNIKI EGZAMINU GIMNAZJALNEGO Z JĘZYKA ANGIELSKIEGO ROK SZKOLNY 2016/2017

SZCZEGÓŁOWE KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO I ANGIELSKIEGO. Klasy IV-VIII. Szkoła Podstawowa w Zdunach

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

e-book Jak się uczyć? Poradnik Użytkownika

6. Organizacja dostępu do danych przestrzennych

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Temat 1. Więcej o opracowywaniu tekstu

Wymagania edukacyjne z języka angielskiego dla klasy czwartej

Okręgowa Komisja Egzaminacyjna w Krakowie 1

Wymagania edukacyjne język angielski klasa 1 na rok szkolny 2018/2019

Przedmiotowy system oceniania z języka angielskiego na rok szkolny 2016/2017

Nauczanie na odległość

kształcenie umiejętności w zakresie poszukiwania, kształcenie umiejętności twórczych; otwartość na nowe kontakty,

WYMAGANIA EDUKACYJNE. Informatyka Szkoła Podstawowa Klasa 4 NA ŚRÓDROCZNĄ I ROCZNĄ OCENĘ KLASYFIKACYJNĄ

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

ISBN

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO.

Kryteria oceniania z języka angielskiego w klasie I, II i III w Szkole Podstawowej nr 16 w Zespole Szkolno-Przedszkolnym nr 1 w Gliwicach

Dopuszczający Dostateczny Dobry Bardzo dobry Celujący W zakresie czytania ze zrozumieniem uczeń

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Egzamin zawodowy: Technik Informatyk 312[01] Oprogramowanie biurowe pytania i odpowiedzi

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO KRYTERIA NA POSZCZEGÓLNE OCENY :

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

PIERWSZE EKSPERYMENTALNE BADANIA NAD DZIEĆMI I MŁODZIEŻĄ NIEMÓWIĄCĄ

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Program warsztatów CLARIN-PL

O RÓŻNYCH SPOSOBACH ROZUMIENIA ANALOGOWOŚCI W INFORMATYCE

JĘZYK NIEMIECKI liceum

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLAS 4-6 SZKOŁY PODSTAWOWEJ

Kryteria oceniania z języka angielskiego, obejmujące zakres umiejętności ucznia na poszczególne oceny:

Wymagania edukacyjne język angielski klasa 3 na rok szkolny 2018/2019

SZCZEGÓŁOWE KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO I ANGIELSKIEGO. Klasy IV-VIII. Szkoła Podstawowa w Zdunach

Wymagania edukacyjne na poszczególne oceny. z przedmiotu Informatyki. w klasie VI

11. Blok ten jest blokiem: a. decyzyjnym b. końcowym c. operacyjnym

Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH IV - VI

Wyższa Szkoła Zarządzania Ochroną Pracy w Katowicach Wydział Humanistyczno-Społeczny Katowice, ul. Bankowa 8

Innowacja pedagogiczna na zajęciach komputerowych w klasach 4e, 4f, 4g. Nazwa innowacji Programowy Zawrót Głowy

Identyfikacja nadużyć w rozliczaniu podatku VAT. Z wykorzystaniem IDEA CaseWare

Kryteria oceniania - język angielski kl. VII

Jednym z najprostszych sposobów porządkowania jest technika stosowana przy sortowaniu listów:

ROZPORZĄDZENIE MINISTRA SPRAW WEWNĘTRZNYCH I ADMINISTRACJI 1) z dnia 29 kwietnia 2004 r.

e-sprawdzian instrukcja programu do sprawdzania wiedzy ucznia przy pomocy komputera (WINDOWS & LINUX)

TECHNOLOGIA KOMPUTEROWA I INFORMACYJNA

Excel z elementami VBA w firmie.

LOGIKA I TEORIA ZBIORÓW

Wyszukiwanie binarne

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

PRZEDMIOTOWY SYSTEM OCENIANIA W ZSO W BIELAWIE

dr inż. Jarosław Forenc

Charakterystyka katalogu

Kryteria oceniania obejmujące zakres umiejętności ucznia na poszczególne oceny cząstkowe w klasach VII-VIII z Języka Hiszpańskiego

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI

WYMAGANIA EDUKACYJNE. JĘZYKÓW OBCYCH Język angielski Język niemiecki Język rosyjski. Liceum Ogólnokształcące im. ks. Piotra Skargi w Sędziszowie Młp.

Organizacja i logistyka digitalizacji

Zagadnienia do próbnych matur z poziomu podstawowego.

KRYTERIA OCENIANIA ODPOWIEDZI POZIOM ROZSZERZONY

Instrukcja drukowania etykiet w programie Fakt

Wymagania edukacyjne z języka niemieckiego dla klasy III gimnazjum

Języki, automaty i obliczenia

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Egzamin maturalny od 2015 r.

Algorytmika i pseudoprogramowanie

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Podstawowe wiadomości i pojęcia związane z projektowaniem schematów elektrycznych

Przy ustalaniu ceny emisyjnej spółka posługuje się wyceną fundamentalną przygotowaną przez doradców finansowych lub analityków domu maklerskiego.

Transkrypt:

Andrzej Bogusławski Uniwersytet Warszawski Glosa do sprawy 300 tysięcy polskich słów Tytanopodobna robota edytorów rejestru pt. 300 tysięcy polskich słów mogłaby zostać rozszerzona o biliony, jeżeli nie decyliardy (lepiej: np. 10 50 ) obiektów, które można nazwać polskimi słowami. M.in. można dodać do tej listy wyraz tytanopodobny, który jest niezaprzeczalnym faktem tekstowym od chwili, kiedy pojawił się jako pierwszy wyraz graficzny w tekście głównym niniejszej wypowiedzi. Wydrukowanie takiego rozszerzonego rejestru jest zupełnym niepodobieństwem. Byłaby to rzecz przypominająca ewentualny rejestr wszystkich form fleksyjnych odnotowanych w takich czy innych drukach polskich wyrazów, por. np. celownik perpendykułowi w zdaniu Jaś przyglądał się temu perpendykułowi. wydrukowanym tu właśnie (wiadomo, że celownik to kategoria o szczególnie niskiej frekwencji występowania w realnych tekstach w roli formy rzeczowników nieożywionych, ale przecież nie taka, by miała właściwość nieistnienia w tej klasie rzeczowników). Produktywnym operacjom fleksyjnym i słowotwórczym przysługuje moc niezwykła. Co nie znaczy, że przechodzimy tu na liczby nieskończone. Nie, będziemy mieli zawsze do czynienia z listą skończoną: bo właściwe operandy stanowią zbiór skończony, a liczba stosownych operacji jest również skończona, przy czym nieograniczona rekurencja jest wykluczona. Chodzi jedynie o to, że dotykamy tu liczb naprawdę baaardzo wielkich. To samo dotyczy indywidualnych, nieregularnych produktów słowotwórczych, czyli absolutnych hapaksów. Jeżeli mamy dwuwiersz: Kosz z poezją się otworzy, gdy twe serce się rozsroży., to jest jasne, że występuje tu nie analogon wyrazu rozweseli się (choć i w wypadku tego ostatniego wyrazu nie wchodzi w grę żadna operacja tworząca klasę otwartą), lecz analogon ros. razljubit przestać kochać, por. też pol. rozkrochmalić się. A zatem jest to kompletnie nowy neologizm, który może stanąć obok mnóstwa neologizmów odnotowanych w omawianym dziele i obok którego mogą stanąć niezliczone inne. W całej wieczności będą one jednak tak czy inaczej należeć do listy skończonej.

32 Andrzej Bogusławski Jeżeli wziąć pod uwagę umowy międzynarodowe, to nie można nie uznać równouprawnienia zwrotu umowa rurytańsko-taukitiańska (przypominam piosenkę Wysockiego o Taukitianach w pewnej galaktyce i dość dobrze znany z lingwistyki przykład nazwy fikcjonalnego kraju Rurytania) ze zwrotem umowa polsko-węgierska, umowa chińsko-fińska czy umowa fińsko-chińsko-estońska. I analogicznie będzie z wyrażeniami, z jednej strony, mecz Niemcy-Holandia, a z drugiej, mecz Patagonia-Rurytania. Znaczy to, że nawet w tych ograniczonych kategoriach zetkniemy się z wielkościami wielomilionowymi. W zgodzie z tym, co powiedziałem, muszę wyrazić szczere uznanie dla następujących bardzo ważnych słów Profesora Jana Wawrzyńczyka w jego broszurze 1000 słów zadośćuczynienia (Warszawa 2016) poświęconej 300 tysiącom : Zdajemy sobie sprawę, że dla części osób wertujących nasz opasły tom obecność w nim jednostek w rodzaju polsko-angielski [...] będzie czymś przykrym. [...] Tworów tych nie możemy pomijać, ignorować, choć nie spełniają one kryterium elementarności nakładanego na tzw. leksykalne jednostki języka w nowszych opisach polszczyzny. Rygoryzmu tych opisów nie da się pogodzić z parowiekową tradycją leksykograficzną. Nasuwa się tu myśl o możliwości zastosowania jakichś kwalifikatorów leksykograficznych wskazujących na oczywistość statusu produktu dobrze ustalonej operacji przysługującego danej wokabule, brak takiego statusu lub dyskusyjność każdego z członów tej alternatywy. Doradzałbym rozważenie wskazanej możliwości w dalszych przedsięwzięciach. Ale zdaję sobie sprawę z tego, że odpowiednie decyzje w ogromnej liczbie wypadków byłyby nawet skrajnie trudne jeżeli miałyby być przynajmniej w miarę konkluzywne. I wymagałyby one wprowadzenia do gry choćby szkicu teorii zajmującej się zjawiskami, z jakimi mamy tu do czynienia.

Łukasz Borchmann Uniwersytet im. A. Mickiewicza w Poznaniu Słowa, których nie ma w książkach 1. Motywacja Zbiór 300 tysięcy polskich słów Jana Wawrzyńczyka i Piotra Wierzchonia (2016) jest niebagatelnym krokiem w stronę odpowiedzi na pytanie sformułowane przez pierwszego z autorów, który zapytywał w swej broszurze i wcześniejszych publikacjach, ile słów obejmuje współczesna polszczyzna 300 tysięcy czy milion(y)? Charakteryzując fazę trzecią rozwoju polskiej leksykografii jednojęzycznej, Wawrzyńczyk rysuje wizję ekscerpcji totalnej, nieselektywnej i zupełnej całkowicie pozbawionej przypadkowości i niekonsekwencji w konstruowaniu hasłowników (Wawrzyńczyk, 2015). Ową ekscerpcję totalną prowadzić można z materiałów drukowanych, takich jak prasa czy książki, podążając w kierunku, w którego forpoczcie lokują się niewątpliwie autorzy 300 tysięcy W tym samym kierunku, ale drogą powiedzieć by można komplementarną, kroczyć można skupiając się na tych jednostkach, których przywoływany indeks nie obejmuje i objąć nie mógł, ponieważ istnieją w rzeczywistości tekstowej od materiałów drukowanych niezależnej. Jako że największym niedrukowanym i dostępnym cyfrowo zasobem leksyki polskiej jest internet, zasadnym jest podjęcie analogicznego przedsięwzięcia w odniesieniu do tekstów dostępnych w sieci. Niniejszy artykuł prezentuje metodę poszukiwania na stronach internetowych jednostek języka nienotowanych przez zbiór 300 tysięcy jednostek, które niebezzasadnie, w uznaniu dla rozmiarów indeksu i pod wrażeniem ogromu materiałów, które poddawano ekscerpcji by go stworzyć, nazywać można słowami, których nie ma w książkach.

34 Łukasz Borchmann 2. Metoda Zmarły niedawno, wybitny polski językoznawca Witold Mańczak zwykł rozpoczynać swoje prace cytatem z francuskiego poety Nicolasa Boileau-Despréaux: Ce que l on conçoit bien s énonce clairement. Tej myśli czyniły zadość jego teksty, w których złożone koncepcje wyrażane były słowami prostymi i jasnymi. Z wyżej zarysowanej motywacji, w opisie zastosowanej metody oraz jej założeń starano się wyłożyć problem tak, by był zrozumiały przez każdego, kto sięgnie po niniejszy tom, bez względu na to jakie przygotowanie filologiczne lub techniczne posiada. Rysunek 1. Schemat obrazujący proces gromadzenia i filtrowania jednostek, które weszły w skład finalnej listy. Ciemniejsze strzałki prezentują ścieżkę, którą przeszły pozytywnie zweryfikowane jednostki.

Słowa, których nie ma w książkach 35 2.1. Analizowany korpus Od zakrojonego na szeroką skalę projektu należałoby oczekiwać jak najszerszej indeksacji zasobów polskojęzycznego internetu. Na jego początkowym etapie zasadne jest jednak ustalenie dotychczas dokonanych przedsięwzięć tego typu oraz wykorzystanie ich efektów. Jednym z takich, ponadnarodowych projektów jest CommonCrawl otwarte repozytorium pozyskane na drodze indeksowania zawartości internetu. Do niewątpliwych wad tego zbioru należy fakt, że w ogromnym (setki terabajtów danych tekstowych po skompresowaniu) archiwum CommonCrawl, dane polskie stanowią ledwie wycinek, który choć pokaźny może nie zaspokajać ambicji i wszystkich potrzeb badawczych. Wspomniany zasób wymaga także pewnego przetwarzania wstępnego, przed jego dalszym wykorzystaniem, na które składa się przede wszystkim wyfiltrowanie polskich stron internetowych oraz eliminacja spamu (zob. Graliński et al. (2016)). Powyższe trudności zdaje się rekompensować łatwość dostępu do materiału, a w przekonaniu o słuszności rozważanego kroku utwierdzać mogą inne, bazujące na CommonCrawl, przedsięwzięcia związane z badaniem języka. Przezwyciężywszy zarysowane problemy stanąć musimy przed kolejnym jak odróżnić poprawne słowa w języku polskim od błędów i przypadkowych zbitek, które stanowią niebagatelny odsetek w materiale. 2.2. Sygnał i szum W toku prac nad Narodowym Fotokorpusem Języka Polskiego wypracowano różne metody odróżniania poprawnych słów w języku polskim od szumu. Szczególnie obiecująca ze względu na efektywność i skuteczność jest metoda porównywania nieznanej jednostki z bazą potencjalizmów (verba possibilia), tj. słów, które z punktu widzenia systemu leksykalnego i derywacyjnego polszczyzny są możliwe do skonstruowania (mimo, że ich istnienie jest nieznane leksykografii). Jedną z koncepcji wykorzystanych przy filtrowaniu zbioru pod kątem tych drugich jest automatyczne generowanie potencjalizmów. Należą do nich m.in. composita typu administracyjno-biurowy i słowa utworzone przez konkatenację słów z przedrostkami (tj. derywaty prefiksalne, zob. Wiśnicki (2010)). Co istotne, model potencjalizmu pozwala na automatyzację tworzenia opisu gramatycznego nieznanego słownictwa, stąd znajdzie zastosowanie nie tylko w projektach leksykograficznych, ale we wszystkich przedsięwzięciach z zakresu językoznawstwa komputerowego i przetwarzania języka naturalnego, w których występuje problem słów spoza leksykonu (tzw. OOV, od ang. out-of-vocabulary words).