WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp



Podobne dokumenty
Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

OnLine Analytical Processing (OLAP) Zapytania SQL

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Excel formuły i funkcje

Rozkłady zajęć- notatki

Wykładowcy Wykład Ćwiczenia Laboratorium Projekt Seminarium Egzamin Kolokwium

Narzędzia do automatycznego wydobywania kolokacji

Opcje raportów. łatwe i czytelne raportowanie

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

Wyszukiwanie zaawansowane

Narzędzia do automatycznego wydobywania kolokacji

Przestrzenne bazy danych Podstawy języka SQL

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Autor: Joanna Karwowska

Oracle11g: Wprowadzenie do SQL

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

Program warsztatów CLARIN-PL

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

XQuery. sobota, 17 grudnia 11

Biblioteka Wirtualnej Nauki

Spis treści tomu pierwszego

Język SQL Złączenia. Laboratorium. Akademia Morska w Gdyni

PROJEKT CZĘŚCIOWO FINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ. Opis działania raportów w ClearQuest

Opis przedmiotu zamówienia

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Sposoby prezentacji problemów w statystyce

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Funkcjonalność słów kluczowych pozwala na przypisanie zestawu słów do wykładowców, grup i sal, w celach wyszukiwania danych.

Multiwyszukiwarka PRIMO dla KUL jak korzystać?

Laboratorium nr 5. Temat: Funkcje agregujące, klauzule GROUP BY, HAVING

Wykład 7 Implementacja języka SQL w systemach baz danych Oracle sortowanie, funkcje agregujące i podzapytania.

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Opis przedmiotu zamówienia

Zapytania do bazy danych

5. Integracja stron aplikacji, tworzenie zintegrowanych formularzy i raportów

Jednolity System Antyplagiatowy. Jak interpretować wynik?

SQL (ang. Structured Query Language)

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Analiza wyników egzaminu gimnazjalnego 2016 r. Test humanistyczny język polski

Wymagania edukacyjne, kl.7

Wykład 4: Statystyki opisowe (część 1)

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Rozkład materiału nauczania

INFORMATYKA W SELEKCJI

Klasyfikacja informacji naukowych w Internecie na przykładzie stron poświęconych kulturze antycznej

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Biblioteka Wirtualnej Nauki

Bazy danych 7/15. Andrzej Łachwa, UJ,

Nr Tytuł Przykład Str.

Zajęcia plastyczne. PRACE DOMOWE Z dnia 7-8 czerwca Materiały potrzebne na zajęcia będą dostępne w szkole

Część A wprowadzenie do programu

Autor: Joanna Karwowska

- język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji

Map Reduce Proste zliczanie słów i zapytania SQL

AKADEMIA MORSKA W SZCZECINIE WI-ET / IIT / ZTT. Instrukcja do zajęc laboratoryjnych nr 11 TECHNOLOGIE INFORMACYJNE

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Program szkoleniowy. 16 h dydaktycznych (12 h zegarowych) NAZWA SZCZEGÓŁY CZAS. Skróty do przeglądania arkusza. Skróty dostępu do narzędzi

Tytuł: GRAPHER Podręcznik użytkownika ISBN: Autor: Zbigniew Galon Rok wydania: 2014 Stron: 500 Wydawca: Gambit COiS Sp. z o.o.

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

RFP. Wymagania dla projektu. sklepu internetowego B2C dla firmy Oplot

Laboratorium - Zdalny pulpit i Zdalna Pomoc w systemie Windows 7

Operatory wyszukiwawcze. dodatkowe omówienie ćwiczenie

ĆWICZENIE Uruchomić Oracle Forms Builder. 2. Utworzyć nowy formularz (File->New->Form) 3. Nawiązać połączenie z bazą danych (file-connect).

XVR CMS Software. Strona 1

Wykonawca systemu: Dr inż. Andrzej Łysko

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Skrypty korpusowe instrukcja (wersja z 3 lipca 2012 ) redakcja K. Szafran

INSTRUKCJA DLA OPERATORA

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Dr Adam Naumowicz

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

OPIS MODUŁU (PRZEDMIOTU) filologia polska. prof. dr hab. Andrzej S. Dyszak

6. Formularze tabelaryczne, obiekty nawigacji - rozgałęzienia

Gramatyka. języka rosyjskiego z ćwiczeniami

Sposoby sprawdzania i oceniania osiągnięć edukacyjnych uczniów

Ćwiczenia z zakresu Kalkulatora EWD

Ćw. IV. Tworzenie stron internetowych. Podstawy projektowania, wprowadzenie do języka HTML

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Wstępne informacje o wynikach egzaminu gimnazjalnego 2009

Transkrypt:

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010

Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą programu Poliqarp Przegląd ćwiczeń na wyrażenia regularne (regexp): analiza składni wyrażeń, sprawdzenie odpowiedzi Metainformacje Funkcje statystyczne Poliqarpa Zadanie domowe

Rodzaje metainformacji w KIPI (drugie wydanie) autor: autor lub autorzy danego tekstu; odpowiada atrybutowi author w pierwszym wydaniu Korpusu IPI PAN, tytuł: tytuł; odpowiada atrybutowi title w pierwszym wydaniu korpusu styl (nowy atrybut): styl funkcjonalny; możliwe wartości to: artystyczny (podstyle: proza, poezja, dramat), publicystyczny, literatura faktu, naukowo-dydaktyczny (podstyle: naukowy humanistyczny, naukowy przyrodniczy, naukowy techniczny, popularnonaukowy, podręcznik), urzędowo-kancelaryjny (podstyle: protokół, ustawa), informacyjno-poradnikowy, potoczny

Rodzaje metainformacji w KIPI (drugie wydanie) medium (nowy atrybut): kanał publikacji; możliwe wartości to: {prasa, książka, internet, rękopis} wydawca (nowy atrybut): wydawca tekstu książkowego lub prasowego, miejsce_wydania (nowy atrybut): miejsce wydania tekstu książkowego lub prasowego, data_wydania: odpowiada atrybutowi published w pierwszym wydaniu korpusu, data_pierwszego_wydania: odpowiada atrybutowi first_published w pierwszym wydaniu korpusu, data_powstania: odpowiada atrybutowi created w pierwszym wydaniu korpusu.

Wyszukiwanie wg metainfo Aby znaleźć sekwencje pięciu rzeczowników w dowolnym tekście naukowo-dydaktycznym wydanym w postaci książki, należy zadać następujące pytanie: [pos=subst]{5} meta styl=naukowo-dydaktyczny & medium=książka Aby znaleźć podobną sekwencję w podstylu naukowym humanistycznym, można posłużyć się następującym zapytaniem: [pos=subst]{5} meta styl=humanistyczny & medium=książka

Atrybuty dat created, first_published i published (na przykładzie pierwszego wydania) można użyć znaków < i > w celu określenia przedziału czasowego, np.: [pos=subst]{5} meta created>1950 przeszukiwanie ograniczone do utworów powstałych po roku 1950 Warunki dotyczące metadanych można łączyć za pomocą operatorów &, i!: [pos=subst]{5} meta created>=1951 & created<=1960 utwory powstałe w latach 1951-1960 [pos=subst]{5} meta published>1900 & author!=sienkiewicz podaj interpretację tego zapytania [pos=subst]{5} meta (author=sienkiewicz & title=potop) (author=żeromski & title=przedwiośnie) przeszukiwanie ograniczone do Potopu Sienkiewicza i Przedwiośnia Żeromskiego

Składnia Poliqarpa: statystyki Jakie części mowy mogą występować bezpośrednio po w? Czy może występować czasownik? Jakie czasowniki są wykorzystywane najczęściej w tekstach ustaw? Jaki jest rozkład częstości form danego leksemu? Co jest częściej używane w polszczyźnie kawa czy herbata? Jaki jest rozkład częstości form tych dwóch leksemów? Jaki dzień tygodnia jest najczęściej wymieniany w Korpusie? Jaki miesiąc? (A jaki dzień i miesiąc najrzadziej?) Jakie miasto, kraj? Kolor? Co najczęściej bywa białe, czarne, zielone, niebieskie, itd.? Podaj regułę użycia form w i we za pomocą danych korpusowych.

Składnia Poliqarpa: statystyki Do zapytania dodajemy opcjonalny element GROUP BY, informujący o tym, ze nie interesują nas konteksty poszczególnych wystąpień, ale częstość określonych zjawisk w rezultatach oryginalnego zapytania (np. form danego rzeczownika, albo czasowników występujących po danym wyrazie). Tutaj i dalej za: Aleksander Buczyński Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne 2006.

Przykłady prostych zapytań Zapytanie o częstość występowania poszczególnych form leksemu woda: [base=woda] group by orth Jw., ale z rozbiciem na liczby i przypadki: [base=woda] group by number, case Jw., ale tak, by w tabelce wyników pojawiła się również forma odpowiadająca danej liczbie i przypadkowi: [base=woda] group by number, case, orth

Zapytania obejmujące kilka segmentów Częstość występowania poszczególnych czasowników w formach finitywnych po wyrazie woda: [base=woda][pos=fin] group by 2.base Jw., ale z dopuszczeniem przysłówka pomiędzy woda a czasownikiem: [base=woda][pos=adv]{0,1}[pos=fin] group by -1.base -1. oznacza tutaj pierwszy segment od końca wyniku. Analogicznie -2. oznaczałby drugi segment od końca, -3. trzeci itd. Częstości występowania trójek przysłówków obok siebie: [pos=adv]{3} group by 1.base, 2.base, 3.base Lub: [pos=adv]{3} group by base, 2.base, 3.base

Sortowanie wyników sort by freq według częstości wystąpień sort a fronte alfabetycznie Selekcja wyników min n tylko wyniki powtarzające się co najmniej n razy Raz obliczone wyniki zapytania mogą być grupowane wielokrotnie wg różnych kryteriów. Domyślnie statystyka tworzona jest na podstawie próbki 1000 (prawie) losowo wybranych trafień, można zmienić dodając np. count 10000 albo count all. Domyślnie pokazywanych jest max. 20 wyników, można zmienić dodając np. display 100 albo display all.

Kolokacje Za pomocą wyżej opisanej składni da się wyrazić proste zapytania o kolokacje, np. [][] group by base, 2.base sort by freq [pos="subst" & base="a.*"] group by base, orth sort by freq 488 wyników [pos="subst"] group by base, orth sort by freq 852 wyniki O czym świadczy ta różnica w ilościach? Jakie dwa przypadki są najbardziej używane w języku polskim? Jakie dwa najrzadziej? Jak to zależy od znaczenia słowa? Na jaką literę jest najwięcej przymiotników?

Praca domowa 1) Pisemne odpowiedzi na pytania na czerwono. 2) Proszę stworzyć słownik frekwencyjny języka polskiego na podstawie 30mln próbki Korpusu IPI PAN z zaznaczeniem części mowy oraz ograniczając wyniki do dowolnego wybranego znacznika metadanych Format pliku txt do wysłania: lemat część_mowy liczba_wystąpień np.: książe subst 11 czas subst 10 Tytuł i nazwa pliku powinny zawierać informację o ograniczających metadanych, np. 1970-1980, Sienkiewicz, publicystyka_lata_1960te, itd., np. sienkiewicz.txt