WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010

Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą programu Poliqarp Przegląd ćwiczeń na wyrażenia regularne (regexp): analiza składni wyrażeń, sprawdzenie odpowiedzi Metainformacje Funkcje statystyczne Poliqarpa Zadanie domowe

Rodzaje metainformacji w KIPI (drugie wydanie) autor: autor lub autorzy danego tekstu; odpowiada atrybutowi author w pierwszym wydaniu Korpusu IPI PAN, tytuł: tytuł; odpowiada atrybutowi title w pierwszym wydaniu korpusu styl (nowy atrybut): styl funkcjonalny; możliwe wartości to: artystyczny (podstyle: proza, poezja, dramat), publicystyczny, literatura faktu, naukowo-dydaktyczny (podstyle: naukowy humanistyczny, naukowy przyrodniczy, naukowy techniczny, popularnonaukowy, podręcznik), urzędowo-kancelaryjny (podstyle: protokół, ustawa), informacyjno-poradnikowy, potoczny

Rodzaje metainformacji w KIPI (drugie wydanie) medium (nowy atrybut): kanał publikacji; możliwe wartości to: {prasa, książka, internet, rękopis} wydawca (nowy atrybut): wydawca tekstu książkowego lub prasowego, miejsce_wydania (nowy atrybut): miejsce wydania tekstu książkowego lub prasowego, data_wydania: odpowiada atrybutowi published w pierwszym wydaniu korpusu, data_pierwszego_wydania: odpowiada atrybutowi first_published w pierwszym wydaniu korpusu, data_powstania: odpowiada atrybutowi created w pierwszym wydaniu korpusu.

Wyszukiwanie wg metainfo Aby znaleźć sekwencje pięciu rzeczowników w dowolnym tekście naukowo-dydaktycznym wydanym w postaci książki, należy zadać następujące pytanie: [pos=subst]{5} meta styl=naukowo-dydaktyczny & medium=książka Aby znaleźć podobną sekwencję w podstylu naukowym humanistycznym, można posłużyć się następującym zapytaniem: [pos=subst]{5} meta styl=humanistyczny & medium=książka

Atrybuty dat created, first_published i published (na przykładzie pierwszego wydania) można użyć znaków < i > w celu określenia przedziału czasowego, np.: [pos=subst]{5} meta created>1950 przeszukiwanie ograniczone do utworów powstałych po roku 1950 Warunki dotyczące metadanych można łączyć za pomocą operatorów &, i!: [pos=subst]{5} meta created>=1951 & created<=1960 utwory powstałe w latach 1951-1960 [pos=subst]{5} meta published>1900 & author!=sienkiewicz podaj interpretację tego zapytania [pos=subst]{5} meta (author=sienkiewicz & title=potop) (author=żeromski & title=przedwiośnie) przeszukiwanie ograniczone do Potopu Sienkiewicza i Przedwiośnia Żeromskiego

Składnia Poliqarpa: statystyki Jakie części mowy mogą występować bezpośrednio po w? Czy może występować czasownik? Jakie czasowniki są wykorzystywane najczęściej w tekstach ustaw? Jaki jest rozkład częstości form danego leksemu? Co jest częściej używane w polszczyźnie kawa czy herbata? Jaki jest rozkład częstości form tych dwóch leksemów? Jaki dzień tygodnia jest najczęściej wymieniany w Korpusie? Jaki miesiąc? (A jaki dzień i miesiąc najrzadziej?) Jakie miasto, kraj? Kolor? Co najczęściej bywa białe, czarne, zielone, niebieskie, itd.? Podaj regułę użycia form w i we za pomocą danych korpusowych.

Składnia Poliqarpa: statystyki Do zapytania dodajemy opcjonalny element GROUP BY, informujący o tym, ze nie interesują nas konteksty poszczególnych wystąpień, ale częstość określonych zjawisk w rezultatach oryginalnego zapytania (np. form danego rzeczownika, albo czasowników występujących po danym wyrazie). Tutaj i dalej za: Aleksander Buczyński Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne 2006.

Przykłady prostych zapytań Zapytanie o częstość występowania poszczególnych form leksemu woda: [base=woda] group by orth Jw., ale z rozbiciem na liczby i przypadki: [base=woda] group by number, case Jw., ale tak, by w tabelce wyników pojawiła się również forma odpowiadająca danej liczbie i przypadkowi: [base=woda] group by number, case, orth

Zapytania obejmujące kilka segmentów Częstość występowania poszczególnych czasowników w formach finitywnych po wyrazie woda: [base=woda][pos=fin] group by 2.base Jw., ale z dopuszczeniem przysłówka pomiędzy woda a czasownikiem: [base=woda][pos=adv]{0,1}[pos=fin] group by -1.base -1. oznacza tutaj pierwszy segment od końca wyniku. Analogicznie -2. oznaczałby drugi segment od końca, -3. trzeci itd. Częstości występowania trójek przysłówków obok siebie: [pos=adv]{3} group by 1.base, 2.base, 3.base Lub: [pos=adv]{3} group by base, 2.base, 3.base

Sortowanie wyników sort by freq według częstości wystąpień sort a fronte alfabetycznie Selekcja wyników min n tylko wyniki powtarzające się co najmniej n razy Raz obliczone wyniki zapytania mogą być grupowane wielokrotnie wg różnych kryteriów. Domyślnie statystyka tworzona jest na podstawie próbki 1000 (prawie) losowo wybranych trafień, można zmienić dodając np. count 10000 albo count all. Domyślnie pokazywanych jest max. 20 wyników, można zmienić dodając np. display 100 albo display all.

Kolokacje Za pomocą wyżej opisanej składni da się wyrazić proste zapytania o kolokacje, np. [][] group by base, 2.base sort by freq [pos="subst" & base="a.*"] group by base, orth sort by freq 488 wyników [pos="subst"] group by base, orth sort by freq 852 wyniki O czym świadczy ta różnica w ilościach? Jakie dwa przypadki są najbardziej używane w języku polskim? Jakie dwa najrzadziej? Jak to zależy od znaczenia słowa? Na jaką literę jest najwięcej przymiotników?

Praca domowa 1) Pisemne odpowiedzi na pytania na czerwono. 2) Proszę stworzyć słownik frekwencyjny języka polskiego na podstawie 30mln próbki Korpusu IPI PAN z zaznaczeniem części mowy oraz ograniczając wyniki do dowolnego wybranego znacznika metadanych Format pliku txt do wysłania: lemat część_mowy liczba_wystąpień np.: książe subst 11 czas subst 10 Tytuł i nazwa pliku powinny zawierać informację o ograniczających metadanych, np. 1970-1980, Sienkiewicz, publicystyka_lata_1960te, itd., np. sienkiewicz.txt