LEM wydobywanie statystyk z korpusów

Podobne dokumenty
Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

WebSty otwarty webowy system do analiz stylometrycznych

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

CLARIN infrastruktura naukowa technologii językowych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja

Analizator fleksyjny Morfeusz 2

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP

Open Access w technologii językowej dla języka polskiego

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

PoliTa multitager morfosyntaktyczny dla j. ezyka polskiego

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów




KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

QualitySpy moduł persystencji

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Sieci komputerowe i bazy danych

Program warsztatów CLARIN-PL

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Indukcja reguł gramatyki j. polskiego

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Wycieczka uczniów SP nr 2, SP nr 48, SP nr 50 do Włoch r.

System obsługi sprawozdawczości

Wykładowcy Wykład Ćwiczenia Laboratorium Projekt Seminarium Egzamin Kolokwium

Wprowadzenie. Organizacja pracy i środowisko programistyczne. Mirosław Ochodek

System do klasyfikacji tekstu i analizy stylometrycznej

Co wylicza Jasnopis? Bartosz Broda

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2017 CZĘŚĆ PRAKTYCZNA


Publikacja w repozytorium i przetwarzanie w systemie DSpace

Instrukcja pobrania i instalacji wersji testowej Invest for Excel

Instrukcja użytkownika systemu medycznego

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Nazwa kwalifikacji: Montaż i eksploatacja komputerów osobistych oraz urządzeń peryferyjnych Oznaczenie kwalifikacji: E.12 Numer zadania: 08

Definicje wskaźników produktów i rezultatów na poziomie projektu dla osi priorytetowej 2 Społeczeństwo informacyjne w ramach RPO WO

Narzędzia do automatycznej analizy odniesień w tekstach

Ćwiczenie nr 4 INSTRUKCJA LABORATORYJNA

Wymagania edukacyjne z informatyki w klasie IIIa gimnazjum

Płace VULCAN. Jak na podstawie wbudowanego szablonu utworzyć własny szablon wydruku seryjnego?

w ramach realizacji V etapu umowy nr 48/2009/F pt.

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

METODY REPREZENTACJI INFORMACJI

Ośrodek Pomocy Społecznej w Grodzisku Mazowieckim w miesiącu grudniu 2008r. zakończył realizację projektu: Wykorzystaj Szansę

SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE

Kadry VULCAN, Płace VULCAN

Powtórzenie wiadomości o czasowniku

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA DATA GODZINY MODUŁ MIEJSCE ZAJĘĆ TRENER

AUDIOMETRYCZNE BADANIE SŁUCHU ORAZ CECH WYPOWIADANYCH GŁOSEK

Pakiet XML Czym jest i z czym się je?

Lab3 - Zastosowania protokołów przesyłania plików

Informatyka kl. 1. Semestr I

TECHNOLOGIA INFORMACYJNA

Strumieniowe bazy danych. Piotr i Paweł

Instrukcja platformy wideo

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Stacjonarne Kod kierunku: 12.

ZSUT. Laboratoria zdalne ZSUT. Instrukcja Rezerwacja zasobów. Zakład Sieci i Usług Teleinformatycznych

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2019 CZĘŚĆ PRAKTYCZNA

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

SYSTEMY INŻYNIERII WIEDZY

UWAGA. Wszystkie wyniki zapisywać na dysku Dane E: Program i przebieg ćwiczenia:

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

FlexDMS Aktualizacja 128

Nowe Horyzonty szkolenia komputerowe dla osób 50+

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu ELEKTROLADIOLOGIA ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Analiza wypowiedzi w celu rozpoznawania własności mówcy na przykładzie przemówień sejmowych

Załącznik nr 1 (WIJK 11.0) (Załącznik nr 2 do pisma z dnia r.)

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Transkrypt:

LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia Nauk Kontakt: maciej.piasecki@pwr.edu.pl 2017-04-25

LEM http://ws.clarin-pl.eu/lem.shtml LEM = Literary Exploratory Machine

Wydobywanie statystyk z korpusów http://ws.clarin.eu Lematyzacja tagowanie morfosyntaktyczne (WCRFT2) <chunk id="ch1" type="p"> <sentence id="s1"> <tok> <orth>wysoka</orth> <lex disamb="1"> <base>wysoki</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>z</orth> <lex disamb="1"><base>z</base> <ctag>prep:gen:nwok</ctag></lex> </tok> <tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base> <ctag>subst:sg:inst:f</ctag></lex> </tok>

LEM: lematyzacja Tekst przykładowy (Orzeszkowa, Szczęśliwa) Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi, siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i jaka ona sama jest szczęśliwa. Rezultat lematyzacji (Orzeszkowa, Szczęśliwa) wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie zarysować i bardzo świeży, w strój pełny smak i powaga, siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i jaki on sam być szczęśliwy.

Wydobywanie statystyk z korpusów http://ws.clarin.eu Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie nie qub była być praet już już qub młodą młody adj,, interp lecz lecz conj twarz twarz subst jej on ppron3 zachowała zachować praet delikatność delikatność subst rysów rys subst

Wydobywanie statystyk z korpusów http://ws.clarin.eu Charakterystyka czasownikowa (Orzeszkowa, Kto winien) Tokeny czas owni ki Cza s1os lp czas Cza czas Cza bez Cza Cza Cza s3osczas Cza 3os Cza s3os Cza Cza okoli s1oss2oss3oslp_ 3osl s3os lm_ s3os lm_ s3os s2os czni lm lp lp m p_z lp_n m lm_zn lm lm k 1124 2 129 9 100 0 100 84 151 465 0 0 0 0 0 0 150 Statystyki lematów i znaczników w tagsecie NKJP człowiek 36 ale 34 o 34 życie 33 od 33 oko 32 subst:sg:gen:m3 122 subst:sg:nom:f 119 subst:sg:gen:n 115 subst:sg:nom:n 111 prep:gen 107 prep:gen:nwok 105

Berniniego Wydobywanie statystyk z korpusów http://ws.clarin.eu Wyszukanie nazw własnych, Liner2 (Żuławski, Veneri et romae) Adrjatyku Afrodyty Albano Albańskich Alpach Amfiteatrowi Flawjusza Asklepjosa Augusta Baedeker Baedekera Rzym Rzym 19 Palatynie Palatyn 13 Kapitolu Kapitol 7 Forum forum 6 Konstantyna Konstantyn 4 Koloseum Koloseum 3 Piotra Piotr 3 Słońce słońce 3 Via Sacra via sacrum 3 Baedeker Baedeker 2 Grecji Grecja 2 Kastora Kastor 2 Marka Aureljusza Marek aureljusza 2

Wydobywanie statystyk z korpusów http://ws.clarin.eu Ujednoznacznianie znaczeń leksykalnych WoSeDon (Żuławski, Veneri et romae) niespokojny niespokojny adj niespokojny.3(42:jak) sen sen subst spoczynek.2(23:st) sen.1(23:st) jakiejś jakiś adj jakowyś.1(42:jak) który.1(42:jak) jaki.1(42:jak) jakiś.1(42:jak) jakowy.1(42:jak) któryś.2(42:jak) jednej jeden adj pewien.1(42:jak) jeden.3(42:jak) nocy noc subst noc.2(25:czas) jesiennej jesienny adj jesienny.1(43:rel) Hiperonimy i hiponimy sen sen subst spoczynek.2(23:st) sen.1(23:st)

Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu

LEM - ćwiczenia Przykładowe zbiory plików http://ws.clarin-pl.eu/k.zip http://ws.clarin-pl.eu/50k.zip Zadania Załadowanie zbioru musi to być pojedynczy plik zip Uruchomienie poszczególnych funkcji przetwarzania Pobranie pliku z rezultatami Rozpakowanie pliku Analiza poszczególnych rezultatów w na komputerze lokalnym za pomocą arkusza kalkulacyjnego lub edytora plików tekstowych