WebSty otwarty webowy system do analiz stylometrycznych

Podobne dokumenty
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

System do klasyfikacji tekstu i analizy stylometrycznej

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Program warsztatów CLARIN-PL

CLARIN infrastruktura naukowa technologii językowych

Grafika i Systemy Multimedialne (IGM)

Open Access w technologii językowej dla języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Narzędzia do automatycznej analizy odniesień w tekstach

Co wylicza Jasnopis? Bartosz Broda

AUTOMATYKA INFORMATYKA

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

LEM wydobywanie statystyk z korpusów

Inforex - zarządzanie korpusami i ich anotacja

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

INŻYNIERIA OPROGRAMOWANIA

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Grafika i Systemy Multimedialne (IGM)

Kurs Chemometrii Poznań 28 listopad 2006

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Technologie informacyjne - wykład 12 -

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Rozkład materiału nauczania

Kontekstowe modele efektywności nauczania po I etapie edukacyjnym

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Narzędzia do automatycznej analizy odniesień w tekstach

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Michał Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (3)

System wspomagania harmonogramowania przedsięwzięć budowlanych

Automatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Sprzętowo wspomagane metody klasyfikacji danych

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

INŻYNIERIA OPROGRAMOWANIA

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Kryteria ocen z języka polskiego dla klasy V szkoły podstawowej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Agnieszka Nowak Brzezińska

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

PROJEKT Z BAZ DANYCH

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Dostawa oprogramowania. Nr sprawy: ZP /15

Kurs wybieralny: Zastosowanie technik informatycznych i metod numerycznych w elektronice

DZIAŁANIA NAPRAWCZE SPOSOBY REALIZACJI. KIEDY JAK CZĘSTO Dyskusja omawianie tekstów z podręcznika. Analiza i ocena postępowania bohaterów lektur.

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

r. rok szkolny 2012/2013

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Tematy prac dyplomowych inżynierskich

Symulacja obliczeń kwantowych

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Jarosław Żeliński analityk biznesowy, projektant systemów

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

EXSO-CORE - specyfikacja

Symulacyjne metody wyceny opcji amerykańskich

STATYSTYKA MATEMATYCZNA

KIERUNKOWE EFEKTY KSZTAŁCENIA

Obliczenia równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

PROGRAM SEMINARIUM ZAKOPANE czwartek, 1 grudnia 2011 r. Sesja przedpołudniowa

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Transkrypt:

WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Katedra Informatyki Technicznej Tomasz.Walkowiak@pwr.edu.pl IJP PAN / UP Kraków maciejeder@gmail.com

Stylometria Stylometria: porównanie drobnych cech językowych w korpusie tekstów, którego celem jest wyłonienie podobieństw i różnic pomiędzy tekstami Poszczególne własności języka nie pozwalają na skuteczne porównanie tekstów, ale w większej liczbie owe drobne różnice zaczynają być znaczące Typowe zastosowania: atrybucja autorska (potwierdzenie, ustalenie autorstwa, wykrycie autorów), analiza stylu, cech autora i wybranych cech kontekstu powstania utworu.

WebSty- System do stylometrii Idea: połączenie w ramach jednej aplikacji webowej narzędzi do analizy tekstu, analizy stylometrycznej zapewnienie bogatego zestawu cech dla języka polskiego zmniejszenie barier technologicznej i wiedzy dla użytkowników Założenia: cechy opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka ograniczeniem są dostępne narzędzia dla języka polskiego analizowane mogą być zarówno dokumenty jak i fragmenty tekstu grupowanie wizualizacja wyników

Schemat systemu 1. Załadowanie korpusu z różnych źródeł 2. Wybór cech opisowych 3. Określenie parametrów przetwarzania przetwarzanie cech, np. transformacja liczba grup 4. Wstępne przetwarzanie automatyczne uruchomienie sekwencji narzędzi językowych 5. Obliczenie wartości cech zliczenie statystyk wystąpienia 6. Filtrowanie i/lub transformacja cech, np. odsianie zbyt rzadkich/częstych cech ważenie cech wyznaczenie miar podobieństwa/odległości między tekstami 7. Grupowanie 8. Identyfikacja cech charakterystycznych grupa vs pozostałe 9. Prezentacja wyników dane liczbowe wizualizacje wkalowanie wielowymiarowe

Schemat potoków przetwarzania Any2txt WCRFT2 Liner2 Fextor Document (doc) Any2txt WCRFT2 Liner2 Fextor FeatFilt Cluto Document (docx) Wynik... Any2txt WCRFT2 Liner2 Fextor Document (pdf) FeatSel Wynik z Cluto Wynik Wynik z Cluto MDS Wynik SubFeatSel

Architektura rozwiązania Problemy: Różne środowiska programistyczne: Java, C++, Python, R Duże modele Długie czasy przetwarzania Udostępnianie jako aplikacja webowa Język modelowania (LPMN): urlzip(http://ws.clarin-pl.eu/ksiazki.zip) any2txt wcrft2 fextor({"features":"base"}) dir featfilt({"similarity":"jaccard }) cluto({"no_clusters":3}) 6

Architektura rozwiązania Samba Worker 1 (Any2txt) Worker 3 (WCRFT2) REST NLPREST2 RabbitMQ Worker 2 (fextor) Worker n (featfilt) Data base LPMN engine Wydajność przetwarzanie asynch. skalowanie synchronizacja po zadaniu zew. baza danych LPMN Engine Wykonanie LPMN model asynchroniczny 50 000 => 0.01 procesora RabbitMQ 7

Cechy dla języka polskiego Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2

Cechy morfologiczne i morfosyntaktyczne Formy wyrazowe Znaki interpunkcyjne Lematy podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Części mowy Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Sekwencje klas gramatycznych przybliżają do pewnego stopnia konstrukcje składniowe

Transformacja i filtrowanie przykład Różne metody oceny istotności cechy dla dokumentu/próbki Łączenie cech różnego typu np. częstości lematów i klas gramatycznych Przykład procesu przetwarzania miara tf.idf 1. obliczenie częstości występowania lematów 2. odrzucenie cech-lematów występujących rzadziej niż n=10 3. normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie 4. ważenie idf(a)= ln( liczba dokumentów dokumenty(a) ) 5. wyliczenie wagi dla lematu: tf(a) * idf(a)

Wyznaczanie podobieństwa Na wejściu macierz wag Wiersze reprezentują dokument Opcjonalna transformacja Redukcja wymiarowości Np. SVD Wyznaczanie podobieństwa Miary z narzędzia SuperMatrix, np. kosinusowa Odległości z narzędzia Stylo Przeliczanie na podobieństwo Grupowanie Cluto

Wykorzystane pakiety: Stylo System opracowany przez Macieja Edera (Uniwersytet Pedagogiczny w Krakowie, Instytut Języka Polskiego PAN) Biblioteka (zestaw funkcji) dla środowiska R Darmowa i na licncji open-source (GPL Zaopatrzona w interfejs graficzny Wyposażona w szereg metod nadzorowanych i nienadzorowanych Prosta w obsłudze, ale nie banalnie prosta

ws.clarin-pl.eu/demo2/websty.html

WebSty system do stylometrii

WebSty system do stylometrii

WebSty system do stylometrii

WebSty: wydobywanie cech Cel Wydobycie cech charakterystycznych dla danej grupy lub dokumentu (planowane) porównywanie korpusów Schematy przetwarzania Grupa vs pozostałe grupy razem Rozkład cech względem grup Metody Narzędzia: Weka, scipy, scikit-learn Grupy metod Weka (miary informacyjne) Testy statystyczne Drzewa losowe Eliminacja cech i algorytmy supervised

WebSty: interfejs do cech

Przykład cech Przetwarzanie: WebSty, korpusie 1000 klasycznych dzieł, cechy leksykalne, interpunkcja, bigramy; ważenie PMI, selekcja Mann-Whitney Kraszewski_syn_jazdona_1880 Kraszewski_krakow-za-loktka_1880 Kraszewski_pogrobek_1880 Kraszewski_kunigas_1882 Kraszewski_boleszczyce_1877 Kraszewski_stara-basn-tom-III_1876 Kraszewski_braciazmartwychwstancy_1876 Kraszewski_banita_1885 Kraszewski_strzemienczyk_1883 Kraszewski_stara-basn-tom-I_1876 Kraszewski_bialy-ksiaze_1882 Kraszewski_jelita_1881 Kraszewski_caprea-i-roma_1860 Kraszewski_stara-basn-tom-II_1876 Stryjkowski_stryjkowski_kronika-polskalitewska-zmudzka-i-wszystkiej-rusi_1846 bigrams:inf_imps bigrams:inf_praet bigrams:ppron3_pcon bigrams:ppas_pcon bigrams:imps_interp bigrams:ppron3_pant bigrams:pant_interp lex_classes:imps_count bigrams:subst_pant bigrams:interj_inf base:wszyscy bigrams:siebie_pcon base:on base:choć base:gdy bigrams:praet_pant bigrams:ppron3_imps bigrams:adj_pant bigrams:pant_pact

Dziękuję bardzo za uwagę http://ws.clarin-pl.eu/demo2/websty.html