Korpusy anotowane jako grafowe bazy danych. Piotr Pęzik PELCRA, Uniwersytet Łódzki piotr.pezik@uni.lodz.pl

Podobne dokumenty
*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Program warsztatów CLARIN-PL

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Specjalizacja magisterska Bazy danych

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

NoSQL & relax with CouchDB

Neo4J. Warsztat z grafowej bazy danych Neo4J. Warsztaty: do zdobycia 20 pkt.

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Spis treści tomu pierwszego

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

KOMUNIKACJA W ŚRODOWISKU EUROPEJSKIM

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

KSZTAŁTOWANIE SIĘ NOWEGO PARADYGMATU ORGANIZACJI ZASOBÓW WIEDZY W SPOŁECZEŃSTWIE SIECIOWYM [?]

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH

Inforex - zarządzanie korpusami i ich anotacja

Jak znaleźć prawdziwe zagrożenia w infrastrukturze IT

PSI-TOOLKIT - zestaw narzędzi dla lingwistów oraz inżynierów języka naturalnego. autorzy: Krzysztof Jassem, Filip Graliński

Narodowy Korpus Języka Polskiego

Lokalizacja Oprogramowania

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

NoSQL Not Only SQL, CouchDB. I.Wojnicki, NoSQL. Apache CouchDB has started. Time to relax. Igor Wojnicki

Darmowy artykuł, opublikowany na:

Oferta przetargu. Poland Tender. Nazwa. Miejscowość. Warszawa Numer ogłoszenia. Data zamieszczenia Typ ogłoszenia

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Akwizycja języka obcego i bilingwizm dziecka

Osoby 50+ na rynku pracy PL1-GRU

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Marzec: food, advertising, shopping and services, verb patterns, adjectives and prepositions, complaints - writing

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Neo4J. Warsztat z grafowej bazy danych Neo4J. Laboratorium I: do zdobycia 40 pkt. Praca domowa: do zdobycia 10 pkt.

Architektury Usług Internetowych. Wyszukiwanie usług w systemie BeesyCluster

Pomoc do programu konfiguracyjnego RFID-CS27-Reader User Guide of setup software RFID-CS27-Reader

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Semantyczne Wiki na przykładzie Semantic MediaWiki

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Course name (in English) - unofficial translation Year Semester ECTS

Semantyczne Wiki! na przykładzie! Semantic MediaWiki!

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań,

Jak szukać w bazie Web of Science Core Collection (WoS CC Clarivate Analytics) przykłady

Definicja. Not Only SQL

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Zajęcia z języka angielskiego TELC Gimnazjum Scenariusz lekcji Prowadzący: Jarosław Gołębiewski Temat: Czas Present Perfect - wprowadzenie

Język angielski. Poziom rozszerzony Próbna Matura z OPERONEM i Gazetą Wyborczą CZĘŚĆ I KRYTERIA OCENIANIA ODPOWIEDZI POZIOM ROZSZERZONY CZĘŚĆ I

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

3 grudnia Sieć Semantyczna

Social Business - efektywniejsza komunikacja dla instytucji kultury

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów

Agregacja i Grupowanie Danych. Funkcje Agregacji. Opcje GROUP BY oraz HAVING

Relacyjne bazy danych. Podstawy SQL

Oracle11g: Wprowadzenie do SQL

AUTOMATYKA INFORMATYKA

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego. 2. KIERUNEK: Politologia. 3. POZIOM STUDIÓW: I stopnia

Obiektowe bazy danych

Wstęp do JUNG. Omówione elementy wykorzystane w Edge Color Project

Zastosowania narzędzi analitycznych w komunikacji społecznej

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Information Extraction. Ewa Płużek & Antoni Myłka

Wstęp do relacyjnych baz danych. Jan Bartoszek

Narzędzia IT we współczesnych strategiach utrzymaniowych

Grupa Pancerniki ARMADILLOS

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego. 2. KIERUNEK: Turystyka i rekreacja. 3. POZIOM STUDIÓW: I stopnia

Korpus Dyskursu Parlamentarnego

Polsko ukraiński korpus równoległy (PolUKR) 1

Open Access w technologii językowej dla języka polskiego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Podzapytania. Podzapytania nieskorelowane i skorelowane

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Konstruowanie Baz Danych DQL agregacja danych

PRZEWODNIK PO PRZEDMIOCIE

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO. Matura do 2013/2014 Matura od 2014/2015

Big Data i 5V Nowe wyzwania w świecie danych Krzysztof Goczyła

Plan studiów FILOLOGIA ANGIELSKA. Rok naborowy 2014/2015

Wstęp Wprowadzenie do BD Podstawy SQL. Bazy Danych i Systemy informacyjne Wykład 1. Piotr Syga

ANALITYKA DANYCH TEKSTOWYCH WARTOŚĆ W DANYCH NIEUSTRUKTURYZOWANYCH. MOŻLIWOŚCI OBECNEJ TECHNOLOGII. DOŚWIADCZENIA Z RYNKU

PRZEWODNIK PO PRZEDMIOCIE. I. KARTA PRZEDMIOTU: Praktyczna Nauka Języka Angielskiego: słownictwo Rok I, stopień I, studia stacjonarne

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Relacyjne bazy danych. Podstawy SQL

USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

Wykład XII. optymalizacja w relacyjnych bazach danych

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

Innowacyjne narzędzia w procesie digitalizacji

Transkrypt:

Korpusy anotowane jako grafowe bazy danych Piotr Pęzik PELCRA, Uniwersytet Łódzki piotr.pezik@uni.lodz.pl

PELCRA Polish & English Language Corpora for Research & Applications Uniwersytet Łódzki => Wydział Filologiczny => Instytut Anglistyki => Pracownia Językoznawstwa Korpusowego i Komputerowego Początkowo językoznawstwo korpusowe, ostatnio coraz częściej komputerowe, Information Retrieval, IE Aplikacje: językoznawstwo, leksykografia angielska i polska, nauczanie języków, kształcenie i warsztat tłumaczy

Dostawcy zasobów Korpus PELCRA (100MS) od 1997 r. Członek konsorcjum NKJP (KP, dane konwersacyjne, internetowe) Polskie dane konwersacyjne: transkrypcje nagrań dokonywanych w studyjnych oraz w nieformalnych warunkach

Dostępność Transkrypcje ok. 100h, dostępne na licencji CC-BY-NC Korpus multimedialny transkrypcje + anonimizowane nagrania (ok. 40h) CC-BY-NC TEI P5, ELAN

Dane konwersacyjne

SNUV.PL 200 godzin nagrań kilkuset osób literujących słowa i czytających liczby. Licencja CC-BY!!!

PELCRA Parallel Corpora

Ręczne zrównoleglanie

Wyszukiwarka PELCRA dla danych NKJP

Słowa dnia Łaziński, Kopcińska, Chojnacka-Kuraś, Andrzejczuk, Pęzik

I ve applied for the area connected with ticketing PLEC Learner corpus at pelcra.pl/plec

Korpusy uczniowskie

1,6 mln kolokacji dla BNC 5 mln kolokacji z NKJP 6 języków?

pelcra.pl/hask

Inne doświadczenia Information Retrieval (frazeo.pl) Web crawling, monitoring nowych mediów Bio-text-mining, EBI, Cambridge

Korpusy anotowane jako grafowe bazy danych NoSQL - termin nieco marketingowy Key-Value, Big Table, Document Stores Bazy grafowe mniej skalowalne (wg. standardów NoSQL) dobrze radzą sobie z reprezentacją mocno powiązanych danych naturalna reprezentacja dla niektórych danych (np. dane społecznościowe) prędkość poruszania się po grafie jest stała (por. normalizację RDBM, operacje na zbiorach)

NoSQL Czy w grafowych bazach danych można przechowywać i przetwarzać dane językowe, np. korpusy/kolekcje/słowniki z bogatą anotacją, relacjami, itp.? RDBM: Korpus PELCRA 100 MS, NKJP 250 MS, słowniki, aplikacje WWW Apache Lucene: NKJP 250 M, NKJP 1600 MS

Korpus jako grafowa bazy danych? Tekst to więcej niż strumień segmentów, anotacja morfologiczna, składniowa, strukturalna, tematyczna, semantyczna, bibliograficzna (annotation mining) Mieszanki danych, np. językowe/społecznościowe, Semantic Web Leksykony, elementy teorii grafów Eksperymenty na bazie neo4j, ACID, GPL/AGPL

Multigraf z własnościami television can be a blessing only when it helps lonely people survive their solitude.

Multigraf z własnościami WORD VERTEX pos: NNS lemma: people DEPENDENCY EDGE type: amod WORD VERTEX pos: JJ lemma: lonely

Subject-Verb-Complement w języku paragraph pisanym SENTENCE PARAGRAPH text type: written sentence lemma: he pos: PRP NEXT_WORD DEPENDENCY type: nsubj lemma: feel pos: V DEPENDENCY type: acomp WORD lemma: great pos: JJ lemma: really NEXT_WORD NEXT_WORD

Subject-Verb-Complement w tekstach pisanych start w1=node:words(lemma="great") ścieżka zależnościowa match w1<-[:next_word*1..9]->w3, dep_path=w1<-[dep_acomp:dependency]-w2-[dep_nsubj:dependency]->w3, struct_path=w1<-[:word]-s1<-[:sentence]-p1<-[:paragraph]-t1 where w1.pos =~ "J.*" and w2.pos =~"V.*" and (w3.pos =~ "PR.*" or w3.pos =~"N.*") and dep_acomp.type="acomp" and dep_nsubj.type="nsubj" and t1.type="written" return krawędzi w3.lemma, w3.pos, w2.lemma, w2.pos, w1.lemma,dep_acomp.type, t1.type limit 100 ścieżka pozycyjna scieżka strukturalna warunki logiczne dla własności wierzchołków i

Wyniki zapytania w3.pos w3.lemma w2.pos w2.lemma w1.lemma dep_acomp.type t1.type PRP he VBD feel great acomp written PRP I VB look great acomp written NN flat VBZ look great acomp written NNP Jane VBG feel great acomp written PRP it VBZ sound great acomp written NNS job VB look great acomp written PRP it VBD work great acomp written PRP they VBP look great acomp written PRP it VBZ look great acomp written PRP it VBD sound great acomp written

Wydajność Ekstrakcja kolokacji, koligacji, wzorców walencyjnych z korpusów BNC i NKJP (300M wierzchołków, 1000M własności, 600M krawędzi) Problemem jest duża liczba wierzchołków/krawędzi wyjściowych przy agregacji start w1=node(100) Jeden wierzchołek wyjściowy start w1=node:words(lemma="time") 180 000 wierzchołków wyjściowych

Indeksy pełnotekstowe start s1 = node:sentence_ft (sen= (>p_j*_d_amod >l_time_n*_g_amod)~10 ) match s1-[:word]->w1 (18K wierzchołków wyjściowych) long time 4K wierzchołków Apache Lucene

Transforming media transforming audiences (COST Action IS0906) Analiza danych społecznościowych Komunikacja społeczna w starych i nowych mediach Modelowanie interakcji i dyskursu mediów społecznościowych Mieszanki danych

Komentarze i dyskusje Kto nadaje ton, w jaki sposób ewoluują tematy dyskusji? Monitoring mediów społecznościowych kto z kim i o czym rozmawia? Kto zetknął się z jakąś informacją lub opinią? Połączenie danych społecznościowych z tekstowymi Jak to modelować?

Struktura dyskusji dla jednego wpisu

Struktura dyskusji dla bloga NOWY GRZBIET? BLOGGER HATER? TROLL?

WPIS NA BLOGU Graf dyskursu blogosfery INDEKSY PEŁNOTEKSTOWE KOMENTARZE SŁOWA KLUCZOWE AUTORZY

Kto z kim i jak często dyskutuje? start author1=node:authors(author="~stanisław") match author1-[:authored]->comment1-[:comment]- >comment2<-[:authored]-author2 return author1.author,author2.author, count(*) order by count(*) desc limit 10

Kto z kim i jak często dyskutuje? author1 author2 count(*) ~Konserwatysta ~Stanisław 30 ~s3kawka ~Stanisław 21 ~seniorek ~Stanisław 18 ~Alutka ~Stanisław 14 ~Stanisław ~Stanisław 8 stefatylko@onet.pl ~Stanisław 7 ~wykpic PiSuarów! ~Stanisław 7 ~ak-48 ~Stanisław 5 ~wyborca ~Stanisław 5 ~wykpic PiS! ~Stanisław 4

Najdłuższe dyskusje, ewolucja tematu Szukamy najdłuższej ścieżki po krawędziach typu COMMENT między wierzchołkami komentarzy (głębokość dyskusji) start post=node:post_properties(type="post") match reply_path=post-[:comment*1..100]->comment return length(reply_path) as path_len order by path_len desc limit 100 > 12 (2 000 000 krawędzi na sekundę)

Ewolucja tematu Jak ewoluuje temat od wpisu na blogu do ostatniego komentarza?

Słowniki, leksykony

Podsumowanie Zalety: Stała prędkość poruszania się po grafie Duża ekspresja grafu jako struktury danych Bardziej naturalna reprezentacja niektó ych typów danych Wady: skalowalność horyzontalna (scaling-out) zależy od struktury grafu W planach: NKJP 1M jako baza grafowa, Słowosieć