Technologie Mowy. Modele semantyczne i ontologie



Podobne dokumenty
Strukturalizacja otoczenia agentów: ontologie, CYC, sieci semantyczne

Ontologie, czyli o inteligentnych danych

3 grudnia Sieć Semantyczna

Analiza danych tekstowych i języka naturalnego

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Reprezentacja wiedzy ontologie, logiki deskrypcyjne

Spis treści. Przedmowa

Semantic Web Internet Semantyczny

Kraków, 14 marca 2013 r.

Automatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi

Rozszerzenie funkcjonalności systemów wiki w oparciu o wtyczki i Prolog

Przetwarzanie języka naturalnego (NLP)

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Reprezentacja wiedzy wprowadzenie, sieci semantyczne, ramy

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Hard-Margin Support Vector Machines

SNP SNP Business Partner Data Checker. Prezentacja produktu

Semantic Web. dr inż. Aleksander Smywiński-Pohl. Elektroniczne Przetwarzanie Informacji Konsultacje: czw , pokój 3.211

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

PRZEWODNIK PO PRZEDMIOCIE

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Programowanie Komponentowe WebAPI

Tychy, plan miasta: Skala 1: (Polish Edition)

SZKOLENIE: Administrator baz danych. Cel szkolenia

EXSO-CORE - specyfikacja

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

2

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Lokalizacja Oprogramowania

deep learning for NLP (5 lectures)

Programowanie obiektowe

AUTOMATYKA INFORMATYKA

Wykład I. Wprowadzenie do baz danych

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Traceability. matrix

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Część I Dostęp do danych oraz moŝliwości programowe (silnik bazy danych)

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Systemy kodowania. Jolanta Bachan

MODEL SYSTEMU WIELOAGENTOWEGO KORZYSTAJĄCEGO Z DANYCH SIECI SEMANTYCZNEJ W PROJEKCIE OPEN NATURA 2000

Jak zasada Pareto może pomóc Ci w nauce języków obcych?

OpenPoland.net API Documentation

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Sprawozdanie z laboratorium 2: Modeling knowledge with Resource Description Framework (RDF)

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Modelowanie i Programowanie Obiektowe

Wprowadzenie do teorii systemów ekspertowych

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

LISTA KURSÓW PLANOWANYCH DO URUCHOMIENIA W SEMESTRZE ZIMOWYM 2015/2016

Wstęp do przetwarzania języka naturalnego

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

Internet Semantyczny i Logika II

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Temat : SBQL 1 obiektowy język zapytań.

edycja 20 opracowany zgodnie z Zarządzeniami Wewnętrznymi PWr. nr ZW 124/2017 i 112/2017 i 113/2017

INŻYNIERIA OPROGRAMOWANIA

PROJEKT Z BAZ DANYCH

Zajęcia z języka angielskiego TELC Gimnazjum Scenariusz lekcji Prowadzący: Jarosław Gołębiewski Temat: Czas Present Perfect - wprowadzenie

Konstruowanie Baz Danych SQL UNION, INTERSECT, EXCEPT

Oprogramowanie typu CAT

Karta (sylabus) modułu/przedmiotu Mechanika i Budowa Maszyn Studia I stopnia

Relacyjne bazy danych a XML

Inteligentny czujnik w strukturze sieci rozległej

Elementy kognitywistyki II: Sztuczna inteligencja

Spis treści Informacje podstawowe Predykaty Przykłady Źródła RDF. Marek Prząda. PWSZ w Tarnowie. Tarnów, 6 lutego 2009

Zaawansowany kurs języka Python

dlibra 3.0 Marcin Heliński

General Certificate of Education Ordinary Level ADDITIONAL MATHEMATICS 4037/12

PODZAPYTANIE (SUBSELECT)

Rozszerzanie ontologii nazw geograficznych

1. INFORMACJE OGÓLNE

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Uniwersytet Jagielloński Interfejsy graficzne. Wykład 6. Style interfejsu. Barbara Strug

Obiektowy model dokumentu. Katedra Mikroelektroniki i Technik Informatycznych

Projektowani Systemów Inf.

PRZEWODNIK PO PRZEDMIOCIE

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

PRZEDMIOTY REALIZOWANE W RAMACH KIERUNKU INFORMATYKA I STOPNIA STUDIA STACJONARNE

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

SNP Business Partner Data Checker. Prezentacja produktu

Instrukcja obsługi User s manual

Informatyka wspomaga przedmioty ścisłe w szkole

Transkrypt:

www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/ Technologie Mowy Modele semantyczne i ontologie Bartosz Ziółko Wykorzystano materiały MIT, Li Fei-Fei, Aleksandra Pohla, Jana Wicijowskiego, Mariusza Mąsiora i Wikipedię 365

Rule-to-rule Bag-of-words Latent Semantic Analysis Wordnet CYC 366

Rule-to-Rule Semantic interpretation [aka syntax directed translation ]: pair syntax, semantic rules. Generalised Phrase Structure Grammars (GPSG): pair each context free rule with semantic action ; as in compiler theory due to Knuth, 1968 367

Meanings by compositionality Robert Berwick (MIT) 368

But there are exceptions 369

Exceptions - Business class Airlines Business class is luxury, not much to do with making a good business; Hotels - business class is a hotel, where you rent a room if you go in business. It is clean and has all useful things but small and nothing to do with luxury. Copyright Singapore Airlines 370

Human-like and computer-like analysis of expressions Kirk: Spock, are there any Romulans in Sector 6471? Spock: None, captain. Kirk: Are you certain, Spock? Spock: A 100% probability, Captain [camera rolls] Kirk: Damn your Vulcan ears, Spock, I thought you said there were no Romulans in sector 6471! Spock: But there is no sector 6471 Logic dictates 371

Bag-of-words Semantics of NL sentences and phrases can be composed from the semantics of their subparts (for example words) Principle of Compositionality. 372

Bag-of-words by Li Fei-Fei (Princeton) 373

Bag-of-words by Li Fei-Fei (Princeton) 374

Bag-of-words by Li Fei-Fei (Princeton) 375

Bag-of-words by Li Fei-Fei (Princeton) 376

Bag-of-words by Li Fei-Fei (Princeton) 377

Bag-of-words by Li Fei-Fei (Princeton) 378

379

Vector space model Jan Wicijowski.xml 380

topics Applying Semantic Model to Recognition words word-topic matrix hypothesis vector similarities vector Jan Wicijowski Języki torricelli 1.85172 Język vanimo 0.64407 Język sahu 0.56976 Język wiaki 0.56976 Język yapunda 0.56976 Chesterfield F.C. 0.24345 Andrew Latimer 0.21302 Parnassius hunza 0.21115 Tom Smith 0.17938 Mononukleotyd 0.17189 flawinowy 381

Latent Semantic Analysis (LSA) A row in this matrix will be a vector corresponding to a term, giving its relation to each document, a column in this matrix will be a vector corresponding to a document, giving its relation to each term. The dot product between two term vectors gives the correlation between the terms over the documents. 382

Latent Semantic Analysis (LSA) 383

Latent Semantic Analysis (LSA) 384

Bag-of-words with graphs Big John has a house. Big John has a black, aggressive cat. The black aggressive cat has a small mouse. The small mouse is a mammal. 385

TFIDF (Term Frequency - Inverse Document Frequency) TFIDF i,j = ( N i,j / N *,j ) * log( D / D i ) where N i,j = the number of times word i appears in document j (the original cell count). N *,j = the number of total words in document j (just add the counts in column j). D = the number of documents (the number of columns). D i = the number of documents in which word i appears (the number of non-zero columns in row i). 386

LSA tutorial http://www.puffinwarellc.com/index.php/ne ws-and-articles/articles/33.html?start=1 387

Semantyczne zasoby dla języka polskiego Słowosieć http://plwordnet.pwr.wroc.pl/browser/ Wikipedia and DBPedia http://dbpedia.org/ Synonims in OpenOffice http://synonimy.ux.pl/ Wielki Słownik Języka Polskiego http://www.wsjp.pl/ Słownik Języka Polskiego http://sjp.pl/ 388

Słowosieć Elektronika jest typem sprzętu Elektronika jest typem nauki matematycznoprzyrodniczej i nauki ścisłej 389

Słowosieć Automatyka Informatyka Mechanika Inżynieria 390

Konstruowanie Słowosieci 391

Ontologie Slajdy Aleksandra Pohla Po co nam to wszystko? 392

393

Ontologie RDFS Resource Description Framework Schema 394

Ontologie 395

Ontologie 396

Ontologie 397

Ontologie 398

Ontologie 399

Definicje ontologii w filozofii i informatyce Ontologia (filozofia): Termin wywodzący się z greckiego słowa oznaczającego byt, ale ukuty w XVII w. na oznaczenie gałęzi metafizyki zajmującej się tym co istnieje. Ontologia (informatyka): Oksfordzki Słownik Filozoficzny Formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy. Tom Gruber

Ogólna charakterystyka ontologii Elementy definicyjne: formalna specyfikacja: CycL, FLogic, KIF, LOOM, OCML,OWL, RDF......konceptualizacji: indywidua, pojęcia, własności, relacje, funkcje, procesy......wybranej dziedziny wiedzy: ontologie ogólne ontologie dziedzinowe

Cyc jako przykład ontologii ogólnej Cyc produkt Cycorp Rozpoczęcie prac: 1984 www.cyc.com Największa znana ontologia: 300 tyś. pojęć 26 tyś. predykatów 3 miliony asercji 3 wersje: komercyjna, rozwojowa, otwarta Zaawansowany silnik inferencyjny Leksykon dla języka angielskiego

CycL język ontologii CycL: nadbudowany nad rachunkiem predykatów 2-rzędu teoria mnogości ZF asercje na meta-poziomie operatory modalne 2 poziomy języka epistemologiczny heurystyczny (SubL dialekt Lispa)

Struktura wiedzy 1. Pojęcia podstawowe #$Thing korzeń ontologii #$Collection kolekcja wszystkich kolekcji #$Individual kolekcja wszystkich indywiduów #$genls relacja generalizacji #$isa relacja należenia do kolekcji

Struktura wiedzy 2. Kolekcje i indywidua Kolekcje 1-ego rzędu: #$Intangible,#$PartiallyTangilbe, #$TemporalThing, #$SpatialThing Kolekcje 2-ego rzędu: #$TemporalStuffType, #$TemporalObjectType, #$ExistingStuffType, #$ExistingObjectType

Struktura wiedzy 3. Predykaty arność typ argumentów format argumentów relacja genlpreds przykład (#$coloroftype, #$conceptuallyrelated) Funkcje pozwalają unikać reifikacji przykład (#$CapitalFn COUNTRY)

Mikroteorie 3 miliony asercji! Trudność spełnienia wymogu globalnej niesprzeczności Podział wiedzy na mniejsze jednostki mikroteorie predykat #$genlmt #$BaseKB korzeń drzewa mikroteorii #$EverythingPSC suma wszystkich mikroteorii

Leksykon Mapowanie pomiędzy pojęciami (#$Dog) a słowami języków naturalnych ( dog ) Symboliczna reprezentacja słów (X-TheWord) Predykat denotacji (#$denotation WORD POS N DENOTATION) Bank(1) (#$denotation #$Bank-TheWord #$CountNoun 0 #$Bank-Topographical) Bank(2) (#$denotation #$Bank-TheWord #$CountNoun 1 #$BankOrganization)

Architektura Cyc Cycorp

Architektura Cyc Baza wiedzy Świat Wyciąg operacji, serwer operacji Partycje wiedzy Silnik inferencyjny Interfejs użytkownika API Narzędzie integracji źródeł wiedzy

Organizacja danych Świat - obraz pamięci działającej ontologii zapisany w formacie CFASL może być załadowany z powrotem bez sprawdzania integralności danych Wyciąg operacji zestaw operacji wykonywanych przez użytkownika w czasie pracy z systemem Serwer operacji pośredniczy w wymianie informacji pomiędzy sesjami różnych użytkowników Partycja wiedzy fragment Świata

Interfejs użytkownika

Interfejs użytkownika Interfejs webowy pozwala przeglądać ontologią, wprowadzać nowe fakty, zadawać pytania, etc. (HTML + CGI) Edytor faktów (Fact Editor) pozwala wprowadzać fakty osobom, które nie są zaznajomione ze strukturą ontologii (Java) Biblioteka zapytań (Query Library) pozwala tworzyć zapytania i je wykonywać. Wykorzystuje mechanizmy NLP (Java).

Komunikacja ze światem zewnętrznym API: SubL: protokoły ASCII oraz CFASL przez TCP/IP, brak wsparcia dla wywołań zwrotnych Java: nadbudowany nad SubL, zapewnia łatwą integrację z systemami napisanymi w Javie, wspiera wywołania zwrotne Wspierane języki RW: CycML, DAML, OWL SKSI: narzędzie pozwalające na integrację z bazami danych i stronami internetowymi

Zastosowania Cyc

Zastosowania Cyc - aktualne Integracja baz danych Integracja baz wiedzy Inteligentne wyszukiwanie informacji: na podstawie krótkich opisów (np. zdjęcia) na stronach WWW Rozproszona AI Przetwarzanie języka naturalnego

Zastosowania Cyc - potencjalne Automatyczne pośrednictwo w sprzedaży dóbr Tworzenie inteligentnych interfejsów Tłumaczenie maszynowe wysokiej jakości Rozpoznawanie mowy wspomagane wiedzą Zaawansowane modelowania zachowań użytkowników Semantyczny data-mining Wsparcie dla e-biznesu

Bazy danych Wymagania: zmapowanie tabel i ich atrybutów na pojęcia występujące w Cyc. Rezultat: Możliwość wykrycia anomalnych danych poprzez ich analizę z wykorzystaniem wiedzy zdroworozsądkowej. Integracja wiedzy występującej w wielu bazach danych: wykrycie danych sprzecznych generowanie zapytań obejmujących wiele baz danych

CYC 419

CYC 420

Przykład CYC 421

Wyszukiwanie informacji 1. Założenia: baza danych/wiedzy obejmująca tysiące lub setki tysięcy danych niepodlegających analizie tekstowej, zawierających krótkie opisy (np. zdjęcia, filmy, abstrakty) Rezultat: możliwość inteligentnego wyszukiwania informacji znacznie wykraczającego poza zwykłe mechanizmy dopasowania/zastępowania synonimami.

Wyszukiwanie informacji 2. Założenie: dziedzinowe bazy wiedzy dostępne przez WWW, implementujące protokół komunikacyjny Cyc Rezultat: możliwość zaawansowanego wyszukiwania wszelkich informacji dostępnych w dziedzinowych bazach wiedzy (dla użytkownika końcowego wygląda to tak, jakby cała wiedza znajdowała się w Cyc).

Problemy ze stosowaniem ontologii Ogromne koszty Wiedza zmienia się z czasem Ontologie zawierają ograniczoną wiedzę Mogą być błędy wynikające z automatycznej ekstrakcji faktów z tekstów Ale Watson wygrał w Va Banque z mistrzami 424

Watson gra z mistrzami w Va Banque 425

Przetwarzanie języka naturalnego Precyzyjne przetwarzanie języka naturalnego wymaga często posiadania wiedzy zdroworozsądkowej: I saw clouds flying over Zurich. Widziałem chmury lecące nad Zurychem. I saw buildings flying over Zurich. Widziałem domy lecąc nad Zurychem.

Linked Data 427

Podsumowanie Zasada kompozycyjności (fioletowa krowa) Koncepcja modelu bag-of-words Podstawy LSA Orientacja w zagadnieniach związanych z korpusami mowy i tekstów (jak się je robi, ocenia ich jakość, wielkość itp.) Implementacje słowników (tekst, SQL, FSA) Słowosieć (koniecznie sprawdzić stronę) Czym jest ontologia, czyli jak dodać Mruczka do Facebooka 428