Mikroformaty, RDFa, Inicjatywy Open*

Podobne dokumenty
Metadane. Agnieszka Ławrynowicz Politechnika Poznańska

rdf:type ex:homepage ex:createdwith /amaya rdf:type ex:htmleditor

Bazy wiedzy. Agnieszka Ławrynowicz. Poznań, rok akademicki 2017

Internet Semantyczny. Linked Open Data

Wiedza w grach, gry z celem tworzenia wiedzy

Semantic Web Internet Semantyczny

ROLA INTEROPERACYJNOŚCI W BUDOWIE CYFROWYCH USŁUG PUBLICZNYCH ORAZ W UDOSTĘPNIANIU ZASOBÓW OTWARTYCH DANYCH

Linked Open Data z wykorzystaniem wolnego oprogramowania w gospodarce przestrzennej

3 grudnia Sieć Semantyczna

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Spis treści Informacje podstawowe Predykaty Przykłady Źródła RDF. Marek Prząda. PWSZ w Tarnowie. Tarnów, 6 lutego 2009

Rozszerzenie funkcjonalności systemów wiki w oparciu o wtyczki i Prolog

Semantyczne Wiki na przykładzie Semantic MediaWiki

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Semantic Web. dr inż. Aleksander Smywiński-Pohl. Elektroniczne Przetwarzanie Informacji Konsultacje: czw , pokój 3.211

Semantyczne Wiki! na przykładzie! Semantic MediaWiki!

MODEL SYSTEMU WIELOAGENTOWEGO KORZYSTAJĄCEGO Z DANYCH SIECI SEMANTYCZNEJ W PROJEKCIE OPEN NATURA 2000

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Wprowadzenie do technologii semantycznych

Czy (centralne) katalogi biblioteczne są jeszcze potrzebne? OPAC w infotopii. Dr hab. Marek Nahotko, ISI UJ

Tomasz Grześ. Systemy zarządzania treścią

NOWY PARADYGMAT PUBLIKACJI I WYSZUKIWANIA DANYCH PRZESTRZENNYCH W SIECI WWW

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.

1 XXIII Forum Teleinformatyki, września 2017 r.

Opracowywanie map w ArcGIS Online i MS Office. Urszula Kwiecień Esri Polska

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

dlibra 3.0 Marcin Heliński

The Binder Consulting

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Wykład I. Wprowadzenie do baz danych

Język RDF. Mikołaj Morzy Agnieszka Ławrynowicz. Instytut Informatyki Poznań, rok akademicki 2013/2014

Przetwarzanie języka naturalnego (NLP)

serwisy W*S ERDAS APOLLO 2009

Facelets ViewHandler

Wszystko na temat wzoru dokumentu elektronicznego

2 Podstawy tworzenia stron internetowych

INFORMATYKA Pytania ogólne na egzamin dyplomowy


INNOWACYJNE METODY UDOSTĘPNIANIA PUBLICZNYCH DANYCH PRZESTRZENNYCH

Programowanie internetowe

Reporting Services. WinProg 2011/2012. Krzysztof Jeliński Dawid Gawroński 1 / 11

Steganografia w HTML. Łukasz Polak

RFP. Wymagania dla projektu. sklepu internetowego B2C dla firmy Oplot

Model semistrukturalny

ZMIANA PARADYGMATU W WYKORZYSTANIA DANYCH I INFORMACJI PRZESTRZENNYCH W BUDOWIE SPOŁECZEŃSTWA OPARTEGO NA WIEDZY

Upowszechnianie dorobku naukowego w repozytoriach i bazach danych działania komplementarne czy konkurencyjne?

Język zapytań SPARQL. Agnieszka Ławrynowicz. Instytut Informatyki Politechniki Poznańskiej Poznań, 2014

Open Acces Otwarty dostęp

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Oracle11g: Wprowadzenie do SQL

Badanie struktury sieci WWW

2

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Klasyfikacja informacji naukowych w Internecie na przykładzie stron poświęconych kulturze antycznej

REFERAT O PRACY DYPLOMOWEJ

E.14.1 Tworzenie stron internetowych / Krzysztof T. Czarkowski, Ilona Nowosad. Warszawa, Spis treści

1 Wprowadzenie do J2EE

XHTML - Extensible Hypertext Markup Language, czyli Rozszerzalny Hipertekstowy Język Oznaczania.

Czytelnik w bibliotece cyfrowej

Ontologie, czyli o inteligentnych danych

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Optymalizacja logo strony. Krok po kroku... Spis treści

Podstawy (X)HTML i CSS

XML w bazach danych i bezpieczeństwie

Internet Semantyczny. Idea

Monitoring procesów z wykorzystaniem systemu ADONIS

5-6. Struktura dokumentu html. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

Szkolenie autoryzowane. MS Zaawansowany użytkownik programu SharePoint 2016

AUTOMATYKA INFORMATYKA

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Paweł Rajba

OPIS PRZEDMIOTU ZAMÓWIENIA

Specyfikacja techniczna dot. mailingów HTML

Przykłady zastosowao rozwiązao typu mapserver w Jednostkach Samorządu Terytorialnego

ActiveXperts SMS Messaging Server

AUDYT DOSTĘPNOŚCI STRONY INTERNETOWEJ

XML w bazach danych, standardy wiążące dokumenty XML

Zakres treści Czas. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

Nazwa biblioteki (w języku oryginalnym) National Library of Scotland Biblioteka Narodowa Szkocji

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

RDF Schema (schematy RDF)

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

CMS, CRM, sklepy internetowe, aplikacje Web

4. Jak połączyć profil autora w bazie Scopus z identyfikatorem ORCID. 5. Jak połączyć ResearcherID (Web of Science) z identyfikatorem ORCID

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

STANDARDY SIECI SEMANTYCZNEJ W ZARZĄDZANIU WIEDZĄ ORGANIZACJI

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Kartografia multimedialna krótki opis projektu. Paweł J. Kowalski

OPEN. Stałe identyfikatory URI tworzenie i zarządzanie. Metadane prezentacji SUPPORT. Moduł szkoleniowy 2.3 DATA

Shapefile, GeoPackage czy PostGIS. Marta Woławczyk (QGIS Polska)

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

GML w praktyce geodezyjnej

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

HTML5 Nowe znaczniki header nav article section aside footer

Transkrypt:

Mikroformaty, RDFa, Inicjatywy Open* Mikołaj Morzy Agnieszka Ławrynowicz Instytut Informatyki Poznań, rok akademicki 2013/2014 TSiSS 1

Od Sieci Dokumentów do Sieci Danych Sieć dokumentów Hyperlinks Dokumenty Podstawowe elementy: 1. Nazwy (URI) 2. Dokumenty (Zasoby) opisane w HTML, XML, itp. 3. Interakcja poprzez HTTP 4. (Hiper)linki pomiędzy dokumentami lub anchors w dokumentach Wady: Nietypowane linki Wyszukiwarki nie potrafią obsłużyć skomplikowanych zapytań TSiSS 2 2

Od Sieci Dokumentów do Sieci Danych Sieć Dokumentów Sieć Danych Typowane Linki Hyperlinks Dokumenty Rzeczy TSiSS 3 3

Od Sieci Dokumentów do Sieci Danych Cechy: Linki pomiędzy dowolnymi rzeczami (np. osobami, lokalizacjami, zdarzeniami, budynkami) Sruktura danych na stronach WWW jest jawna Rzeczy opisane na stronach mają nazwę i URI Linki pomiędzy rzeczami są jawne i typowane Sieć danych Rzeczy Typowane linki TSiSS 4 4

Wizja Sieci Danych 1/2 Sieć dzisiaj składa się z odizolowanych silosów danych, które są dostępne poprzez wyspecjalizowane wyszukiwarki jedna strona (silos danych) przechowuje filmy, inne recenzje, jeszcze inne informacje o aktorach wiele popularnych rzeczy jest reprezentowanych w wielu różnych zbiorach danych linkowanie identyfikatorów łączy te zbiory danych TSiSS 5 5

Wizja Sieci Danych 2/2 Sieć Danych - globalna baza danych składa się z obiektów i ich opisów obiekty są ze sobą powiązane linkami z wysokim stopniem ustrukturalizowania obiektów z jawną semantyką linków i treści zaprojektowana dla ludzi i maszyn TSiSS 6 6

Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci wykorzystanie różnych API WWW (2.0) wiązanie danych (tworzenie linków między danymi) osadzanie ustrukturalizowanych danych (mikroformaty, RDFa, GRDDL) TSiSS 7 7

Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci wykorzystanie różnych API WWW (2.0) wiązanie danych (tworzenie linków między danymi) osadzanie ustrukturalizowanych danych (mikroformaty, RDFa, GRDDL) TSiSS 8 8

Powiązane Dane (ang. Linked Data): definicja The Seman)c Web isn't just about pu5ng data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data. (Tim Berners- Lee) Powiązane Dane wykorzystanie technologii Sieci Semantycznej do publikowania ustrukturalizowanych danych w Sieci i do ustanawiania powiązań między źródłami danych. TSiSS 9 9

Powiązane Dane - zasady Używaj URI jako nazwy dla rzeczy. Używaj HTTP URI tak aby ludzie mogli wyszukiwać tych nazw. Kiedy użytkownik wyszukuje URI, dostarcz użytecznej informacji w RDF. Zawrzyj wyrażenia RDF, które są powiązane linkami do innych identyfikatorów URI tak aby mogły one pomóc w wykryciu powiązanych rzeczy. TSiSS 10 10

Projekt Linking Open Data (Otwarte Powiązane Dane) Projekt społecznościowy ze wsparciem W3C Cel: Pomoc w utworzeniu Sieci Semantycznej poprzez publikowanie zbiorów danych z wykorzystaniem RDF. Spełnia zasady połączonych danych (Linked Data principles) Główna idea: wziąć istniejące (otwarte) zbiory danych i uczynić je dostępnymi w Sieci w formacie RDF Raz opublikowane w RDF, połączyć je linkami z innymi zbiorami danych Przykładowy link RDF: h]p://dbpedia.org/resource/berlin [Identyfikator Berlina w DBPedia] owl:sameas h]p://sws.geonames.org/2950159 [Identyfikator Berlina w Geonames]. TSiSS 11 11

Chmura LOD - Maj 2007 TSiSS 12 12

Chmura LOD - Maj 2007 Ogólnie: Chmura Powiązanych Otwartych Danych (Linked Open Data) jest zbiorem powiązanych między sobą zbiorów danych, które zostały opublikowane i powiązane linkami zgodnie z zasadami powiązanych danych. Fakty: Punkty ogniskujące : DBPedia: wersja Wikipiedii w formacie RDF; wiele przychodzących i wychodzących linków Zbiory danych dotyczące muzyki Duże zbiory danych zawierają: FOAF, US Census data Rozmiar w przybliżeniu 1 bilion trójek, 250k linków TSiSS 13 13

Chmura LOD - Wrzesień 2008 TSiSS 14 14

Chmura LOD - Wrzesień 2008 Fakty: Więcej niż 35 powiązanych zbiorów danych Gracze komercyjni dołączyli do chmury (np. BBC) Firmy zaczęły publikować i przechowywać zbiory danych (OpenLink, Talis, Garlik) Rozmiar w przybliżeniu 2 bilion y trójek, 3 miliony linków TSiSS 15 15

Chmura LOD - Marzec 2009 TSiSS 16 16

Chmura LOD - Marzec 2009 Fakty: Wielka część z chmury Drug i projektu BIO2RDF Znaczące nowe zbiory danych: Freebase, OpenCalais, ACM/ IEEE Rozmiar > 10 bilionów trójek TSiSS 17 17

Chmura LOD - Wrzesień 2011 Liczba zbiorów danych: 295 Liczba trójek: 31 634 213 770

Publikowanie Powiązanych danych w 7 krokach Wybór słowników ważne ponowne wykorzystanie istniejących słowników - interoperacyjność Partycjonowanie grafu RDF do stron danych Przyznanie URI każdej stronie danych Stworzenie wariantów HTML każdej strony danych - do renderowania stron w przeglądarkach Przyznanie URI każdej encji Dodanie metadanych stron i linków np. publisher, license, topics Dodanie semantycznej mapy strony (semanic sitemap) ważna dla pająków w celu znalezienia zbioru danych lub końcowki SPARQL z dostępem do danych TSiSS 19 19

Tworzenie powiązań (linków) Popularne predykaty: owl:sameas, foaf:homepage, foaf:topic, foaf:based_near, foaf:maker/foaf:made, foaf:depiction, foaf:page, foaf:primarytopic, rdfs:seealso TSiSS 20 20

Przykładowe zbiory danych DBpedia BBC Music Open government (UK), Data.gov (US) Freebase Zbiory danych biologicznych i medycznych TSiSS 21

DBpedia Inicjatywa społeczna: Ekstrakcja strukturalnej informacji z Wikipedii Udostępnienie informacji w Sieci na otwartej licencji Powiązanie linkami zbioru danych DBpedii z innymi zbiorami danych w Sieci DBpedia to jeden z najbardziej centralnych hubów w tworzącej się Sieci Danych TSiSS 22

Data.gov 1. Zgromadź dane z wielu miejsc, udostępnij je za darmo deweloperom, naukowcom, obywatelom 2. Połącz społeczność w znajdowaniu rozwiązań pozwalających na współpracę poprzez media społecznościowe, wydarzenia, plalormy 3. Dostarcz infrastrukturę w oparciu o standardy i interoperacyjność 4. Zachęć twórców technologii do tworzenia aplikacji, map, wizualizacji danych, które wzmocnią wybory dokonywane przez ludzi 5. Zgromadź więcej danych i połącz więcej ludzi s A Strategy for American Innova2on wrzesień 2009

Powiązane Dane Narzędzia i Aplikacje Narzędzia do przenoszenia danych z innych formatów i z funkcjonujących wewnętrznie systemów do Sieci Danych Narzędzia do wykorzystywania Powiązanych Danych: przeszukiwanie, przeglądanie, tworzenie mashups, inne TSiSS 24 24

Przenoszenia danych z innych formatów do Sieci Danych Dostarczenie danych przechowywanych w relacyjnych bazach danych do Sieci Danych: Pubby: serwer dostarczający dostępu do składnic trójek w Sieci Triplify: pozwala na specyfikację zapytań SQL i zrenderowanie wyników jako RDF D2RQ, ontop: odwzorowanie relacyjnych baz danych do RDF; dostarczają końcówkę SPARQL z dostępem do danych Virtuoso RDF Views: oferuje deklaratywny język do tworzenia odwzorowań pomiędzy danymi SQL i RDF Ekstrakcja danych z Sieci WWW (np. DBPedia: dane z Wikipedii) Konwersja istniejących danych i ekstrakcja z nich RDF: z JPEG, Email, BibTex, Java bytecode, Javadoc, Excel TSiSS 25 25

Repozytoria trójek RDF OWLIM: natywne, wykorzystuje mechanizm wnioskowania wprzód (forward chaining) i materializację AllegroGraph: natywne Jena TDB: natywne Open Link Virtuoso: hybrydowe, hostuje zbiór Dbpedia, Virtuoso 7 - Virtuoso Column Store BigData: hybrydowe TSiSS 26 26

Publikowanie powiązanych - typowe wzorce Źródło: http://linkeddatabook.com/editions/1.0/

Konsumowanie Powiązanych Danych Przeglądarki Powiązanych Danych: eksplorowanie rzeczy i zbiorów danych i nawigacja pomiędzy nimi Tabulator Browser, Marbles, OpenLink RDF Browser, Zitgist RDF Browser, Disco Hyperdata Browser, Fenfire Mashup y Powiązanych Danych: strony, które łączą ( mieszają ) powiązane dane Revyu.com, DBtune Slashfacet, DBPedia Mobile, Semansc Web Pipes Wyszukiwarki powiązanych danych Falcons, Sindice, MicroSearch, Watson, SWSE, Swoogle TSiSS 28 28

Przykładowy Mashup: Revyu.com 1/2 Revyu.com - strona do oceniania wszystkiego. Powiązane Dane wykorzystywane do wzbogacania ocen. Oceny zawierają linki do ocenianej rzeczy i linki seealso do Wikipedii i innych zbiorów danych. TSiSS 29 29

Przykładowy Mashup: Revyu.com 2/2 http://revyu.com TSiSS 30 30

Przykładowa wyszukiwarka: Sindice 1/2 Wyszukiwarka Powiązanych Danych. Pozwala na wyszukiwanie treści Sieci Semantycznej na bazie: - słów kluczowych - URI (identyfikujących obiekty, pojęcia, lub dokumenty). TSiSS 31 31

Przykładowa wyszukiwarka: Sindice 2/2 TSiSS 32 32

Inne inicjatywy Open* Open Source Open Content Open Science (Open Notebook Science) Open Access Open CourseWare Open Society Foundaions Open Health TSiSS 33

Otwarte dane przykład aplikacji Green BuHon 21 million American h can 21 now milionów download amerykańskich th gospodarstw domowych business może energy ściągnąć use dane dot. zużycia energii their local w ich utility domu Następnie wykorzystać aplikacje, które zarządzają Then use ich apps zużyciem to ma energii i zaoszczędzić pieniądze energy use (i być to bardziej save mekologicznym) go green Więcej: Energy.Data.gov More at Energy.Data Źródło: Driving Innovason with Open Data and Interoperability Jeanne Holm Evangelist, Data.gov Listopad 14, 2012

Otwarte dane to ekosystem

Wspólna wizja 1. Wizja: Co będzie łączyć społeczność, jak współpraca będzie wyglądać w przyszłości? 2. Liderzy: Kto będzie przewodzić społeczności? 3. Uczestnicy: Kto będzie uczestniczyć? 4. Wyniki: Jakie są oczekiwane wyniki, miary ich osiągnięcia? 5. Funckcjonalność: Jakie typy aktywności będą funkjonować (fora, blogi, wiki, rankingi konkursy, aplikacje)? 6. Treść: Jaka treść będzie pokazywana? 7. Interakcyjność: Jak społeczność będzie komunikować się z liderami i z zewnętrznymi osobami, jednostkami?

Co to są mikroformaty? - sposób nadania znaczenia elementom HTML i jawnego pokazania struktur danych na stronach HTML - zaprojektowane dla ludzi w pierwszej kolejności, w drugiej dla maszyn - zbiór prostych, otwartych formatów danych, zbudowanych w oparciu o istniejące i szeroko zaadaptowane standardy (np. (X)HTML) - rozwiazują pojedynczy, specyficzny problem (np. reprezentację informacji geograficznej, kalendarzowej) TSiSS 37 37

Ilustracja microformatów TSiSS 38 38

Rodzaje mikroformatów Elementarne mikroformaty (jeden znacznik) Rel-home (strona domowa) <link href="http://technorati.com" rel="home" /> Rel-License (licencja) <a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by2.0</a> Inne: rel-tag, rel-encluse, xfn-tags Złożone mikroformaty Często oparte na istniejącym standardzie np. hcard, hcalendar, hevent, hreview TSiSS 39 39

Składnia Mikroformaty wykorzystują istniejące atrybuty HTML do osadzenia strukturalnych typów danych w dokumencie HTML i do wskazania obecności metadanych Atrybut rel/rev wykorzystanie w elementarnych mikroformatach. Przykład: <a href= http://www.cs.put.poznan.pl rel= tag >instytut</a> Atrybut class wykorzystanie w złożonych mikroformatach. Przykład: <span class= geo ><span class= latitude >28.42</span><span class= longitude >37.10</span><span> TSiSS 40 40

Ekspresywność mikroformatów Mikroformaty rozszerzją siłę wyrażania (ekspresywność) języka HTML Ekspresywność jest ograniczona tym, że mikroformaty są zaprojektowane do wykorzystywania tylko pre- definiowanych słowników. TSiSS 41 41

Przykład: złożony mikroformat hcard 1/2 hcard prosty format do reprezentacji danych ludzi, firm, organizacji i miejsc wykorzystujący 1:1 reprezentację własności i wartości standardu vcard (RFC2426) BEGIN: VCARD VERSION: 3 FN: Agnieszka Lawrynowicz ORG: Politechnika Poznanska URL: h]p://www.put.poznan.pl TEL: +48 61 8790 790 END: VCARD TSiSS 42 42

Przykład: złożony mikroformat hcard 2/2 <div class="vcard > <span class="fn">agnieszka Lawrynowicz</span> <a class="org url href="http:// www.put.poznan.pl">politechnika Poznanska</a> <a class="email href="mailto:alawrynowicz@cs.put.poznan.pl">mail me</a> Phone: <div class="tel">+48 61 8790790</div> </div> Example on this slide by Alexander Graf TSiSS 43 43

Wady mikroformatów Istnieje jedynie ustalony zbiór mikroformatów Nie ma możliwości łączenia elementów danych Ustalony słownik, nie- rozszerzalny, trudny do dostosowania do konkretnych potrzeb Osobne reguły parsowania potrzebne dla każdego mikroformatu TSiSS 44 44

RDFa RDFa = RDF w atrybutach rekomendacja W3C zbiór nowych atrybutów (X)HTML do wyrażenia metadanych wewnątrz (X)HTML format serializacji RDF, gdzie trójki RDF są "osadzone" w (X)HTML niezależne od dziedziny (w przeciwieństwie do dedykowanych dla danej dziedziny mikroformatów) TSiSS 45

Składnia: wykorzystanie RDFa w XHTML Odpowienie atrybuty XHTML: @rel, @rev, @content, @href, @src Nowe atrybuty, specyficzne dla RDFa: @about, @property, @resource, @datatype, @typeof TSiSS 46 46

Opis podstawowych atrybutów RDFa @about, @src URI, które specyfikuje zasób opisywany przez metadane @rel, @rev określają relację (relację odwrotną) z innym zasobem @href, @resource określają stowarzyszony zasób @property określa własność dla zawartości ( content ) elementu @content opcjonalny atrybut, który nadpisuje zawartość elementu, używając atrybutu property @datatype opcjonalny atrybut, który określa typ danych tekstu do wykorzystania z atrybutem property @typeof opcjonalny atrybut, który określa typ(y) RDF podmiotu (zasobu opisywanego przez metadane) TSiSS 47

Wykorzystanie RDFa w XHTML <html xmlns:foaf="h]p://xmlns.com/foaf/0.1/"> <head> <itle>profil Jana Kochanowskiego</itle> <link rel="foaf:primarytopic foaf:maker" href="#me"/> </head> <body> <div about="#me" typeof="foaf:person"> <span property="foaf:name">jan Kochanowski</span> ma strone domowa <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/ Jan_Kochanowski">Strona Jana Kochanowskiego</a>. Zna: <a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/zygmunt_ii_august#me">zygmunt II August</a>. <span rel="foaf:img"> <img src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/jan_kochanowski.png alt="jan"/> </span> </div> </body> </html> TSiSS 48

Ekspresywność RDFa Specyfikacja RDFa definiuje składnię do osadzania RDF w dokumentach w dowolnym języku opartym o język XML. Dlatego RDFa zyskuje swoją ekspresywność z siły wyrażania RDF TSiSS 49 49

GRDDL GRDDL ( Gleaning Resource Descripions from Dialects of Languages ) Specyfikacja GRDDL wprowadza znaczniki w oparciu o istniejące standardy deklaracji, że dokument XML zawiera dane kompatybilne z RDF i do łączenia z algorytmami (typowo reprezentowanymi w XSLT) do ekstrakcji tych danych z dokumentu. TSiSS 50 50

Transformacje GRDDL Transformacje GRDDL są stosowane w 3 krokach: (1) Deklaracja dokumentu jako źródła. (2) Połaczenie z jednym lub większą liczbą ekstraktorów. (3) Agent GRDDL ekstrahuje RDF z dokumentu. TSiSS 51 51

Inicjatywy gigantów h]p://schema.org (współpraca Google, Microso i Yahoo!) schemat znaczników danych strukturalnych wspieranych przez najważniejsze wyszukiwarki internetowe, mikrodane Google knowledge graph hzp://www.youtube.com/watch? feature=player_embedded&v=mmql6vgvx- c Facebook Graph API, Open API hzps://www.youtube.com/watch?v=lh- YNvdJk8k

Jeopardy! Jeopardy! to amerykański quiz show (odpowiednik polskiego Va Banque!) 1964 do dzisiaj format odpowiedź- i- pytanie Przykład: Kategoria: Nauka ogólnie Wskazówka: W zderzeniu z elektronami, fosfor wydziela energię elektromagnetyczną w tej formie Odpowiedź: Czym jest światło? dla ludzi, wyzwaniem jest znajomość odpowiedzi dla maszyn, wyzwaniem jest zrozumienie pytania

IBM Watson Watson system komputerowy stworzony przez IBM do odpowiadania na pytania zadawane w języku naturalnym Watson wystąpił w Jeopardy! w trzydniowej rozgrywce (2011) h]p://www.youtube.com/watch?v=puhs2luo3zc

IBM Watson przeciwnikami IBM Watsona byli: Brad Ruzer do tej pory wygrał najwięcej pieniędzy, Ken Jennings był najdłużej niepokonanym mistrzem IBM Watson zajął pierwsze miejsce

Problem automatycznego i niezależnego od dziedziny odpowiadania na pytania (QA) Mając dane treściwe pytania w języku naturalnym dot. szerokiej dziedziny wiedzy Dostarcz (w czasie < 3s): precyzyjnych odpowiedzi: określ czego dotyczy pytanie & daj precyzyjną odpowiedź dokładnie wyliczoną pewność odpowiedzi strawne wyjaśnienia co do poprawności odpowiedzi

IBM Watson trójząb * Nowy paradygmat oprogramowania coraz więcej zadań obliczeniowych wymaga rozwiązań niedokładnych, które łączą wiele metod w nieprzewidziany sposób Wiedza nie jest celem (o tym za chwilę) Inteligencja maszynowa nie jest inteligencją ludzką Różnica jest najbardziej znaczna w przypadku pomyłek *Wg Chrisa Welty z IBM Research

IBM Watson wiedza nie jest celem Klasyczne podejście QA Od zarania SI zakładano, że odpowiadanie na pytania będzie działać na bazie procesu, który całkowicie przekłada język naturalny na jednoznaczną (logiczną) reprezentację; proces wnioskowania będzie działać na tej reprezentacji aby wyprodukować odpowiedzi. JĘZYK NATURALNY WIEDZA pokrycie NLP precyzja akwizycja skala technologie semantyczne

IBM Watson wiedza nie jest celem Klasyczne podejście QA Od zarania SI zakładano, że odpowiadanie na pytania będzie działać na bazie procesu, który całkowicie przekłada język naturalny na jednoznaczną (logiczną) reprezentację; proces wnioskowania będzie działać na tej reprezentacji aby wyprodukować odpowiedzi. JĘZYK NATURALNY pokrycie NLP precyzja PORAŻKA! akwizycja WIEDZA skala technologie semantyczne

IBM Watson wiedza nie jest celem DeepQA (Watson) generuje i ocenia wiele hipotez wykorzystując kolekcję metod z dziedziny przetwarzania języka naturalnego, uczenia maszynowego, reprezentacji wiedzy i wnioskowania; gromadzą one i ważą dowody pochodzące ze źródeł danych niestrukturalnych i strukturalnych (np. otwartych powiązanych danych) aby ustalić odpowiedź o najwyższej pewności na podstawie odpowiedzi wielu (setek) metod NER JĘZYK NATURALNY parsowanie wyszukiwanie informacji uczenie maszynowe crowd technologie semantyczne ZADANIE

IBM Watson jak to działa The science behind an answer h]p://www.youtube.com/watch?v=dywo4zksfxw

Google: Graf Wiedzy semantyczne wyszukiwanie maj 2012: baza wiedzy wykorzystywana przez Google do rozszerzenia wyników wyszukiwania wiele źródeł wiedzy: CIA World Factbook, Freebase, Wikipedia sieć semantyczna zawiera ponad 570 mln obiektów i ponad 18 mld faktów maj 2013: polska wersja językowa; zadawanie pytań raczej niż wyszukiwanie, informacje i powiązania między nimi raczej niż zestaw linków system poszukujący nie fraz kluczowych, lecz "bytów stojących za wpisanymi w wyszukiwarkę słowami

Dwa główne sposoby działania Grafu Wiedzy dopasowywanie odpowiedzi do kontekstu; w przypadku dwuznacznych haseł prezentacja różnych wersji odpowiedzi podsumowania najbardziej istotnych informacji: - biogramy, wyróżnione najważniejsze elementy, powiązania między kluczowymi hasłami, odnośniki do kolejnych informacji

Graf Wiedzy: przykład

Bibliografia [1] C. Bizer, T. Heath, and T. Berners- lee Linked Data The Story So Far Internasonal Journal on Semansc Web and Informason Systems (IJSWIS) (2009) [2] T. Heath, and C. Bizer (2011) Linked Data: Evolving the Web into a Global Data Space (1st edison). Synthesis Lectures on the Semansc Web: Theory and Technology, 1:1, 1-136. Morgan & Claypool. [3] RDFa Primer, hzp://www.w3.org/tr/xhtml- rdfa- primer/ (last accessed on 18.03.2009) 65

Wykorzystanie RDFa w XHTML przykład 1/7 Krok 1 tworzenie obiektu osoby - wykorzystany atrybut @typeof i element słownictwa FOAF (Person) <html xmlns:foaf="http://xmlns.com/foaf/0.1/"> <head> <title>profil Jana Kochanowskiego</title> </head> <body> <div typeof="foaf:person">... </div> </body> </html> TSiSS 66

Wykorzystanie RDFa w XHTML przykład 2/7 Krok 2 dodanie informacji personalnej - wykorzystana własność foaf:name, ustawiona za pomocą atrybutu RDFa @property <div typeof="foaf:person"> <span property="foaf:name">jan Kochanowski</span> </div> TSiSS 67

Wykorzystanie RDFa w XHTML przykład 3/7 Krok 3 dodanie strony domowej - wykorzystana własność foaf:homepage i atrybut HTML @rel (dodajemy URL) <div typeof="foaf:person"> <span property="foaf:name">jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/ Jan_Kochanowski">Strona Jana Kochanowskiego</a> </div> TSiSS 68

Wykorzystanie RDFa w XHTML przykład 4/7 Krok 4 dodanie przyjaciół/kolegów - wykorzystana własność foaf:knows i atrybut HTML @rel <div typeof="foaf:person"> <span property="foaf:name">jan Kochanowski</span> <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/ Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/ Zygmunt_II_August#me">Zygmunt II August</a> </div> TSiSS 69

Wykorzystanie RDFa w XHTML przykład 5/7 Krok 5 dodanie zdjęcia - wykorzystana własność foaf:img <div about="#me" typeof="foaf:person"> <span property="foaf:name">jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/ Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="http://pl.wikipedia.org/wiki/ Zygmunt_II_August#me">Zygmunt II August</a> <span rel="foaf:img"> <img src=" http://upload.wikimedia.org/wikipedia/commons/4/42/ Jan_Kochanowski.png" alt="jan"/> </span> </div> TSiSS 70

Wykorzystanie RDFa w XHTML przykład 6/7 Krok 6 ostateczna wersja (łącznie z prezentacją) <html xmlns:foaf="h]p://xmlns.com/foaf/0.1/"> <head> <itle>profil Jana Kochanowskiego</itle> <link rel="foaf:primarytopic foaf:maker" href="#me"/> </head> <body> <div about="#me" typeof="foaf:person"> <span property="foaf:name">jan Kochanowski</span> ma strone domowa <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/ Jan_Kochanowski">Strona Jana Kochanowskiego</a>. Zna: <a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/zygmunt_ii_august#me">zygmunt II August</a>. <span rel="foaf:img"> <img src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/jan_kochanowski.png alt="jan"/> </span> </div> </body> </html> TSiSS 71

Wykorzystanie RDFa w XHTML przykład 7/7 Trójki RDF wyrenderowane z dokumentu XHTML np. za pomocą parsera i walidators RDfa Sindice Inspector hzp://inspector.sindice.com/ TSiSS 72

Przykładowa przeglądarka: Marbles 1/2 Wskazuje źródło wyświetlanych danych za pomocą kolorowych ikonek Wsparcie dla różnych widoków: Pełen widok: wyświetlone wszystkie dostępne dane. Widok podsumowujący: krótkie tekstowe streszczenie na temat zasobu. Widok zdjęcie : zdjęcie danego zasobu. Pobiera dane z wielu źródeł poprzez (a) wysyłanie równoległych zapytań do wielu wyszukiwarek Powiązanych Danych (b) podążając za linkami owl:sameas i rdfs:seealso. TSiSS 73 73

Przykładowa przeglądarka: Marbles 2/2 http://marbles.sourceforge.net/ TSiSS 74 74