Rozdział. Sieci semantyczne dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu EMAG



Podobne dokumenty
Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Semantic Web Internet Semantyczny

3 grudnia Sieć Semantyczna

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Systemy ekspertowe. System ekspertowy wspomagający wybór zestawu komputerowego w oparciu o ontologie i system wnioskujący RacerPro

OfficeObjects e-forms

Infrastruktura bibliotek cyfrowych

STUDIA I MONOGRAFIE NR

Wirtualny Konsultant Usług Publicznych Interoperacyjność

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie

epuap Opis standardowych elementów epuap

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Narzędzia Informatyki w biznesie

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

Automatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi

PRZEWODNIK PO PRZEDMIOCIE

Ogólnie o ABG.

1. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Dodatkowo, w przypadku modułu dotyczącego integracji z systemami partnerów, Wykonawca będzie przeprowadzał testy integracyjne.

Nazwa przedmiotu: MODELOWANIE I ANALIZA SYSTEMÓW INFORMATYCZNYCH. Modeling and analysis of computer systems Forma studiów: Stacjonarne

Ontologie, czyli o inteligentnych danych

Katedra Inżynierii Oprogramowania Tematy prac dyplomowych inżynierskich STUDIA NIESTACJONARNE (ZAOCZNE)

Karta opisu przedmiotu Zaawansowane techniki analizy systemowej oparte o modelowanie warsztaty

PRZEWODNIK PO PRZEDMIOCIE

Zdalne monitorowanie i zarządzanie urządzeniami sieciowymi

Tester oprogramowania 2014/15 Tematy prac dyplomowych

ROZWÓJ SYSTEMÓW SZTUCZNEJ INTELIGENCJI W PERSPEKTYWIE "PRZEMYSŁ 4.0"

OfficeObjects e-forms

P.2.1 WSTĘPNA METODA OPISU I

Zintegrowany system usług dla nauki etap II (ZSUN II)

KIERUNKOWE EFEKTY KSZTAŁCENIA

Opis merytoryczny. Cel Naukowy

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Biorąc udział w projekcie, możesz wybrać jedną z 8 bezpłatnych ścieżek egzaminacyjnych:

Założenia i stan realizacji projektu epuap2

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

SPINACZ.edu.pl platforma współpracy nauki z biznesem w zakresie innowacyjnych rozwiązań informatycznych

Internetowa ogólnopolska baza informatycznych projektów badawczych otwartej innowacji Platforma współpracy SPINACZ 1/46

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Efekt kształcenia. Wiedza

CENTRUM PROJEKTÓW INFORMATYCZNYCH MINISTERSTWA SPRAW WEWNĘTRZNYCH I ADMINISTRACJI

Kraków, 2 kwietnia 2004 r.

TWÓJ BIZNES. Nasz Obieg Dokumentów

JAK OPTYMALNIE DOBRAĆ ODPOWIEDNIE TECHNOLOGIE INFORMATYCZNE?

Koncepcja wirtualnego uniwersytetu z wykorzystaniem technologii semantycznej. Ilona Pawełoszek Tomasz Turek Politechnika Częstochowska

SOA Web Services in Java

DLA SEKTORA INFORMATYCZNEGO W POLSCE

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

ZAMAWIAJĄCY. CONCEPTO Sp. z o.o.

Załącznik nr 1. Specyfikacja techniczna portalu internetowego Łódź, r.

Usługi analityczne budowa kostki analitycznej Część pierwsza.

ROLA INTEROPERACYJNOŚCI W BUDOWIE CYFROWYCH USŁUG PUBLICZNYCH ORAZ W UDOSTĘPNIANIU ZASOBÓW OTWARTYCH DANYCH

Planowanie przestrzenne

Uniwersytet Mikołaja Kopernika w Toruniu. Profilowanie ruchu sieciowego w systemie GNU/Linux

Transformacja wiedzy w budowie i eksploatacji maszyn

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Aplikacje internetowe i mobilne w zarządzaniu

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

Zaawansowane programowanie w języku C++

Zastosowania aplikacji B2B dostępnych na rynku zalety aplikacji online

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Zarządzanie kompetencjami pracowników

INFORMATYKA Pytania ogólne na egzamin dyplomowy

GŁÓWNE WĄTKI REALIZOWANE W PROJEKCIE GEOPORTAL

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

EXSO-CORE - specyfikacja

Platforma Informatyczna Wdrażania Oprogramowania Dedykowanego w PL-Grid

System zarządzający grami programistycznymi Meridius

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

TWORZĘ WŁASNĄ STRONĘ INTERNETOWĄ (BLOG)

Rozszerzenie funkcjonalności systemów wiki w oparciu o wtyczki i Prolog

UML w Visual Studio. Michał Ciećwierz

ZAŁOŻENIA OGÓLNE. Cele konkursu

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

Zarządzanie wiedzą w instytucji naukowej cz. I

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Repozytorium Zasobów Wiedzy FTP

Publiczna prezentacja założeń projektu pn. Polska Platforma Medyczna portal zarządzania wiedzą i potencjałem badawczym. Wrocław, 12 grudnia 2016 r.

osobowe pracowników laboratorium SecLab EMAG w rozumieniu przepisów Kodeksu Pracy, konsultantów, stażystów oraz inne osoby i instytucje mające dostęp

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

PRZEWODNIK PO PRZEDMIOCIE

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Jak udostępnić dane PZGiK w sieci? Artur Kapuściński

OFERTA SZKOLENIOWA PROGRESS SOFTWARE

Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów niestacjonarnych studiów II stopnia)

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

The Binder Consulting

Wykład Ćwiczenia Laboratorium Projekt Seminarium

STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Transkrypt:

Rozdział Sieci semantyczne dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu EMAG WOJCIECH GÓRKA Instytut Technik Innowacyjnych EMAG wgorka@emag.pl MICHAŁ SOCHA Instytut Technik Innowacyjnych EMAG msocha@emag.pl ADAM PIASECKI Instytut Technik Innowacyjnych EMAG apiasecki@emag.pl Streszczenie Artykuł przedstawia doświadczenia Instytutu Technik Informatycznych EMAG związane z wykorzystaniem sieci semantycznych i technologii informatycznych związanych z semantyką w perspektywie ostatnich 8 lat. Artykuł prezentuje krótko projekty informatyczne realizowane w Instytucie EMAG dotyczące lub wykorzystujące semantykę. Przedstawiony jest zakres użycia technologii semantycznej. Autorzy przeprowadzają również krytyczną analizę efektów jakie przyniosło zastosowanie podejścia semantycznego. Dokonane jest również porównanie osiągnięć Instytutu EMAG w odniesieniu do światowych trendów i powszechnie dostępnych wdrożonych rozwiązań. W podsumowaniu analizowane są możliwości i perspektywy jakie niesie stosowanie technologii semantycznych przez twórców oprogramowania małej skali. Autorzy przedstawiają również możliwości wykorzystania globalnej infrastruktury semantycznej w drobnych aplikacjach. Wskazane są również obszary w których wykorzystanie technologii semantycznych jest szczególnie korzystne i wpływa znacząco na jakość i atrakcyjność produktów informatycznych. Treść artykułu jest próbą subiektywnego opisania relacji w jakiej pozostaje Instytut EMAG jako twórca rozwiązań informatycznych dla dobrze zdefiniowanego odbiorcy z trendami światowymi wymuszanymi przez globalne koncerny informatyczne.

2 W. Górka M. Socha A. Piasecki 1. Wstęp Inspiracją do napisania artykułu były podobne publikacje traktujące o sieciach semantycznych, podsumowujące rozwój technologii w tej dziedzinie informatyki z różnych punktów widzenia. Śledzenie tego fragmentu współczesnej inżynierii oprogramowania oraz prowadzone w Instytucie EMAG projekty związane z semantyką skłoniły autorów do przyjrzenia się sieciom semantycznym z własnej perspektywy i podsumowania użyteczności tego rodzaju technik. Przeprowadzenie analizy zysków i strat wynikających z zastosowania danej technologii, czy też analiza użyteczności i skuteczności wybranych bibliotek programowych pozwala na bardziej świadome i skuteczne prowadzenie kolejnych projektów informatycznych. Analiza zakończonych projektów jest szczególnie przydatna w projektowaniu architektury nowych rozwiązań. Krytyczne spojrzenie na własne dokonania pozwala uniknąć błędów, zwiększyć wydajność czy poprawić jakość prowadzenia kolejnych projektów. Dokonanie zestawienia porównawczego koncepcji sieci semantycznych z konkretnymi wdrożeniami pozwala na rzetelną ocenę użyteczności tej technologii. Dodatkowo jeśli dodane do tego będą koszty dodatkowe jakie należało ponieść związane z adaptacją nowej technologii do warunków produkcyjnych oraz przełamywanie zwykłego w takich przypadkach strachu przed nowym, dokonane podsumowanie będzie pełne. Autorzy już na wstępie pragną podkreślić, że artykuł, mimo włożonego wysiłku i staranności, przedstawia ocenę subiektywną, ukształtowaną przez otoczenie naukowoprzemysłowe w jakim funkcjonują autorzy w ramach swojego życia zawodowego. Ponadto należy podkreślić, że autorzy patrzyli na technologie semantyczne jako, ogólnie rzecz ujmując, programiści. 2. Idea sieci semantycznych Przed sieciami semantycznymi w ujęciu informatycznym stawiano jako główny cel rewolucję lub co najmniej zmianę sposobu korzystania i wykorzystania sieci Internet. W domyśle zmiana miała prowadzić do pełniejszego, wszechstronnego i interdyscyplinarnego wykorzystania zgromadzonych i istniejących w Internecie danych. Motywacją, która prowadziła do wyznaczenia takiego celu była obserwacja, że współczesny Internet przeznaczony jest przede wszystkim dla ludzi. Fakt ten przejawia się dwojako. Po pierwsze z medium naukowego Internet stał się medium powszechnym i popularnym, a po drugie treści i dane w przepływające przez sieć Internet zorganizowane są w formy umożliwiające ich prezentację. Kluczowy jest wygląd i forma prezentacji, a nie same dane. Takie podejście do danych, powoduje brak formalnej struktury opisującej dane. Strukturalizacja danych dokonana w oparciu o jakiś standard, pozwala przetwarzać dane maszynowo i automatycznie. W szerszej perspektywie pozwala to myśleć o szerokiej integracji dostępnych danych i o rozwoju przetwarzających je aplikacji. W takiej sytuacji, przy braku struktur danych, komputery i autonomiczne programy komputerowe służyły do przeglądania, gromadzenia i wykorzystania danych, ale samo wnioskowanie i wytwarzanie nowych

Sieci semantyczne dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu EMAG 3 danych na podstawie danych istniejących było po stronie użytkowników. Automatyczne wnioskowanie nie bez istnienia jakiś formalnych struktur nie mogło się rozwinąć. Sieci semantyczne miały więc na celu wprowadzenie swego rodzaju kompromisu pozwalającego prezentować dane w akceptowalnej przez człowieka formie graficznej uzupełnionej o dane w formie strukturalnej zrozumiałe dla maszyn i nie wpływające na formę graficzną. Organizacja opisująca standardy opisu i przesyłu stron WWW W3C opublikowała szereg standardów pozwalających strukturalizować prezentowane na stronach WWW dane. Powstała więc infrastruktura do opisywania danych wiedzy, faktów, informacji. Składały się na nią kolejne standardy opisu wiedzy m.in: RDF 1, RDF-S 2, OWL 3. Równolegle, stymulowane przez pojawianie się semantycznych standardów rozwijało się również oprogramowanie do przeszukiwania tego rodzaju danych. Powstawały silniki do interpretacji tego rodzaju zapisu (Jena, Sesame), maszyny wnioskujące w oparciu o zapisane fakty (Pellet, Racer), maszyny opierające się o reguły itp. Zdefiniowano i zaimplementowano również języki oraz silniki przeszukiwania danych i zapytań analogiczne do języka SQL dla relacyjnych baz danych: SPARQL 4, SeRQL 5. Powstawały również narzędzia pozwalające na prowadzenie prac deweloperskich związanych z technologiami i opartymi o standardy semantyczne (Protege, Altova Semantic Works). Wszystkim tym działaniom infrastrukturalnym towarzyszyły pracy naukowe i popularno-naukowe, w których wyznaczane były kierunki rozwoju oraz pola zastosowań technologii semantycznych. Wszystkie te fakty razem tworzą rzeczywistą infrastrukturę sieci semantycznych pozwalającą na jej szerokie i powszechne wykorzystanie. Zastosowanie sieci semantycznych okazało się bardzo szerokie. Praktycznie w każdej dziedzinie informatyki można zdefiniować jakieś zastosowanie sieci semantycznych. Szczególnym obszarem zastosowań okazała się genetyka[1], która zaadoptowała formalny język opisu zależności pomiędzy bytami OWL jak również mechanizmy związane z regułami do opisu zależności między genami i wyszukiwania nowych faktów na bazie już zgromadzonych danych. Wizje dotyczące sieci semantycznych zawierały koncepcje zarządzania usługami sieciowymi przy wykorzystaniu semantyki. W związku z tym zostały stworzone standardy, których umożliwiały na stworzenie infrastruktury uzupełniającej pozwalające na semantycznie opisywanie i zarządzanie usług sieciowych. Zestaw standardów OWL-S 6, WSMO 7 pozwala na automatyczne dobieranie udostępnionych usług i ich kolejne wywoływanie. Mechanizm miał zapewnić automatyczną kompozycję, konwersję różnych formatów danych i dostosowywanie ich do potrzeb wykonania złożonych zadań z wykorzystaniem prostych podstawowych usług. 1 RDF: Resource Description Framework: http://www.w3.org/rdf/ 2 RDF-S: RDF Schema: http://www.w3.org/tr/rdf-schema/ 3 OWL: Web Ontology Language: http://www.w3.org/2001/sw/wiki/owl 4 SPARQL Query Language for RDF: http://www.w3.org/tr/rdf-sparql-query/ 5 Sesame Query Language: http://openrdf.callimachus.net/sesame/2.7/docs/users.docbook?view#chapter-serql 6 OWL-S: Semantic Markup for Web Services: http://www.w3.org/submission/owl-s 7 WSMO: Web Service Modeling Ontology: http://www.w3.org/submission/wsmo

4 W. Górka M. Socha A. Piasecki Wspomniana wcześniej możliwość klasyfikacji przy wykorzystaniu standardów semantycznych jest jedna z cech szeroko pojmowanych technologii sieci semantycznych, które są najłatwiejsze do zrozumienia i tym samym do wykorzystania w zastosowaniach aplikacyjnych. Semantyczna klasyfikacja znalazła szerokie zastosowanie w systemach informatycznych. Główne zastosowania dotyczyły wykorzystania możliwości klasyfikacji, kategoryzacji różnego rodzaju danych oraz wnioskowania na podstawie tak zdefiniowanych struktur. Powstały również systemy udostępniające pewne usługi w sieci. Szczególnym przykładem mogą być biblioteki semantyczne udostępniające dane o zasobach zarówno o księgozbiorze jak i o materiałach w formie cyfrowej. Semantyka odegrała tu główną rolę w odpowiedniej kategoryzacji i przypisywaniu znaczników do treści tj. tagowaniu jak i w ustandaryzowaniu formatu opisu bibliograficznego (ontologie Dublin Core 1 ). Przez pewien czas aktywne były również pomysły i idee związane z publikowaniem informacji personalnych w ustandaryzowanej formie ontologia FOAF 2 do opisu osób, ontologia SIOC 3 do opisu grup projektowych itp. Idea opierała się na ustandaryzowanym formacie danych publikowanym w sieci możliwym do pobrania. Publikacja danych osobowych zakładała rozproszenie tych danych, tak by nie było konieczności utrzymywania jednego punktu centralnego zbierającego dane o wszystkich ale wiele punktów informacyjnych. Każdy punkt publikowałby swoje dane na własnej witrynie internetowej wraz z odnośnikami do tego samego typu danych u swoich znajomych w ten sposób budując semantyczną sieć informacji o osobach. Wraz ze wzrostem ilości danych semantycznie opisanych w sieci Internet powstały również wyszukiwarki semantyczne (np. Hakia) Jak podają twórcy tego serwisu, różnice w stosunku do innych wyszukiwarek nie semantycznych to przede wszystkim: możliwość uzyskiwania odpowiedzi wprost na zadane pytanie, a nie tylko całego dokumentu zawierającego potencjalnie taką odpowiedź, możliwość zadawania pytań w języku naturalnym. Wyszukiwarka stara się więc w jakimś stopniu zrozumieć treść, którą indeksuje i odpowiednio zakwalifikować wiedzę jaką dany dokument niesie ze sobą. Innym typem wyszukiwarki jest Swoogle. Jest to wyszukiwarka, której celem jest gromadzenie informacji na temat źródeł RDF publikowanych w Internecie zasobów w postaci plików RDF lub definicji ontologii. Wyszukiwarka indeksuje klasy, właściwości, instancje, metadane o ontologiach. Stosunkowo nowym trendem jest publikowanie danych w formacie RDF bezpośrednio z baz danych. Tego typu źródła danych maja tworzyć sieć (tzw. Linked Data [2]) wzajemnie powiązanych danych istniejących na różnych serwerach wiedza rozproszona pomiędzy wieloma serwerami. W ramach tej inicjatywy powstały narzędzia na przykład D2RQ czy Virtuoso wspomagające udostępnianie takich danych, ich przeglądanie i przeszukiwanie. 1 Dublin Core: http://dublincore.org/ 2 Friend of a Friend: http://www.foaf-project.org/ 3 Semantically-Interlinked Online Communities: http://www.sioc-project.org/

Sieci semantyczne dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu EMAG 5 3. Doświadczenia Instytutu EMAG Zainteresowanie technologiami semantycznymi w Instytucie Systemów Sterowania (który w kolejnych latach został skonsolidowany z Centrum EMAG, a później Instytutem Technik Innowacyjnych EMAG) pojawiło się mniej więcej w roku 2005. Miało to związek z poszukiwaniem rozwiązań technologicznych jakie można wykorzystać w realizacji systemu informatycznego, którego celem była integracja wielu różnych źródeł danych. Prowadzony w tym czasie projekt miał na celu rozwój zakończonego projektu związanego z brokerem usług sieciowych. Kontynuacją tego projektu (oraz znacznym rozszerzeniem na szerszą skalę) był projektu WKUP. Jednym z zagadnień do rozwiązania była integracja danych. Przyczyniła się ona do poszukiwań takich rozwiązań, które pozwoliłyby na zapewnienie dużej elastyczności rozwiązania jednoczesnym nadaniem znaczenia przepływającym przez system danym. Pierwsze doświadczenia wypadły bardzo pozytywnie i na ich podstawie powzięto decyzję wykorzystania technologii związanych z sieciami semantycznymi w projekcie WKUP Wirtualny Konsultant Usług Publicznych. Projekt WKUP w swojej pełnej nazwie wymuszał zastosowanie technik semantycznych w docelowym rozwiązaniu. Instytut EMAG był realizatorem części badawczej w projekcie WKUP. Część ta obejmowała wybór tych technologii semantycznych, które byłyby odpowiednie, a ich zastosowanie uzasadnione w realizacji celu projektu. Prace analityczne i projektorowe, analiza oczekiwanej od systemu funkcjonalności wyznaczyły zakres zastosowania sieci semantycznych. W finalnej, zrealizowanej architekturze systemu było kilka miejsc w których zostały użyte technologie semantyczne na różne sposoby. System pozwalał na wprowadzanie przez użytkownika opisu własnej sytuacji w języku naturalnym. Dostarczany opis mógł być stosunkowo swobodny i krótki, co implikowało jego niejednoznaczność. Zastosowane rozwiązania informatyczne umożliwiały analizować tego rodzaju wypowiedzi, określać sens wypowiedzi w kontekście usług publicznych jakie są właściwe (potrzebne, czy też niezbędne) w sytuacji w jakiej znalazł się użytkownik systemu WKUP. Analiza wypowiedzi była realizowana w oparciu ontologię SKOS opracowaną dla słownictwa związanego ze dziedziną administracji publicznej [3]. W dalszej części po przeanalizowaniu tekstu wypowiedzi w języku naturalnym w poszukiwaniu odpowiedzi były wykorzystane dwie warstwy ontologii dziedzinowa i szczegółowa. Przeszukiwanie danych semantyczny odbywało się przez interfejs SPARQL. Następnie uzyskane odpowiedzi ponownie były przearanżowane w graf reprezentujący wszystkie odpowiedzi związane w jakikolwiek sposób z zadanym przez użytkownika pytaniem. Ten kontekstowy graf był analizowany pod kątem kształtu tj. wzajemnych odległości węzłów i na tej podstawie odpowiedzi były hierarchizowane. Uszeregowane odpowiedzi były przedstawiane użytkownikowi. Podobną ścieżkę analizy pytań w języku naturalnym przeprowadzono z wykorzystaniem sieci neuronowych. W tym przypadku wyniki nie były zadowalające i ścieżkę tę zarzucono, dając pierwszeństwo rozwiązaniu opartemu o sieci semantyczne jako bardziej obiecującemu. Drugim miejscem gdzie wykorzystano technologie semantyczne był broker integrujący, moduł odpowiedzialny za odpowiednie skomponowanie usługi zbiorczej

6 W. Górka M. Socha A. Piasecki (z usług podstawowych) i nadzorowanie jej wykonania w celu zaspokojenia potrzeb użytkownika systemu. Moduł realizujący te funkcje wykorzystywał jako silnik implementację referencyjną WSMO czyli WSMX. Architektura systemu WKUP zakładała ze ciężar integracji źródeł danych zostanie rozproszony na szereg Web Serwisów, które semantycznie opisane mogły być zarządzane przez silnik WSMX. Silnik w oparciu o dane o użytkowniku i zidentyfikowane potrzeby wyszukiwał wśród dostępnych usług te, które są właściwe dla użytkownika, a następnie komponował proces, który miał doprowadzić do zaspokojenie wymagań użytkownika. W ramach procesu nie tylko były uruchamiane kolejne Web Serwisy ale również była przeprowadzana interakcja z użytkownikiem w celu zebrania dodatkowych danych niezbędnych do zakończenia procesu. Kolejnym miejscem zastosowania semantyki były tzw. ontoformularze[4]. Miały one na celu wspomóc użytkownika w wypełnianiu formularzy wymaganych przez różnego rodzaju procedury urzędowe. Ontoformularze bazowały na profilu użytkownika w ramach którego zapisywane były dane podane przez użytkownika w wypełnianych formularzach. Następnie dane te mogły być wykorzystywane w kolejnych formularzach. Mechanizm działał podobnie jak podpowiedzi oferowane przez przeglądarkę w różnych polach edycyjnych prezentowanych w serwisach Internetowych. W tym przypadku jednak dane gromadzone były w oparciu o ontologię. Przykładowo podanie nazwiska było odpowiednio klasyfikowane czy było to nazwisko, czy nazwisko rodowe, czy nazwisko któregoś z krewnych. Tak zgromadzone inteligentne dane mogły być równie inteligentnie podpowiadane w formularzach czyli w miejscu nazwiska rodowego podpowiadało się tylko wcześniej podane nazwisko rodowe. Problem zrozumienia wypowiedzi wprowadzanej w języku naturalnym został wykorzystany w projekcie realizowanym w Instytucie EMAG, dotyczącym udostępniania informacji o charakterze publicznym, osobom z dysfunkcjami wzroku i słuchu. Projekt infomat-e, po pozytywnych doświadczeniach w analizowaniu wypowiedzi w języku naturalnym w projekcie WKUP był drugim, w którym została wykorzystana ontologia SKOS [5]. W stosunku do pierwszego użycia zostało zmodyfikowane użycie ontologii. Na podstawie poprzednich doświadczeń prace nad budowaniem ontologii usystematyzowano, zostały również zmodyfikowane algorytmy obliczeniowe pozwalające określić grafa zawierający odpowiedzi systemu na zadane przez użytkownika pytanie. W trakcie prac nad udoskonaleniem modułu analizy wypowiedzi w języku naturalnym powstał edytor wspomagający budowanie ontologii. Wprowadzone zostały mechanizmy pozwalające na badanie stabilności udzielanych na podstawie sieci semantycznej odpowiedzi. Częścią systemu stały się pytania kompetencyjne, które pełniły dwie role. Po pierwsze stanowiły dokumentację, uszczegółowienie tej części ontologii, która zawierała odpowiedzi systemu, a po drugie były wykorzystywane w automatycznej ocenie całej ontologii. W ramach edytora powstałe moduł, który wykorzystując pytania kompetencyjne badał działanie systemu i dostarczał osobie budującej raporty z wykonanych testów. Inny aspekt technologii semantycznych został eksplorowany w projekcie CCMODE [6]. Jednym z celów projektu było dokonanie integracji danych w wielu źródeł. System realizowany w ramach projektu miał pełnić rolę integratora istniejących

Sieci semantyczne dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu EMAG 7 systemów tworzących środowisko rozwojowe produktów informatycznych[7]. Jednak nie chodziło tylko o samą integrację danych, ale o możliwość redystrybucji danych do podsystemów CCMODE w taki sposób by dane były aktualne, a fakt rozproszenia danych między różne źródłowe bazy danych nie ograniczał w żaden sposób przeszukiwania. Wymagania wynikające z architektury systemu zostały zaspokojone przez stworzenie wirtualnej przestrzeni danych przy wykorzystaniu silnika realizującego ideę semantycznej integracji danych. Użycie semantycznego silnika integrującego wymagało by została stworzona ontologia opisująca wszystkie dane jakie miały być umieszczone w wirtualne wspólnej przestrzeni. Razem z ontologią opisującą dane istotne dla systemu została stworzona ontologia mapująca pozwalająca na włączenie relacyjnych baz danych i nadanie znaczenia. Zaletą zastosowania silnika semantycznego było zapewnienie interfejsu SPARQL dzięki, któremu było możliwe budowanie skomplikowanych zapytań do wirtualnej bazy. Analiza użyteczności integracji semantycznej, i sposobów realizacji tej idei była przeprowadzona w ramach pracy statutowej Instytutu EMAG. Prócz analizy użyteczności został dokonany przegląd możliwych rozwiązań. Przeprowadzone zostały podstawowe testy oprogramowań dostarczających możliwości integracji. W ramach pracy zostały również różne sposoby realizacji integracji i tworzenia wspólnych przestrzeni danych. Również takich gdzie w wyniku integracji powstawała wirtualna relacyjna baza danych. Efektem pracy statutowej było wypracowanie metodyki ATOM [8], która wskazuje kolejne kroki jakie należy podejmować w przypadku stosowania integracji semantycznej. Osoby zajmujące się w Instytucie EMAG brały udział w konferencjach naukowych gdzie były przedstawiane osiągnięcia w dziedzinie semantyki oraz poszukiwano inspiracji i pomysłów gdzie i w jaki sposób wykorzystać potencjału jaki niesie za sobą sieć semantyczna. Udział w konferencjach oraz doświadczenia zdobyte w trakcie realizacji projektów, w których pojawiała się semantyka zaowocowały pomysłem na stworzenie wirtualnego laboratorium, które umożliwiłoby dogłębne eksplorowanie technologii semantycznych. Pomysł ten został zrealizowany w projekcie dofinansowany ze środków publicznych na inwestycje związane z rozwojem infrastruktury informatycznej nauki w ramach działania 2.3 Programu Operacyjnego Innowacyjna Gospodarka. Projekt o nazwie Wirtualna platforma Laboratorium Technik Semantycznych [9] był realizowany w latach 2010 2012. Projekt Wirtualna platforma Laboratorium Technik Semantycznych został zrealizowany z myślą o zwiększeniu innowacyjności polskiej nauki poprzez udostępnienie nowoczesnej infrastruktury teleinformatycznej umożliwiającej prowadzenie wspólnych badań w zakresie technik semantycznych. Celem działalności Laboratorium jest dostarczenie polskiej społeczności naukowej środowiska umożliwiającego realizację prac badawczych i projektów rozwojowych. Laboratorium LTS ma postać zbioru połączonych, z wykorzystaniem sieci komunikacyjnych, węzłów obliczeniowych. Wirtualne laboratorium powstało w oparciu o istniejącą i funkcjonującą infrastrukturę sieci Internet. Laboratorium LTS dostarcza zasoby informatyczne, zarówno software i hardware, które mogą być użyte w realizacji projektów oraz w trakcie prowadzenia badań, szczególnie takich związanych z technologiami semantycznymi. Zasoby

8 W. Górka M. Socha A. Piasecki Laboratorium zostały tak skomponowane by projekty dotyczące technik semantycznych nie były obciążone poszukiwaniem i uruchamianiem niezbędnego oprogramowania narzędziowego. 4. Sieci semantyczne po latach Podane przykłady zastosowania pokazują, że sieci semantyczne znalazły szerokie pole zastosowań. Jest to jednak zastosowanie w dużej mierze odbiegające od pierwotnej idei, jaką było udoskonalenie Internetu i zautomatyzowanie akwizycji danych i uruchamianie różnego rodzaju usług transakcji. Należy zauważyć również, że sieci semantyczne są nadal zagadnieniem niszowym. Wskazuje na to przede wszystkim mała ilość narzędzi i oprogramowania komercyjnego. Innym ciekawym parametrem wskazującym na dojrzałość i zainteresowanie dana technologią może być liczba ofert pracy na stanowiska wymagające znajomości sieci semantycznych, formatu RDF, języka SPARQL itp. W porównaniu z takimi technologiami jak XML, SQL, HTML są to śladowe ilości zainteresowania, w większości wymieniane przez ośrodki badawcze i akademickie. Sieci semantyczne miały zrewolucjonizować Internet by uczynić z niego bardziej wydajne narzędzie. Można zadać pytanie czy po kilku latach sieci semantyczne pozostawiły jakiś wkład lub czy wpłynęły jakoś na usługi oferowane w Internecie. Sieci semantyczne zakładały duże rozproszenie danych i usług i miały za zadanie wspomagać poruszanie się wśród tych rozproszonych danych. Po latach okazało się jednak, że duzi gracze zdominowali Internet w wielu dziedzinach. Przykładem może być idea publikowania informacji personalnych w formacie FOAF i budowanie powiązań pomiędzy użytkownikami. Idea ta została praktycznie w całości wyparta przez Facebook i inne portale społecznościowe, w których dane osobowe, powiązania, relacje między użytkownikami gromadzone są centralnie w jednej usłudze. Jednak i tutaj pomysły z Semantic Web znalazły swoje zastosowanie. W Facebook możliwe jest definiowanie własnych relacji i sieci opisujących różne dane o użytkowniku [10]. W ten sposób rozszerzono standardową właściwość Like it o dowolne możliwe do zdefiniowania przez twórców aplikacji działających na platformie Facebook. Taki sposób strukturalnego gromadzenia danych o użytkownikach jest ideą zaczerpniętą z sieci semantycznych definiowania grafów opisujących dane na zasadzie subject predicate object. Na przykładzie Facebook a można zauważyć, że idea Semantic Web promująca rozproszone dane nie sprawdziła się w praktyce. Po części wynikało to z mało praktycznego podejścia z punktu widzenia użytkownika, a po części ze względu na brak poparcia biznesowego dla tego typu rozwiązania. W dziedzinie wyszukiwarek nadal prym wiedzie wyszukiwarka Google. Wprowadza ona stopniowo udoskonalenia tak by poza zwykłym indeksowaniem treści stron internetowych wprowadzać możliwość zrozumienia niektórych elementów strony WWW. Google jako duży gracz na rynku ma możliwość promowania pewnych rozwiązań w zakresie oznaczania znaczenia treści na indeksowanych stronach. Publikując pewne zalecenia dla twórców stron promuje różnego rodzaju rozwiązania

Sieci semantyczne dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu EMAG 9 w tym zakresie. Google nie zdecydował się jednak promować standardów typu RDF, RDF-S, OWL itp. czyli osobne pliki reprezentujące treść w ustrukturyzowanej formie. Promowane są natomiast standardy takie jak Microformats, RDFa, które osadzane są bezpośrednio w kodzie strony internetowej. Nową inicjatywą różnych wyszukiwarek (m.in. Google, Bing, Yahoo!) jest inicjatywa schema.org 1 wskazująca jak oznaczać na stronach internetowych w kodzie HTML różnego rodzaju dane. W inicjatywie widać pewne nawiązania do Semantic Web ale nie zdecydowano się promować takich standardów jak RDF lub OWL. Jak widać standardy RDF, RDF-S, OWL nie przyjęły się powszechnie. Są wprawdzie wykorzystywane w różnych zastosowaniach gdyż stanowią dość elastyczną i wygodną formę przechowywania danych wiedzy. Są jednak zbyt skomplikowane i wymagające specjalistycznej wiedzy, co jest barierą do ich upowszechnienia. Również infrastruktura i narzędzia do wyszukiwania i komponowania procesów nie przyjęły się w zastosowaniach komercyjnych. Projekt WSMO przestał być rozwijany. Wykorzystanie go wymagało olbrzymiej wiedzy, było również bardzo złożone i skomplikowane. Architektura rozwiązania była również dość skomplikowana. Słabością zarówno WSMO jak i innych rozwiązań np. OWL-S było również skupienie się na kompozycji i wyszukiwaniu usług sieciowych ściśle związanych z technologią Web Services. Niestety wydaje się, że usługi sieciowe wyewoluowały w kierunku usług sieciowych reprezentowanych przez serwisy REST znacznie bardziej elastycznymi i prostszymi do wykorzystania (chociaż znacznie mniej obudowany definicjami i standardami). 5. Podsumowanie Rozwój technologii semantycznych przebiega nieco inaczej niż było to oczekiwane. Włożono wiele pracy w różne narzędzia, specyfikacje, infrastrukturę związaną z semantyką. Przeprowadzonych zostało wiele projektów naukowych i wdrożeniowych opierających się lub wspierających rozwój sieci semantycznych. Pomysł jednak nie przyjął się w globalnej sieci Internet w takim stopniu jak było to oczekiwane. Wciąż poszukane są nowe sposoby zagospodarowania dotychczasowych wyników prac i pomysłów. Często są one adoptowane do istniejących już rozwiązań, ale w nieco innym ujęciu niż początkowo było to planowane. W przypadku działalności Instytutu EMAG w dziedzinie sieci semantycznych, zdajemy sobie sprawę, że nie jesteśmy globalnym graczem. Jesteśmy przez to skazani na ruchy większych graczy w zakresie, jaki wytyczą dla standardów w globalnej sieci Internet. Jednak wykorzystanie sieci semantycznych (lub częściej infrastruktury, który ta idea wytworzyła) jest możliwe i przydatne w różnych aplikacjach i systemach wewnętrznych. Dodanie różnego typu rozwiązań związanych z sieciami semantycznymi wnosi dużą wartość dodaną dla tworzonej aplikacji lub systemu. Efekt ten można zauważyć w następujących dziedzinach: organizacja danych 1 https://schema.org

10 W. Górka M. Socha A. Piasecki o skomplikowanej i niejednorodnej strukturze, ujednolicenie różnych struktur danych, potrzeba ułatwienia dostępu do danych dla zwykłych użytkowników, wprowadzenie do systemu lub aplikacji komponentów związanych z przetwarzaniem języka naturalnego. Z dotychczasowych doświadczeń wynika również to by działania związane z sieciami semantycznymi nie klasyfikować wąsko zamykając się jedynie w tej dziedzinie. Same sieci semantyczne są dość wąską dziedziną, która tak naprawdę ma sens w powiązaniu z większą całością i w takiej perspektywie trzeba ją stosować. LITERATURA 1. Liviu Badea: Semantic Web Reasoning for Analyzing Gene Expression Profiles, Principles and Practice of Semantic Web Reasoning Lecture Notes in Computer Science 2006, Volume 4187, pp 78-89. 2. Bizer, Christian, Heath, Tom and Berners-Lee, Tim: Linked Data - the story so far. International Journal on Semantic Web and Information Systems, 2009 5, (3), 1-22. 3. Górka W., Socha M., Piasecki A., Gańko J.: Intermediate information layer. The use of the SKOS ontology to create information about e-resources provided by the public administration. 2008, AAIA Wisła. 4. Bownik Ł., Górka W., Piasecki A.: Automatic Form Filling, In: Engineering the Computer Science and IT, 2009, IN-Tech Vienna. 5. Górka W., Socha M., Piasecki A., Sitek B.: System informacji publicznej dla osób z dysfunkcjami narządów wzroku i słuchu INFOMAT-E 2010, AAIA Wisła. 6. Białas A.: Projekt budowy środowiska do rozwoju, wytwarzania i utrzymywania produktów informatycznych o podwyższonych wymaganiach bezpieczeństwa: Zastosowanie wzorców projektowych w konstruowaniu zabezpieczeń informatycznych zgodnych ze standardem Common Criteria. Instytut Technik Innowacyjnych EMAG, Katowice 2011, s 29 46. 7. Socha M., Górka W.: Building an integrated development environment using open source freeware tools, based on CCMODE project experience: Internet in the Information Society. Computer systems architecture and security. Wyższa Szkoła Biznesu w Dąbrowie Górniczej, Dąbrowa Górnicza 2013. 8. Piasecki A., Górka W., Szymocha A.: Semantyczna integracja systemów informatycznych oraz zarządzanie wiedza w organizacjach: Technologie wiedzy w zarządzaniu publicznym 09, s. 305, Akademia Ekonomiczna, Katowice 2009. 9. Piasecki A., Pałka A.: Wykorzystanie wirtualnej platformy Laboratorium Technik Semantycznych LTS w nauce i dydaktyce: Internet w Społeczeństwie Informacyjnym zastosowania Internetu i systemów komputerowych, Wyższa Szkoła Biznesu w Dąbrowie Górniczej, Dąbrowa Górnicza 2013. 10. Weaver J., Tarjan P.: Facebook Linked Data via the Graph API. Semantic Web. IOS Press, Volume 4, Number 3 / 2013