Systemy informacyjne nad grafami ontologicznymi

Systemy informacyjne nad grafami ontologicznymi Krzysztof Pancerz Wyższa Szkoła Zarządzania i Administracji w Zamościu Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji w Instytucie Informatyki Politechniki Poznańskiej 5 marca 2013 r.

Klasyczne systemy informacyjne System informacyjny gdzie: SI = (U, A, V, f ) U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów, V = V a, V a jest dziedziną (zbiorem wartości) atrybutu a, a A f : A U V jest funkcją informacyjną, taką że f (a, u) V a dla każdego a A i u U.

Klasyczne systemy informacyjne Wartości atrybutów mogą być: symboliczne, numeryczne.

Klasyczne systemy informacyjne System decyzyjny gdzie: SD = (U, C, D, V c, V d, c, d) U jest niepustym, skończonym zbiorem obiektów, C jest niepustym, skończonym zbiorem atrybutów warunkowych, D jest niepustym, skończonym zbiorem atrybutów decyzyjnych, V c = V a, V a jest dziedziną (zbiorem wartości) atrybutu warunkowego a, a C V d = V a, V a jest dziedziną (zbiorem wartości) atrybutu decyzyjnego a, a D c : C U V jest funkcją informacyjną, taką że f (a, u) V a dla każdego a C i u U, d : D U V jest funkcją decyzyjną, taką że f (a, u) V a dla każdego a D i u U.

Klasyczne systemy informacyjne Relacja nierozróżnialności Dla systemu informacyjnego SI = (U, A, V, f ) oraz B A definiujemy relację nierozróżnialności określoną na U U: RN B = {(u, v) U U : a B f (a, u) = f (a, v)}. Relacja nierozróżnialności jest relacją równoważności. Klasa równoważności dla danego obiektu u U oznaczana jest przez RN B (u).

Klasyczne systemy informacyjne Przybliżenia zbioru Niech X U oraz B A. Dla X definiujemy B-dolne i B-górne przybliżenie w następujący sposób: B-dolne przybliżenie zbioru X : B-górne przybliżenie zbioru X : BX = {u U : RN B (u) X }, BX = {u U : RN B (u) X }.

Klasyczne systemy informacyjne Dokładność przybliżenia zbioru Niech X U oraz B A. Numeryczna dokładność przybliżenia zbioru X definiowana jest jako: α B (X ) = card(bx ) card(bx ).

Klasyczne systemy informacyjne Relacja podobieństwa Dla systemu informacyjnego SI = (U, A, V, f ), dla którego nad U zdefiniowana jest przestrzeń metryczna z miarą odległości odl, możemy zdefiniować relację podobieństwa określoną na U U: RP A = {(u, v) U U : odl(u, v) τ}. gdzie τ jest wartością progową.

Główne klasy problemów semantycznych w systemach decyzyjnych 1 Problemy związane z semantyką wartości atrybutów warunkowych. 2 Problemy związane z semantyką wartości atrybutów decyzyjnych.

Systemy decyzyjne z acyklicznymi grafami skierowanymi (Midelfart, Komorowski) System decyzyjny z acyklicznym grafem skierowanym (DAG-Decision System) gdzie: SD = (U, C, D, V c, V d, c, d, ) U jest niepustym, skończonym zbiorem obiektów, C jest niepustym, skończonym zbiorem atrybutów warunkowych, D jest niepustym, skończonym zbiorem atrybutów decyzyjnych, V c = V a, V a jest dziedziną (zbiorem wartości) atrybutu warunkowego a, a C V d = V a, V a jest dziedziną (zbiorem wartości) atrybutu decyzyjnego a, a D c : U C V jest funkcją informacyjną, taką że f (u, a) V a dla każdego a C i u U, d : U D V jest funkcją decyzyjną, taką że f (u, a) V a dla każdego a D i u U, jest relacją częściowego porządku w zbiorze V d.

Zbiory przybliżone oparte na relacji dominacji - DRSA (Słowiński, Greco, Matarazzo) Zbiory przybliżone oparte na relacji dominacji uwzględniają semantyczne korelacje między atrybutami - kryteriami (warunkowymi i decyzyjnymi). SD = (U, C, D, V c, V d, c, d) systemem decyzyjny, gdzie D = {a d }. Dla każdego atrybutu a c C, na zbiorze obiektów U zdefiniowana jest relacja ac słabej preferencji taka, że (x, y) ac oznacza x jest co najmniej tak dobry jak y. Mówimy, że x dominuje y ze względu na P C, co oznaczamy przez xd p y, jeśli (x, y) ac dla każdego a c P. Dla każdego x U definiujemy: zbiór P-dominujący: D + P (x) = {y U : yd px}, zbiór P-zdominowany: D P (x) = {y U : xd py}.

Zbiory przybliżone oparte na relacji dominacji - DRSA (Słowiński, Greco, Matarazzo) Atrybut a d dokonuje podziału zbioru U na skończoną liczbę klas decyzyjnych Cl ad = {Cl t : t T }, gdzie T = {1,..., n}. Na zbiorze Cl ad zdefiniowana jest relacja dominacji S ad taka, że (u, v) S ad oznacza u jest co najmniej tak dobre jak v. Dla zbioru Cl ad definiujemy: złożenie klas decyzyjnych w górę: Clt = Cl s, s t złożenie klas decyzyjnych w dół: Clt = Cl s, gdzie Cl t, Cl s Cl ad. s t

Zbiory przybliżone oparte na relacji dominacji - DRSA (Słowiński, Greco, Matarazzo) a c -dolne przybliżenie zbioru Cl t : a c (Cl t ) = {u U : D + a c (u) Cl t }, a c -górne przybliżenie zbioru Clt : a c (Clt ) = D + a c (u), u Cl t a c -dolne przybliżenie zbioru Cl t : a c (Cl t ) = {u U : D a c (u) Cl t }, a c -górne przybliżenie zbioru Clt : a c (Clt ) = D a c (u). u Cl t

Relacje semantyczne pomiędzy słowami W lingwistyce, logice i psychologii poznawczej wyróżnionych zostało wiele relacji semantycznych pomiędzy słowami. Relacje semantyczne pozwalają na opisywanie związków między różnymi znaczeniami różnych słów. Relacje semantyczne ograniczają lub określają znaczenie. Podstawowa taksonomia relacji semantycznych (wzorowana na projekcie Wikisaurus): relacje synonimiczne, relacje antonimiczne, relacje hiponimiczne / hiperonimiczne (zawierania się klas), relacje meronimiczne / holonimiczne (część - całość).

Relacje semantyczne pomiędzy słowami Przykłady: samochód jest synonimem auta, również auto jest synonimem samochodu góra jest antonimem dołu, również dól jest antonimem góry pies jest hiponimem ssaka, ale ssak jest hiperonimem psa, palec jest meronimem dłoni, ale dłoń jest holonimem palca.

Relacje semantyczne pomiędzy słowami Rysunek: Własności relacji semantycznych

Relacje semantyczne pomiędzy słowami Oznaczenia: R - relacja synonimiczna, (u, v) R oznacza "u jest sybninimem v", R - relacja antonimiczna, (u, v) R oznacza "u jest antonimem v", R - relacja hiponimiczna, (u, v) R oznacza "u jest hiponimem v", R - relacja hiperonimiczna, (u, v) R oznacza "u jest hiperonimem v", R - relacja meronimiczna, (u, v) R oznacza "u jest meronimem v", R - relacja holonimiczna, (u, v) R oznacza "u jest holonimem v".

Graf ontologiczny Dla danej ontologii O możemy zdefiniować graf ontologiczny GO. Graf ontologiczny Grafem ontologicznym nazywamy uporządkowaną czwórkę gdzie GO = (C, E, R, ρ) C jest niepustym skończonym zbiorem węzłów reprezentujących pojęcia ontologii O, E C C jest skończonym zbiorem krawędzi reprezentujących relacje pomiędzy pojęciami ze zbioru C, R jest rodziną semantycznych opisów (w języku naturalnym) typów relacji (reprezentowanych przez krawędzie)pomiędzy pojęciami, ρ : E R jest funkcją przyporządkowującą każdej krawędzi semantyczny opis reprezentowanej przez nią relacji.

Lokalny podgraf ontologiczny Lokalny podgraf ontologiczny Lokalnym podgrafem LGO grafu ontologicznego GO = (C, E, T, ρ) nazywamy graf LGO = (C L, E L, T, ρ L ) C L C, E L E, ρ L jest funkcją ρ zredukowaną do zbioru E L.

Systemy informacyjne nad grafami ontologicznymi Nad grafami ontologicznymi możemy zbudować system informacyjny na wiele sposobów, np.: 1 Wartościami atrybutów systemu informacyjnego są pojęcia ze zbiorów C - elemntarny system informacyjny nad grafami ontologicznymi. 2 Wartościami atrybutów systemu informacyjnego są lokalne podgrafy ontologiczne LGO grafów ontologicznych GO - złożony system informacyjny nad grafami ontologicznymi.

Proste systemy informacyjne nad grafami ontologicznymi Prosty system informacyjny nad grafami ontologicznymi gdzie: SI = (U, A, {OG a } a A, f ) U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów, {OG a } a A jest rodziną grafów ontologicznych skojarzonych z atrybutami ze zbioru A, f : A U C a, jest funkcją informacyjną, taką że f (a, u) C a dla każdego a A i u U, gdzie C a jest zbiorem pojęć z grafu OG a.

Proste systemy decyzyjne nad grafami ontologicznymi Prosty system decyzyjny nad grafami ontologicznymi where: SDS OG = (U, C, D, {OG a } a C, V d, c, d), U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów warunkowych, Djest niepustym, skończonym zbiorem atrybutów decyzyjnych, {OG a} a C D jest rodziną grafów ontologicznych skojarzonych z atrybutami warunkowymi i decyzyjnymi ze zbioru C, c : C U C, gdzie C = C a, jest funkcją informacyjną, taką że a C f (a, u) C a dla każdego a C i u U, gdzie C a jest zbiorem pojęć z grafu OG a, d : D U C, gdzie C = C a, jest funkcją decyzyjną, taką że a D f (a, u) C a dla każdego a D i u U, gdzie C a jest zbiorem pojęć z grafu OG a.

Złożone systemy informacyjne nad grafami ontologicznymi Złożony system informacyjny nad grafem ontologicznym Złożonym systemem informacyjnym nad grafami ontologicznymi nazywamy uporządkowaną czwórkę gdzie: SI = (U, A, {GO a } a A, f ) U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów, {GO a } a A jest rodziną grafów ontologicznych skojarzonych z atrybutami ze zbioru A, f : A U LGO a, jest funkcją informacyjną, taką że f (a, u) LGO a dla każdego a A i u U, gdzie LGO a jest rodziną wszystkich podgrafów grafu GO a.

Przybliżenia zbiorów - wybrane problemy Tablica: Systemy decyzyjne U/C D Stopien Miejscowosc Zatrudnienie u 1 Doktor Metropolia Zatrudniony na caly etat u 2 Licencjat Miasto Zatrudniony na caly etat u 3 Licencjat Miasto Zatrudniony na pol etatu u 4 Licencjat Wies Niezatrudniony U/C D Stopien Miejscowosc Zatrudnienie u 1 Doktor Metropolia Zatrudniony na caly etat u 2 Licencjat Miasto Zatrudniony na caly etat u 3 Licencjat Miasto Niezatrudniony u 4 Licencjat Wies Niezatrudniony

Przybliżenia zbiorów - wybrane problemy Niech B = {Stopien, Miejscowosc}. Przybliżenia X caly etat = {u 1, u 2 }: B(X caly etat ) = {u 1 }, B(X caly etat ) = {u 1, u 2, u 3 }, ponieważ B(u 1 ) = {u 1 }, B(u 2 ) = B(u 3 ) = {u 2, u 3 } oraz B(u 4 ) = {u 4 }. Stąd dokładność przybliżenia: α B (X caly etat ) = 1 3.

Przybliżenia zbiorów - wybrane problemy Rysunek: Grafy ontologiczne skojarzone z atrybutami systemów decyzyjnych.

Przybliżenia zbiorów - wybrane problemy Rysunek: Grafy ontologiczne skojarzone z atrybutami systemów decyzyjnych (cd.).

Przybliżenia zbiorów - wybrane problemy Zatrudniony na caly etat jest hiponimem Zatrudniony oraz Zatrudniony na pol etatu jest hiponimem Zatrudniony, dlatego: B(X caly etat ) = {u 1, u 2, u 3 }, B(X caly etat ) = {u 1, u 2, u 3 }. Stąd dokładność przybliżenia: α B (X caly etat ) = 1. Niezatrudniony jest antonimem Zatrudniony, dlatego: B(X caly etat ) = {u 1 }, B(X caly etat ) = {u 1, u 2, u 3 }. Stąd dokładność przybliżenia: α B (X caly etat ) = 1 3.

Przybliżenia zbiorów - wybrane problemy Rysunek: Przybliżenia zbiorów Założenia: 1 C 1 i C 2 są hiponimami pewnego pojęcia C 3. 2 C 4 i C 5 są antonimami. Z punktu widzenia klasycznej teorii zbiorów przybliżonych mamy jednakową dokładność przybliżeń.

Przybliżenia zbiorów - wybrane problemy Rysunek: Przybliżenia zbiorów C 1 i C 2 zastępujemy przez pojęcie C 3.

Przybliżenia zbiorów - wybrane problemy Tablica: Systemy decyzyjne U/C D Miejscowosc Zatrudnienie Staus materialny u 1 Metropolia Zatrudniony na caly etat Wysoki u 2 Miasto Zatrudniony na caly etat Sredni u 3 Miasto Zatrudniony na pol etatu Sredni u 4 Wies Niezatrudniony Niski U/C D Miejscowosc Zatrudnienie Staus materialny u 1 Metropolia Zatrudniony na caly etat Wysoki u 2 Miasto Zatrudniony na caly etat Sredni u 3 Miasto Niezatrudniony Sredni u 4 Wies Niezatrudniony Niski

Przybliżenia zbiorów - wybrane problemy Niech B = {Miejscowosc, Zatrudnienie}. Przybliżenia X Sredni = {u 2, u 3 }: B(X Sredni ) = {u 2, u 3 }, B(X Sredni ) = {u 2, u 3 }, Stąd dokładność przybliżenia: α B (X caly etat ) = 1. Czy jednak istnieje różnica pomiędzy tymi przypadkami?

Przybliżenia zbiorów - wybrane problemy Odpowiedź: tak, różnica pomiędzy tymi przypadkami istnieje: w pierwszym przypadku X Sredni jest aproksymowany granulami generowanymi przez pojęcia semantycznie "bliskie", tj. Zatrudniony na caly etat jest hiponimem Zatrudniony oraz Zatrudniony na pol etatu jest hiponimem Zatrudniony, w drugim przypadku X Sredni jest aproksymowany granulami generowanymi przez pojęcia semantycznie "dalekie", tj. Zatrudniony na caly etat jest hiponimem Zatrudniony ale Niezatrudniony jest antonimem Zatrudniony.

Przybliżenia zbiorów - wybrane problemy Jaka jest to dla nas informacja? Atrybut Staus materialny może nie zależeć od atrybutu Zatrudnienie. Może istnieć pewna sprzeczność w danych. Taka informacja może zostać wykorzystana w procesach fuzji informacji (ang. Information fusion).

Przybliżenia zbiorów - wybrane problemy Rysunek: Przybliżenia zbiorów Z punktu widzenia klasycznej teorii zbiorów przybliżonych mamy jednakową sytuację. Jednak: 1 Pojęcie C 1 jest przybliżane dokładnie przez granule wiedzy opisywane pojęciami semantycznie bliskimi (np. synonimami, hiponimami, hiperonimami). 2 Pojęcie C 2 jest przybliżane dokładnie przez granule wiedzy opisywane pojęciami semantycznie dalekimi (np. antonimami).

Podejście DRSA dla elementarnych systemów informacyjnych nad grafami ontologicznymi SI = (U, A, {GO a } a A, f ) - elementarny systemem informacyjnym nad grafami ontologicznymi. OG a = (C a, E a, R, ρ a ) - graf ontologiczny przypisany atrybutowi a. c 1, c 2 C a. SR(a) relacja uszczegółowienia zdefiniowana w grafie ontologicznym OG a. GR(a) relacja uogólnienia zdefiniowana w grafie ontologicznym OG a. c 1 dominuje c 2, co oznaczamy jako D (c 1, c 2 ), jeśli (c 2, c 1 ) SR(a), tj. c 2 jest uszczegółowione przez c 1. c 1 jest zdominowane przez c 2, co oznaczamy jako D (c 1, c 2 ), jeśli (c 2, c 1 ) GR(a), tj. c 2 jest uogólnione przez c 1.

Podejście DRSA dla elementarnych systemów informacyjnych nad grafami ontologicznymi Oznaczenia: = {u U : D (a(u), v)}, tj. zbiór wszystkich obiektów u U, dla których a(u) dominuje v. D +v a = {u U : D (a(u), v)}, tj. zbiór wszystkich obiektów u U, dla których a(u) jest zdominowane przez v. D v a

Reguły bazujące na podejściu DRSA w elementarnych systemach informacyjnych nad grafami ontologicznymi Deskryptory warunkowe (a, v) nad C oraz C, gdzie a C oraz v C, czytane jako a jest co najmniej v zgodnie z grafem ontologicznym OG a. Deskryptory decyzyjne (a, v) nad D oraz V d, gdzie a D oraz v V d, czytane jako a jest co najmniej v zgodnie z relacją dominacji zdefiniowaną dla a. Deskryptory warunkowe (a, v) nad C oraz C, gdzie a C oraz v C, czytane jako a jest co najwyżej v zgodnie z grafem ontologicznym OG a. Deskryptory decyzyjne (a, v) nad D oraz V d, gdzie a D oraz v V d, czytane jako a jest co najwyżej v zgodnie z relacją dominacji zdefiniowaną dla a.

Reguły bazujące na podejściu DRSA w elementarnych systemach informacyjnych nad grafami ontologicznymi 1 D -elementarna reguła decyzyjna: (a c, r c ) (a d, v d ), Może być czytana jako: jeśli a c jest co najmniej r c, to a d jest co najmniej v d. 2 D -elementarna reguła decyzyjna: (a c, r c ) (a d, v d ), Może być czytana jako: jeśli a c jest co najwyżej r c, to a d jest co najwyżej v d.

Reguły bazujące na podejściu DRSA w elementarnych systemach informacyjnych nad grafami ontologicznymi 1 Reguła (1) jest prawdziwa w SDS OG wtedy i tylko wtedy, gdy: D +rc a c Cl v d oraz D +rc a c, 2 Reguła (2)jest prawdziwa w SDS OG wtedy i tylko wtedy, gdy: D rc a c Cl v d oraz D rc a c, gdzie Cl vd jest klasą decyzjną obiektów u U takich, że a d (u) = v d.

Przykład Tablica: Prosty system informacyjny nad grafami ontologicznymi U/C D Pojazd Nieruchomosc Status materialny u 1 Samochod Mieszkanie wynajmowane Sredni u 2 Minivan Dom Wysoki u 3 Samochod Mieszkanie Sredni u 4 Rower Mieszkanie wynajmowane Niski u 5 SUV Dom parterowy Wysoki u 6 Samochod Mieszkanie wynajmowane Niski u 7 Samochod Mieszkanie wlasnosciowe Sredni u 8 Samochod Dom jednorodzinny Sredni

Przykład Rysunek: Graf ontologiczny OG Pojazd przypisany atrybutowi Pojazd.

Przykład Rysunek: Graf ontologiczny OG Nieruchomosc przypisany atrybutowi Nieruchomosc.

Przykład Reguła 1 (Nieruchomosc, Dom) (Status materialny, Sredni), Jeśli Nieruchomosc jest co najmniej Dom, to Status materialny jest co najmniej Sredni. Reguła jest prawdziwa SDS OG ponieważ: D +Dom Nieruchomosc = {u 2, u 5, u 8 }, Cl Sredni = {u 1, u 2, u 3, u 5, u 7, u 8 }, stąd D +Dom Nieruchomosc Cl Sredni.

Przykład Reguła 2 (Pojazd, Samochod) (Status materialny, Sredni), Jeśli Vehicle jest co najmniej Car, to Status materialny jest co najmiej Sredni. Reguła nie jest prawdziwa SDS OG ponieważ: D +Samochod Pojazd = {u 1, u 2, u 3, u 5, u 6, u 7, u 8 }, Cl Sredni = {u 1, u 2, u 3, u 5, u 7, u 8 }, ale D +Samochod Pojazd Cl Sredni.

Nabardziej ogólne reguły elementarne Reguła elementarna (a c, r c ) (a d, v d ), gdzie a c C, r c C ac w grafie OG ac, a d D, v d V d, jest nazywana najbardziej ogólną regułą ze względu na część warunkową i ustaloną część decyzyjną (a d, v d ) wtedy i tylko wtedy, gdy: 1 reguła (a c, r c ) (a d, v d ) jest prawdziwa w SDS OG, 2 reguła (a c, r c) (a d, v d ), gdzie r c = Rodzic(r c ), nie jest prawdziwa w SDS OG.

Nabardziej ogólne reguły elementarne Nabardziej ogólne reguły elementarne mogą być generowane za pomocą algorytmu przeszukiwania w głąb z przycinaniem bieżącym.

Przykład Rysunek: Drzewa przeszukiwania w głąb dla atrybutów

Przykład Zbiór wszystkich nabardziej ogólnych reguł decyzyjnych w systemie SDS OG ze względu na część warunkową i ustaloną część decyzyjną (Status materialny, Sredni) includes the following rules: (Pojazd, SUV ) (Status materialny, Sredni), (Pojazd, Minivan) (Status materialny, Sredni), (Nieruchomosc, Mieszkanie wlasnosciowe) (Status materialny, Sredni), (Nieruchomosc, Dom) (Status materialny, Sredni).

Podsumowanie 1 Prezentowane podejście jest próbą włączenia do metod teorii zbiorów przybliżonych informacji o semantycznych powiązaniach pomiędzy wartościami atrybutów zadanej w postaci grafów ontologicznych. 2 Prezentowane podejście wpisuje się w paradygmat obliczeń na słowach (ang. computing with words) zaproponowany przez L. Zadeha.

Dalsze prace 1 Wyznaczanie jakości przybliżeń zbiorów w zależności od różnych typów relacji semantycznych (także typów bardziej wyszukanych). 2 Generowanie reguł decyzyjnych w prostych systemach decyzyjnych nad grafami ontologicznymi w zależności od różnych typów relacji semantycznych. 3 Generowanie reguł decyzyjnych w złożonych systemach decyzyjnych nad grafami ontologicznymi 4 Uwzględnienie problemu OSVP (Optimal Symbolic Value Partition) w prostych systemach decyzyjnych nad grafami ontologicznymi.

Publikacje własne 1 Pancerz, K.: Toward Information Systems over Ontological Graphs. In: J.T. Yao et al. (Eds.), Proceedings of the 8th International Conference on Rough Sets and Current Trends in Computing (RSCTC 2012), Chengdu, China, August 17-20, 2012, Lecture Notes in Artificial Intelligence, Vol. 7413, Springer-Verlag, Berlin Heidelberg, 2012, pp. 243-248. 2 Pancerz, K.: Dominance-Based Rough Set Approach for Decision Systems over Ontological Graphs. In: M. Ganzha, L. Maciaszek, M. Paprzycki (Eds.), Proceedings of the Federated Conference on Computer Science and Information Systems (FedCSIS 2012), Wroclaw, Poland, September 9-12, 2012, pp. 345 352. 3 Pancerz, K.: Decision Rules in Simple Decision Systems over Ontological Graphs. In: Computer Recognition Systems, Advances in Intelligent and Soft Computing, Springer-Verlag, Berlin Heidelberg, 2013 (to appear).