KARTOGRAFICZNA METODA REPREZENTACJI WIEDZY W SYSTEMIE KASEA

KARTOGRAFICZNA METODA REPREZENTACJI WIEDZY W SYSTEMIE KASEA Wojciech WALOSZEK* Streszczenie. Niniejszy rozdział prezentuje opracowaną przez autora metodę reprezentacji wiedzy, nazwaną kartografią wiedzy, która pozwala na przeprowadzanie wnioskowania w procesie asymilacji i uzupełniania informacji pochodzących z róŝnych źródeł internetowych; metoda zapewnia równieŝ efektywny dostęp do gromadzonych informacji. Rozdział opisuje załoŝenia leŝące u podstaw opracowanej metody, jej ograniczenia i zastosowania. Rozdział prezentuje takŝe niektóre szczegóły implementacyjne systemu KASEA wykorzystującego kartografię wiedzy do wewnętrznej reprezentacji gromadzonych informacji oraz wstępne wyniki testów wydajnościowych systemu KASEA, a takŝe posumowanie określające dalsze kierunki rozwoju kartografii wiedzy. 1. Wprowadzenie Rozwój Internetu rodzi nowe potrzeby w dziedzinie przetwarzania i eksploracji danych. Wraz z rozwojem globalnej sieci coraz większego znaczenia nabierają systemy będące w stanie efektywnie korzystać z jej zasobów. Systemy te muszą oferować nową funkcjonalność polegającą na udostępnianiu moŝliwości automatycznej asymilacji nowo pozyskanych danych z juŝ zgromadzonymi. Z uwagi na fakt, Ŝe pozyskane z róŝnych źródeł dane opisują dziedzinę zainteresowań fragmentarycznie i z róŝnych punktów widzenia, efektywny proces asymilacji nie powinien ograniczać się do gromadzenia informacji, ale powinien równieŝ być zdolny do uzupełniania ich o wnioski, czyli porcje informacji nie podane jawnie, ale wynikające ze zgromadzonych juŝ danych. Niniejszy rozdział prezentuje opracowaną przez autora metodę reprezentacji wiedzy, nazwaną kartografią wiedzy [1, 2], która pozwala na przeprowadzanie wnioskowania oraz efektywny dostęp do gromadzonych informacji. Metoda ta bazuje na logice opisowej [3] * Politechnika Gdańska, Katedra InŜynierii Oprogramowania, ul. Narutowicza 11/12, 80-952 Gdańsk, e-mail: wowal@eti.pg.gda.pl

dziedzinie logiki zajmującej się badaniem systemów terminologicznych. Co za tym idzie, kartografia wiedzy pozwala na zachowanie zgodności z inicjatywą Semantic Web [4] (której celem jest wytworzenie standardów i technologii umoŝliwiających narzędziom rozpoznanie semantyki danych zapisanych w źródłach internetowych) i opracowanym w jej ramach językiem OWL (ang. Web Ontology Language) [5]. Kartografia wiedzy została wykorzystana w prototypowym systemie zarządzania wiedzą KASEA. KASEA stanowi podsystem systemu tworzonego w ramach projektu 6. Programu Ramowego UE o nazwie PIPS (ang. Personalized Information Platform for Life and Health Services) [6]. Głównym celem projektu jest opracowanie infrastruktury informatycznej wspomagającej dostęp do szeroko rozumianej wiedzy medycznej zarówno wśród lekarzy, jak i zwykłych obywateli Unii Europejskiej. Przedstawione wyniki testów pochodzą z pomiarów przeprowadzonych przy uŝyciu systemu KASEA. 2. Podstawy teoretyczne W pracach nad systemem KASEA wykorzystano formalizm opisu wiedzy stosowany w logice opisowej (oznaczanej jako DL od ang. Description Logics) [3]. Logika opisowa stanowi dział badań zajmujący się systemami terminologicznymi. Wyniki tych badań zostały wykorzystane w pracach nad językiem OWL opracowanym w ramach inicjatywy Semantic Web. Logiki opisowej uŝywamy do opisu dziedziny zainteresowań, zwanej uniwersum. Sam opis dziedziny zainteresowań moŝemy nazwać ontologią (patrz definicja Grubera [7]). Ontologia w logice opisowej dzieli się na dwie części: terminologię (zbiór aksjomatów) i opis świata (zbiór asercji). Terminologia (TBox) wyszczególnia pojęcia, które mogą być uŝyte do opisu uniwersum; określa teŝ związki pomiędzy pojęciami. Opis świata (ABox) przyporządkowuje elementy uniwersum (zwane osobnikami bądź indywiduami) poszczególnym pojęciom i pokazuje powiązania pomiędzy osobnikami za pomocą relacji binarnych. Tabela 1. Koncepty proste i złoŝone w dialekcie ALC Nazwa konceptu Zapis Zakres konceptu koncept uniwersalny Całe uniwersum. koncept pusty Pusty. suma konceptów C D Suma zakresów konceptów C i D. przecięcie konceptów C D Część wspólna zakresów konceptów C i D. dopełnienie konceptu C Dopełnienie zakresu konceptu C do uniwersum. kwantyfikacja ogólna R.C Osobniki będące w relacji R wyłącznie z wystąpieniami konceptu C. kwantyfikacja egzystencjalna R.C Osobniki będące w relacji R z przynajmniej jednym wystąpieniem konceptu C.

Pojęcie w sensie DL będziemy określać mianem konceptu. Zakresem konceptu nazwiemy zbiór tych osobników, które moŝna za pomocą danego konceptu (pojęcia) opisać; osobniki te nazywamy wystąpieniami konceptu. Koncept atomowy jest określony przez pojedynczą nazwę (generalną), np. Kobieta. Koncepty złoŝone budowane są za pomocą tzw. konstruktorów (operatorów logiki opisowej). Tabela 1 pokazuje koncepty złoŝone i konstruktory jednego z bardziej popularnych dialektów DL, nazywanego ALC. Terminologię buduje się poprzez określenie zbioru aksjomatów. Aksjomaty równowaŝności, postaci C D, stwierdzają, Ŝe zakresy konceptów C i D są równe. Aksjomaty podrzędności, postaci C D, stwierdzają, Ŝe zakres konceptu C zawiera się w zakresie konceptu D. Kobieta Człowiek OsobnikMęski MęŜczyzna Człowiek Kobieta Rodzic Człowiek madziecko. (1) Matka Rodzic OsobnikMęski madziecko.człowiek madziecko. Człowiek Przykładem terminologii jest (1). Terminologię tę moŝna odczytać w sposób swobodny jako zbiór następujących zdań (aksjomatów): Kobiety to ludzie, którzy nie są płci męskiej; MęŜczyźni to ludzie nie będący kobietami; Rodzice to ludzie, którzy mają dzieci; Matki to rodzice, którzy nie są płci męskiej; Tylko ludzie mogą mieć ludzkie dzieci. Opis świata buduje się poprzez określanie asercji. Asercje konceptualne mówią o przynaleŝności danego osobnika do konceptu. Asercje relacyjne mówią o przynaleŝeniu pary osobników do pewnej relacji. Przykładem opisu świata jest (2). madziecko(danielle, Darek) (2) MęŜczyzna(Darek) Zakłada się przy tym, Ŝe pełny zbiór osobników, relacje między nimi oraz przypisanie ich do odpowiednich konceptów istnieją, są stałe, ale nieznane systemowi zarządzania wiedzą (ani jego uŝytkownikom). System musi odkrywać te informacje w miarę wzbogacania się opisu świata o kolejne asercje (a czasem równieŝ terminologii o kolejne aksjomaty), przechowywać je w swojej bazie wiedzy i uzupełniać je na drodze wnioskowania. Wnioskowanie polega na uzupełnianiu gromadzonej wiedzy o aksjomaty i asercje wynikające z juŝ zgromadzonych, ale nie podane systemowi wprost. Wnioskowanie moŝliwe jest dzięki sformułowaniu zaleŝności między konceptami w terminologii. Na przykład, na podstawie (1) moŝemy wywnioskować, Ŝe Matka Kobieta (kaŝda matka jest kobietą; naleŝy zauwaŝyć, Ŝe to zdanie nie zostało sformułowane explicite w (1); jest to przykład wnioskowania wyłącznie z terminologii), a na podstawie (1) i (2), Ŝe Człowiek(Danielle) (Danielle jest człowiekiem, gdyŝ tylko człowiek moŝe mieć ludzkie dzieci; jest to przykład wnioskowania z terminologii i opisu świata). Obok zdań, o których prawdziwości moŝna orzec na drodze wnioskowania, istnieją takŝe zdania, których prawdziwości system nie moŝe być pewny. Przykładem takiego

zdania jest MęŜczyzna(Danielle). Dane dotychczas zgromadzone ((1) i (2)) nie dostarczają Ŝadnych informacji na temat płci Danielle. W systemie zatem pojawia się pojęcie niewiedzy. Systemy zarządzania wiedzą oparte na logice opisowej działają, opierając się na tzw. załoŝeniu świata otwartego (OWA, od ang. Open World Assumption). ZałoŜenie to polega na tym, Ŝe systemy te nigdy nie uwaŝają zgromadzonej wiedzy za kompletną. Na przykład, system zgodny z OWA nie zaliczy Danielle do konceptu madziecko.męŝczyzna (osoba mająca samych synów), chociaŝ według aktualnych informacji wiemy, Ŝe Danielle ma syna Darka. System jednak zakłada, Ŝe nie zna pełnego zbioru osobników ani wszystkich relacji, i jest przygotowany na nadejście kolejnych asercji dotyczących potencjalnych córek Danielle. Podobnie ani w odpowiedzi na pytanie o wystąpienia konceptu MęŜczyzna, ani w odpowiedzi na pytanie o listę osobników konceptu Kobieta system nie zamieści Danielle, choć zamieści tego osobnika w odpowiedzi na zapytanie o wystąpienia konceptu MęŜczyzna Kobieta (Danielle musi być męŝczyzną lub kobietą). System jest zatem w stanie wyróŝnić obszary swej pewności i niepewności. 3. Kartografia wiedzy Bezpośredniej motywacji do opracowania nowej metody reprezentacji wiedzy dostarczyło uczestnictwo autora w projekcie PIPS. PIPS (ang. Personalized Information Platform for Life and Health Services) jest projektem objętym 6. Programem Ramowym Unii Europejskiej. Jego głównym celem jest utworzenie infrastruktury dostarczającej lekarzom i pacjentom informacji słuŝącej podnoszeniu poziomu Ŝycia i zdrowia wśród mieszkańców Wspólnoty. Ze względu na krytyczny charakter wspomaganej dziedziny Ŝycia w projekcie PIPS zdecydowano się na zastosowanie systemu zarządzania wiedzą. System ten musi być zdolny do przechowywania informacji na temat bardzo duŝej liczby osobników (obejmujących m.in. leki, substancje aktywne, choroby, alergie, składniki Ŝywności, produkty Ŝywnościowe itp.). Informacje na temat tych osobników muszą być periodycznie uzupełniane na podstawie danych odczytanych z zaufanych źródeł zewnętrznych, w tym internetowych. Ze względu na skalę uŝycia i charakter udostępnianych informacji czas odpowiedzi systemu na zapytania powinien być moŝliwie najkrótszy. Przeprowadzone testy (patrz teŝ podrozdział 5) wykazały, Ŝe istniejące narzędzia zarządzania wiedzą mają trudności z obsługą baz wiedzy zawierających duŝą liczbę osobników. Z tego względu podjęto decyzję o implementacji własnego systemu zarządzania wiedzą opartego na opracowanej w tym celu reprezentacji wiedzy, nazwanej reprezentacją kartograficzną lub kartografią wiedzy. Kartografia wiedzy opiera się na załoŝeniu, Ŝe jak największa liczba wniosków jest przechowywana bezpośrednio w bazie wiedzy i wysnuwana w czasie jej aktualizacji (tj. w czasie dodawania nowych asercji), a nie w czasie udzielania odpowiedzi na zapytania. Z tego względu zastosowanie kartografii wiedzy wymaga spełnienia pewnych wstępnych załoŝeń dotyczących korzystania z bazy wiedzy: Terminologia nie moŝe być aktualizowana w czasie pracy systemu. To załoŝenie potrzebne jest po to, aby wnioski wysnute w czasie poprzednich aktualizacji zachowały swoją moc. Bazę wiedzy moŝna wzbogacać o nowe asercje, ale nie o nowe aksjomaty.

Czas aktualizacji bazy wiedzy moŝe być stosunkowo długi. W czasie aktualizacji bazy wiedzy (tj. przyjmowaniu nowych asercji) przeprowadzane jest wnioskowanie. Z tego względu czas aktualizacji bazy moŝe być dłuŝszy niŝ w przypadku innych narzędzi. Dlatego metodę tę najlepiej stosować w systemach, gdzie aktualizacja zachodzi periodycznie w przewidywalnych okresach i stosunkowo duŝymi blokami informacji. W zamian za przestrzeganie tych ograniczeń kartografia wiedzy zapewnia: Zgodność z OWA. Kartografia wiedzy pozwala na reprezentowanie obszarów pewności i niepewności, uwzględnianych w trakcie wnioskowania i odpowiadania na zapytania. Szybkie odpowiedzi na zapytania dotyczące duŝych zbiorów osobników. System KASEA, wykorzystujący kartografię wiedzy do wewnętrznej reprezentacji, wypadł bardzo dobrze w testach porównawczych z innymi narzędziami dla baz wiedzy zawierających duŝą liczbę osobników (patrz podrozdział 5). Wymienione ograniczenia i zalety metody kartograficznej szkicują stosunkowo szeroki zakres jej potencjalnych zastosowań. Warto takŝe zauwaŝyć, Ŝe stosowanie metody nie jest w Ŝaden sposób ograniczone do oryginalnej dziedziny zastosowań, jaką jest medycyna. Kluczowym pojęciem w ramach kartografii wiedzy, któremu zawdzięcza ona swoją nazwę, jest mapa konceptów. Graficzna postać mapy konceptów przypomina diagram Venna, na którym reprezentowane są zakresy poszczególnych konceptów, z tym Ŝe niespełnialne obszary, tj. takie, w których nie moŝe znaleźć się Ŝaden osobnik, są z diagramu usuwane. Proces usuwania niespełnialnych obszarów pokazany jest na rysunku 1, na przykładzie przetwarzania pierwszego aksjomatu z terminologii (1). Jak widać na rysunku 1, z diagramu Venna usunięty został obszar odpowiadający przecięciu zakresu konceptu Kobieta z dopełnieniem zakresu konceptu Człowiek (gdyŝ kaŝda kobieta jest człowiekiem), obszar odpowiadający przecięciu zakresu konceptu Człowiek z dopełnieniami zakresów konceptów Kobieta i OsobnikMęski (gdyŝ kaŝdy człowiek nie będący płci męskiej jest kobietą) oraz obszary stanowiące przecięcie zakresu konceptu Kobieta z zakresem konceptu OsobnikMęski. Są to obszary niespełnialne według pierwszego aksjomatu terminologii (1). Usuwanie obszarów następuje po przetworzeniu kaŝdego aksjomatu, prowadząc do ostatecznej formy mapy wiedzy przedstawionej na rysunku 2. Graficzna reprezentacja mapy konceptów jest uŝyteczną i czytelną dla człowieka formą przedstawienia wiedzy terminologicznej. Aby uczynić mapę wiedzy czytelną dla komputera wprowadzono jej binarną reprezentację. Binarna reprezentacja mapy wiedzy powstaje poprzez nadanie obszarom atomowym (tj. takim, które nie składają się z innych obszarów) numerów odpowiadającym kolejnym liczbom naturalnym. Po przeprowadzeniu takiego przyporządkowania kaŝdy obszar na mapie konceptów moŝe być reprezentowany przez ciąg cyfr binarnych (bitów) o długości równej n, gdzie n jest liczbą obszarów atomowych na mapie konceptów. Jedynka na k-tej pozycji w tym ciągu oznacza, Ŝe obszar atomowy o numerze k jest zawarty w obszarze opisywanym przez ciąg, zero natomiast, Ŝe występuje przypadek przeciwny. Takie ciągi opisujące obszary nazywamy sygnaturami. Gdy kaŝdemu konceptowi przypiszemy sygnaturę opisującą obszar odpowiadający zakresowi danego konceptu, otrzymamy binarną reprezentację mapy konceptów widoczną na rysunku 2. Posługując się opisaną techniką, jesteśmy w stanie zdefiniować funkcję s odwzorowującą, zgodnie z podanym sposobem, koncepty w elementy algebry Boole a B n = {0,1} n. Za pomocą sygnatur moŝemy takŝe opisywać koncepty złoŝone dialektu ALC (patrz tabela 1), przy czym moŝna udowodnić, Ŝe zachodzą zaleŝności (3).

Rys. 1. Ilustracja procesu usuwania niespełnialnych obszarów z mapy konceptów na podstawie pierwszego aksjomatu terminologii (1) s(c D) = s(c) s(d) s(c D) = s(c) s(d) (3) s( C) = s(c) Poprzez operacje, oraz na ciągach binarnych rozumiemy standardowe operacje iloczynu, sumy i negacji logicznej przeprowadzane na kolejnych bitach. ZaleŜności (3) pozwalają nam na wyraŝenie sygnatury odpowiadającej zakresowi dowolnego konceptu złoŝonego zapisanego w dialekcie ALC. Warunkiem (stanowiącym jedno z najpowaŝniejszych ograniczeń metody kartograficznej, patrz podrozdział 6) jest wymaganie, Ŝeby wszystkie wykorzystane kwantyfikowane koncepty złoŝone (tj. koncepty postaci R.C i R.C) były obecne na mapie konceptów. Korzystając z kartograficznej reprezentacji zakresów konceptów, system jest w stanie odpowiedzieć na wszystkie wymienione w [3] klasy zapytań terminologicznych. I tak: pytanie o równowaŝność konceptów C i D sprowadza się do sprawdzenia, czy ich zakresy są równe, a zatem czy s(c) = s(d); pytanie o podrzędność konceptu C względem D sprowadza się do sprawdzenia, czy zakres jednego konceptu zawiera się w drugim, czyli czy s(c) = s(c) s(d) (co krócej zapisujemy jako s(c) s(d); mówimy teŝ czasem, Ŝe sygnatura s(c) jest podrzędna w stosunku do s(d)); pytanie o rozłączność konceptów C i D sprowadza się do sprawdzenia, czy przecięcie ich zakresów jest puste, czyli czy s(c) s(d) = {0} n ; pytanie o spełnialność konceptu C sprowadza się do sprawdzenia, czy jego zakres jest pusty, czyli czy s(c) = {0} n. Rys. 2. Graficzna i binarna reprezentacja mapy konceptów terminologii (1)

Sygnatury moŝemy przypisywać takŝe osobnikom (sygnaturę osobnika a oznaczamy jako s(a)). Obszar na mapie konceptów przypisany osobnikowi (tzw. obszar niepewności) ma nieco inne znaczenie niŝ ten przypisany konceptowi i opisuje naszą wiedzę na temat przynaleŝności osobnika do zakresów poszczególnych konceptów. Podobnie jak w przypadku diagramów Venna, kaŝdy osobnik powinien znaleźć się na mapie obszarów w jednym obszarze atomowym. Przypisanie osobnikowi większego obszaru oznacza, Ŝe nasza wiedza nie pozwala na precyzyjne określenie, w którym obszarze atomowym spośród zawartych w danym obszarze niepewności dany osobnik naprawdę się znajduje. Problem zilustrowany jest na rysunku 3 na przykładzie Danielle z opisu świata (2). W miarę, jak do systemu napływają kolejne informacje na temat Danielle, jest on w stanie aktualizować obszar niepewności, zawęŝając moŝliwości przypisania konceptów do tego osobnika. Na początku o Danielle nie wiemy nic obszar niepewności obejmuje wówczas całą mapę konceptów, a zatem nie moŝemy orzec nic o przynaleŝności Danielle do poszczególnych konceptów. W miarę napływania kolejnych informacji moŝemy po kolei wykluczać niektóre obszary z obszaru niepewności Danielle. W kroku (2) wykluczamy, Ŝe Danielle jest osobnikiem bezdzietnym (usuwając z obszaru niepewności obszary atomowe 1, 4, 7, 8). W kroku (3) stwierdzamy, Ŝe dzieckiem Danielle jest człowiek, co pozwala na usunięcie z obszaru niepewności obszarów atomowych 2 i 3. Obsługa nowych asercji polega zatem na aktualizacji obszarów niepewności stosownych osobników. Przetwarzanie nowego faktu, wyraŝonego w postaci asercji konceptualnej C(a), wymaga ponownego przeliczenia sygnatury s(a) danego osobnika a i przypisania jej wartości s(a) s(c). Przetwarzanie nowej asercji relacyjnej jest nieco bardziej skomplikowane; mówiąc w uproszczeniu, wymaga określenia konceptów postaci R.C, do których naleŝy zaliczyć osobniki będące w relacji podanej w asercji. Koncepcja przypisania obszarów niepewności poszczególnym osobnikom pozwala na osiągnięcie zachowania systemu zgodne z OWA. Jak pokazano na rysunku 3b i 3c, wnioskowanie na temat osobników moŝna równieŝ sprowadzić do porównywania sygnatur. JeŜeli sygnatura osobnika a jest mniejsza bądź równa sygnaturze konceptu C, moŝemy wnioskować, Ŝe z pewnością a jest wystąpieniem C. JeŜeli sygnatury mają część wspólną, ale sygnatura a nie jest równa sygnaturze C, oznacza to, Ŝe według naszej wiedzy nie jesteśmy w stanie orzec, czy a jest wystąpieniem C, czy teŝ nie. Rys. 3. Zmniejszający się obszaru niepewności dotyczący pewnego osobnika (a) oraz przykłady wnioskowania na podstawie obszaru niepewności (b) i (c)

4. Baza danych systemu KASEA Podejście kartograficzne wykorzystano w systemie KASEA (z ang. Knowledge Signature Analyzer) wykorzystanym w ramach systemu PIPS jako jeden z najwaŝniejszych komponentów podsystemu zarządzania wiedzą. KASEA pozwala na przetwarzanie wiedzy zarówno terminologicznej (TBox), jak i asercjonalnej (ABox). Informacje składowane są w relacyjnej bazie danych (w najnowszej wersji systemu KASEA zastosowano Oracle 9i). Rysunek 4 przedstawia logiczny model bazy danych systemu KASEA w postaci diagramu E-R. Przy tworzeniu projektu bazy kierowano się chęcią utworzenia struktury danych dającej jak największą skalowalność względem liczby przechowywanych osobników. Opis poszczególnych zbiorów encji zawarty jest w tabeli 2. Główne zbiory encji wyróŝnione w ramach schematu logicznego to: Koncepty, Sygnatury i Osobniki. Koncepty przechowują dane o konceptach zdefiniowanych w terminologii, Osobniki dane o osobnikach zdefiniowanych w opisie świata. Zarówno konceptom, jak i osobnikom przypisane są sygnatury opisujące odpowiednio zakresy poszczególnych konceptów i obszary niepewności poszczególnych osobników (związek ma). Pozostałe zbiory encji słuŝą do przechowywania informacji o relacjach między osobnikami. Zbiór encji Relacje przechowuje informacje o relacjach zdefiniowanych w terminologii. Zbiór encji ElementyRelacji zawiera dane o parach osobników stanowiących elementy relacji (związki: pierwszy określa pierwszego osobnika w danej parze; drugi drugiego; naleŝydo określa relację, do której naleŝy dana para). Zbiór KonceptyKwantyfikowane pełni rolę pomocniczą przy wnioskowaniu na podstawie asercji relacyjnych. Zbiór ten przechowuje informacje na tematy konceptów postaci R.C (związek osobnik określa sygnaturę konceptu C, związek koncept sygnaturę konceptu R.C). W ramach bazy danych zastosowano kilka konstrukcji mających na celu przyspieszenie działania systemu. Przede wszystkim wyróŝniono osobny zbiór encji Sygnatury. Oznacza to, Ŝe w ramach systemu kaŝda sygnatura przechowywana jest dokładnie jeden raz, niezaleŝnie od liczby konceptów i osobników, do opisu których moŝe być zastosowana. Skraca to proces odpowiedzi na wiele zapytań, przede wszystkim pobrania wystąpień konceptu. Zamiast sprawdzać obszary niepewności wszystkich osobników przechowywanych w bazie pod względem zawierania w zakresie danego konceptu, wystarczy sprawdzić unikatowe sygnatury, których liczba zazwyczaj jest znacznie mniejsza niŝ liczba osobników. W tym celu kaŝdą sygnaturę wyposaŝono w atrybut identyfikujący id. W celu dalszego zwiększenia wydajności systemu, sygnaturom dodano jeszcze kilka atrybutów. Kod_hash przechowuje wartość funkcji mieszającej obliczoną dla sygnatury. Atrybut ten został wprowadzony przede wszystkim po to, aby ułatwić określanie, czy dana sygnatura jest juŝ przechowywana w bazie danych, czy nie (wartość tego atrybutu dla identycznych sygnatur musi być taka sama; choć nie zawsze dla róŝnych sygnatur jego wartość jest róŝna). Liczniki sekcji, czyli atrybuty sek_i, wprowadzono aby ułatwić odszukiwanie sygnatur podrzędnych lub nadrzędnych w stosunku do zadanej. Proces ten jest wykonywany w trakcie odpowiedzi na wiele rodzajów zapytań. Liczniki sekcji przechowują po prostu informację o liczbie jedynek w ramach wyznaczonych arbitralnie fragmentów sygnatury. Wykorzystanie liczników bazuje na spostrzeŝeniu, Ŝe sygnatura podrzędna, niezaleŝnie od sposobu podziału na sekcje, musi mieć nie większą liczbę jedynek w kaŝdym fragmencie sygnatury. Zasadę korzystania z liczników sekcji ilustruje rysunek 5.

Rys. 4. Diagram E-R obrazujący strukturę bazy danych systemu KASEA. Tabela 2. Skrócony opis poszczególnych zbiorów encji bazy danych systemu KASEA Zbiór encji Opis Dodatkowe atrybuty Sygnatury Przechowuje sygnatury wykorzystywane id identyfikator, do opisu zakresu konceptów i obszarów kod_hash kod mieszający, niepewności osobników. sek_i liczniki sekcji Koncepty Przechowuje dane na temat konceptów id identyfikator, zdefiniowanych w terminologii. nazwa nazwa konceptu Osobniki Przechowuje dane na temat osobników id identyfikator, zdefiniowanych w opisie świata. nazwa nazwa osobnika Elementy Zawiera dane na temat par osobników Brak Relacji stanowiących elementy relacji. Relacje Przechowuje informacje na temat relacji id identyfikator, Koncepty Kwantyfikowane zdefiniowanych w terminologii. Przechowuje informacje na temat konceptów postaci R.C. nazwa nazwa relacji Brak Rys. 5. Zasada korzystania z liczników sekcji.

5. Testy wydajności Po zaimplementowaniu pierwszej wersji systemu KASEA przeprowadzono wstępne testy mające na celu weryfikację załoŝeń dotyczących jego wydajności. Testy dotyczyły dwóch funkcji systemu o zasadniczym znaczeniu tworzenia mapy konceptów oraz odpowiedzi na zapytania skierowane do baz wiedzy zawierających duŝe liczby osobników. ChociaŜ tworzenie mapy konceptów odbywa się przed okresem aktywności systemu (off-line), we wstępnej fazie jego rozruchu, długi czas przygotowania mapy konceptów (rzędu kilku dni) mógłby wykluczyć praktyczne jej wykorzystanie w warunkach toczącego się i rozwijającego projektu informatycznego. Praktyka wskazuje na szczęście, Ŝe największe fragmenty istniejących ontologii (takŝe ontologii systemu PIPS) to taksonomie, czyli rozłączne hierarchie terminów, a dla takich struktur czas przetwarzania rośnie liniowo wraz ze wzrostem liczby konceptów (patrz tabela 3, wszystkie testy przeprowadzono na komputerze Pentium IV 2 GHz, 1 GB pamięci RAM). Dzięki wykorzystaniu kilku technik optymalizacyjnych (m.in. zastosowano uporządkowane binarne drzewa decyzyjne [8] do reprezentacji terminologii w trakcie przetwarzania) udało się uzyskać stosunkowo krótkie czasy tworzenia map konceptów, które nawet pozwalają myśleć o wykorzystaniu działającego systemu w warunkach zmieniającej się terminologii. Jeśli chodzi o przetwarzanie baz wiedzy zawierających duŝą liczbę osobników, system KASEA został porównany z dostępnymi narzędziami wnioskującymi z ontologii DL: RACER [9] oraz Jena 2 Toolkit [10]. Tabela 4 pokazuje wyniki eksperymentów badających czas wczytywania i przetwarzania informacji o zbiorach osobników (FaCT [11] nie został tu uwzględniony, gdyŝ obsługuje wyłącznie terminologiczną część ontologii). Czas wczytywania opisu świata przez system KASEA był wyraźnie najdłuŝszy. Jednak pozwoliło to na uzyskanie bardzo krótkich czasów odpowiedzi na zapytania. Podczas gdy RACER nie był w stanie odpowiedzieć na zapytanie po załadowaniu 1000 osobników, KASEA przetwarzała to samo zapytanie dla 11000 osobników w 1,4 sekundy. Tabela 3. Czas tworzenia mapy konceptów dla taksonomii o róŝnej liczbie konceptów w systemie KASEA Liczba konceptów w taksonomii Czas tworzenia mapy konceptów [s] 3357 72 82706 392 184086 973 545450 3639 Tabela 4. Czas przetwarzania danych dla duŝych liczb osobników. Minusy (-) oznaczają, Ŝe zadanie nie zostało ukończone w ciągu dwóch godzin Czas wczytywania [s] Czas przetwarzania zapytania [s] Liczba osobników 400 1000 3800 400 1000 3800 Jena 1 22-6 250 - Racer 3 4 5 58 - - KASEA 43 122 465 <1 <1 1

6. Podsumowanie NaleŜy podkreślić, Ŝe metoda kartograficzna jest jeszcze we wczesnej fazie rozwoju. Pierwsze testy prototypów potwierdziły jej przydatność i zachowanie w zgodzie z przyjętymi załoŝeniami. Prowadzonych jest jednak wiele prac, które mają na celu zarówno usunięcie ograniczeń kartografii wiedzy, jak i poszerzenie moŝliwości jej wykorzystania. Wnioskowanie o konceptach kwantyfikowanych. Jednym z głównych ograniczeń metody kartograficznej jest konieczność zdefiniowania z góry konceptów kwantyfikowanych, których będzie się uŝywać w zapytaniach. W obecnej wersji nie moŝna umieścić na mapie wszystkich spełnialnych konceptów kwantyfikowanych, gdyŝ ich liczba moŝe być nieskończona. Rozwiązaniem, nad którym toczą się obecnie prace, moŝe być zastosowanie sygnatur o zmiennej długości, w których dłuŝsze sygnatury odpowiadałyby obszarom w praktyce rzadziej występującym w obszarach niepewności i zapytaniach. Zmniejszenie ilości przechowywanych danych. PoniewaŜ sygnatury mogą osiągać duŝe rozmiary, rozwaŝane jest wprowadzenie środków mających na celu zmniejszenie ilości potrzebnej do ich przechowania przestrzeni. Oprócz sygnatur o zmiennej długości, rozwa- Ŝane jest wprowadzenie sygnatur hierarchicznych, o róŝnym poziomie szczegółowości. Badane są takŝe moŝliwości zastosowania innych metod kompresji ciągów danych. Zwiększenie ekspresywności obsługiwanego dialektu logiki opisowej. W języku OWL stosowane są pewne konstrukcje wykraczające poza ten dialekt ALC: moŝna definiować tam hierarchie relacji, relacje symetryczne, zwrotne i przechodnie oraz definiować ograniczenia liczebności. W tym celu dostosowania metody kartograficznej do pełnej obsługi języka OWL, pojęcie sygnatur wykorzystuje się równieŝ do opisu zaleŝności pomiędzy relacjami (a nie tylko konceptami); tworzone są, obok map konceptów, równieŝ mapy relacji, a poszczególnym relacjom oraz elementom relacji przypisywane są sygnatury. Pozwala to na osiągnięcie jeszcze większej zgodności metody kartograficznej z OWA, gdyŝ moŝemy orzekać o kaŝdej parze osobników jako o będącej na pewno w danej relacji, bądź będącej w danej relacji tylko być moŝe (ideę tę ilustruje rysunek 6). Wykorzystanie metody kartograficznej w innych dziedzinach zarządzania wiedzą. Metoda kartograficzna moŝe być zastosowana w innych dziedzinach zarządzania wiedzą. Obecnie toczą się prace nad wykorzystaniem reprezentacji kartograficznej w dziedzinie łączenia ontologii (ang. ontology merging), prace te prowadzone są przez T. Grabowską (patrz [12]). Sygnatury wykorzystuje teŝ M. Zawadzki (patrz [13]) do oceny poziomu zaufania do asercji pochodzących z róŝnych źródeł danych. Rys. 6. Graficzna postać przykładowej mapy relacji (a) oraz wnioskowania na podstawie sygnatury relacji między parą osobników (b)

LITERATURA [1] Goczyła K., Grabowska T., Waloszek W., Zawadzki M. The Cartographer Algorithm for Processing and Querying Description Logics Ontologies. LNAI 3528: Advances in Web Intelligence, Third International Atlantic Web Intelligence Conference, Springer 2005. s. 163-169. [2] Goczyła K., Waloszek W. Topologiczna analiza ontologii opartych na logice opisowej. W: Bazy danych. Modele, technologie narzędzia. Analiza danych i wybrane zastosowania. WKŁ, Warszawa 2005, s. 191-197. [3] Baader F. A., McGuiness D. L., Nardi D., Patel-Schneider P. F.: The Description Logic Handbook: Theory, implementation, and applications, Cambridge University Press, 2003. [4] Semantic Web Initiatives, http://www.semantic-web.org/ [5] OWL - Web Ontology Language Guide, W3C, http://www.w3.org/2004/owl [6] Goczyła K., Grabowska T., Waloszek W., Zawadzki M.: Problematyka zarządzania wiedzą w systemach typu e-health. W: InŜynieria oprogramowania. Nowe wyzwania. Red. J. Górski, A. Wardziński, WNT, 2004, s. 357-371. [7] Staab S., Studer R.: Handbook on Ontologies, Springer-Verlag, 2004. [8] Bryant, R. E. Graph-based algorithms for boolean function manipulation, IEEE Transaction on Computers, 1986. [9] Haarslev V., Möller R.: RACER User's Guide and Reference Manual, September 17, 2003, http://www.cs.concordia.ca/~haarslev/racer/racer-manual-1-7-7.pdf [10] A Semantic Web Framework for Java, http://jena.sourceforge.net/ [11] Horrocks I.: FaCT Reference Manual v1.6, August 1998, Included in FaCT archive from http://www.cs.man.ac.uk/~horrocks/fact/ [12] Goczyła K., Grabowska T. Przetwarzanie zapytań w rozproszonej bazie wiedzy opartej na logice opisowej. W: Bazy danych. Modele, technologie narzędzia. Analiza danych i wybrane zastosowania. WKŁ, Warszawa 2005, s. 199-206. [13] Goczyła K., Zawadzki M. Przetwarzanie i wnioskowanie z wiedzy o róŝnym poziomie zaufania. W: Bazy danych. Modele, technologie narzędzia. Analiza danych i wybrane zastosowania. WKŁ, Warszawa 2005, s. 207-212. CARTOGRAPHIC METHOD OF KNOWLEDGE REPRESENTATION IN KASEA The chapter presents a novel method of knowledge representation. The method, called knowledge cartography, allows for performing reasoning in the process of merging and augmenting data acquired from Internet sources. The method also enables efficient access to gathered data. The chapter present implementation details and performance tests results of KASEA system, which exploits cartographic method for internal knowledge representation.