Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą
|
|
- Stefan Wasilewski
- 8 lat temu
- Przeglądów:
Transkrypt
1 Rozdział 26 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą Streszczenie. Rozdział prezentuje proces wnioskowania z danych przechowywanych w zewnętrznych źródłach. W procesie tym wykorzystywane są dwie nowe metody: metoda semantycznego wzbogacania źródeł SED (Semantic Enrichment of Data) oraz wykorzystująca ją metoda wnioskowania z danych zewnętrznych RED (Reasoning over External Data). Obie te metody zostały w niniejszym rozdziale przedstawione. Metoda SED służy do opisania zewnętrznych źródeł danych terminami pochodzącymi z ontologii. Opisy utworzone z wykorzystaniem metody SED są następnie stosowane w metodzie RED, w celu odwzorowania wiedzy reprezentowanej kartograficznie w zbiór zapytań skierowanych do zewnętrznych źródeł. Metoda ta dostosowuje algorytmy właściwe dla metody kartograficznej w taki sposób, aby możliwe było ich zastosowanie, kiedy opis świata musi być tworzony dynamicznie z danych nieontologicznych. W rozdziale ponadto opisano wyniki zastosowania w praktyce obu metod. 1 Wstęp W procesie integracji wiedzy [1], [2] kluczowym problemem jest zarządzanie danymi przechowywanymi w różnorodnych zewnętrznych źródłach, jak również dostarczenie mechanizmów wnioskowania z tych danych. Rozwój Sieci WWW znacząco uwydatnił ten problem, a już w sieci semantycznej (ang. Semantic Web) [3] jest on w sposób szczególny akcentowany. W sieci WWW znajdują się różnorodne źródła danych, w sieci semantycznej są one dodatkowo opisane semantycznie. Zbiór pojęć, którymi źródło danych może być opisane, jest zawarty w ontologii. W ramach inicjatywy sieci semantycznej powstał język OWL (Web Ontology Language) [4], umożliwiający formalne zapisywanie ontologii. Ustanowienie tego języka jako standard W3C jest wielkim krokiem naprzód do rozwiązania problemu integracji wiedzy, choć nie rozwiązuje go całkowicie. W rozdziale tym zaproponowano dwie metody. Pierwsza z nich metoda SED wprowadza sposób semantycznego opisu źródeł. Język OWL pozwala zapisywać ontologie, w tym ich część asercyjną, w sposób sformalizowany. W sieci semantycznej większość danych i informacji o nich nie jest niestety zapisana w takiej formie. Metoda SED pokazuje, w jaki Krzysztof Goczyła, Teresa Zawadzka, Michał Zawadzki Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Inżynierii Oprogramowania, ul. G. Narutowicza 11/12, Gdańsk, Polska {kris, tegra, michawa}@eti.pg.gda.pl
2 K. Goczyła, T. Zawadzka, M. Zawadzki sposób opisać dane, aby mogły być one traktowane przez system wnioskujący identycznie jak dane zapisane bezpośrednio w formacie OWL. Metoda RED pokazuje, w jaki sposób system reprezentacji wiedzy może wnioskować z danych zawartych w zewnętrznych źródłach, których zawartość opisana jest semantycznie metodą SED, służącą do semantycznego opisu źródeł. Opis ten jest niezależny od systemu wnioskującego i algorytmów w nim użytych. Metoda RED jest natomiast dedykowana dla algorytmów wnioskujących z wiedzy reprezentowanej kartograficznie [5]. W podrozdziale 2 opisano pokrótce metodę kartograficzną i wymagania, z których wyrosły proponowane metody. Podrozdział 3 prezentuje architekturę systemu Knowledge Layer [7] odpowiedzialnego za wnioskowanie z danych zewnętrznych. Następne dwa podrozdziały 4 i 5 opisują metodę SED i RED zastosowaną we wspomnianym systemie. Wyniki testów porównujących czasy odpowiedzi w przypadku, gdy dane są bezpośrednio wczytywane do modułu wnioskującego z ontologii,i w przypadku, kiedy dane te są przechowywane w zewnętrznych źródłach, zostały opisane w podrozdziale 6. Podrozdział 7 porównuje zaproponowane rozwiązanie z istniejącymi podejściami do integracji wiedzy i danych, zaś podrozdział 8 ostatni podsumowuje rozdział. 2 Motywacje Idea systemu wnioskującego z danych zewnętrznych Knowledge Layer (KL) powstała na skutek wymagania zarządzania danymi przechowywanymi w zewnętrznych źródłach. Systemy wnioskujące, a wśród nich system KaSeA (Knowledge Signature Analyzer) [6] opracowany na Politechnice Gdańskiej, wymagają wczytania do ich wewnętrznej bazy wiedzy wszystkich danych zapisanych w ontologii. Wnioskowanie może być prowadzone tylko z tych danych. System wnioskujący KaSeA został zbudowany w taki sposób, aby efektywnie odpowiadać na zapytania w przypadku dużej liczby osobników zapisanych w ontologii. Aby sprostać tym wymaganiom, opracowano i wykorzystano kartograficzną reprezentację wiedzy. W reprezentacji tej każdy koncept ma przypisaną sygnaturę. Sygnatura jest tablicą bitów reprezentujących obszary atomowe na mapie konceptów. W rzeczywistości mapa konceptów pokazuje zależności pomiędzy konceptami w terminologii i może być reprezentowana graficznie w formie podobnej do diagramów Venna. Przykładowa mapa konceptów dla pewnej ontologii została przedstawiona na rys. 1. Rys. 1. Przykładowa mapa konceptów (a); po wprowadzeniu nowych aksjomatów (b) 284
3 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą Każdy obszar atomowy (nazywany dalej regionem), tj. obszar nie zawierający żadnego innego obszaru, reprezentuje unikalne, poprawne przecięcie konceptów atomowych. Poprzez poprawne przecięcie rozumiemy takie przecięcie, które jest spełniane w odniesieniu do zadanej terminologii. Przecięcia konceptów, które nie są dozwolone przez aksjomaty terminologiczne, są usuwane z mapy. Na mapie znajduje się n regionów, z których każdy ma przypisaną kolejną liczbę z zakresu <1, n>. Ponieważ każdy obszar na mapie składa się z pewnej liczby regionów, może być reprezentowany jako ciąg bitów o długości n, przy czym bit na i-tej pozycji jest ustawiony wtedy i tylko wtedy, gdy i-ty region jest zawarty w danym obszarze. W przeciwnym razie bit ten jest wyzerowany. Każdy koncept ma przypisany pewien obszar, co jest równoważne przypisaniu mu odpowiedniego ciągu bitów, zwanego sygnaturą. W terminach sygnatur możemy opisać dowolną kombinację dopełnienia, sumy i przecięcia konceptów poprzez odwzorowanie tych operacji w działania algebry Boole a. Analogicznie, w procesie wczytywania asercji o osobnikach każdemu z nich jest nadawana sygnatura osobnicza. Różnica między sygnaturami osobniczymi a sygnaturami konceptów polega na tym, że bit ustawiony w sygnaturze konceptu oznacza, że odpowiedni region należy do obszaru przypisanemu danemu konceptowi, natomiast w przypadku sygnatur osobniczych bit ustawiony oznacza, że osobnik może przynależeć do danego regionu. W rzeczywistości każdy osobnik należy do dokładnie jednego regionu. Jeśli więc sygnatura osobnicza zawiera więcej niż jeden ustawiony bit, oznacza to, że nie można jednoznacznie określić, do którego z tych regionów dany osobnik należy. Do systemu wnioskującego wczytywane są również wystąpienia ról. Podstawą procesu wnioskowania w systemie KaSeA jest porównywanie sygnatur. Przykładowo, problem określenia zbioru wystąpień konceptu C jest ograniczony do znalezienia wszystkich osobników, których sygnatury są zawarte w sygnaturze konceptu C (sygnatura s 1 jest zawarta w sygnaturze s 2, jeśli każdy bit sygnatury s 1 jest nie większy niż odpowiadający mu bit sygnatury s 2 ). Rozwiązanie zastosowane w systemie KaSeA ma niezaprzeczalną zaletę, jaką jest szybkość wywodzenia wszelkich wniosków. Rozwiązanie takie ma także pewne wady: długi czas ładowania danych z ontologii do systemu KaSeA, aktualizowanie danych załadowanych do bazy wiedzy wymaga zastosowania złożonych technik, nie istnieje mechanizm informujący o zmianach w źródłach danych wymagane jest zastosowanie zewnętrznego systemu analizującego ich zawartość, rozwiązanie to nie jest łatwo skalowalne zarządzanie wszystkimi danymi z zewnętrznych źródeł poprzez załadowanie ich do wewnętrznej bazy wiedzy systemu KaSeA jest w praktyce niewykonalne. W sytuacji, kiedy system zarządzania wiedzą zarządza tylko kilkoma wolno zmieniającymi się źródłami danych, rozwiązanie zastosowane w systemie KaSeA jest wystarczające. Jednak w przypadku, gdy system ma zarządzać wieloma źródłami danych, podlegającymi ciągłym zmianom, musi być zastosowane inne rozwiązanie. Taka sytuacja zachodzi również w sieci semantycznej. Odpowiedzią na te wymagania jest podsystem wnioskujący KL, wykorzystujący usługi systemu KaSeA i metodę kartograficzną do wnioskowania z danych zapisanych w zewnętrznych źródłach. 285
4 K. Goczyła, T. Zawadzka, M. Zawadzki 3 Architektura podsystemu Knowledge Layer W systemie KL użytkownik jest nieświadomy, gdzie faktycznie znajdują się dane, na podstawie których system generuje odpowiedź. Zapytanie zadawane do systemu KL jest zadawane dokładnie w taki sam sposób jak do systemu KaSeA, tj. poprzez interfejs DIGUT (Description Logic Interface by Gdańsk University of Technology [8]). Możliwości wnioskowania o osobnikach w systemie KL są bardzo podobne do możliwości systemu KaSeA (aktualna implementacja systemu nie odpowiada jedynie na zapytanie o koncepty, do jakich przynależy dany osobnik). Na rys. 2 przedstawiony został zbiór komponentów wchodzących w skład systemu KL oraz miejsce zastosowania wspomnianych wcześniej metod SED i RED. Każdy system KL (a może być ich wiele w jednym systemie zarządzania wiedzą) musi logicznie współpracować z systemem KaSeA, do którego załadowana została terminologia, której terminami zostały opisane zewnętrzne źródła danych. Podczas ładowania terminologii wyznaczane są wszystkie sygnatury dla konceptów używane później w procesie odpowiadania na zapytania skierowane do systemu KL. W wyniku zastosowania metody SED tworzony jest plik XML opisujący odwzorowania pomiędzy ontologią a zewnętrznym źródłem. Odwzorowania te są przetwarzane przez kluczowy komponent systemu (zgodnie z założeniami metody RED), którym jest moduł o nazwie Procesor. Jest on odpowiedzialny za: transformację odwzorowań zdefiniowanych w pliku na odwzorowania w terminach sygnatur, zachowanie tych odwzorowań w bazie danych modułu, odpowiadanie na pytania zadane w terminach opisanych wspomnianą wcześniej terminologią. Rys. 2. Architektura systemu KL 4 Metoda SED Możemy wyróżnić trzy typy odwzorowań: odwzorowania konceptów, odwzorowania ról oraz odwzorowania atrybutów. Odwzorowaniem opisującym koncept jest para (koncept, zapytanie), przy czym zapytanie pozwala wydobyć wszystkie osobniki przynależące do da- 286
5 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą nego konceptu. Poprzez odwzorowanie opisujące rolę rozumiemy parę: (rola, zapytanie) przy czym zapytanie pozwala na wydobycie wszystkich par osobników powiązanych daną rolą. Analogicznie, odwzorowanie opisujące atrybut to para (atrybut, zapytanie). Istotną zaletą metody SED jest jej niezależność od typu źródeł danych (SQL, XML, CSV, XLS, MDB i in.). Jedynym wymaganiem jest zdefiniowanie odpowiednich zapytań i umieszczenie ich w pliku z odwzorowaniami. Taka elastyczność wymaga jednak spełnienia jednego warunku: musi istnieć język zapytań dla dowolnego typu źródła danych, dla którego są budowane odwzorowania. Język ten musi spełniać pewne wymagania (jak na przykład musi istnieć możliwość zdefiniowania zapytania złożonego jako sumy kilku zapytań prostych). To za pomocą tego języka muszą zostać wyrażone zapytania znajdujące się w pliku z odwzorowaniami. Oczywisty jest fakt, że nie dla wszystkich wymienionych wcześniej typów źródeł istnieją takie języki. W związku z tym metoda SED zakłada, że takie języki zostaną wyspecyfikowane. Dla takich języków muszą także istnieć komponenty potrafiące takie zapytania wykonać. Komponenty te na rys. 2 zostały przedstawione jako otoczki. Jako że większość aktualnie istniejących źródeł to relacyjne bazy danych, w dalszej części rozdziału skupimy się na języku SQL, który oczywiście spełnia przedstawione wymagania, oraz na serwerze RDBMS pełniącym rolę otoczki dla tego języka. 5 Metoda RED Głównym zadaniem metody RED jest wykorzystanie utworzonych powyżej opisaną metodą odwzorowań do wnioskowania o osobnikach z wykorzystaniem algorytmów operujących na kartograficznej reprezentacji wiedzy. Zadanie to wymaga uzyskania informacji o sygnaturach konceptów ze współpracującego z Procesorem systemu KaSeA. Każda para (koncept, zapytanie) przetwarzana jest na parę postaci (sygnatura, zapytanie). Zapytanie pozostanie niezmienione, natomiast sygnatura konceptu (być może złożonego) wyliczana jest na podstawie sygnatur przechowywanych w systemie KaSeA. Takie odwzorowywanie zapisywane jest w bazie danych. Odpowiedź na zapytanie zadane w terminach używanej ontologii wymaga odnalezienia najbardziej pasującego (być może złożonego) zapytania zrozumiałego przez zewnętrzne źródło danych. Algorytm największego pokrycia MC Kluczowym problemem, jaki musi zostać rozwiązany w module Procesor, jest odnalezienie najbardziej odpowiedniego zapytania pozwalającego na wydobycie osobników przynależących do danego konceptu. Odwzorowania opisujące najbardziej odpowiednie zapytania dla konceptów zdefiniowanych są zapisane w bazie danych. Przez słowo zdefiniowanych rozumiemy tutaj koncepty bezpośrednio odwzorowane w zapytania przy użyciu metody SED. Dla wspomnianych zapytań przyjęte jest bardzo ważne założenie zapytanie odpowiadające pewnej sygnaturze zawsze zwraca wszystkie wystąpienia konceptu opisanego tą sygnaturą. W celu sformułowania najbardziej odpowiedniego zapytania dla konceptu, który nie posiada odwzorowania, a jest reprezentowany poprzez sygnaturę s (sygnatura ta jest wyliczana przez system KaSeA), Procesor musi utworzyć nową sygnaturę złożoną z pewnej liczby sygnatur podrzędnych (dla których istnieją odwzorowania), mianowicie taką, która pokrywa możliwie najwięcej regionów atomowych reprezentowanych sygnaturą s. Warto zauważyć, że użycie sygnatury pokrywającej najwięcej regionów atomowych z sygnatury s gwa- 287
6 K. Goczyła, T. Zawadzka, M. Zawadzki rantuje, iż wszystkie osobniki wydobyte z zewnętrznego źródła będą przynależały do konceptu opisanego sygnaturą s. Może się jednak zdarzyć sytuacja, w której nie jesteśmy w stanie wyznaczyć takiego złożenia istniejących (jawnie odwzorowanych) sygnatur, które w pełni pokrywa zadaną sygnaturę s. Dla przykładu przyjmijmy, że w zapytaniu chcemy się odnieść do konceptu Człowiek reprezentowanego sygnaturą s = , natomiast w zewnętrznym źródle danych istnieje tylko odwzorowanie dla konceptu Kobieta (w tym źródle nie ma zawartych informacji o mężczyznach). Załóżmy, że koncept Kobieta jest reprezentowany poprzez sygnaturę W takiej sytuacji Procesor utworzy sygnaturę , która dla danego źródła pokrywa maksymalną liczbę regionów atomowych reprezentowanych sygnaturą Lista sygnatur, które muszą zostać połączone, jest wyliczana przy użyciu algorytmu największego pokrycia MC (ang. Maximal Coverage) opisanego poniżej. Algorytm ten bazuje na algorytmie Apriori [9]. W algorytmie określenie sygnatura atomowa oznacza sygnaturę, której odwzorowanie utworzono w momencie ładowania pliku z odwzorowaniami. Każda inna sygnatura, która znajduje się w bazie danych, nie jest już sygnaturą atomową (gdyż jest złożeniem takich sygnatur). Algorytm 1. Algorytm największego pokrycia MC Wejście: Sygnatura s. Wyjście: Suma przecięć sygnatur, które pokrywają największą liczbę regionów atomowych opisanych sygnaturą s. 1. Jeżeli sygnatura s istnieje (posiada odwzorowanie): 2. Zwróć sygnaturę i odpowiadające jej zapytanie. 3. W przeciwnym wypadku: 4. Znajdź wszystkie sygnatury atomowe, które nie są rozłączne z s i nie są podrzędne w stosunku do s, a następnie zapisz je na listę l Znajdź wszystkie sygnatury atomowe, które są podrzędne w stosunku do s, a następnie zapisz je na listę l Jeżeli lista l 0 nie jest pusta: 7. Dla każdej pary (s i, s j ) takich, że s i, s j œ l 0 ; s i s j : 8. Oblicz sygnaturę s t = s i AND s j (zapamiętaj używane sygnatury) 9. Jeżeli s t = s 10. Zwróć listę sygnatur, których przecięcie utworzyło sygnaturę s t. 11. W przeciwnym wypadku: jeśli s t jest podrzędne w stosunku do s dodaj ją do listy l W przeciwnym wypadku dodaj s t do listy l Koniec {Dla każdego} 14. Dopóki lista l 2 nie jest pusta: 15. Przenieś zawartość listy l 2 na listę l 3 i wyczyść listę l Dla każdej pary (s i, s j ) takich, że s i œ l 3, s j œ l 0 : 17. Oblicz sygnaturę s t = s i AND s j (zapamiętaj używane sygnatury) 18. Jeśli s t = s 19. Zwróć listę sygnatur, których przecięcie utworzyło sygnaturę s t. 20. W przeciwnym wypadku: jeśli s t jest podrzędne w stosunku do s dodaj ją do listy l W przeciwnym wypadku dodaj s t do listy l Koniec {Dla każdego} 23. Koniec {Dopóki} 24. Koniec {Jeżeli} 288
7 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą 25. Z listy l 1 usuń te sygnatury, które są podrzędne w stosunku do dowolnej innej sygnatury na tej liście. 26. Lista l 1 zawiera listę list sygnatur. Zwróć tę listę jako sumę przecięć sygnatur z tej listy 27. Koniec {Jeżeli} Opiszemy teraz rozwiązania zastosowane w Procesorze służące udostępnieniu usług odpowiedzialnych za tworzenie odwzorowań sygnatur, zapisywaniu ich w bazie danych oraz odpowiadaniu na zapytania w terminach zdefiniowanych w ontologii. Odwzorowania dla konceptów, ról i atrybutów budowane są na podstawie pliku z odwzorowaniami. Na początku wyliczane są sygnatury dla odwzorowywanych konceptów (wyliczanie sygnatur odbywa się przy użyciu systemu KaSeA z załadowaną terminologią). W ten sposób można utworzyć listę par składających się z sygnatury i odpowiadającego jej zapytania. W dalszej części taka para (sygnatura, zapytanie) będzie nazywana odwzorowaniem sygnatury. Lista takich odwzorowań zapisywana jest do bazy danych. Następnie tworzone są odwzorowania dla konceptów postaci ŸC, gdzie C jest konceptem, dla którego utworzono odwzorowanie. Aby utworzyć zapytanie dla konceptu ŸC, wykorzystywany jest algorytm MC. Ostatnim krokiem przy budowaniu odwzorowań jest zbudowanie odwzorowań dla konceptu Top oraz konceptów postaci $R.C. Mając zdefiniowane zapytanie dla roli R i zapytanie dla konceptu C (być może wyliczone przy użyciu algorytmu MC), Procesor tworzy zapytanie zwróć wszystkie podmioty roli R, dla których dopełnienie tej roli jest wystąpieniem konceptu C. Również i te odwzorowania są zapisywane do bazy danych (jej struktura została opisana w [7]). System KL pozwala na wykonywanie zapytań dotyczących podstawowych problemów wnioskowania: problemu określenia zbioru wystąpień konceptu (ang. instance retrieval problem), problemu sprawdzenia przynależności (ang. instance check problem), problemu relacji między wystąpieniami (ang. related individuals problem), problemu dopełnień w relacji między wystąpieniami (ang. role fillers problem) oraz problemu wartości nadanej (ang. told values problem) [8]. Procesy przetwarzania i odpowiedzi na te zapytania przedstawione zostały na poniższych ogólnych algorytmach, które jednak mogą zostać zoptymalizowane pod kątem specyficznego języka zapytań i możliwości konkretnych typów otoczek. Algorytm 2. Algorytm określania zbioru wystąpień konceptu Wejście: Koncept C. Wyjście: Zbiór wystąpień należących do konceptu C. 1. Znajdź sygnaturę dla konceptu C 2. Znajdź zapytanie dla tej sygnatury: 3. Jeśli nie istnieje w bazie danych odwzorowanie sygnatury w zapytanie 4. Znajdź najbardziej odpowiednie zapytanie używając algorytmu MC 5. W przeciwnym wypadku 6. Pobierz zapytanie z bazy danych 7. Wykonaj zapytanie 8. Zwróć wynik zapytania Algorytm 3. Algorytm sprawdzania przynależności Wejście: Koncept C, osobnik i. Wyjście: True jeżeli i należy do konceptu C, false jeżeli i nie należy do konceptu C lub maybe w przeciwnym wypadku. 289
8 K. Goczyła, T. Zawadzka, M. Zawadzki 1. Znajdź sygnaturę dla konceptu C 2. Znajdź zapytanie dla tej sygnatury: 3. Jeśli nie istnieje w bazie danych odwzorowanie sygnatury w zapytanie 4. Znajdź najbardziej odpowiednie zapytanie używając algorytmu MC 5. W przeciwnym wypadku 6. Pobierz zapytanie z bazy danych 7. Wykonaj zapytanie 8. Sprawdź, czy osobnik i znajduje się wśród wyników zapytania 9. Jeśli osobnik i znajduje się wśród wyników zapytania 10. Zwróć true 11. W przeciwnym wypadku: 12. Znajdź sygnaturę dla konceptu ŸC 13. Znajdź zapytanie dla tej sygnatury: 14. Jeśli nie istnieje w bazie danych odwzorowanie sygnatury w zapytanie 15. Znajdź najbardziej odpowiednie zapytanie używając algorytmu MC 16. W przeciwnym wypadku 17. Pobierz zapytanie z bazy danych 18. Wykonaj zapytanie 19. Sprawdź, czy osobnik i znajduje się wśród wyników zapytania 20. Jeśli osobnik i znajduje się wśród wyników zapytania 21. Zwróć false 22. W przeciwnym wypadku 23. Zwróć maybe Warto zauważyć fakt, że mimo iż zewnętrzne źródła danych modelowane są zgodnie z założeniem świata zamkniętego (ang. Closed World Assumption) [10], system KL otwiera ten świat i pozwala na uzyskanie odpowiedzi zgodnych z założeniem świata otwartego (ang. Open World Assumption). Dla problemu określenia zbioru wystąpień konceptu zwracane są tylko te wystąpienia, co do których system ma pewność, że należą do danego konceptu. W przypadku problemu sprawdzenia przynależności zwracana jest wartość true wtedy i tylko wtedy, gdy system jest pewien, że dane wystąpienie należy do podanego konceptu, a false wtedy, gdy jest pewien, że nie należy, natomiast w innym wypadku (gdy nie może jednoznacznie stwierdzić przynależności lub jej braku) zwraca wartość maybe. 6 Testy wydajnościowe Przed prezentacją wyników testów wydajnościowych należy zaznaczyć zasadniczą różnicę między systemem KaSeA i system KL. System KaSeA umożliwia wnioskowanie różnego rodzaju pozwala odkrywać nowe wnioski zarówno z terminologii, jak i asercji, natomiast KL umożliwia wnioskowanie tylko z asercji. W tabeli 1 zebrane zostały porównania czasów odpowiedzi na zapytania dotyczące wystąpień należących do pewnego konceptu (czyli rozwiązywania problemu określenia zbioru wystąpień konceptu). Eksperymenty przeprowadzone zostały na ontologii leków (ontologia Drug została przygotowana przez Uniwersytet w Liverpoolu w ramach projektu PIPS [11]) oraz źródle danych Farmadati. Ontologia zawiera informacje o producentach leków, składnikach aktywnych, interakcjach, jak również o kodach ATC (ang. Anatomichal Therapeutic Code). Źródło Farmadati to relacyjna baza danych Oracle 9i, która zawiera informacje o lekach. Dane przechowywane są w 13 tablicach, które łącznie zawierają wierszy. Każdy eksperyment został powtórzony 100 razy, a czasy zostały uśrednione. W przypadku systemu KL czasy odpowiedzi mocno 290
9 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą zależą od wydajności poszczególnych otoczek. W prezentowanym przykładzie jako otoczkę umożliwiającą dostęp do danych traktujemy serwer SQL. Eksperymenty przeprowadzone zostały na komputerze klasy PC z procesorem Pentium 4 3 GHz z 1 GB RAM. Tabela 1. Czasy odpowiedzi na pytania o wystąpienia konceptu KaSeA KL Top za długo, by policzyć ms Drug ms 4656 ms Drug + DrugContainer ms ms S + U + V ms ms Dla pierwszych dwóch konceptów istnieje odwzorowanie, co oznacza, że odpowiednie zapytania dla sygnatur konceptów Top oraz Drug znajdują się w bazie. Dla pozostałych dwóch konceptów (koncepty S, U oraz V są podkonceptami konceptu ATCCode) zapytanie musi zostać sformułowane przy użyciu algorytmu MC. Pytania, które już raz zostały zadane, są w systemie KL zapamiętywane. Oznacza to, że kiedy zostanie zadane zapytanie o wystąpienia konceptów, dla którego nie istnieje w bazie danych odpowiednie odwzorowanie sygnatury w zapytanie do źródła, takie odwzorowanie jest zapamiętywane. Gdy następnym razem zostanie zadane to samo zapytanie, odpowiadające mu zapytanie zostanie bezpośrednio pobrane z bazy i nie będzie powtórnie przeliczane. Pozwala to zmniejszyć czas wykonywania dwóch ostatnich pytań o około 3 sek. 7 Porównanie z istniejącymi rozwiązaniami Rzeczywista potrzeba zarządzania danymi z zewnętrznych źródeł została doświadczona w ramach projektu PIPS (Personalised Information Platform for life and health Services), w którym autorzy niniejszego rozdziału współuczestniczą. PIPS jest projektem 6. Programu Ramowego Unii Europejskiej, którego głównym celem jest stworzenie infrastruktury sieciowej wspomagającej ochronę zdrowia i promowanie zdrowego stylu życia wśród obywateli Unii. Jednym z głównych zadań w tym projekcie jest opracowanie narzędzi do zarządzania wiedzą z wielu różnych źródeł informacji. W ramach tego projektu autorzy są współtwórcami systemu KaSeA, który pozwala na efektywne wywodzenie wniosków z danych o dużej liczbie osobników. Pewnym mankamentem tego systemu jest wymaganie, aby wszystkie dane, na których ma zostać przeprowadzone wnioskowanie, były załadowane do bazy wiedzy systemu. Problem ten uwidacznia się zwłaszcza wtedy, gdy mamy do czynienia z dużymi ilościami szybkozmiennych danych. Rozwiązanie polegające na każdorazowym czyszczeniu bazy wiedzy i ponownym wczytywaniu wszystkich danych lub stosowaniu zaawansowanych technik aktualizacji danych okazuje się efektywnościowo nieakceptowalne z punktu widzenia wymagań projektu. W związku z tym opracowano przedstawione w niniejszym rozdziale rozwiązanie wzbogacające zewnętrzne źródła danych o opis semantyczny, pozwalający na traktowanie danych z tych źródeł w taki sam sposób, jak gdyby były one fizycznie załadowane do bazy wiedzy systemu KaSeA. Innymi znanymi praktycznymi rozwiązaniami problemów integracji danych są Information Manifold [12], SIMS [13] czy PICSEL [14]. Większość tych systemów została jednak oparta na podejściu widoku globalnego, i to wówczas, gdy język OWL nie był jeszcze standardem W3C. Systemy te ukierunkowane były głównie na konkretne zastosowanie aplikacyjne, a przez to również na konkretny typ źródeł danych. Mimo, iż były one nastawione na 291
10 K. Goczyła, T. Zawadzka, M. Zawadzki wydajność, nie mogą spełnić wymagań nakładanych przez źródła internetowe, dla których to wymagań stworzony został system KL. 8 Podsumowanie Poniżej przedstawiono najważniejsze cechy rozwiązania zastosowanego w systemie KL: jest niezależne od formatu źródła danych dla strukturalnych źródeł danych takich jak XML, relacyjne bazy danych czy jakiekolwiek inne źródła, dla których istnieje język zapytań oraz procesor tych zapytań, jedynym wymaganiem jest utworzenie odpowiedniego pliku opisującego odwzorowania; może zostać użyte dla źródeł danych, dla których nie ma zdefiniowanego języka zapytań (przykładowo pliki XLS) należy wówczas opracować język zapytań (potencjalnie bardzo prosty) i zbudować odpowiednią otoczkę; wszystkie zmiany w źródle danych, które nie wpływają na strukturę samego źródła, są zawsze widoczne w systemie KL nie są wymagane żadne aktualizacje; zmiana struktury źródła danych wymaga zdefiniowania nowych odwzorowań i załadowania ich do systemu proces przetwarzania pliku z odwzorowaniami przez system KL jest jednak dużo szybszy niż proces ładowania danych do systemu KaSeA; dla przykładu: czas potrzebny do załadowania danych ze źródła Farmadati do systemu KaSeA to około 48 godzin, podczas gdy proces przetwarzania odwzorowań w systemie KL trwał tylko około 3 minut; nie są wymagane żadne zaawansowane techniki aktualizacji bazy wiedzy. Dalszy rozwój systemu Knowledge Layer obejmuje przede wszystkim jego implementację dla różnych typów źródeł strukturalnych i półstrukturalnych. W ramach tego zadania istnieje potrzeba opracowania języków zapytań dla różnych typów danych i stworzenia otoczek rozumiejących i umiejących wykonywać te zapytania. Rozwój systemu KL to także rozszerzenie zbioru obsługiwanych zapytań w pierwszej kolejności zapytanie o koncepty, do których przynależy zadany osobnik. Oprócz samego rozwoju systemu istotny jest również rozwój narzędzi wspomagających, takich jak np. edytor odwzorowań umożliwiający w wygodny, a przede wszystkim efektywny i poprawny sposób tworzyć pliki z informacjami o odwzorowaniach. Literatura 1. Pinto S., Gomez-Perez A., Martins J.: Some Issues on Ontology Integration, Proceedings of the JCAI-99 Workshop on Ontologies and Problem-Solving Methods (KRR5), Stockholm, Sweden, Calvanese D., De Giacomo G., Lenzerini M: A Framework for Ontology Integration. Proceedings of the First Semantic Web Working Symposium, 2001, pp Semantic Web Initiatives, 4. OWL Web Ontology Language Guide, W3C Recommendation 10 February 2004, 5. Goczyła K., Grabowska T., Waloszek W., Zawadzki M.: The Cartographer Algorithm for Processing and Querying Description Logics Ontologies. LNAI 3528: Advances in Web Intelligence, Third International Atlantic Web Intelligence Conference, Springer pp
11 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą 6. Goczyła K., Grabowska T., Waloszek W., Zawadzki M.: The Knowledge Cartography A new approach to reasoning over Description Logics ontologies. SOFSEM 2006: Theory and Practice of Computer Science, LNCS 3831, pp Goczyła, K., Zawadzka, T., Zawadzki, M., Managing Data from Heterogeneous data Sources using Knowledge Layer, Software Engineering Techiques: Design for Quality, IFIP International Federation for Information processing, Vol. 227, K. Sacha (red.), Boston, Springer, 2006, pp DIGUT Interface Version 1.3. KMG@GUT Technical Report, 2005, available at 9. Wittem I. H., Frank E.: Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann Publisher Baader F. A., McGuiness D. L., Nardi D., Patel-Schneider P. F.: The Description Logic Handbook: Theory, implementation, and applications, Cambridge University Press, Goczyła K., Grabowska T., Waloszek W., Zawadzki M.: Inference Mechanisms for Knowledge Management System in E-health Environment, In: Software Engineering: Evolution and Emerging Technologies, Eds. K. Zieliński, and T. Szmuc, IOS Press, Series: Frontiers in Artificial Intelligence and Applications, 2005, pp Levy A. Y.: The Information Manifold Approach to Data Integration, IEEE Intelligent Systems, numer 13, Arens Y., Knoblock C. A., Shen W.: Query Reformulation for Dynamic Information Integration, Journal of Intelligent Information Systems, Lattes V., Rousset M.-C.: The use of CARIN language and algorithms for Information Integration: the PICSEL project, W: Proceedings of the ECAI-98 Workshop on Intelligent Information Integration,
Internet Semantyczny i Logika II
Internet Semantyczny i Logika II Ontologie Definicja Grubera: Ontologia to formalna specyfikacja konceptualizacji pewnego obszaru wiedzy czy opisu elementów rzeczywistości. W Internecie Semantycznym językiem
Bardziej szczegółowoMETODA ELPAR ŁĄCZENIA ONTOLOGII OPARTA NA ICH KARTOGRAFICZNEJ REPREZENTACJI
METODA ELPAR ŁĄCZENIA ONTOLOGII OPARTA NA ICH KARTOGRAFICZNEJ REPREZENTACJI Krzysztof GOCZYŁA*, Teresa GRABOWSKA** Streszczenie. Jednym z głównych problemów związanych z integracją wiedzy z róŝnych źródeł
Bardziej szczegółowoModel systemu zarządzania wiedzą z uwzględnieniem aspektów wiarygodności
Rozdział 23 Model systemu zarządzania wiedzą z uwzględnieniem aspektów wiarygodności Streszczenie. W rozdziale przedstawiony został model systemu zarządzania wiedzą, w którym uwzględniono aspekty wiarygodności.
Bardziej szczegółowoUsługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
Bardziej szczegółowoInternet Semantyczny. Logika opisowa
Internet Semantyczny Logika opisowa Ontologie Definicja Grubera: Ontologia to formalna specyfikacja konceptualizacji pewnego obszaru wiedzy czy opisu elementów rzeczywistości. W Internecie Semantycznym
Bardziej szczegółowoTom 6 Opis oprogramowania
Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa
Bardziej szczegółowoKARTOGRAFICZNA METODA REPREZENTACJI WIEDZY W SYSTEMIE KASEA
KARTOGRAFICZNA METODA REPREZENTACJI WIEDZY W SYSTEMIE KASEA Wojciech WALOSZEK* Streszczenie. Niniejszy rozdział prezentuje opracowaną przez autora metodę reprezentacji wiedzy, nazwaną kartografią wiedzy,
Bardziej szczegółowoImplementacja widoków danych na bazę wiedzy
Implementacja widoków danych na bazę wiedzy Piotr Piotrowski 1 Streszczenie: Niniejszy artykuł opisuje koncepcję i implementację widoków danych na bazę wiedzy. Widoki danych przesłaniają interfejs bazy
Bardziej szczegółowoAutomatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi
IT-SOA Automatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi Dariusz Król, W. Funika, B. Kryza, R. Słota, J.
Bardziej szczegółowoWykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
Bardziej szczegółowoPRÓBNY EGZAMIN MATURALNY Z INFORMATYKI 2016 ROK
PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI 2016 ROK KLUCZ ODPOWIEDZI Arkusz I ZADANIE 1. TEST (5 PUNKTÓW) ZADANIE 1.1 (0-1) Zdający przedstawia sposoby reprezentowania różnych form informacji w komputerze:
Bardziej szczegółowoSystemy ekspertowe. System ekspertowy wspomagający wybór zestawu komputerowego w oparciu o ontologie i system wnioskujący RacerPro
Systemy ekspertowe System ekspertowy wspomagający wybór zestawu komputerowego w oparciu o ontologie i system wnioskujący RacerPro Autorzy: 1 Wstęp Wybór zestawu komputerowego, ze względu na istnienie wielu
Bardziej szczegółowoPodstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko
Podstawowe pojęcia dotyczące relacyjnych baz danych mgr inż. Krzysztof Szałajko Czym jest baza danych? Co rozumiemy przez dane? Czym jest system zarządzania bazą danych? 2 / 25 Baza danych Baza danych
Bardziej szczegółowoĆwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.
Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY. 1. Cel ćwiczenia Celem ćwiczenia jest zapoznanie się z przykładowym systemem ekspertowym napisanym w JESS. Studenci poznają strukturę systemu ekspertowego,
Bardziej szczegółowoKomputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl
Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki
Bardziej szczegółowoBaza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.
PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!
Bardziej szczegółowoHurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence
Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoXQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery
http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod
Bardziej szczegółowoModuł mapowania danych
Moduł mapowania danych Styczeń 2011 Wszelkie prawa zastrzeżone. Dokument może być reprodukowany lub przechowywany bez ograniczeń tylko w całości. W przeciwnym przypadku, żadna część niniejszego dokumentu,
Bardziej szczegółowoMulti-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne
Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS
Bardziej szczegółowoAlicja Marszałek Różne rodzaje baz danych
Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy
Bardziej szczegółowoHurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel
Bardziej szczegółowoBaza danych. Modele danych
Rola baz danych Systemy informatyczne stosowane w obsłudze działalności gospodarczej pełnią funkcję polegającą na gromadzeniu i przetwarzaniu danych. Typowe operacje wykonywane na danych w systemach ewidencyjno-sprawozdawczych
Bardziej szczegółowoModel logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL
Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania
Bardziej szczegółowoZagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)
Zagadnienia (1/3) Rola modelu systemu w procesie analizy wymagań (inżynierii wymagań) Prezentacja różnego rodzaju informacji o systemie w zależności od rodzaju modelu. Budowanie pełnego obrazu systemu
Bardziej szczegółowoPraca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
System gromadzenia, indeksowania i opisu słownikowego norm i rekomendacji Praca magisterska Jakub Reczycki Opiekun : dr inż. Jacek Rumiński Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
Bardziej szczegółowoKatedra Inżynierii Oprogramowania Tematy prac dyplomowych inżynierskich STUDIA NIESTACJONARNE (ZAOCZNE)
Katedra Inżynierii Oprogramowania Tematy prac dyplomowych inżynierskich STUDIA NIESTACJONARNE (ZAOCZNE) Temat projektu/pracy dr inż. Wojciech Waloszek Grupowy system wymiany wiadomości. Zaprojektowanie
Bardziej szczegółowoEksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.
Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki
Bardziej szczegółowoLISTA KURSÓW PLANOWANYCH DO URUCHOMIENIA W SEMESTRZE ZIMOWYM 2015/2016
LISTA KURSÓW PLANOWANYCH DO URUCHOMIENIA W SEMESTRZE ZIMOWYM 2015/2016 INFORMATYKA I STOPNIA studia stacjonarne 1 sem. PO-W08-INF- - -ST-Ii-WRO-(2015/2016) MAP003055W Algebra z geometrią analityczną A
Bardziej szczegółowoHurtownie danych. Wprowadzenie do systemów typu Business Intelligence
Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoPROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej WSTĘP DO INFORMATYKI Adrian Horzyk PROLOG www.agh.edu.pl Pewnego dnia przyszedł na świat komputer Komputery
Bardziej szczegółowoKostki OLAP i język MDX
Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,
Bardziej szczegółowoCENTRUM PROJEKTÓW INFORMATYCZNYCH MINISTERSTWA SPRAW WEWNĘTRZNYCH I ADMINISTRACJI
CENTRUM PROJEKTÓW INFORMATYCZNYCH MINISTERSTWA SPRAW WEWNĘTRZNYCH I ADMINISTRACJI Instrukcja użytkownika Narzędzie do modelowania procesów BPEL Warszawa, lipiec 2009 r. UNIA EUROPEJSKA EUROPEJSKI FUNDUSZ
Bardziej szczegółowoTom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania
Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu
Bardziej szczegółowoZastosowanie sztucznej inteligencji w testowaniu oprogramowania
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie
Bardziej szczegółowoKS-ZSA. Mechanizm centralnego zarządzania rolami
KS-ZSA Mechanizm centralnego zarządzania rolami 1. Opis funkcjonalności W KS-ZSA zostaje udostępniona funkcji centralnego zarządzania rolami. W samym programie jest możliwość tworzenia centralnej roli
Bardziej szczegółowoInstalacja SQL Server Express. Logowanie na stronie Microsoftu
Instalacja SQL Server Express Logowanie na stronie Microsoftu Wybór wersji do pobrania Pobieranie startuje, przechodzimy do strony z poradami. Wypakowujemy pobrany plik. Otwiera się okno instalacji. Wybieramy
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI
METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI CELE PROJEKTU Transformacja dowolnej bazy danych w min. 3 postaci normalnej do postaci Asocjacyjnej Grafowej
Bardziej szczegółowoBazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
Bardziej szczegółowoProces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,
Proces ETL Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Proces ETL - 2 -
Bardziej szczegółowoTematy dyplomów inżynierskich 2009 Katedra Inżynierii Oprogramowania
Tematy dyplomów inżynierskich 2009 Katedra Inżynierii Oprogramowania Literatura Projekt i implementacja biblioteki tłumaczącej zapytania w języku SQL oraz OQL na zapytania w języku regułowym. dr hab. inż.
Bardziej szczegółowoThe Binder Consulting
The Binder Consulting Contents Indywidualne szkolenia specjalistyczne...3 Konsultacje dla tworzenia rozwiazan mobilnych... 3 Dedykowane rozwiazania informatyczne... 3 Konsultacje i wdrożenie mechanizmów
Bardziej szczegółowoMonitoring procesów z wykorzystaniem systemu ADONIS
Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management
Bardziej szczegółowoWykład 2. Relacyjny model danych
Wykład 2 Relacyjny model danych Wymagania stawiane modelowi danych Unikanie nadmiarowości danych (redundancji) jedna informacja powinna być wpisana do bazy danych tylko jeden raz Problem powtarzających
Bardziej szczegółowo3 grudnia Sieć Semantyczna
Akademia Górniczo-Hutnicza http://www.agh.edu.pl/ 1/19 3 grudnia 2005 Sieć Semantyczna Michał Budzowski budzow@grad.org 2/19 Plan prezentacji Krótka historia Problemy z WWW Koncepcja Sieci Semantycznej
Bardziej szczegółowoO-MaSE Organization-based Multiagent System Engineering. MiASI2, TWO2,
O-MaSE Organization-based Multiagent System Engineering MiASI2, TWO2, 2017-2018 Materiały Strona poświęcona metodzie O-MaSE http://macr.cis.ksu.edu/projects/omase.html (Multiagent & Cooperative Reasoning
Bardziej szczegółowoTomasz Grześ. Systemy zarządzania treścią
Tomasz Grześ Systemy zarządzania treścią Co to jest CMS? CMS (ang. Content Management System System Zarządzania Treścią) CMS definicje TREŚĆ Dowolny rodzaj informacji cyfrowej. Może to być np. tekst, obraz,
Bardziej szczegółowoWykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych
Wykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych dr inż. Adam Iwaniak Infrastruktura Danych Przestrzennych w Polsce i Europie Seminarium, AR Wrocław
Bardziej szczegółowoSpis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services
Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...
Bardziej szczegółowoZadanie 2: Arytmetyka symboli
1 Cel ćwiczenia Zadanie 2: Arytmetyka symboli Wykształcenie umiejętności abstrahowania operacji arytmetycznych. Zapoznanie się i przećwiczenie mechanizmu tworzenia przeciążeń funkcji operatorowych. Utrwalenie
Bardziej szczegółowoTechnologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
Bardziej szczegółowoArchitektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu.
Architektura Systemu Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu. Architektura jest zbiorem decyzji dotyczących: organizacji systemu komputerowego,
Bardziej szczegółowoDiagramy związków encji. Laboratorium. Akademia Morska w Gdyni
Akademia Morska w Gdyni Gdynia 2004 1. Podstawowe definicje Baza danych to uporządkowany zbiór danych umożliwiający łatwe przeszukiwanie i aktualizację. System zarządzania bazą danych (DBMS) to oprogramowanie
Bardziej szczegółowoPodrozdziały te powinny zawierać informacje istotne z punktu widzenia przyjętego celu pracy
Uwaga: 1. Praca powinna być napisana z użyciem formy bezosobowej np. wykonano. Nazwa rozdziału Zawartość Liczba stron 1. Wstęp Rozdział ten powinien zawierać zarys najważniejszych elementów pracy Krótki
Bardziej szczegółowoNotacja RPN. 28 kwietnia wyliczanie i transformacja wyrażeń. Opis został przygotowany przez: Bogdana Kreczmera.
1 wyliczanie i transformacja wyrażeń (wersja skrócona) Opis został przygotowany przez: Bogdana Kreczmera 28 kwietnia 2002 Strona 1 z 68 Zakład Podstaw Cybernetyki i Robotyki - trochę historii...............
Bardziej szczegółowoRamowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści
Ramowy plan kursu Lp. Moduły Wyk. Lab. Przekazywane treści 1 3 4 Technologia MS SQL Server 2008 R2. Podstawy relacyjnego modelu i projektowanie baz. Zaawansowane elementy języka SQL. Programowanie w języku
Bardziej szczegółowoKomunikacja i wymiana danych
Budowa i oprogramowanie komputerowych systemów sterowania Wykład 10 Komunikacja i wymiana danych Metody wymiany danych Lokalne Pliki txt, csv, xls, xml Biblioteki LIB / DLL DDE, FastDDE OLE, COM, ActiveX
Bardziej szczegółowoProjektowanie relacyjnych baz danych
Mam nadzieję, że do tej pory przyzwyczaiłeś się do tabelarycznego układu danych i poznałeś sposoby odczytywania i modyfikowania tak zapisanych danych. W tym odcinku poznasz nieco teorii relacyjnych baz
Bardziej szczegółowoRepozytorium Zasobów Wiedzy FTP
Repozytorium Zasobów Wiedzy FTP Spis treści Wprowadzenie... 1 Architektura Repozytorium Zasobów Wiedzy... 1 Mapy Wiedzy... 4 Wprowadzanie zasobów wiedzy do repozytorium... 7 Prezentacja zasobów wiedzy
Bardziej szczegółowoBazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000
Bazy Danych LITERATURA C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000 J. D. Ullman, Systemy baz danych, WNT - W-wa, 1998 J. D. Ullman, J. Widom, Podstawowy
Bardziej szczegółowoSZKOLENIE: Administrator baz danych. Cel szkolenia
SZKOLENIE: Administrator baz danych. Cel szkolenia Kurs Administrator baz danych skierowany jest przede wszystkim do osób zamierzających rozwijać umiejętności w zakresie administrowania bazami danych.
Bardziej szczegółowoGrupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów niestacjonarnych studiów II stopnia)
Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów niestacjonarnych studiów II stopnia) WERSJA WSTĘPNA, BRAK PRZYKŁADOWYCH PYTAŃ DLA NIEKTÓRYCH PRZEDMIOTÓW Należy wybrać trzy dowolne
Bardziej szczegółowoForum Client - Spring in Swing
Forum Client - Spring in Swing Paweł Charkowski. 0. Cel projektu Celem projektu jest próba integracji Spring Framework z różnymi technologiami realizacji interfejsu użytkownika, oraz jej ocena. Niniejszy
Bardziej szczegółowoJęzyk UML w modelowaniu systemów informatycznych
Język UML w modelowaniu systemów informatycznych dr hab. Bożena Woźna-Szcześniak Akademia im. Jan Długosza bwozna@gmail.com Wykład 11 Diagramy struktur złożonych Klasyfikator - definiuje cechy strukturalne
Bardziej szczegółowoPrzykładowy dokument XML
Przykładowy dokument XML DTD - wady Ograniczona kontrola nad strukturą dokumentów. Zbyt wysokopoziomowe typy danych: liczby, daty są zawsze reprezentowane jako tekst! Bardzo ogólne metody definiowania
Bardziej szczegółowo<Nazwa firmy> <Nazwa projektu> Specyfikacja dodatkowa. Wersja <1.0>
Wersja [Uwaga: Niniejszy wzór dostarczony jest w celu użytkowania z Unified Process for EDUcation. Tekst zawarty w nawiasach kwadratowych i napisany błękitną kursywą
Bardziej szczegółowoJAK OPTYMALNIE DOBRAĆ ODPOWIEDNIE TECHNOLOGIE INFORMATYCZNE?
K O N F E R E N C J A I N F O S H A R E 2 0 0 7 G d a ń s k 25-26.04.2007 JAK OPTYMALNIE DOBRAĆ ODPOWIEDNIE TECHNOLOGIE INFORMATYCZNE? Zespół Zarządzania Technologiami Informatycznymi Prezentacja dr inż.
Bardziej szczegółowoWeb 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012
Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012 Web 3.0 - prawdziwa rewolucja czy puste hasło? Web 3.0
Bardziej szczegółowoProjektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD
Projektowanie systemów informatycznych Roman Simiński roman.siminski@us.edu.pl siminskionline.pl Modelowanie danych Diagramy ERD Modelowanie danych dlaczego? Od biznesowego gadania do magazynu na biznesowe
Bardziej szczegółowoDokumentacja projektu QUAIKE Architektura oprogramowania
Licencjacka Pracownia Oprogramowania Instytut Informatyki Uniwersytetu Wrocławskiego Jakub Kowalski, Andrzej Pilarczyk, Marek Kembrowski, Bartłomiej Gałkowski Dokumentacja projektu QUAIKE Architektura
Bardziej szczegółowoWspółczesna problematyka klasyfikacji Informatyki
Współczesna problematyka klasyfikacji Informatyki Nazwa pojawiła się na przełomie lat 50-60-tych i przyjęła się na dobre w Europie Jedna z definicji (z Wikipedii): Informatyka dziedzina nauki i techniki
Bardziej szczegółowoProjektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych
Projektowanie architektury systemu rozproszonego Jarosław Kuchta Zagadnienia Typy architektury systemu Rozproszone przetwarzanie obiektowe Problemy globalizacji Problemy ochrony Projektowanie architektury
Bardziej szczegółowoKARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW
KARTA KURSU Nazwa Nazwa w j. ang. Przetwarzanie dokumentów XML i zaawansowane techniki WWW XML processing and advanced web technologies Kod Punktacja ECTS* 3 Koordynator dr Maria Zając Zespół dydaktyczny:
Bardziej szczegółowoBioinformatyka. Ocena wiarygodności dopasowania sekwencji.
Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie
Bardziej szczegółowoEGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA
EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA POZIOM ROZSZERZONY FORMUŁA DO 2014 ( STARA MATURA ) ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1,R2 MAJ 2018 Uwaga: Akceptowane są wszystkie odpowiedzi
Bardziej szczegółowoAkademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. dr inż. Adam Piórkowski. Jakub Osiadacz Marcin Wróbel
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Problem magazynowania i przetwarzania wielkoformatowych map i planów geologicznych. Promotor: dr inż. Adam Piórkowski Autorzy: Jakub Osiadacz
Bardziej szczegółowoPODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie
Bardziej szczegółowoPojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
Bardziej szczegółowoProces ETL MS SQL Server Integration Services (SSIS)
Proces ETL MS SQL Server Integration Services (SSIS) 3 kwietnia 2014 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie
Bardziej szczegółowoJęzyk opisu sprzętu VHDL
Język opisu sprzętu VHDL dr inż. Adam Klimowicz Seminarium dydaktyczne Katedra Mediów Cyfrowych i Grafiki Komputerowej Informacje ogólne Język opisu sprzętu VHDL Przedmiot obieralny dla studentów studiów
Bardziej szczegółowoOracle PL/SQL. Paweł Rajba.
Paweł Rajba pawel@ii.uni.wroc.pl http://www.kursy24.eu/ Zawartość modułu 2 Kusory Wprowadzenie Kursory użytkownika Kursory domyślne Zmienne kursora Wyrażenia kursora - 2 - Wprowadzenie Co to jest kursor?
Bardziej szczegółowoSYSTEMY OPERACYJNE: STRUKTURY I FUNKCJE (opracowano na podstawie skryptu PP: Królikowski Z., Sajkowski M. 1992: Użytkowanie systemu operacyjnego UNIX)
(opracowano na podstawie skryptu PP: Królikowski Z., Sajkowski M. 1992: Użytkowanie systemu operacyjnego UNIX) W informatyce występują ściśle obok siebie dwa pojęcia: sprzęt (ang. hardware) i oprogramowanie
Bardziej szczegółowoBaza danych. Baza danych to:
Baza danych Baza danych to: zbiór danych o określonej strukturze, zapisany na zewnętrznym nośniku (najczęściej dysku twardym komputera), mogący zaspokoić potrzeby wielu użytkowników korzystających z niego
Bardziej szczegółowoGenerowanie raportów
1 Generowanie raportów 1. Wprowadzenie przykładowy problem, podstawowe własności narzędzi raportujących. 2. JasperReports struktura raportu, parametry, zmienne i pola, generowanie raportu (API). 3. ireport
Bardziej szczegółowoZadanie 1. Suma silni (11 pkt)
2 Egzamin maturalny z informatyki Zadanie 1. Suma silni (11 pkt) Pojęcie silni dla liczb naturalnych większych od zera definiuje się następująco: 1 dla n = 1 n! = ( n 1! ) n dla n> 1 Rozpatrzmy funkcję
Bardziej szczegółowoSpecjalizacja magisterska Bazy danych
Specjalizacja magisterska Bazy danych Strona Katedry http://bd.pjwstk.edu.pl/katedra/ Prezentacja dostępna pod adresem: http://www.bd.pjwstk.edu.pl/bazydanych.pdf Wymagania wstępne Znajomość podstaw języka
Bardziej szczegółowoPLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych
WYDZIAŁ: KIERUNEK: poziom kształcenia: profil: forma studiów: Lp. O/F kod modułu/ przedmiotu* SEMESTR 1 1 O PG_00045356 Business law 2 O PG_00045290 Basics of computer programming 3 O PG_00045352 Linear
Bardziej szczegółowoPodstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38
Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem zajęcia 1 dr Jakub Boratyński pok. A38 Program zajęć Bazy danych jako podstawowy element systemów informatycznych wykorzystywanych
Bardziej szczegółowoIntegracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API
Dr inż. Janusz Pobożniak, pobozniak@mech.pk.edu.pl Instytut Technologii Maszyn i Automatyzacji produkcji Politechnika Krakowska, Wydział Mechaniczny Integracja systemu CAD/CAM Catia z bazą danych uchwytów
Bardziej szczegółowoOfficeObjects e-forms
OfficeObjects e-forms Rodan Development Sp. z o.o. 02-820 Warszawa, ul. Wyczółki 89, tel.: (+48-22) 643 92 08, fax: (+48-22) 643 92 10, http://www.rodan.pl Spis treści Wstęp... 3 Łatwość tworzenia i publikacji
Bardziej szczegółowo2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
Bardziej szczegółowoPODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Bardziej szczegółowoWykład XII. optymalizacja w relacyjnych bazach danych
Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych
Bardziej szczegółowo16MB - 2GB 2MB - 128MB
FAT Wprowadzenie Historia FAT jest jednym z najstarszych spośród obecnie jeszcze używanych systemów plików. Pierwsza wersja (FAT12) powstała w 1980 roku. Wraz z wzrostem rozmiaru dysków i nowymi wymaganiami
Bardziej szczegółowoINSTRUKCJA UŻYTKOWNIKA Podpis cyfrowy ISO 9001:2008 Dokument: 2016.0.0.0 Wydanie: 2016-01. Podpis cyfrowy. Spis treści... 1
Spis treści Spis treści... 1 Wstęp... 2 Przygotowanie certyfikatów wewnętrznych... 2 2.1. Przygotowanie karty pracownika... 2 2.2. Dodawanie certyfikatu nadrzędnego... 3 2.3. Dodawanie certyfikatu pracownika...
Bardziej szczegółowoLABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
UNIWERSYTET ZIELONOGÓRSKI INSTYTUT INFORMATYKI I ELEKTROTECHNIKI ZAKŁAD INŻYNIERII KOMPUTEROWEJ Przygotowali: mgr inż. Arkadiusz Bukowiec mgr inż. Remigiusz Wiśniewski LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
Bardziej szczegółowoBazy danych 2. Wykład 1
Bazy danych 2 Wykład 1 Sprawy organizacyjne Materiały i listy zadań zamieszczane będą na stronie www.math.uni.opole.pl/~ajasi E-mail: standardowy ajasi@math.uni.opole.pl Sprawy organizacyjne Program wykładu
Bardziej szczegółowoTom 6 Opis oprogramowania
Diagnostyka Stanu Nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu Nazwa dokumentu Nazwa pliku Tom 6 Opis oprogramowania, Część 2 Generator danych
Bardziej szczegółowoInformatyka I. Typy danych. Operacje arytmetyczne. Konwersje typów. Zmienne. Wczytywanie danych z klawiatury. dr hab. inż. Andrzej Czerepicki
Informatyka I Typy danych. Operacje arytmetyczne. Konwersje typów. Zmienne. Wczytywanie danych z klawiatury. dr hab. inż. Andrzej Czerepicki Politechnika Warszawska Wydział Transportu 2019 1 Plan wykładu
Bardziej szczegółowoOLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
Bardziej szczegółowo