Koncepcja wnioskowania w hierarchicznej bazie wiedzy

Podobne dokumenty
Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.

Systemy uczące się wykład 2

Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Indukowane Reguły Decyzyjne I. Wykład 8

Data Mining Wykład 4. Plan wykładu

METODY WYZNACZANIA WSPÓŁCZYNNIKA NIEPEŁNOŚCI WIEDZY W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ

WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH

9. Praktyczna ocena jakości klasyfikacji

Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska

Wprowadzenie do uczenia maszynowego

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Agnieszka Nowak Brzezińska Wykład III

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Agnieszka NOWAK * 1. WSTĘP

Hierarchiczna analiza skupień

Systemy ekspertowe. Krzysztof Patan

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Systemy ekspertowe. PC-Shell. Sprawozdanie z bazy wiedzy

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

WYBRANE ASPEKTY WNIOSKOWANIA W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ

WYBÓR ALGORYTMU GRUPOWANIA A EFEKTYWNOŚĆ WYSZUKIWANIA DOKUMENTÓW

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE

Ocena dokładności diagnozy

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Algorytmy i struktury danych

Przykładowe B+ drzewo

Agnieszka Nowak Brzezińska

Wprowadzenie do klasyfikacji

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Automatyczne wyodrębnianie reguł

Złożoność obliczeniowa algorytmu ilość zasobów komputera jakiej potrzebuje dany algorytm. Pojęcie to

Wstęp do programowania

Wysokość drzewa Głębokość węzła

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

ALGORYTM RANDOM FOREST

Algorytmy i. Wykład 5: Drzewa. Dr inż. Paweł Kasprowski

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:

Grupowanie stron WWW. Funkcje oceniające.

Tadeusz Pankowski

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Metody selekcji cech

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Systemy ekspertowe : program PCShell

Podstawy Informatyki. Metody dostępu do danych

Obliczenia inspirowane Naturą

Drzewa decyzyjne i lasy losowe

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Systemy ekspertowe i sztuczna inteligencja. dr Agnieszka Nowak Brzezioska

Podstawy Informatyki Metody dostępu do danych

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Metoda List Łańcuchowych

Transformacja wiedzy w budowie i eksploatacji maszyn

Teoria obliczeń i złożoność obliczeniowa

Drzewa decyzyjne. 1. Wprowadzenie.

Algorytmy klasyfikacji

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.

Alicja Marszałek Różne rodzaje baz danych

Reguły i fakty zapisz za pomocą perceptów. Metodą wnioskowania w tył, sprawdzić czy mój komputer jest wyposażony w procesor PII.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

A Zadanie

Metody Optymalizacji: Przeszukiwanie z listą tabu

Poprawność semantyczna

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

9.9 Algorytmy przeglądu

Podstawy Informatyki. Sprawność algorytmów

WYKŁAD 6. Reguły decyzyjne

Rozwiązywanie problemów metodą przeszukiwania

Inżynieria biomedyczna

STUDIA INFORMATICA 2011 Volume 32 Number 2A (96)

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Podstawy Sztucznej Inteligencji (PSZT)

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Wykład 2. Poprawność algorytmów

AiSD zadanie trzecie

Analiza algorytmów zadania podstawowe

WPŁYW INFORMACJI STATYSTYCZNEJ NA EFEKTYWNOŚĆ SYSTEMÓW WSPOMAGANIA DECYZJI

Wprowadzenie do technologii informacyjnej.

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Inżynieria wiedzy Wnioskowanie oparte na wiedzy niepewnej Opracowane na podstawie materiałów dra Michała Berety

6. Zagadnienie parkowania ciężarówki.

Transkrypt:

Koncepcja wnioskowania w hierarchicznej bazie wiedzy Agnieszka Nowak Alicja Wakulicz-Deja Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918 283

Plan referatu 1 Motywacja prowadzonych badań. 2 Analiza skupień a efektywność wnioskowania. 3 Model hierarchicznej Bazy Wiedzy. 4 Wnioskowanie klasyczne (nie hierarchiczne): Wnioskowanie sterowane danymi (ang. data-driven). Wnioskowanie sterowane celem (ang. goal-driven). 5 Wnioskowanie hierarchiczne (w złożonej BW): Wnioskowanie sterowane danymi (ang. data-driven). Wnioskowanie sterowane celem (ang. goal-driven). 6 Efektywność wnioskowania hierarchicznego. 7 Podsumowanie, wnioski. 8 Bibliografia.

Motywacja prowadzonych badań Systemy wspomagania decyzji stosują procesy wnioskowania do wydobywania nowej wiedzy (nowych faktów) z danych zgromadzonych w zbiorach: reguł oraz faktów. Stosowane są dwie metody wnioskowania:w przód oraz wstecz. Rozmiar Bazy Wiedzy (liczba reguł) ma ogromny wpływ na wyniki wnioskowania, gdyż w klasycznym algorytmie stosuje się przegląd zupełny całego zbioru. Jak wiele zależy od wybranej strategii sterowania wnioskowaniem? Jeśli w danej bazie wiedzy istnieje więcej niż jedna reguła pokrywająca dane (fakty lub hipotezę), wówczas przydatne jest użycie jednej z wybranych strategii sterowania wnioskowaniem: kolejności (textual order), blokowania (refractoriness), świeżości (recency), specyficzności (specificity)i przypadkowości (randomize). Theorem Pytanie: Czy efektywność wnioskowania pogorszy się jeśli będziemy przeglądać tylko pewną część całej bazy wiedzy?

Motywacja prowadzonych badań Cel systemów wyszukiwania informacji... Systemy wyszukujące informacje z dużych zbiorów danych skupiają się zwykle na tym, aby szybko uzyskać prawdziwą informację. Nie jest przy tym tak ważna kompletność wyniku jak jego dokładność. Duża liczba reguł we współczesnych bazach wiedzy. Większe oczekiwania co do efektywności wnioskowania. Większe możliwości obliczeniowe maszyn. Istnieje silna potrzeba wykorzystania wszelkich możliwych technik SI dla wspomagania prowadzonych badań. Uporządkowanie i hierarchia wśród reguł pozwala dodatkowo na strukturalizowanie zgromadzonej wiedzy i wyprowadzenie z tej wiedzy nowych, istotnych, dotąd nieznanych zależności. Istnieją szybkie i efektywne algorytmy przeglądania struktur hierarchicznych nie ma więc ryzyka utraty kompletności czy dokładności wyszukiwania reguł potencjalnie interesujących z punktu widzenia celu wnioskowania czy posiadanych faktów wejściowych.

Motywacja prowadzonych badań Teza pracy: Zastosowanie grupowania reguł do budowy hierarchicznej bazy wiedzy przyspiesza procesy wnioskowania w stosunku do klasycznych baz wiedzy Etap badań: Powstała struktura pozwala oczekiwać wysokiej efektywności proponowanego rozwiązania, gdyż: 1 Wybrano najlepszą metodę grupowania (AHC,mAHC), kosztem większej złożoności ale wysokiej dokładności. 2 Miara Gowera do łączenia reguł podobnych jest jakby stworzona do analizy danych wielowymiarowych i danych niepełnych. 3 Kryterium stopu, odcięcia pozwala na regulowanie kompletności wyszukiwania reguł relewantnych w całej hierarchii bazy wiedzy. Teraz potrzebujemy efektywnych algorytmów przeszukiwania reguł w strukturze, zanim zaczniemy na nich przeprowadzać procesy wnioskowania. Skoro nie będziemy przeszukiwać całej BW potrzebujemy też metod badania precyzji takiego przeszukiwania niepełnego.

Analiza skupień a efektywność wnioskowania J.Koronacki oraz J.Ćwik w pracy: Statystyczne systemy uczące się twierdzą, że analiza skupień ma na celu wykrycie w zbiorze obserwacji (reguł) skupień czyli rozłącznych podzbiorów zbioru obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym sensie bliskie, natomiast różne podzbiory są od siebie - w porównaniu z elementami wewnątrz każdego pozbioru - odległe. Wybraliśmy grupowanie hierarchiczne aglomeracyjne, czego efektem jest drzewo reguł podobnych do siebie bądź to ze względu na atrybuty warunkowe bądź decyzyjne. Wiemy jednak, że własność wybranych algorytmów (AHC bądź mahc) sprawia, że jeżeli w zbiorze istnieje pewna grupa reguł relewantnych to będą one tworzyły ten sam węzeł w drzewie. Zatem jeśli mamy dotrzeć do pewnej reguły to dotrzemy jednocześnie do innych reguł, do niej relewantnych. Dodatkowo zaufanie do struktury podpieramy analizą wielu, a ostatecznym dobrem miary podobieństwa proponowanej przez Gowera - dedykowaną dla danych wielowymiarowych. Teraz - mając pewne struktury podobne (grupy, skupienia) musimy efektywnie je przeszukiwać, aby zgodnie z założonym celem szybciej wnioskować na takich zbiorach reguł.

Zadanie maszyny wnioskującej: Rysunek: Koncepcja wnioskowania w systemach z dziedzinowymi bazami wiedzy Do zadań maszyny wnioskującej należy: Znaleźć w zbiorze wszystkich reguł - reguły relewantne, Przeprowadzić wnioskowanie na znalezionych regułach stosując wybraną strategię doboru reguł.

Koncepcja wnioskowania hierarchicznego Klasyczne wnioskowanie 1 Szukaj reguł relewantnych względem podanych faktów bądź zadanej hipotezy. Wnioskowanie hierarchiczne 1 Przeszukaj skupienia reguł stosując kryterium maksymalnej relewantności, w celu znalezienia grupy reguł do uaktywnienia. 2 Wnioskuj wybraną metodą dla znalezionej w kroku 1 grupy reguł. Wstępna ocena: 1 Złożoność obliczeniowa: T (n) = O(log 2 n) + O(m) gdzie m << n. 2 Zaskakująca może się wydać nowa możliwość wnioskowania sterowanego danymi oraz podobieństwem. W klasycznym wnioskowaniu, tylko reguły w pełni relewantne są uaktywniane, przeszukiwanie struktury hierarchicznej, może pozwalać na próbę uaktywniania reguł o dużym stopniu podobieństwa. (Będzie się to wiązało jedynie z koniecznością zadania użytkownikowi dodatkowych pytań w celu weryfikacji prawdziwości przesłanek.)

Model hierarchicznej Bazy Wiedzy gdzie: S HC =< X, A, V, dec, F sim, Tree > X = {x 1,.., x n} zbiór reguł (klauzul Horn a), A = {a 1,.., a m} gdzie A = C D (atrybuty warunkowe i decyzyjne). V i = ai Av i zbiór wartości atrybutu a i. x i V i, dla 1 i n X = V 1 V 2... V n dec : X V dec, gdzie V dec = {d 1,.., d m} F sim : X X R [0..1] 2n 1 Tree = {w 1,.., w 2n 1} = w i i=1 w i = {d i, c i, f, i, j}, gdzie f = F sim(x i, x j ) [0..1], i, j (1, 2,.., 2n 1), d i V dec, c i = X.

Złożona Baza Wiedzy Theorem Własności złożonej bazy wiedzy: duża liczba reguł, różny typ danych, zagnieżdżanie reguł. Rysunek: Złożona Baza Wiedzy

Wnioskowanie klasyczne (nie hierarchiczne) Wnioskowanie w przód generuje nowe fakty. W przypadku dużej liczby reguł liczba nowych faktów może rosnąć lawinowo. Powoduje to dwa problemy: Merytoryczny jak interpretować nowe fakty, których jest potencjalnie dużo? Czy wszystkie nowe fakty są użyteczne? Techniczny generowanie wszystkich możliwych faktów może być czasochłonne. Rysunek: Własność wnioskowania klasycznego w przód Aby ograniczyć zachłanność algorytmu wnioskowania w przód, można wprowadzić cel wnioskowania. Jeżeli w trakcie wnioskowania wygenerowany zostanie fakt zgodny z celem, wnioskowanie jest kończone. Cel wnioskowania reprezentuje zatem informację, jaką chcemy od systemu uzyskać.

Wnioskowanie klasyczne (nie hierarchiczne) Modyfikacja algorytmu wnioskowania w przód

Wnioskowanie klasyczne (nie hierarchiczne) Modyfikacja algorytmu wnioskowania w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne w przód

Wnioskowanie klasyczne (nie hierarchiczne) Wnioskowanie sterowane celem (ang. goal-driven) Wnioskowanie wstecz ma potwierdzić prawdziwość postawionej hipotezy. Hipoteza ta staje się głównym celem wnioskowania.

Wnioskowanie klasyczne (nie hierarchiczne) Modyfikacja algorytmu wnioskowania wstecz

Wnioskowanie hierarchiczne Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Będziemy przeglądać tylko pewną część całej Bazy Wiedzy - nie tracąc przy tym kompletności i utrzymując dokładność - jak przy przeglądzie zupełnym. Rysunek: Drzewo skupień reguł

Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł

Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł

Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł

Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł

Algorytmy przeszukiwania skupień reguł ang. Cluster based retrieval. zaczynamy od korzenia i na każdym poziomie wyszukiwaniem kieruje reguła decyzyjna, która oblicza podobieństwo (dopasowanie) i wybiera węzeł do dalszego przeszukiwania, konieczne jest zdefiniowanie tzw. reguły stopującej, która przerywa wyszukiwanie i wymusza przegląd wybranego węzła. 1 Metoda węzła najbardziej relewantnego, 2 Metoda minimalnej wartości progowej.

Algorytmy przeszukiwania skupień Metoda węzła najbardziej relewantnego Rysunek: Method: Metoda węzła najbardziej relewantnego INPUT: F =observations, n- the number of nodes, Tree[i]=i-th node; While(L,R 1){ counts1 = sim(f, Tree[L]); counts2 = sim(f, Tree[R]); If(s1 > s2) search Tree[L]; Else If (s1 < s2) search Tree[R]; Else If (s1 = s2) { search Tree[R]; search Tree[L]; } } OUTPUT: Tree[i] -skupienie reguł relewantnych

Algorytmy przeszukiwania skupień Metoda minimalnej wartości progowej Rysunek: Metoda: Minimalna wartość progowa np. s min = 0.7. INPUT: F =observations, n- the number of nodes, Tree[i]=i-th node; T min - threshold While (L, R T min ){ count s1 = sim(f, Tree[L]); count s2 = sim(f, Tree[R]); If (s1 T min ) search Tree[L] Else If (s2 T min ) search Tree[R] OUTPUT: Tree[i] -skupienie reguł relewantnych

Porównanie metod Węzeł najbardziej relewantny v. Minimalna wartość progowa Zalety Węzeł najbardziej relewantny Minimalna wartość progowa duża dokładność & duża kompletność krótszy czas O(log 2 n) O(log 2 n) wyższa kompletność Wady Węzeł najbardziej relewantny Minimalna wartość progowa możliwa utrata kompletności możliwa utrata dokładności jak ustawić threshold? zwykle dłuższy czas

Wnioskowanie klasyczne w przód Zadanie faktów inicjujących i pełne wnioskowanie Załóżmy, że chcemy wnioskować w przód dla zadanych dwóch faktów inincjujących. Widzimy, że pełne klasyczne wnioskowanie wiązałoby się z próbą uaktywnienia każdej kolejnej reguły.

Wnioskowanie hierarchiczne w przód Zadanie faktów inicjujących wnioskowanie hierarchiczne metodą węzła najbardziej relewantnego Wybierając metodę węzła najbardziej relewantnego, drzewo przeszukiwane jest możliwie najszybciej i jak się okazuje, system wyszukuje wówczas reguły - faktycznie relewantne - bo reguła nr 3 jest również uznana za relewantną gdy przeszukiwaliśmy zupełnie zbiór.

Wnioskowanie hierarchiczne w przód Wyniki wnioskowania hierarchicznego w przód dla zadanego progu relewantności Przy określeniu wartości progu relewantności musimy się liczyć z tym, że albo system wyszuka conajwyżej jedną regułę (wysoki próg), albo w odpowiedzi reguł do dalszego wnioskowania będzie dużo (niski próg). Po zadaniu T min = 1 - okazuje się, że w naszym systemie są 2 reguły pokrywające zadane fakty: reguła 3 i 20.

Wnioskowanie klasyczne w przód Fakty inicjujące i nowe fakty Widzimy wyraźnie, że prócz podanych na wejściu faktów, tzw. inicjujących, do bazy faktów dopisano nowy fakt, będący konkluzją uaktywnionej reguły.

Wnioskowanie klasyczne w przód Objaśnienie procesu wnioskowania w przód dla zadanych faktów inicjujących

Eksperymenty złożona baza wiedzy KB (dziedzina: ekonomia), 46atrybutów, 702 reguł. Im większa baza wiedzy tym lepsze wyniki końcowe. reguł węzłów analizowanych % BW efektywność BW nr 1 16 5 32 1.0 BW nr 2 199 9 5 0.9 BW nr 3 480 10 2 0.9 BW nr 4 702 11 1.6 0.9 węzłów % BW węzłów % BW zysk AHC AHC mahc mahc BW nr t [7] 13 3.8 10 3.3 76.9% BW nr 1 [16] 31 4.9 24 4.6 77.4% BW nr 2 [199] 297 8.2 275 8.1 92.5% BW nr 3 [480] 859 9.7 819 9.6 95.3% BW nr 4 [702] 1403 10.5 1351 10.4 96.2%

Eksperymenty 2 - krzywe ROC ROC (ang. Receiver Operating Characteristic) Często miarą trafności klasyfikacji jest budowanie macierzy pomyłek dla klasyfikacji binarnej, która powstaje przez sprowadzenie problemu wieloklasowego do problemu binarnego. oryginalne klasy pozytywne negatywne (relewantne) (nierelewantne) pozytywne TP FN (wyszukane) niegatywne FP TN (niewyszukane) gdzie: TP (ang. true positive)- liczba poprawnie sklasyfikowanych obiektów, FN (ang. false negative)- liczba błędnie sklasyfikowanych obiektów. Wówczas: wrażliwość (ang. sensitivity) = TP/(TP + FN), czułość (ang. specificity) = TN/(FP + TN).

Eksperymenty 2 - krzywe ROC metoda TP FP FN TN N TPF FPF a 1 0 3 25 29 0,25 1 b 1 0 8 141 150 0,11 1 c 1 0 16 483 500 0,058 1 d 1 0 19 682 702 0,05 1 a 4 25 29 b 9 141 150 c 17 483 500 d 20 0 682 702 1 a 3 0 1 25 29 0,75 1 b 7 0 2 141 150 0,777778 1 c 7 0 10 483 500 0,411765 1 d 7 0 13 682 702 0,35 1 a 4 1 0 24 29 1 0,96 b 5 2 2 141 150 0,714286 0,986014 c 15 3 2 480 500 0,882353 0,993789 d 15 5 5 677 702 0,75 0,992669 gdzie: a - klasyczne, b - klasyczne pełne, c - hierarchiczne - metoda najbliższego węzła, d - hierarchiczne - metoda progowa.

Eksperymenty 2 - krzywe ROC Rysunek: Krzywe ROC dla analizowanych metod

Podsumowanie, wnioski Zalety: Wady: Koszt algorytmu to T (n) = O(m) + O(log 2 n), gdzie m << n. Metoda efektywna - gdyż tylko wiedza poszukiwana zostanie wyszukana. Metoda dokładna - gdyż własność zastosowanego algorytmu grupowania pozwala mieć nadzieję, że dokładność wyniesie 100%. Kompletność metody będzie uzależniona od spełnienia dodatkowych warunków, jakimi jest tzw. reguła stopująca, która zatrzyma algorytm na pewnym poziomie drzewa. Możliwa utrata kompletności, gdy nie stosujemy żadnej reguły stopującej drzewo skupień reguł. Naszym zdaniem, analiza skupień reguł pozwoli na znaczne zwiększenie efektywności procesów wnioskowania w złożonych, hierarchicznych bazach wiedzy, dostarczając znacznie krótszego czasu wnioskowania, utrzymując zwykle pełną dokładność wyszukiwania, oraz kompletność na poziomie wysokim, o ile zakładamy, że szukamy stosując kryterium progowej relewantności.

Bibliografia 1 Kaufman L., Rousseeuw P.J. (1990) Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley Sons, New York. 2 Koronacki J., Ćwik J. (2005) Statystyczne systemy uczące się.wnt, Warszawa. 3 Nowak A., Wakulicz-Deja A., Bachliński S.(2006) Optimization of Speech Recognition by Clustering of Phones, Fundamenta Informaticae 72, IOS Press, pp 283-293 4 Nowak A., Simiński R., Wakulicz-Deja A., Towards modular representation of knowledge base, Springer-Verlag Berlin Heidelberg - Advances in Soft Computing 5, 2006, pp 421-428 5 Nowak A., Wakulicz-Deja A.,The inference processes on clustered rules, Springer-Verlag Berlin Heidelberg - Advances in Soft Computing 5, 2006, pp 403-411 6 Reichgelt H., Knowledge Representation: An AI Perspective, Norwood N.J., Ablex Publishing Corp., 1991 7 Salton G., (1975), Automatic Information Organization and Retreival, McGraw-Hill, New York 8 Jardine N., van Rijsbergen C.J., The use of hierarchic clustering in information retrieval, Inforamtion Storage and Retrieval 7, 217-240