Koncepcja wnioskowania w hierarchicznej bazie wiedzy Agnieszka Nowak Alicja Wakulicz-Deja Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918 283
Plan referatu 1 Motywacja prowadzonych badań. 2 Analiza skupień a efektywność wnioskowania. 3 Model hierarchicznej Bazy Wiedzy. 4 Wnioskowanie klasyczne (nie hierarchiczne): Wnioskowanie sterowane danymi (ang. data-driven). Wnioskowanie sterowane celem (ang. goal-driven). 5 Wnioskowanie hierarchiczne (w złożonej BW): Wnioskowanie sterowane danymi (ang. data-driven). Wnioskowanie sterowane celem (ang. goal-driven). 6 Efektywność wnioskowania hierarchicznego. 7 Podsumowanie, wnioski. 8 Bibliografia.
Motywacja prowadzonych badań Systemy wspomagania decyzji stosują procesy wnioskowania do wydobywania nowej wiedzy (nowych faktów) z danych zgromadzonych w zbiorach: reguł oraz faktów. Stosowane są dwie metody wnioskowania:w przód oraz wstecz. Rozmiar Bazy Wiedzy (liczba reguł) ma ogromny wpływ na wyniki wnioskowania, gdyż w klasycznym algorytmie stosuje się przegląd zupełny całego zbioru. Jak wiele zależy od wybranej strategii sterowania wnioskowaniem? Jeśli w danej bazie wiedzy istnieje więcej niż jedna reguła pokrywająca dane (fakty lub hipotezę), wówczas przydatne jest użycie jednej z wybranych strategii sterowania wnioskowaniem: kolejności (textual order), blokowania (refractoriness), świeżości (recency), specyficzności (specificity)i przypadkowości (randomize). Theorem Pytanie: Czy efektywność wnioskowania pogorszy się jeśli będziemy przeglądać tylko pewną część całej bazy wiedzy?
Motywacja prowadzonych badań Cel systemów wyszukiwania informacji... Systemy wyszukujące informacje z dużych zbiorów danych skupiają się zwykle na tym, aby szybko uzyskać prawdziwą informację. Nie jest przy tym tak ważna kompletność wyniku jak jego dokładność. Duża liczba reguł we współczesnych bazach wiedzy. Większe oczekiwania co do efektywności wnioskowania. Większe możliwości obliczeniowe maszyn. Istnieje silna potrzeba wykorzystania wszelkich możliwych technik SI dla wspomagania prowadzonych badań. Uporządkowanie i hierarchia wśród reguł pozwala dodatkowo na strukturalizowanie zgromadzonej wiedzy i wyprowadzenie z tej wiedzy nowych, istotnych, dotąd nieznanych zależności. Istnieją szybkie i efektywne algorytmy przeglądania struktur hierarchicznych nie ma więc ryzyka utraty kompletności czy dokładności wyszukiwania reguł potencjalnie interesujących z punktu widzenia celu wnioskowania czy posiadanych faktów wejściowych.
Motywacja prowadzonych badań Teza pracy: Zastosowanie grupowania reguł do budowy hierarchicznej bazy wiedzy przyspiesza procesy wnioskowania w stosunku do klasycznych baz wiedzy Etap badań: Powstała struktura pozwala oczekiwać wysokiej efektywności proponowanego rozwiązania, gdyż: 1 Wybrano najlepszą metodę grupowania (AHC,mAHC), kosztem większej złożoności ale wysokiej dokładności. 2 Miara Gowera do łączenia reguł podobnych jest jakby stworzona do analizy danych wielowymiarowych i danych niepełnych. 3 Kryterium stopu, odcięcia pozwala na regulowanie kompletności wyszukiwania reguł relewantnych w całej hierarchii bazy wiedzy. Teraz potrzebujemy efektywnych algorytmów przeszukiwania reguł w strukturze, zanim zaczniemy na nich przeprowadzać procesy wnioskowania. Skoro nie będziemy przeszukiwać całej BW potrzebujemy też metod badania precyzji takiego przeszukiwania niepełnego.
Analiza skupień a efektywność wnioskowania J.Koronacki oraz J.Ćwik w pracy: Statystyczne systemy uczące się twierdzą, że analiza skupień ma na celu wykrycie w zbiorze obserwacji (reguł) skupień czyli rozłącznych podzbiorów zbioru obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym sensie bliskie, natomiast różne podzbiory są od siebie - w porównaniu z elementami wewnątrz każdego pozbioru - odległe. Wybraliśmy grupowanie hierarchiczne aglomeracyjne, czego efektem jest drzewo reguł podobnych do siebie bądź to ze względu na atrybuty warunkowe bądź decyzyjne. Wiemy jednak, że własność wybranych algorytmów (AHC bądź mahc) sprawia, że jeżeli w zbiorze istnieje pewna grupa reguł relewantnych to będą one tworzyły ten sam węzeł w drzewie. Zatem jeśli mamy dotrzeć do pewnej reguły to dotrzemy jednocześnie do innych reguł, do niej relewantnych. Dodatkowo zaufanie do struktury podpieramy analizą wielu, a ostatecznym dobrem miary podobieństwa proponowanej przez Gowera - dedykowaną dla danych wielowymiarowych. Teraz - mając pewne struktury podobne (grupy, skupienia) musimy efektywnie je przeszukiwać, aby zgodnie z założonym celem szybciej wnioskować na takich zbiorach reguł.
Zadanie maszyny wnioskującej: Rysunek: Koncepcja wnioskowania w systemach z dziedzinowymi bazami wiedzy Do zadań maszyny wnioskującej należy: Znaleźć w zbiorze wszystkich reguł - reguły relewantne, Przeprowadzić wnioskowanie na znalezionych regułach stosując wybraną strategię doboru reguł.
Koncepcja wnioskowania hierarchicznego Klasyczne wnioskowanie 1 Szukaj reguł relewantnych względem podanych faktów bądź zadanej hipotezy. Wnioskowanie hierarchiczne 1 Przeszukaj skupienia reguł stosując kryterium maksymalnej relewantności, w celu znalezienia grupy reguł do uaktywnienia. 2 Wnioskuj wybraną metodą dla znalezionej w kroku 1 grupy reguł. Wstępna ocena: 1 Złożoność obliczeniowa: T (n) = O(log 2 n) + O(m) gdzie m << n. 2 Zaskakująca może się wydać nowa możliwość wnioskowania sterowanego danymi oraz podobieństwem. W klasycznym wnioskowaniu, tylko reguły w pełni relewantne są uaktywniane, przeszukiwanie struktury hierarchicznej, może pozwalać na próbę uaktywniania reguł o dużym stopniu podobieństwa. (Będzie się to wiązało jedynie z koniecznością zadania użytkownikowi dodatkowych pytań w celu weryfikacji prawdziwości przesłanek.)
Model hierarchicznej Bazy Wiedzy gdzie: S HC =< X, A, V, dec, F sim, Tree > X = {x 1,.., x n} zbiór reguł (klauzul Horn a), A = {a 1,.., a m} gdzie A = C D (atrybuty warunkowe i decyzyjne). V i = ai Av i zbiór wartości atrybutu a i. x i V i, dla 1 i n X = V 1 V 2... V n dec : X V dec, gdzie V dec = {d 1,.., d m} F sim : X X R [0..1] 2n 1 Tree = {w 1,.., w 2n 1} = w i i=1 w i = {d i, c i, f, i, j}, gdzie f = F sim(x i, x j ) [0..1], i, j (1, 2,.., 2n 1), d i V dec, c i = X.
Złożona Baza Wiedzy Theorem Własności złożonej bazy wiedzy: duża liczba reguł, różny typ danych, zagnieżdżanie reguł. Rysunek: Złożona Baza Wiedzy
Wnioskowanie klasyczne (nie hierarchiczne) Wnioskowanie w przód generuje nowe fakty. W przypadku dużej liczby reguł liczba nowych faktów może rosnąć lawinowo. Powoduje to dwa problemy: Merytoryczny jak interpretować nowe fakty, których jest potencjalnie dużo? Czy wszystkie nowe fakty są użyteczne? Techniczny generowanie wszystkich możliwych faktów może być czasochłonne. Rysunek: Własność wnioskowania klasycznego w przód Aby ograniczyć zachłanność algorytmu wnioskowania w przód, można wprowadzić cel wnioskowania. Jeżeli w trakcie wnioskowania wygenerowany zostanie fakt zgodny z celem, wnioskowanie jest kończone. Cel wnioskowania reprezentuje zatem informację, jaką chcemy od systemu uzyskać.
Wnioskowanie klasyczne (nie hierarchiczne) Modyfikacja algorytmu wnioskowania w przód
Wnioskowanie klasyczne (nie hierarchiczne) Modyfikacja algorytmu wnioskowania w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne w przód
Wnioskowanie klasyczne (nie hierarchiczne) Wnioskowanie sterowane celem (ang. goal-driven) Wnioskowanie wstecz ma potwierdzić prawdziwość postawionej hipotezy. Hipoteza ta staje się głównym celem wnioskowania.
Wnioskowanie klasyczne (nie hierarchiczne) Modyfikacja algorytmu wnioskowania wstecz
Wnioskowanie hierarchiczne Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Będziemy przeglądać tylko pewną część całej Bazy Wiedzy - nie tracąc przy tym kompletności i utrzymując dokładność - jak przy przeglądzie zupełnym. Rysunek: Drzewo skupień reguł
Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł
Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł
Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł
Proces wnioskowania w przód dla hierarchicznej Bazy Wiedzy Rysunek: Drzewo skupień reguł
Algorytmy przeszukiwania skupień reguł ang. Cluster based retrieval. zaczynamy od korzenia i na każdym poziomie wyszukiwaniem kieruje reguła decyzyjna, która oblicza podobieństwo (dopasowanie) i wybiera węzeł do dalszego przeszukiwania, konieczne jest zdefiniowanie tzw. reguły stopującej, która przerywa wyszukiwanie i wymusza przegląd wybranego węzła. 1 Metoda węzła najbardziej relewantnego, 2 Metoda minimalnej wartości progowej.
Algorytmy przeszukiwania skupień Metoda węzła najbardziej relewantnego Rysunek: Method: Metoda węzła najbardziej relewantnego INPUT: F =observations, n- the number of nodes, Tree[i]=i-th node; While(L,R 1){ counts1 = sim(f, Tree[L]); counts2 = sim(f, Tree[R]); If(s1 > s2) search Tree[L]; Else If (s1 < s2) search Tree[R]; Else If (s1 = s2) { search Tree[R]; search Tree[L]; } } OUTPUT: Tree[i] -skupienie reguł relewantnych
Algorytmy przeszukiwania skupień Metoda minimalnej wartości progowej Rysunek: Metoda: Minimalna wartość progowa np. s min = 0.7. INPUT: F =observations, n- the number of nodes, Tree[i]=i-th node; T min - threshold While (L, R T min ){ count s1 = sim(f, Tree[L]); count s2 = sim(f, Tree[R]); If (s1 T min ) search Tree[L] Else If (s2 T min ) search Tree[R] OUTPUT: Tree[i] -skupienie reguł relewantnych
Porównanie metod Węzeł najbardziej relewantny v. Minimalna wartość progowa Zalety Węzeł najbardziej relewantny Minimalna wartość progowa duża dokładność & duża kompletność krótszy czas O(log 2 n) O(log 2 n) wyższa kompletność Wady Węzeł najbardziej relewantny Minimalna wartość progowa możliwa utrata kompletności możliwa utrata dokładności jak ustawić threshold? zwykle dłuższy czas
Wnioskowanie klasyczne w przód Zadanie faktów inicjujących i pełne wnioskowanie Załóżmy, że chcemy wnioskować w przód dla zadanych dwóch faktów inincjujących. Widzimy, że pełne klasyczne wnioskowanie wiązałoby się z próbą uaktywnienia każdej kolejnej reguły.
Wnioskowanie hierarchiczne w przód Zadanie faktów inicjujących wnioskowanie hierarchiczne metodą węzła najbardziej relewantnego Wybierając metodę węzła najbardziej relewantnego, drzewo przeszukiwane jest możliwie najszybciej i jak się okazuje, system wyszukuje wówczas reguły - faktycznie relewantne - bo reguła nr 3 jest również uznana za relewantną gdy przeszukiwaliśmy zupełnie zbiór.
Wnioskowanie hierarchiczne w przód Wyniki wnioskowania hierarchicznego w przód dla zadanego progu relewantności Przy określeniu wartości progu relewantności musimy się liczyć z tym, że albo system wyszuka conajwyżej jedną regułę (wysoki próg), albo w odpowiedzi reguł do dalszego wnioskowania będzie dużo (niski próg). Po zadaniu T min = 1 - okazuje się, że w naszym systemie są 2 reguły pokrywające zadane fakty: reguła 3 i 20.
Wnioskowanie klasyczne w przód Fakty inicjujące i nowe fakty Widzimy wyraźnie, że prócz podanych na wejściu faktów, tzw. inicjujących, do bazy faktów dopisano nowy fakt, będący konkluzją uaktywnionej reguły.
Wnioskowanie klasyczne w przód Objaśnienie procesu wnioskowania w przód dla zadanych faktów inicjujących
Eksperymenty złożona baza wiedzy KB (dziedzina: ekonomia), 46atrybutów, 702 reguł. Im większa baza wiedzy tym lepsze wyniki końcowe. reguł węzłów analizowanych % BW efektywność BW nr 1 16 5 32 1.0 BW nr 2 199 9 5 0.9 BW nr 3 480 10 2 0.9 BW nr 4 702 11 1.6 0.9 węzłów % BW węzłów % BW zysk AHC AHC mahc mahc BW nr t [7] 13 3.8 10 3.3 76.9% BW nr 1 [16] 31 4.9 24 4.6 77.4% BW nr 2 [199] 297 8.2 275 8.1 92.5% BW nr 3 [480] 859 9.7 819 9.6 95.3% BW nr 4 [702] 1403 10.5 1351 10.4 96.2%
Eksperymenty 2 - krzywe ROC ROC (ang. Receiver Operating Characteristic) Często miarą trafności klasyfikacji jest budowanie macierzy pomyłek dla klasyfikacji binarnej, która powstaje przez sprowadzenie problemu wieloklasowego do problemu binarnego. oryginalne klasy pozytywne negatywne (relewantne) (nierelewantne) pozytywne TP FN (wyszukane) niegatywne FP TN (niewyszukane) gdzie: TP (ang. true positive)- liczba poprawnie sklasyfikowanych obiektów, FN (ang. false negative)- liczba błędnie sklasyfikowanych obiektów. Wówczas: wrażliwość (ang. sensitivity) = TP/(TP + FN), czułość (ang. specificity) = TN/(FP + TN).
Eksperymenty 2 - krzywe ROC metoda TP FP FN TN N TPF FPF a 1 0 3 25 29 0,25 1 b 1 0 8 141 150 0,11 1 c 1 0 16 483 500 0,058 1 d 1 0 19 682 702 0,05 1 a 4 25 29 b 9 141 150 c 17 483 500 d 20 0 682 702 1 a 3 0 1 25 29 0,75 1 b 7 0 2 141 150 0,777778 1 c 7 0 10 483 500 0,411765 1 d 7 0 13 682 702 0,35 1 a 4 1 0 24 29 1 0,96 b 5 2 2 141 150 0,714286 0,986014 c 15 3 2 480 500 0,882353 0,993789 d 15 5 5 677 702 0,75 0,992669 gdzie: a - klasyczne, b - klasyczne pełne, c - hierarchiczne - metoda najbliższego węzła, d - hierarchiczne - metoda progowa.
Eksperymenty 2 - krzywe ROC Rysunek: Krzywe ROC dla analizowanych metod
Podsumowanie, wnioski Zalety: Wady: Koszt algorytmu to T (n) = O(m) + O(log 2 n), gdzie m << n. Metoda efektywna - gdyż tylko wiedza poszukiwana zostanie wyszukana. Metoda dokładna - gdyż własność zastosowanego algorytmu grupowania pozwala mieć nadzieję, że dokładność wyniesie 100%. Kompletność metody będzie uzależniona od spełnienia dodatkowych warunków, jakimi jest tzw. reguła stopująca, która zatrzyma algorytm na pewnym poziomie drzewa. Możliwa utrata kompletności, gdy nie stosujemy żadnej reguły stopującej drzewo skupień reguł. Naszym zdaniem, analiza skupień reguł pozwoli na znaczne zwiększenie efektywności procesów wnioskowania w złożonych, hierarchicznych bazach wiedzy, dostarczając znacznie krótszego czasu wnioskowania, utrzymując zwykle pełną dokładność wyszukiwania, oraz kompletność na poziomie wysokim, o ile zakładamy, że szukamy stosując kryterium progowej relewantności.
Bibliografia 1 Kaufman L., Rousseeuw P.J. (1990) Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley Sons, New York. 2 Koronacki J., Ćwik J. (2005) Statystyczne systemy uczące się.wnt, Warszawa. 3 Nowak A., Wakulicz-Deja A., Bachliński S.(2006) Optimization of Speech Recognition by Clustering of Phones, Fundamenta Informaticae 72, IOS Press, pp 283-293 4 Nowak A., Simiński R., Wakulicz-Deja A., Towards modular representation of knowledge base, Springer-Verlag Berlin Heidelberg - Advances in Soft Computing 5, 2006, pp 421-428 5 Nowak A., Wakulicz-Deja A.,The inference processes on clustered rules, Springer-Verlag Berlin Heidelberg - Advances in Soft Computing 5, 2006, pp 403-411 6 Reichgelt H., Knowledge Representation: An AI Perspective, Norwood N.J., Ablex Publishing Corp., 1991 7 Salton G., (1975), Automatic Information Organization and Retreival, McGraw-Hill, New York 8 Jardine N., van Rijsbergen C.J., The use of hierarchic clustering in information retrieval, Inforamtion Storage and Retrieval 7, 217-240