Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji

Transkrypt

1 Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec, ul. Będzińska 39, +48 (0-32) gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

2 Plan referatu 1 Efektywność wnioskowania w klasycznych systemach wspomagania decyzji. 2 Motywacja tworzenia hierarchicznej bazy wiedzy. 3 Prawda o aglomeracyjnym algorytmie grupowania. 4 Efektywność osiągana różnymi drogami?. 5 Podsumowanie. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

3 Zagadnienia... Referat powinien udzielić satysfakcjonujących odpowiedzi na pytania: 1 Dlaczego potrzebna jest zmiana struktury bazy wiedzy? 2 Dlaczego proponujemy hierarchię? 3 Dlaczego jako algorytm grupowania wybieramy akurat AHC? 4 Jak zamierzamy zmodyfikować klasyczne podejścia? 5 W jakim celu wprowadzamy swoje zmiany? 6 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu? 7 Podsumowanie - odpowiedź na pytanie: Jaka jest efektywność proponowanego rozwiązania? gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

4 Dlaczego potrzebna jest zmiana struktury bazy wiedzy? Efektywność wnioskowania w klasycznych systemach wspomagania decyzji takich jak np MYCIN, EMYCIN etc. zależy od kilku czynników: wybranej metody wnioskowania, posiadanej w systemie wiedzy (liczby reguł w bazie wiedzy), liczby obserwacji, wybranej strategii sterowania wnioskowaniem. Konkluzje: trudna ocena takiego systemu, wymagana kompletność bazy wiedzy, czas wnioskowania rośnie gdy zwiększa się liczba reguł w bazie wiedzy, optymalny system wspomagania decyzji, to taki system, który dostarcza decyzji w jak najkrótszym czasie, angażując użytkownika tylko w pewnym minimalnym zakresie. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

5 Dlaczego proponujemy hierarchię? Wiedza każdego systemu może być reprezentowana na wiele różnych sposobów, np. za pomocą rozkładów prawdopodobieństwa, współczynników pewnych funkcji, struktur symbolicznych gramatyk formalnych, czy hierarchii podziałów. Poprzez analizowanie przykładów, system ma odkryć nieznany podział (lub hierarchię podziałów) dostarczonego mu zbioru, czyli dokonać grupowania tego zbioru. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

6 Motywacja tworzenia hierarchicznej bazy wiedzy Optymalizacja czasu pracy systemu, jak i metody wnioskowania jest skomplikowana. Zadaniem interpretera reguł jest znalezienie i uaktywnienie reguł odpowiednich do zaobserwowanych faktów. Oczywiste jest, że jeżeli rozmiar bazy reguł wzrasta, to i czas szukania reguł przez interpreter się zwiększa. Aby temu zapobiec proponujemy grupowanie reguł (aglomerację) w bazach wiedzy i wnioskowanie na grupach (skupieniach) reguł. Cel: Analiza skupień ma skrócić w sposób istotny czas wnioskowania. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

7 Dlaczego spośród wszystkich algorytmów grupowania wybieramy akurat AHC? Liczba Stirlinga II-go rzędu Moc (liczba możliwych kombinacji) grupowania metodą k-optymalizacyjną n elementów na k grup (skupień) da się wyznaczyć z następującego wyrażenia: M = ( 1 n k! )[ ( k i )( 1) k i i n ]] i=1 Wówczas mając zaledwie do pogrupowania 6 (n = 6) obiektów do 3 (k = 3) grup, liczba możliwych kombinacji wynosi: M = ( 1 3! )[(3 1)( 1) ( 3 2)( 1) ( 3 3)( 1) ] = 90 Algorytm hierarchicznego łączenia obiektów - rozwiązuje ten problem poprzez samą ideę algorytmu, która zawsze nakazuje w każdym kroku połączyć dwa najbardziej podobne obiekty. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

8 Klasyczne grupowanie hierarchiczne gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

9 Klasyczne grupowanie hierarchiczne krok 1: połączenie w grupę obiektów 1 i 2 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

13 Macierzowy algorytm aglomeracyjny - algorytm Johnson a 1 t=0 /*nr poziomu w hierarchii*/ 2 utworzenie początkowego podziału Podz N 0 (N) = {Gi = {xi } i = 1,..., N} 3 utworzenie początkowej N N macierzy niepodobieństwa P(t) : P(i, j)(t) = D(G i, G j )i, j = 1,..., N 4 repeat a) e): a) wybranie spośród wszystkich par grup (G i, G j ) w podziale t najbliższej pary (G i, G j ): D(G i, G j ) = min D(G i, G j ) r,s b) t = t + 1 c) utworzenie nowej grupy G q = G i G j d) utworzenie nowego podziału: Podz N 1 t (N) = {Podz N t+1 t 1 (N) {G i, G j }} {G q} e) aktualizacja macierzy niepodobieństwa P(t) dla kroku t na podstawie P(t 1) (kroki 1-2): 1.Usunięcie dwóch rzędów i dwóch kolumn z macierzy P(t 1), które odpowiadają łączonym grupom. 2.Dodanie nowego rzędu i nowej kolumny dla nowo utworzonej grupy, które zawierają obliczone odległości pomiędzy nowo utworzoną grupą i wszystkimi grupami z kroku (t 1), które nie zostały w tym kroku zmienione. 5 until (wszystkie wektory są w jednej grupie). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

14 Sposoby aktualizacji macierzy - obliczania nowych odległości w każdym kroku Wg Jain i Dubes a: 1 Algorytm pojedynczego łączenia (ang. single linkage algorithm) D(C q, C s ) = min{d(c i, C s ), D(C j, C s )} 2 Algorytm pełnego łączenia (ang. complete linkage algorithm) D(C q, C s ) = max{d(c i, C s ), D(C j, C s )} 3 Algorytm uśredniania par (ang. weighted average linkage) D(C q, C s ) = 1 2 (D(C i, C s ) + D(C j, C s )) Ponadto: 4 Average Linkage (UPGMA),Centroid (UPGMC), Median (WPGMC), 5 Algorytm Warda (ang. Increase in Sum of Squares). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

15 Ważne aspekty grupowania hierarchicznego Złożoność czasowa macierzowych algorytmów aglomeracyjnych wynosi O(N 2 lg N) natomiast pamięciowa O(N 2 ). Ta ostatnia wynika z konieczności pamiętania macierzy niepodobieństwa o wymiarach N N. Wynik algorytmu grupowania hierarchicznego można przedstawić w postaci tzw. dendrogramu niepodobieństwa, w którym występuje oś skojarzona z używaną miarą niepodobieństwa. Przecięcie poziome dendrogramu daje jeden z możliwych podziałów. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

16 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu? [Jain A.K., Dubes R.C., Algorithms for clustering data, Prentice Hall, 1998] Procedura grupowania to nie tylko samo grupowanie? Procedurę grupowania tworzą następujące zadania składowe: 1 utworzenie reprezentacji, 2 wybór miary podobieństwa, 3 ustalenie tendencji grupującej, 4 grupowanie, 5 walidacja wyniku, 6 abstrakcja cech. W zależności od użytej miary podobieństwa, rodzaju algorytmu grupowania oraz różnych wartości jego parametrów, uzyskuje się różne wynikowe podziały danego zbioru obiektów. Z tego względu konieczne jest stosowanie weryfikacji uzyskanego podziału zwanej potocznie walidacją, która stanowi procedurę sprawdzającą poprawność uzyskanego podziału. Walidacji tej dokonuje się za pomocą weryfikacji hipotez statystycznych lub odpowiednio skonstruowanych wskaźników (indeksów) walidacyjnych: np. indeks Dunn a czy Xie Beni. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

17 Zdefiniowanie kryterium jakości [K.Stąpor, Automatyczna klasyfikacja obiektów, EXIT, W-wa 2005] W algorytmach iteracyjnej optymalizacji tj. k-means, k-medoids, najlepszy podział zbioru jest wyznaczany przez iteracyjne polepszanie pewnych wskaźników jakości, startując z początkowego podziału, najczęściej losowego. Wskaźniki jakości definiuje się w postaci funkcji kryterialnej, która jest zależna od zbioru uczącego oraz wektora nieznanych parametrów określających daną grupę. Funkcja kryterialna najczęściej jest konstruowana w postaci sumy kwadratów odległości wektorów w grupach od prototypów tych grup. Stanowi więc miarę rozproszenia wektorów w poszczególnych grupach. Ocenie może podlegać: uzyskany pojedynczy podział, hierarchia podziałów, pojedyncza grupa. Spośród wszystkich możliwych podziałów uzyskanych jako wynik działania danego algorytmu grupowania z różnymi wartościami parametrów należy wybrać ten, który najlepiej opisuje strukturę zbioru. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

18 Jak oceniać rezultaty k-means, k-medoids? Jeśli x c - centroid, średnia wartość z wszystkich obiektów nalezących do danej grupy C. wówczas, można zdefiniować miarę dopasowania skupienia c: TD(C) = p C dist(p, x c ) 2 Dalej, całkowity koszt grupowania w danej iteracji mozna wyznaczyć jako: k TD = TD(C i ) i=1 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

19 Jak oceniać rezultaty grupowania hierarchicznego? Problem wyboru optymalnego podziału rozwiązuje sama idea algorytmu. Jedynie, w zależności od wybranej metody tworzenia centroidu (single linkage, complete linkage, Ward, etc.), dwa najbardziej podobne obiekty mogą zostać łączone w grupę w innym czasie (w innym kroku algorytmu, raz wcześniej, raz później). Zatem, stosując techniki hierarchiczne, zwiększamy co prawda czas działania algorytmu, ale usuwamy problem oceny otrzymanego rozwiązania. Efektywność wnioskowania po grupowaniu reguł metodą analizy skupień Kryteria oceny systemów wnioskujących można podzielić na dwie grupy: kryteria związane ze złożonością obliczeniową algorytmu, kryteria związane z jakością otrzymanego podziału, kryteria związane z jakością generowanych wyników, np. trafność rozpoznawania, dokładność lokalizacji obiektu, etc.[kompletność, dokładność]. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

20 Jak zamierzamy zmodyfikować klasyczne podejścia? Pożądane własności dobrego podziału: możliwie najmniejsza liczba parametrów koniecznych do specyfikowania, możliwie najmniejsza krotność analizy elementów zbioru U, możliwość wykrywania grup o dowolnym kształcie, wielkości, gęstości, niewrażliwość na obecność szumu (wektorów odstających) w zbiorze, możliwość przetwarzania danych różnych typów (ciągłe, dyskretne), w szczególności ich kombinacji, niezależność wyniku od kolejności analizy obiektów zbioru U, możliwie największe podobieństwo obiektów wewnątrz danej grupy oraz możliwie najmniejsze podobieństwo grup do siebie. Rzeczywistość jest inna - niepożądane własności podziału: podobieństwo między obiektami w danej grupie spada poniżej pewnego ustalonego poziomu minimum. Różne są sposoby ustalania tego minimalnego współczynnika podobieństwa. W rozważaniach podejmowanych przez nas wcześniej brane były pod uwagę dwie metody: średnia z minimum i maksimum, średnia ważona. T = min(s(x, y)) + max(s(x, y)), 2 T = s (x, y). gdzie: s(x, y)- to pewna miara podobieństwa między obiektami x oraz y(np. miara Gowera). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

21 Kryteria oceny jakości podziału Jakość grupowania zależy od tego jak różnie obiekty są rozrzucone w węzłach drzewa a to z kolei zależy od algorytmu jakim były łączone i od tego jakich metryk używano do ich łączenia. Są 2 standardowe miary: miara oceny (ang. FScore), gdzie: FScore = 2RP R + P R - kompletność (ang. Recall), P - dokładność (ang. Precision). miara rozkładu - entropii (ang.entropy). Entropy(S r ) = 1 q nr i lg ni r lg q n r n r i=1 gdzie: q - liczba klas, nr i - liczba obiektów w i-tej klasie. Entropia całego drzewa T wynosi: t 1 Entropy(T ) = (S r ) t r=1 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

22 Miara Theodoridis i Koutroumbas,1999 [S. Theodoridis, K. Koutroumbas, Patern Recognition, Academic Press, 1999] Odpowiedni poziom odcięcia to ten, dla którego spełniony jest warunek: Gi,G j D min (G i, G j ) > max{h(g i, G j )} gdzie: h(g i ) jest miarą samopodobieństwa grupy, tj. podobieństwa pomiędzy wektorami z danej grupy. Miarę samopodobieństwa można zdefiniować np. jako maksymalną odległość wektorów w grupie: h(g) = max{d(x, y) x,y G } lub też jako średnią wartość odległości między wektorami w grupie: gdzie: h(g) = 1 d(x, y) 2N G x G y G d(x, y) oznacza którąkolwiek z miar niepodobieństwa wektorów. Innymi słowy, w końcowym podziale niepodobieństwo pomiędzy dowolną parą grup musi być większe niż samopodobieństwo każdej z grup. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

23 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

28 AHC kontra mahc a b c d e f g AHC [100] mahc [70] mahc [90] mahc [95] mahc - inne a - poziom w drzewie b - liczba pamietanych elementow c - liczba porównań w drzewie d - liczba porównań w innych drzewach e - suma porównań f - odchylenie g - procent błędu Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

29 mahc kontra AHC gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

30 mahc kontra AHC gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

31 Miara efektywności van Rijsbergen a, 1979 Miara ta umożliwia ocenę obydwu parametrów: kompletności oraz dokładności jednocześnie. gdzie odpowiednio: b to współczynnik skalujący [0..1], R to to kompletność (ang. recall), P to dokładność (ang. precision). E HC = b2 Idealna sytuacja R HC = 1.0, P HC = 1.0 jeśli b = 1 wówczas: E 2 HC = /4 1 = 1 = 1 1 = /4 4 Zależność jest taka, że im wartość E HC jest bliższa 0 tym większa jest efektywność systemu, i odwrotnie. b 2 R + 1 P gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

32 Eksperymenty Wyniki eksperymentów a b c d e f baza nr baza nr baza nr baza nr , 4 gdzie: a - liczba reguł, b - liczba grup,c - liczba poziomow w drzewie (wysokość drzewa), d - liczba porownań przy PZ, e - liczba porownań w AHC, f - procent BD gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

33 Podsumowanie - Wnioski 1 Hierarchiczne grupowanie reguł w bazach wiedzy przyspieszy procesy wnioskowania poprzez kryterium podobieństwa - relewantności elementów drzewa względem podanej nowej wiedzy. 2 Niekwestionowaną zaletą, drugą obok krótkiego czasu jest także fakt, iż wnioskując w ten sposób system będzie generował tylko niezbędne nowe fakty, nie obciążając w ten sposób systemu czy użytkownika nową wiedzą. 3 Dodatkowo - możemy zwiększyć jakość uzyskanego podziału poprzez grupowanie obiektów z kontrolą bliskości - kryterium stopu algorytmu. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

34 Literatura 1 Anderberg M.R., "Cluster analysis for applications", New York, Academic Press, Dubes R.C., Jain A.K., "Algorithms for clustering data", Prentice Hall, Everitt B.S., "Cluster Analysis (3rd edition)", Edward Arnold / Halsted Press, London, Hand D., Mannila H., Smyth P., "Eksploracja danych", Wydawnictwa Naukowo-Techniczne, Warszawa, Kaufman L., Rousseeuw P.J., "Finding Groups in Data: An Introduction to Cluster Analysis", John Wiley Sons, New York, Nowak A., Wakulicz-Deja A. Bachliński S., "Optimization of Speech Recognition by Clustering of Phones", Concurrency, Specification and Concurrency Ruciane-Nida, Poland, September 28-30, Nowak A., Wakulicz-Deja A., "The concept of the hierarchical clustering algorithms for rules based systems", Intelligent Information Systems New Trends in Intelligent Information Processing and Web Mining, Gdańsk, Poland, June 13-16, Nowak A., Wakulicz-Deja A., "Aglomeracyjne metody tworzenia skupień reguł dla optymalizacji procesów wnioskowania", Systemy Wspomagania Decyzji 2004, Zakopane, Poland, Grudzień 7-9, Stąpor K., "Automatyczna klasyfikacja obiektów", Akademicka Oficyna Wydawnicza EXIT, Warszawa Theodoridis S., Koutroumbas K., "Patern Recognition", Academic Press, gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2