Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł

Transkrypt

1 Preprint The final publication is available at Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł Michał Mańkowski, Tadeusz Łuba, Grzegorz Borowik, Cezary Jankowski PUBLISHED IN: Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne 7/24 AUTHOR = {Micha\l{} Ma\'nkowski and Tadeusz \L{}uba and Grzegorz Borowik and Cezary Jankowski}, TITLE = {Indukcja regu\l{} decyzyjnych z dwustopniowym procesem selekcji regu\l{}}, JOURNAL = {Przeglad Telekomunikacyjny i Wiadomo\'sci Telekomunikacyjne}, YEAR = {24}, VOLUME = {LXXXVII}, NUMBER = {7}, PAGES = { }, MONTH = {Lipiec} AUTHOR = {Micha\l{} Ma\'nkowski and Tadeusz \L{}uba and Grzegorz Borowik and Cezary Jankowski}, TITLE = {Induction of decision rules with twostage selection process {(in Polish)}}, JOURNAL = {Przeglad Telekomunikacyjny i Wiadomo\'sci Telekomunikacyjne}, YEAR = {24}, VOLUME = {LXXXVII}, NUMBER = {7}, PAGES = { }, } MONTH = {July} UPLOADED UNDER SELF-ARCHIVING POLICIES NO COPYRIGHT INFRINGEMENT INTENDED

2 Preprint The final publication is available at Michał Mańkowski*, Tadeusz Łuba**, Grzegorz Borowik**, Cezary Jankowski** Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł Postęp w dziedzinie techniki komputerowej, jaki dokonał się w ostatnich latach, umożliwia gromadzenie ogromnej ilości danych Jednak celem nadrzędnym nie jest gromadzenie samych danych, a otrzymywanie z nich wiedzy pewnych wzorców, reguł, które umożliwią lepszą systematyzację i wyjaśnienie obserwowanych zjawisk Odpowiedzią na te potrzeby jest odkrywanie wiedzy z baz danych (Knowledge Discovery in Databases KDD) Obejmuje ono eksplorację danych jako jeden z elementów składowych związany z użyciem konkretnego algorytmu w celu ekstrakcji wybranej reprezentacji wiedzy z danych Eksploracja danych umożliwia rozwiązywanie problemów klasyfikacji, czyli odkrywanie zależności między wartościami atrybutów a klasami obiektów, istniejących w zbiorze, w celu określania przewidywanej decyzji dla nowego przypadku Wspomaganie podejmowania decyzji jest istotnym zadaniem eksploracji danych Nie ma najmniejszych wątpliwości, że eksploracja danych jest dziedziną interdyscyplinarną, zarówno pod względem zastosowań, jak i wykorzystywanych metod badawczych Coraz częściej stosuje się ją w naukach przyrodniczych (wyodrębnianie cech określających przynależność gatunkową), w medycynie (systemy wspomagania diagnostyki), ekonomii i bankowości (wstępna analiza możliwości kredytowych) Odkrywanie wiedzy z baz danych jest również stosowane w marketingu, wykrywaniu defraudacji oraz identyfikacji i przewidywaniu błędów w sieciach telekomunikacyjnych, a także przy klasyfikowaniu wiadomości mailowych Eksploracja danych integruje metody badawcze, takie jak: teoria zbiorów przybliżonych, przekształcenia boolowskie, logika rozmyta czy metody statystyczne Wykorzystuje również techniki i metody przekształceń boolowskich, powszechnie stosowane w syntezie logicznej układów cyfrowych [4] Różnorodność i wielość metod eksploracji danych, wywodzących się często z różnych dyscyplin badawczych, utrudnia potencjalnym użytkownikom identyfikację metod, które są najodpowiedniejsze * Instytut Radioelektroniki, ** Instytut Telekomunikacji, Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej, MMankowski@studelkapwedupl, luba@telepwedupl z punktu widzenia ich potrzeb w zakresie analizy danych Szczególnym mankamentem eksploracji danych jest niepełne wykorzystanie algorytmów syntezy logicznej W [5] omówiono zastosowanie algorytmów syntezy logicznej do redukcji atrybutów oraz dyskretyzacji danych Innym istotnym zagadnieniem eksploracji danych jest podejmowanie decyzji na podstawie wcześniej zgromadzonych danych Polega to na uogólnianiu wiedzy oraz indukowaniu reguł decyzyjnych W wyniku indukcji otrzymuje się zbiór reguł logicznych, który umożliwia podejmowanie decyzji nie tylko dla obiektów należących do bazy pierwotnej, dla której przeprowadzono obliczenia, ale przede wszystkim dla nowych obiektów do niej nienależących Rozważania dotyczące algorytmów eksploracji danych zostaną ograniczone w większości przypadków do systemów informacyjnych o specyficznej strukturze, a mianowicie do tablic decyzyjnych, których zastosowania w systemach podejmowania i wspomagania decyzji, a także w wielu zadaniach maszynowego uczenia, są coraz powszechniejsze Formalnie, parę A = (U, A) nazywa się systemem informacyjnym, gdzie U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów, tj każdy element a A jest funkcją z U w V a, gdzie zbiór V a jest dziedziną parametru a i jest nazywany zbiorem wartości dla parametru a Wtedy funkcja ρ odwzorowuje produkt U oraz A w zbiór wszystkich wartości Przez ρ(u t, a i ), gdzie u t U, a i A, oznacza się wartość atrybutu dla danego obiektu Systemem decyzyjnym jest system informacyjny postaci A = (U, A D), gdzie A D jest zbiorem pustym Atrybuty w zbiorze A nazywa się atrybutami warunkowymi, natomiast atrybuty w zbiorze D atrybutami decyzyjnymi Systemy decyzyjne są z reguły opisywane za pomocą tablic decyzyjnych Wtedy funkcja ρ odwzorowuje U (A D) w zbiór wszystkich wartości atrybutów W obydwu przypadkach, tj kiedy tablica opisująca system informacyjny oraz system decyzyjny ma w pełni określoną funkcję ρ, system nazywa się w pełni określonym Jednakże w praktyce dane wejściowe algorytmów eksploracji danych są często zaburzone przez brakujące wartości atrybutów [] Wtedy odpowiadająca funkcja ρ jest nie w pełni zdefiniowana, a systemy nazywają się nie w pełni określonymi W [] definiuje się przypadek brakujących wartości atrybutów oznaczanych

3 przez? i nazywanych wartościami do not care (bez znaczenia) W niniejszych rozważaniach również przyjęto, że będą uwzględniane tablice tylko z ewentualnymi wartościami do not care dla niektórych atrybutów Przedmiotem artykułu jest odkrywanie wiedzy z danych metodami indukcji reguł decyzyjnych Jest to związane z prowadzonymi przez autorów badaniami w zakresie uczenia maszynowego oraz syntezy logicznej W szczególności celem jest wskazanie i omówienie możliwości zastosowania zaawansowanych algorytmów syntezy logicznej, takich jak algorytmu uzupełnienia funkcji boolowskich oraz ekspansji W dalszej części publikacji omówiono typowe reguły indukcji reguł decyzyjnych, strategię dwustopniowej selekcji reguł i w końcu wyniki eksperymentów, mających na celu wykazanie skuteczności zaproponowanej metody Metody indukcji reguł decyzyjnych Celem indukcji ukierunkowanej na predykcję jest wygenerowanie z danych zbioru reguł, które będą użyte do klasyfikowania nowych obiektów Należy zauważyć, że zarówno rozwój algorytmów indukcji reguł, jak i sposób ich oceny, jest ukierunkowany przede wszystkim na perspektywę klasyfikowania nowych obiektów Ponieważ zbiór reguł jest traktowany wtedy jako klasyfikator, poprawność klasyfikowania jak największej liczby obiektów jest główną miarą oceny (rys ) Rys Indukcja reguł w procesie klasyfikacji Problem znalezienia minimalnego zbioru reguł, który pokrywa zbiór przykładów i poprawnie je klasyfikuje, jest NP-zupełny Dlatego stosuje się algorytmy przybliżone Najbardziej znane z dotychczas zaproponowanych opierają się na strategii sekwencyjnego pokrywania (Sequential covering) Polega ona na uogólnianiu pojedynczej reguły ustalonej klasy K obiektów, usuwaniu obiektów, które ona pokrywa i powtarzaniu procesu dla pozostałych obiektów klasy K W rezultacie powstaje zbiór reguł pokrywających rozważany zbiór obiektów klasy decyzyjnej K Proces ten powtarza się dla każdej wartości decyzji Uogólnianie polega na ograniczaniu liczby atrybutów (tzw selektorów) reguły pierwotnej danego obiektu w taki sposób, aby uzyskana reguła była spełniona przez możliwie największą liczbę przykładów (obiektów) należących do tej samej klasy decyzyjnej co reguła pierwotna oraz nie była spełniona przez żaden obiekt innej klasy decyzyjnej Jest to sposób postępowania stosowany w wielu algorytmach indukcji reguł Jednym z pierwszych algorytmów indukcji reguł decyzyjnych opartych na zasadzie pokryć był algorytm AQ zaproponowany w [7] Opierał się na tzw gwiazdach specjalizujących maksymalnie ogólne warunki założone Celem pokrycia jest odróżnienie ich od przykładów negatywnych Rozszerzeniem algorytmu AQ o techniki znane z dziedziny indukcji drzew decyzyjnych jest algorytm CN2 [8] Algorytm ten jest zastosowany choćby w systemie odkrywania wiedzy MLC++ Innym, zgodnym z zasadą pokryć lecz o innych właściwościach algorytmem jest PRIMS [6] Istnieją również algorytmy hybrydowe [7], łączące w sobie metody i koncepcje budowy drzew decyzyjnych i indukcji reguł Szczególny nacisk na zdolność predykcyjną reguł oraz na ich maksymalną długość podczas selekcji stosuje się w algorytmie PVM [26] Algorytm LEM2 [] zaczyna budowę reguły od postaci szczególnej, zawężając następnie zbiór pokryć przez dodawanie kolejnych warunków w poprzedniku reguły Jest to algorytm niepodający pełnego rozwiązania problemu, czyli heurystyczny Analizując stosowane algorytmy, należy wspomnieć o możliwości zamiany struktury drzewa decyzyjnego na zbiór reguł Realizuje się zamianę za pomocą koniunkcyjnej reprezentacji ścieżki, prowadzącej od korzenia do liścia Przykładem takich algorytmów generacji reguł mogą być algorytmy ID3 i C45 [2] Ze względu na znaczenie algorytmów redukcji reguł w klasyfikacji danych, rozważa się różne strategie obliczeniowe Wyróżnikiem jest w nich stopień uogólniania reguł, co wpływa na precyzję klasyfikacji obiektów spoza zbioru treningowego Do najbardziej precyzyjnych algorytmów można zaliczyć LEM2, stosowany min w systemie RSES [28] Algorytm ten klasyfikuje dane w taki sposób, aby podzbiór obiektów spoza zbioru treningowego o sprzecznych decyzjach był możliwie minimalny Odmiennym algorytmem jest przyjęcie strategii maksymalnego uogólniania reguł, tzn uzyskiwanie minimalnego zbioru najkrótszych reguł Taka strategia jest zbieżna ze strategią obliczeń stosowaną w minimalizacji funkcji boolowskich Istotę zjawiska można zaobserwować na hipotetycznym przykładzie reprezentującym wyniki sondażu przed wyborami prezydenckimi w pewnej republice Przykład Sondaż przed wyborami prezydenckimi w pewnej republice przeprowadzono według reguł decyzyjnych uzyskanych z danych (tabela ) reprezentujących odpowiedzi na pytania (tak, nie) uzyskane od respondentów W tabeli tej odpowiedziom tak przyporządkowano wartość, odpowiedziom nie, przy jednoczesnym wyróżnieniu zwolenników ocenianego kandydata na prezydenta atrybutem Tabela Dane do przykładu TAK, a przeciwników atrybutem NIE Celem jest obliczenie uogólnionych reguł decyzyjnych, określających zwolenników tego kandydata dla respondentów o dowolnych odpowiedziach na pytania sondażowe Dla binarnego systemu decyzyjnego z tabeli a a 2 a 3 a 4 a 5 a 6 a 7 d otrzymuje się następujący 8 wynik przy użyciu procedury 9 LEM2: (a 4,) & (a,) & (a 2,) & (a 7,) (d,), (a 2,) & (a 4,) & (a 5,) & (a 6,) (d,), (a,) & (a 5,) & (a 6,) & (a 2,) (d,), (a,) & (a 2,) & (a 5,) & (a 3,) & (a 4,) & (a 6,) (d,) Natomiast stosując system ESPRESSO [5] (przeznaczony do minimalizacji funkcji boolowskich), dla decyzji o wartości, otrzyma się wyrażenie logiczne: a dla decyzji o wartości : Wyrażenia otrzymane z systemu ESPRESSO można zapisać w konwencji reguł decyzyjnych: (a 4,) & (a 7,) (d,), (a 2,) & (a 6,) (d,), (a,) & (a 3,) & (a 6,) (d,),

4 (a 2,) & (a 6,) (d,), (a 4,) (d,) W celu porównania wyniku procedury LEM2 do wyniku procedury ESPRESSO, uzyskane formuły z LEM2 zapisze się w konwencji wyrażeń boolowskich: Charakterystyczną cechą strategii sekwencyjnego pokrywania jest uogólnienie reguły pierwotnej klasy decyzyjnej K, a następnie usunięcie ze zbioru obiektów klasy K wszystkich reguł spełniających uogólnioną regułę Proces uogólniania i usuwania jest powtarzany aż do usunięcia wszystkich reguł klasy K Uzyskiwane kolejno reguły uogólnione tworzą zbiór reguł reprezentujących klasę K Proces ten jest powtarzany dla wszystkich klas decyzyjnych Obiecującą odmienną strategią jest strategia dwustopniowej selekcji reguł W strategii tej dla każdego obiektu u i klasy K tworzy się zbiór wszystkich minimalnych reguł pozytywnych (R(u i )) Suma zbiorów R(u i ) dla wszystkich obiektów klasy K tworzy rodzinę minimalnych reguł tej klasy Rodzina ta jest następnie poddawana procesowi selekcji, którego celem jest wyznaczenie minimalnej rodziny minimalnych reguł Zarówno w procesie uogólniania pojedynczego obiektu, jak też w procesie selekcji, korzysta się z pojęcia pokrycia kolumnowego binarnej macierzy M Pokryciem kolumnowym binarnej macierzy M=[m ij ],iî{,,w}, jî{,,n} jest zbiór L Î{,,n} taki, że dla każdego iî{,,w} istnieje jîl dla którego m ij = Jeżeli usunięcie którejkolwiek z kolumn powoduje brak pokrycia, jest to minimalne pokrycie kolumnowe Pokrycie kolumnowe jest pokryciem, w którym elementami pokrywanymi są wiersze M, a pokrywającymi kolumny tej macierzy Jednak brak formalnych elementów pokrywanych i pokrywających skłania do wprowadzenia nazwy pokrycie kolumnowe Obliczanie pokrycia kolumnowego jest standardowym zadaniem, polegającym na transformacji wyrażenia boolowskiego typu CNF (Conjunctive Normal Form) na wyrażenie DNF (Disjunctive Normal Form) W wyrażeniu CNF czynniki koniunkcji są dysjunkcjami zmiennych boolowskich etykietujących te kolumny M, dla których w danym wierszu m ij = Liczba czynników jest równa liczbie wierszy macierzy M Istotnym problemem jest transformacja CNF na DNF, gdyż składniki wyrażenia DNF są koniunkcjami zmiennych reprezentujących kolumny macierzy M Zastosowanie pokrycia kolumnowego do uogólnienia reguły decyzyjnej obiektu u i dotyczy tzw macierzy rozróżnialności Macierz rozróżnialności tworzy się przez porównanie obiektu u i z każdym obiektem u j należącym do innej klasy decyzyjnej Porównanie polega na utworzeniu binarnego wektora w, w którym na pozycji k jest wartość zero, jeśli wartość atrybutu A k (u i ) obiektu u i jest taka sama, jak wartość atrybutu A k (u j ) obiektu u j lub co najmniej jedna z tych wartości jest nieokreślona W przeciwnym przypadku wartość składowej k wektora w jest równa jeden Zbiór wektorów w tworzy macierz rozróżnialności Z definicji macierzy rozróżnialności wynika, że aby uogólniona reguła obiektu u i nie pokrywała żadnego obiektu innej klasy decyzyjnej, to w odpowiedniej R(u i ) należy zostawić atrybuty, które odróżniają R(u i ) od każdego obiektu innej klasy decyzyjnej Na przykład dla obiektu u systemu decyzyjnego z tabeli odpowiednia macierz rozróżnialności będzie: M W porównaniu do procedury LEM2 system ESPRESSO umożliwia osiągnięcie wyników, które zawierają w sensie zbiorów wyniki algorytmu eksploracji danych Świadczy o tym fakt, że wynik osiągnięty za pomocą metod syntezy logicznej jest bardziej ogólny Strategia dwustopniowej selekcji reguł czyli dla zapewnienia pełnego rozróżnienia w regule R(u ) należy zostawić atrybuty: a 6 lub a 7 i a 3 lub a 4 i a 2 lub a 4 i a 2 lub a 3 lub a 7 Zapisując te warunki w postaci wyrażenia CNF: (a 6 + a 7 ) (a 3 + a 4 ) (a 2 + a 4 ) (a 2 + a 3 + a 7 ), dochodzi się do wniosku, że w celu obliczenia wszystkich uogólnionych reguł obiektu u (o minimalnej liczbie atrybutów) należy dokonać transformacji wyrażenia CNF do postaci DNF Wtedy składniki DNF reprezentują minimalne zbiory atrybutów R(u ) Wynik takiej transformacji jest następujący: a 4 a 7 + a 2 a 4 a 6 + a 3 a 4 a 6 + a 2 a 3 a 7 + a 2 a 3 a 6 Oczywiście najlepsza reguła będzie dla a 4 a 7, czyli R(u ) = (a 4,) & (a 7,) i jak łatwo sprawdzić żaden obiekt klasy d = nie spełnia tej reguły Podstawowe znaczenie w metodzie ma procedura obliczająca pokrycie kolumnowe macierzy M Ze względu na złożoność obliczeniową, zadanie generowania reguł nie jest zwykle możliwe do rozwiązania w czasie wielomianowym W szczególności zbiór pokryć macierzy M może zawierać zbyt wiele elementów, aby program mógł znaleźć rozwiązanie w rozsądnym czasie W związku z tym zaproponowano zastosowanie algorytmu uzupełnienia funkcji boolowskiej Możliwość zastosowania uzupełnienia funkcji boolowskiej do obliczenia wszystkich minimalnych pokryć kolumnowych macierzy binarnej M wynika z twierdzenia o pokryciu kolumnowym omówionym w [5] Wniosek z tego twierdzenia jest następujący: zamiast stosować transformację CNF na DNF wystarczy obliczyć uzupełnienie funkcji boolowskiej reprezentowanej macierzą M Metoda jest dokładnie przedstawiona w [3], dlatego ograniczono jej omówienie jedynie do obliczenia uzupełnienia macierzy M Funkcja boolowska macierzy M oraz jej uzupełnienie podane są w tabeli 2 Procedura uzupeł- Tabela 2 Funkcja boolowska macierzy niania jak wykazano M i jej uzupełnienie w [3],[5] jest x x 2 x 3 x 4 x 5 x 6 x 7 f bardzo szybka, zatem jej zastosowanie do indukcji reguł jest wskazane Dysponując szybkim algorytmem indukcji reguł dla pojedynczych obiektów, można pokusić się o indukcję dla wszystkich reguł danej klasy decyzyjnej i wybrać z nich reguły najogólniejsze, przeznaczone do następnego etapu selekcji Przy takiej organizacji trzeba będzie jednak wprowadzić heurystyczne algorytmy selekcji Przykład 2 Dla binarnego systemu decyzyjnego podanego w tabeli oblicza się minimalne reguły decyzyjne dla obiektów u do u 5

5 Oznaczając przez R i reguły generowane przez obiekt u i uzyskuje się kolejno: r = (a 4,) & (a 7,) r 2 = (a,) r 3 = (a 5,) r 4 = (a 4,) & (a 7,) r 5 = (a 2,) & (a 6,) oraz (a 3,) & (a 6,) Usuwając reguły powtarzające się, ostateczną listę reguł minimalnych zapisuje się następująco: R = (a,) R 2 = (a 4,) & (a 7,) R 3 = (a 5,) R 4 = (a 2,) & (a 6,) R 5 = (a 3,) & (a 6,) Na tej podstawie dla każdej obliczonej wyżej reguły R i wyznacza się wszystkie obiekty decyzji d = pokrywane przez R i Przykładowo: R u R 2 u 2, u 3, u 4 R 4 u, u 5 Tablicę pokryć pokazano w tabeli 3 Tablica pokryć umożliwia wybór (selekcję) takiego minimalnego zbioru reguł, który pokrywa wszystkie obiekty ustalonej klasy decyzyjnej Minimalny zbiór reguł klasy decyzyjnej d = można wyznaczyć obliczając minimalne u u2 u3 u4 u5 R R 2 R 3 R 4 R 5 pokrycie kolumnowe tablicy pokryć W tym celu zapisuje się wiersze tabeli w postaci zbiorów kolumn wskazywanych przez pozycje jedynek w danym wierszu Metoda selekcji pokryć zastosowana w proponowanym algorytmie indukcji oblicza wszystkie minimalne pokrycia kolumnowe metodą uzupełnienia funkcji boolowskiej, której specyfikacja (również jej uzupełnienia) jest podana w tabeli 4 Z zapisu uzupełnienia wynika, że wszystkie minimalne pokrycia kolumnowe są: R 2, R 4 oraz R, R 2, R 5 Oczywiście taki sam wynik uzyska się, dokonując transformacji wyrażenia typu CNF na DNF: Tabela 3 Tablica pokryć Tabela 4 Specyfikacja funkcji boolowskiej x x 2 x 3 x 4 x 5 f r 2 (r + r 4 ) (r 2 + r 3 + r 5 ) (r 4 + r 5 ) = r 2 r 4 + r r 2 r 5 Z powyższych rozważań wynika, że zadanie uogólnienia reguł decyzyjnych ustalonej klasy D k jest analogiczne do zadania minimalizacji funkcji boolowskiej f= (F, R), w której wektory zbioru F odpowiadają obiektom klasy D k, a zbiór R umożliwia utworzenie macierzy rozróżniającej Złożoność obliczeniową tego problemu można oszacować złożonością obliczeniową zadania minimalizacji funkcji boolowskiej Obliczeniem decydującym o eksplozji kombinatorycznej tego problemu jest zatem obliczenie wszystkich pokryć kolumnowych tablicy pokryć O złożoności tego problemu decyduje szybko rosnąca (ze wzrostem liczby atrybutów) liczność rodziny minimalnych reguł klasy D k W przypadku systemu decyzyjnego z tabeli liczba wszystkich minimalnych reguł jest 5: tym samym odpowiednia tablica pokryć (tabela 3) ma 5 kolumn W rezultacie obliczenie minimalnych pokryć kolumnowych tej tablicy można wykonać ręcznie jest widoczne gołym okiem Zjawisko występującej w tym problemie eksplozji kombinatorycznej dobrze wyjaśnia przykład tablicy decyzyjnej podanej w tabeli 4 W tym przypadku liczba wszystkich minimalnych reguł jest 68 Zatem odpowiednia tablica pokryć ma aż 68 kolumn, co znacznie utrudnia obliczenie uzupełnienia Z powyższych rozważań wynika, że obliczenia uogólnionych reguł decyzyjnych dla rzeczywistych baz danych muszą być przynajmniej dla tablicy pokrycia realizowane algorytmami heurystycznymi Natomiast rewelacyjna procedura uzupełnienia (Complement) może być zastosowana wyłącznie do obliczania minimalnych pokryć kolumnowych macierzy rozróżnialności Należy pamiętać, że algorytm uzupełnienia funkcji boolowskiej (complement) jest algorytmem systematycznym Uzyskuje najlepsze wyniki pokrycia, a co ważne dla generacji reguł, tworzy wszystkie rozwiązania problemu Zalet tego algorytmu niestety nie da się zawsze wykorzystać, szczególnie dla bardziej złożonych problemów Algorytm uzupełnienia jest szczególnie wrażliwy na liczbę kolumn w tablicy rozróżnialności Praktyka pokazuje, że tablice rozróżnialności podczas uogólniania reguł zawierają zazwyczaj więcej obiektów (wierszy), niż kolumn (atrybutów) Dlatego dla małych i średnich baz w rozumieniu ilości atrybutów (od do 3 atrybutów) z powodzeniem używa się uzupełnienia Niestety, odwrotną strukturę mają tablice rozróżnialności reguł Liczba kolumn jest zawsze nie mniejsza niż liczba wierszy Wynika to z faktu, że z każdego obiektu (wiersza) indukowana jest minimalnie jedna reguła Tabela 5 Przykład tablicy decyzyjnej x x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x y Ograniczenia w stosowaniu algorytmu uzupełnienia funkcji boolowskich spowodowały potrzebę użycia szybkich, heurystycznych algorytmów minimalizacji tablic boolowskich W programie Reguły zostały zaimplementowane dwa algorytmy iteracyjne: MaxCol i MinRow Algorytm MaxCol opiera się na prostym rozumieniu, że dla uzyskania minimalnego pokrycia kolumnowego najbardziej istotne są kolumny macierzy, które zawierają największą liczbę jedynek Postępowanie w algorytmie MaxCol Policzenie wystąpień wartości w każdej kolumnie;

6 2 Zapisanie kolumny z największą liczbą jeżeli jest kilka kolumn o tej samej liczbie, arbitralnie wybrana zostaje ta z mniejszym indeksem; 3 Usunięcie wszystkich wierszy, dla których w wybranej kolumnie znajduje się wartość ; 4 Jeżeli macierz nie jest pusta (zawiera elementy), następuje powrót do kroku ; 5 Zwrot zapisanych kolumn Algorytm MinRow opiera swoje iteracyjne działanie na analizowaniu wierszy o najmniejszej liczbie jedynek Kroki algorytmu MinRow Policzenie wystąpień wartości w każdym wierszu; 2 Wybranie wierszy z najmniejszą liczbą wystąpień ; 3 Policzenie wystąpień wartości w kolumnach, dla których dowolny wybrany w kroku 2 wiersz ma wartość ; 4 Zapisanie kolumny z największą liczbą wśród tych z kroku 3 jeżeli jest kilka kolumn o tej samej liczbie, arbitralnie wybrana zostaje ta z mniejszym indeksem Algorytmy Complement, MaxCol, MinRow stanowią nową strategię indukcji reguł decyzyjnych, którą dla odróżnienia od strategii sekwencyjnego pokrywania nazywa się strategią dwustopniowej selekcji Regułowy system decyzyjny Procedura dwustopniowej selekcji reguł składa się z następujących etapów Wyznaczenie macierzy rozróżnialności dla obiektu u i ustalonej klasy decyzyjnej 2 Obliczenie wszystkich uogólnionych reguł obiektu u i Macierz rozróżnialności jest wykorzystywana do obliczenia wszystkich uogólnionych reguł obiektu u i Obliczenie zbiorów wszystkich minimalnych reguł można sprowadzić do problemu obliczenia pokryć kolumnowych macierzy rozróżnialności Załóżmy, że kolumny macierzy rozróżnialności są indeksowane kolejnymi atrybutami warunkowymi tablicy decyzyjnej Wtedy każde minimalne pokrycie kolumnowe tej macierzy jest zbiorem atrybutów warunkowych uogólnionej i minimalnej reguły decyzyjnej obiektu u i W celu utworzenia tej reguły, atrybutom zbioru reprezentującego pokrycie kolumnowe przyporządkowuje się odpowiednie wartości obiektu u i, czyli jeśli minimalny zbiór atrybutów jest {a i, a j,,a k } oraz obiekt u i ma wartości atrybutów odpowiednio {w i, w j,,w k } to ugólnioną regułą jest: (a i = w i ) & ( a j = w j ) & ( a k = w k ) = d k 3 Obliczenie rodziny minimalnych ugólnionych reguł klasy decyzyjnej D k Powtarzając obliczenia z punktów i 2 dla każdego obiektu u i ustalonej klasy decyzyjnej D k uzyskuje się rodzinę minimalnych uogólnionych reguł klasy D k : R(D k ) = (r,, r max ) Reguły wchodzące w skład tej rodziny stanowią zbiór najlepszych reguł reprezentujących wszystkie obiekty klasy D k 4 Wyznaczenie tablicy pokryć klasy D k Chcąc uzyskać minimalny zbiór reguł (niekoniecznie o najmniejszej liczności) reprezentujących klasę D k,należy utworzyć tablicę pokryć (TP) Tablicą pokryć jest binarna tablica o liczbie kolumn n (n jest licznością rodziny R(D k )) i liczbie wierszy równej k (k liczba obiektów klasy klasy D k ) Element TP(i,j) tej tablicy przyjmuje wartość, gdy reguła r j pokrywa obiekt u, w przeciwnym przypadku i 5 Obliczenie minimalnego zbioru uogólnionych reguł klasy D k Minimalny zbiór uogólnionych reguł reprezentujących (pokrywających) klasę D k można wyznaczyć obliczając minimalne pokrycie kolumnowe TP W celu weryfikacji generowanych reguł decyzyjnych oraz symulacji ich zastosowania w programie Reguły został zmodelowany i zaimplementowany regułowy system decyzyjny Pierwszym etapem systemu jest trening, czyli generacja reguł Odbywa się ona przez dobór algorytmu generującego reguły spośród zaimplementowanych, tj complement, MaxCol lub MinRow Dodatkowo przy generacji reguł algorytmem complement jest możliwość wybrania, czy ma uwzględniać wyłącznie najkrótsze reguły, czy wszystkie Kolejnym krokiem jest wybór algorytmu do selekcji reguł podczas uogólniania, czyli obliczenia minimalnego pokrycia tablicy reguł Wybrać można spośród tych samych algorytmów, co w przypadku generacji reguł Po fazie treningu następuje faza selekcji Polega ona na utworzeniu zbioru reguł wspierających (pokrywających) dany obiekt Analizowane obiekty pochodzą z bazy testowej Istotnym i najbardziej zróżnicowanym etapem regułowego systemu decyzyjnego jest klasyfikacja Polega ona na określeniu decyzji obiektowi ze zbioru testowego na podstawie zbioru reguł uzyskanych w procesie selekcji Może zaistnieć kilka przypadków Pierwszym z nich jest sytuacja, gdy zbiór reguł po fazie selekcji (pokrywających obiekt) jest pusty Wówczas uznaje się obiekt za niepokryty Za poprawnie pokryty obiekt uznaje się sytuacje, gdy wszystkie wybrane podczas selekcji reguły mają jedną, tę samą oraz poprawną decyzję Tę decyzję przypisuje się obiektowi, który jest klasyfikowany Sytuacja staje się bardziej złożona, gdy zbiór wyselekcjonowanych reguł zawiera reguły z różnymi decyzjami Jako podstawę klasyfikacji w programie Reguły zastosowano częstość występowania decyzji reguły ze zbioru reguł wspierających Zliczana jest częstość występowania poszczególnych decyzji Obiektowi nadawana jest decyzja, która występuje najczęściej W przypadku, gdy występuje kilka decyzji o tej samej liczności oraz ta liczność jest maksymalna, wybiera się decyzję o młodszym indeksie Eksperymenty Istotnym elementem sprawdzania poprawności działania algorytmu są bazy testowe używane do weryfikacji implementacji Charakter bazy można określić za pomocą kilku cech: rodzaju i liczby atrybutów warunkowych, liczby instancji, liczby klas decyzyjnych Liczba atrybutów wybranych baz zawiera się w przedziale 9 57, a obiektów w przedziale Innym ważnym kryterium wyboru bazy, szczególnie biorąc pod uwagę aspekt porównania skuteczności algorytmów, jest powszechny dostęp oraz popularność w środowisku naukowym Wszystkie prezentowane w artykule bazy (tabela 6) są dostępne w repozytorium Uniwersytetu Kalifornijskiego [] Sprowadzając uogólnianie reguł decyzyjnych do problemu inżynierskiego, za ważny klasyfikator uważa się skuteczność systemu opartego na regułach w praktycznym użyciu Klasyfikator Tabela 6 Zestawienie prezentowanych baz danych Pełna nazwa bazy Spambase Data Set Dermatology Data Set Breast Cancer Wisconsin (Original) Data Set Indian Liver Patient Dataset Nazwa skrócona Liczba instancji Liczba atrybutów warunkowych Liczba klas decyzyjnych Spambase Dermatology Breast Cancer ILPD House Data Set House

7 można zmodelować za pomocą badania uzyskanej dokładności oraz pokrycia bazy testowej Oba testy powszechnie wykorzystuje się przy ocenie jakości reguł decyzyjnych [9, 25] Dokładność jest definiowana jako stosunek liczby poprawnie sklasyfikowanych obiektów do liczby wszystkich instancji bazy testowej Pokrycie intuicyjnie świadczy o liczbie przydzielonych decyzji dla obiektów, bez oceny ich poprawności, do wszystkich instancji Za inną ocenę jakości reguł można uznać badanie ich liczby oraz stopnia, w jakim każda z reguł pokrywa instancje bazy testowej Naturalnym i powszechnie stosowanym [25] sposobem testowania algorytmów eksploracji danych, czyli również algorytmów indukcji reguł decyzyjnych, jest podział bazy danych na dwie części: testową i treningową System uczony jest na bazie treningowej, a weryfikowany na testowej Podczas wyboru metody testowania algorytmu ważnym aspektem było odnalezienie i zastosowanie metody, która umożliwiałaby ograniczenie wpływu specyficznego doboru części treningowej oraz testowej zapewniającej korzystny bądź niekorzystny wynik testowania Wynika to z faktu, że instancje rzeczywistej bazy danych nie niosą równej informacji z perspektywy rozumienia indukcyjnego Częściowe, ale zadowalające, uniezależnienie się od przypadkowego wyboru instancji testowych/treningowych zapewnia metoda walidacji krzyżowej (cross validation) Polega ona na k-krotnym podziale bazy, gdzie k- części jest branych do treningu systemu, a k-ta część jest bazą testową Wykonywanych jest k iteracji, za każdym razem dla innej części testowej Pierwszą, a zarazem najbardziej istotną, procedurą testowania było przeprowadzenie walidacji krzyżowej o k = (CV-), mającej na celu zbadanie dokładności oraz pokrycia baz zaprezentowanych w tabeli 6 W celu ujednolicenia sposobu dyskretyzacji, do wszystkich baz zastosowano oprogramowanie Dyskretyzator, wykonane w ramach pracy dyplomowej [2] W celu porównania z innymi wybranymi metodami indukcji użyto oprogramowania Rough Sets Exploration System [28] W tabeli 7 przedstawiono wyniki porównawcze metod indukcji reguł decyzyjnych, program generujący, bazę, dokładność, pokrycie oraz algorytm indukujący reguły Dla programu Reguły są zawsze podane dwa rodzaje algorytmów: do generacji reguł oraz minimalizacji ich zbioru W przypadku bazy Spambase nie zastosowano algorytmu uzupełniania funkcji boolowskich, gdyż jej rozmiar to uniemożliwia Tabela 7 Wyniki porównawcze dla różnych metod indukcji reguł decyzyjnych Program Baza Dokładność Pokrycie Algorytm RSES2 Spambase 67,2% 93,% LEM2 Reguły Spambase 85,4% 95,% MinRow+MinRow RSES2 House 84,9% 89,6% LEM2 Reguły House 9,% % Complement+MinRow RSES2 Breast canser 87,% 87,% LEM2 Reguły Breast canser 87,9% 93,2% Complement+MinRow RSES2 Reguły RSES2 Reguły Indian Liver Patient Dataset Indian Liver Patient Dataset Dermatology Data Set Dermatology Data Set 28,84% 48,3% LEM2 66% 97% Complement+MinRow 87,77% 92,2% LEM2 78,% 99,8% Complement+MinRow W przypadku metod zaimplementowanych w programie Reguły osiągnieto lepsze wyniki dla baz Indian Liver Patient Dataset, Breast cancer, House, Spambase Jedynie dla bazy Dermatology Data Set wynik dokładności jest gorszy od wyniku oprogramowania RSES2 Na rys 2 przedstawiono wykres obrazujący stopień uogólnienia reguł Na osi poziomej zaprezentowano każdą kolejną wyge- Rys 2 Wygenerowane reguły oraz stopień pokrycia nerowaną przez program regułę, a na pionowej liczbę instancji bazy Spambase pokrytej przez tę regułę Program Reguły wygenerował 445 reguł, a RSES2 739 Z wykresu wyraźnie widać, że stopień uogólnienia reguł uogólnionych przez program Reguły jest większy (reguły pokrywają więcej obiektów) W programie Reguły do generacji reguł oraz minimalizacji tablicy reguł użyto algorytmu MinRow, ze względu na rozmiar bazy, a w programie RSES2 do indukcji zastosowano algorytm LEM2 * * * Przewagą proponowanego rozwiązania jest jego systematyczny sposób liczenia, dający pełne rozwiązania problemu pokrycia kolumnowego, podstawy uogólniania reguł Potwierdzono tezę, że niektóre zagadnienia eksploracji danych można z powodzeniem rozwiązać za pomocą metod bezpośrednio zaczerpniętych z syntezy logicznej układów cyfrowych Przeprowadzone badania potwierdziły zasadność stosowania algorytmu uzupełnienia funkcji boolowskich do uogólniania reguł decyzyjnych Metoda zapewnia zwiększenie stopnia ogólności indukowanych reguł decyzyjnych indukcji w porównaniu do innych metod Ograniczeniem algorytmu uogólniania funkcji boolowskich jest rozmiar bazy Jest to konsekwencja systematycznego charakteru algorytmu Jednakże nie należy odrzucać metody z powodu jej ograniczeń obliczeniowych Testy wykazały, że nie należy stosować algorytmu w przypadku rozległych baz, np z dziedziny telekomunikacji (ponad 4 instancji oraz ponad 5 atrybutów), w tym przypadku możliwa jest jedynie analiza heurystyczna Jednakże te same badania potwierdziły zasadność oraz skuteczność stosowania algorytmu indukcji reguł decyzyjnych w celu analizy diagnostycznych baz medycznych, które charakteryzują się mniejszymi rozmiarami w porównaniu do baz telekomunikacyjnych Systematyczne podejście w przypadku baz medycznych odniosło

8 sukces, udało się uzyskać lepsze wyniki, niż w przypadku innych porównywanych metod LITERATURA [] Bache K, Lichman M: UCI Machine Learning Repository [ icsuciedu/ml], Irvine, CA: University of California, School of Information and Computer Science, stan z listopada 23 [2] Borowik G: Data mining approach for decision and classification systems using logic synthesis algorithms (chapter) Vol Advanced Methods and Applications in Computational Intelligence R Klempous, J Nikodem, W Jacak, and Z Chaczko ed Springer International Publishing 24 [3] Borowik G, Łuba T: Fast algorithm of attribute reduction based on the complementation of boolean function (chapter) Vol Advanced Methods and Applications in Computational Intelligence R Klempous, J Nikodem, W Jacak, and Z Chaczko ed Springer International Publishing 24 [4] Bouckaert RR, Frank E, Hall M, Kirkby R, Reutemann P, Seewald A, Scuse D: WEKA Manual for Version 3-6-, 23 [5] Brayton RK, Hachtel GD: McMullen CT, Sangiovanni-Vincentelli A: Logic Minimization Algorithms for VLSI Synthesis, Kluwer Academi Publishers, 984 [6] Cendrowska J: PRISM, an algorithm for inducing modular rules, Int J Man-Machine Studies, 987 [7] Cios KJ, Pedrycz W, Świnarski RW: Data mining methods for knowledge discovery, Dordrecht, Kluwer, 999 [8] Clark P, Boswell R: Rule induction with CN2: some recent improvements, w: Kodratoff Y (red), Proceedings of 5th European Working Session on Learning ESWL 9 Porto, Portugal, Springer-Verlag, 99, ESWL 9 Porto, Portugal, Springer-Verlag, 99 [9] Grzymala-Busse JW: Rule Induction In Oded Maimon O, Lior Rokach R, Data Mining and Knowledge Discovery Handbook, Springer, New York 25 [] Grzymala-Busse JW: Incomplete data and generalization of indiscernibility relation, definability, and approximations In: RSFDGrC (), pp (25), DOI: 7/548669_26 [] Grzymala-Busse J W: Lers a system for learning from examples based on rough sets Intelligent Decision Support, 992 [2] Jankowski C: Dyskretyzacja danych numerycznych metodami przekształceń boolowskich Praca dyplomowa inżynierska Instytut Telekomunikacji Politechnika Warszawska Warszawa 24 [3] Komorowski J, Polkowski L, Skowron A: Rough Sets: A Tutorial, 998 [4] Łuba T(red), Rawski M, Tomaszewicz P, Zbierzchowski B: Programowalne układy przetwarzania sygnałów i informacji, Wydawnictwa Komunikacji i Łączności, Warszawa 28 [5] Łuba T (et al): Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, nr 5, 24 [6] Michalski RS: A theory and methodology of inductive learning, w: Michalski RS Carbonell JG, Mitchell TM (red), Machine Learning: An Artificial Intelligence, Approach, Morgan Kaufman, 983 [7] Michalski RSL: On the quasi-minimal solution of the general covering problem, w: Proc of 5th Int Symp on Information Processing FCIP 69, Bled, 969 [8] Nguyen HS: Systemy decyzyjne, skrypt do przedmiotu, Uniwersytet Warszawski, Warszawa, 2, dostępny na stronie [ stan z listopada 23 [9] Pawlak Z: Rough Sets: Theoretical Aspects of Reasoning about Data Kluwer Academic Publishers, 99 [2] Pawlak Z, Skowron A: Rough sets and Boolean reasoning, Information Sciences, 77, 27 [2] Quinlan JR, C45: Programs for Machine Learning, San Francisco, Morgan Kaufmann, 993 [22] Kohavi R: The Power of Decision Tables In: 8th European Conference on Machine Learning, 995 [23] Skowron A: Boolean reasoning for decision rules generation, w: Komorowski J, Raś Z (red): Methodologies for Intelligent Systems, LNAI 689, Berlin, Springer-Verlag, 993 [24] Skowron A: Intelligent Decision Support Handbook of Applications and Advances of the Rough Sets Theory, Dordrecht, Kluwer Academic Publishers, 992 [25] Stefanowski J: Algorytmy indukcji reguł decyzyjnych w odkrywaniu wiedzy, rozprawa habilitacyjna, Wydawnictwo Politechniki Poznańskiej, 2 [26] Weiss SM, Kulikowski CA: Computer Systems That Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning and Expert Systems, Morgan Kaufmann, 99 [27] Zhiguo H, Yuanxiang L: Rule induction Based on Decision Matrix, The 2nd International Conference on Volume 5, 2 [28] RSES Rough Set Exploration System, rses/