POLSKA AKADEMIA NAUK Instytut Badań Systemowych Streszczenie rozprawy doktorskiej pt. Ensembles of Approximate Decision Reducts in Classification Problems Zespoły Aproksymacyjnych Reduktów Decyzyjnych w Problemach Klasyfikacji mgr inż. Sebastian Widz Studia Doktoranckie IBS PAN Promotor: dr hab. Dominik Ślęzak Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Warszawa 2018
Spis treści 1 Wprowadzenie 4 1.1 Cele i Tezy Rozprawy................................. 4 1.2 Motywacja........................................ 4 1.3 Główne wyniki rozprawy................................ 6 1.4 Układ rozprawy..................................... 7 2 Zagadnienia wprowadzające 8 2.1 Reprezentacja danych................................. 8 2.2 Wsparcie Decyzji i Odkrywanie Wiedzy....................... 9 2.3 Selekcja Cech...................................... 9 2.3.1 Metody Selekcji Cech............................. 9 2.3.2 Zespołowe Metody Selekcji Cech....................... 10 2.4 Selekcja Cech Oparta na Zbiorach Przybliżonych.................. 10 2.4.1 Redukty Decyzyjne i Decyzja Uogólniona.................. 10 2.4.2 Aproksymacyjne Redukty Decyzyjne..................... 11 2.4.3 Rozważania Algorytmiczne.......................... 13 2.5 Metodologia Eksperymentów Obliczeniowych.................... 13 3 Uczenie Maszynowe Drzew i Reguł Decyzyjnych 13 3.1 Indukcja Reguł Decyzyjnych.............................. 13 3.2 Indukcja Reguł Oparta na Reduktach Decyzyjnych................. 14 3.3 Indukcja Drzew Decyzyjnych............................. 14 3.4 Połączenie Reduktów i Drzew Decyzyjnych..................... 14 3.4.1 Selekcja Cech Wejściowych.......................... 15 3.4.2 Budowa Drzewa Decyzyjnego......................... 15 3.4.3 Eksperymenty Obliczeniowe.......................... 15 4 Redukty i Większościowa Decyzja Uogólniona 16 4.1 Większościowa Decyzja Uogólniona.......................... 16 4.2 Przybliżona Większościowa Decyzja Uogólniona................... 17 4.3 Aproksymacyjne Redukty Decyzyjne i Reguły Wyjątki............... 19 4.3.1 (m φ, )-Redukty Decyzyjne.......................... 19 4.3.2 Reguły Wyjątki................................. 20 4.3.3 Reguły Wyjątki-Luki.............................. 23 4.4 Biredukty i Większościowa Decyzja Uogólniona................... 23 4.5 Eksperymenty Obliczeniowe z (m φ, )-Reduktami................. 23 2
5 Zespoły Reduktów Decyzyjnych i Klasyfikatorów 24 5.1 Dywersyfikacja Podzbiorów Cech........................... 24 5.1.1 Podejście Permutacyjne............................ 25 5.1.2 Grupowanie Cech................................ 25 5.1.3 Hierarchiczne Grupowanie Reduktów Decyzyjnych............. 25 5.1.4 Podejścia Losowe................................ 26 5.2 Ważone Redukty Decyzyjne.............................. 26 5.2.1 Przykład Schematu Ważenia......................... 27 5.2.2 Zastosowanie Ważonych Reduktów Decyzyjnych.............. 28 5.3 Boosting Aproksymacyjnych Reduktów Decyzyjnych................ 28 5.4 Strategie Identyfikacji i Głosowania Reguł...................... 28 5.5 Eksperymenty z Zespołami (m φ, )-Reduktów.................... 28 6 Segmentacja Obrazów MRI 29 6.1 Wprowadzenie do Segmentacji Obrazów MRI.................... 29 6.2 Ekstrakcja Cech.................................... 29 6.2.1 Analiza Skupień Oparta na Histogramie i Sieciach Kohonena....... 30 6.3 Wyniki Segmentacji Obrazów MRI.......................... 30 6.4 Wizualizacja Reguł Wyjątków............................. 31 6.5 Optymalizacja Parametrów i Progu Aproksymacji.................. 31 7 Podsumowanie 32 Bibliografia 35 3
1 Wprowadzenie 1.1 Cele i Tezy Rozprawy Przedmiotem rozprawy jest zagadnienie konstrukcji zespołów klasyfikatorów bazujących na grupach podzbiorów cech obiektów opisanych w danych treningowych. Punktem wyjścia dla przeprowadzonej dyskusji jest teoria zbiorów przybliżonych (ang. rough sets theory) oraz pojęcie aproksymacyjnych reduktów decyzyjnych, konstruowanych przy wykorzystaniu miar jakości podzbiorów cech i opartych na nich regułach decyzyjnych [89]. Szczególną uwagę poświęcono zagadnieniu tworzenia modeli, które z jednej strony są łatwe w interpretacji dla użytkowników, z drugiej zaś osiągają zadowalającą jakość klasyfikacji. Przeprowadzone badania pozwoliły na sformułowanie następujących hipotez: 1. Teoria zbiorów przybliżonych pozwala na konstrukcję narzędzi selekcji cech, a jej prawa pozwalają na tworzenie klasyfikatorów o wysokiej skuteczności i jednoczesnej zrozumiałości dla ich użytkowników. 2. Istnieje szybka metoda liczenia aproksymacyjnych reduktów decyzyjnych, pozwalająca na tworzenie klasyfikatorów o zbliżonych lub lepszych parametrach klasyfikacji. 3. Możliwe jest zaadoptowanie narzędzi uczenia maszynowego do poprawy parametrów klasyfikatorów opartych na zespołach aproksymacyjnych reduktów decyzyjnych. 4. Możliwe jest stworzenie jednolitego matematycznego szkieletu obliczeniowego pozwalającego na porównywania różnych definicji aproksymacyjnych reduktów decyzyjnych znanych z literatury przedmiotu. 1.2 Motywacja Odkrywanie wiedzy i konstrukcja modeli decyzyjnych bazujących na bardzo dużych repozytoriach danych stanowi wyzwanie zarówno dla projektów komercyjnych jak i akademickich. Konstruowane modele powinny odznaczać się wysokim stopniem poprawności. Wykorzystanie zbyt wielu zmiennych w modelu powoduje, że staje się on zbyt skomplikowany, to znaczy posiada zbyt dużo parametrów w stosunku do liczby obserwacji (rekordów) zawartych w danych treningowych. Większość algorytmów uczenia maszynowego nie osiąga zadowalających wyników na zbiorach danych z dużą ilością atrybutów. Ich użycie powinno być poprzedzone selekcją najistotniejszych cech i ograniczeniem wymiarowości danych. Często stawianym wymaganiem jest prostota modeli, łatwość ich interpretacji oraz wytłumaczalność źródeł popełnianych błędów [148]. Wymaganie to ma często wyższy priorytet niż sama tylko skuteczność, szczególnie w przypadku wysokich kosztów popełnienia błędu. Niestety, jednoczesne osiągnięcie prostoty i wysokiej skuteczności jest często niemożliwe. W procesie projektowania, chcielibyśmy posiadać narzędzia pozwalające na określanie naszych preferencji w stosunku do tych parametrów. 4
Symboliczne metody klasyfikacji są postrzegane jako łatwiejsze w interpretacji niż numeryczne. Skupiają się na wyszukiwaniu zależności w danych, i rejestrują je za pomocą zrozumiałego języka reguł decyzyjnych [2, 105]. Z drugiej strony, nawet najbardziej skomplikowane algorytmy numeryczne mogą doprowadzić do nieskomplikowanych rezultatów jeżeli są uczone na danych z ograniczoną ilością cech. Teoria zbiorów przybliżonych [87, 89] jest skutecznym narzędziem wykorzystywanym do aproksymacji pojęć i wnioskowania na podstawie niedeterministycznych danych. Szczególnym jej zastosowaniem jest selekcja cech [91, 131] oparta pojęciu reduktu decyzyjnego minimalnego podzbioru cech, które wyznaczają wartości decyzji w takim samym stopniu co cały zbiór cech zawartych w oryginalnym zbiorze treningowym (lub pojęciu aproksymacyjnego reduktu przybliżonego, który pozwala na określony poziom braku wyznaczalności). Aproksymacyjne redukty decyzyjne zazwyczaj zawierają mniej atrybutów niż ich odpowiedniki właściwe. Przy tworzeniu na ich podstawie reguł decyzyjnych, brak pełnej determinacji decyzji prowadzi do powstawania błędów klasyfikacji również na zbiorze treningowym. Dla niespójnych danych taki stan rzeczy jest naturalny. Z drugiej strony, dla danych spójnych, możemy zaakceptować pewien poziom błędów mając na uwadze prostotę modelu. W obu przypadkach powinniśmy kontrolować poziom i miejsca występowania błędów. Wymagania dotyczące modeli decyzyjnych mogą przyjmować różne formy jak na przykład wykorzystanie wszystkich cech zawarte w oryginalnych danych lub uwzględnienie pewnego poziomu ich redundancji [36]. Inny przykład to włączenie w model informacji reprezentowanej przez mniejszościowe przypadki będące w sprzeczności z większością dostępnych obiektów w danych. Tradycyjne podejścia konstrukcji modeli często nie adresują tych zagadnień. Wymagania te mogą zostać pogodzone przy zastosowaniu wspomnianych już zespołów klasyfikatorów [70, 159]. Zespoły osiągają z reguły wyższą poprawność klasyfikacji niż pojedyncze klasyfikatory. Efekt synergii możliwy jest do osiągnięcia, jeżeli klasyfikatory składowe zawarte w zespole będą od siebie znacząco różne. Ten paradygmat zainspirował nas do zaproponowania nowej metody tworzenia symbolicznych modeli decyzyjnych opartych na regułach tworzonych na podstawie wielu aproksymacyjnych reduktów decyzyjnych powiązanych w zespół. Dzięki zwiększeniu poziomu aproksymacji możliwe jest uzyskanie wielu mniejszych podzbiorów atrybutów, a dzięki temu zwiększenie rozpoznawalności dla nowych przypadków i uniknięcie zjawiska nadmiernego dopasowania modelu. Zastosowanie wybranych metod dywersyfikacji może pozwolić na spełnienie wymagań posiadania wszystkich atrybutów w modelu (każdy atrybut musi być zawarty przynajmniej w jednym redukcie), wymagania o redundancji (każdy atrybut musi występować w więcej niż jednym redukcje) czy wreszcie posiadania reguł poprawnie klasyfikujących mniejszościowe przypadki (każdy obiekt powinien być dobrze klasyfikowany przez przynajmniej jedną regułę). Na przykład, chcąc utworzyć modeli oparty na kilku reduktach aproksymacyjnych, możemy tak sterować doborem reduktów lub reguł decyzyjnych aby każdy obiekt był poprawnie rozpoznawany przynajmniej przez jedną lub większość reguł ale nie wszystkie [117]. 5
1.3 Główne wyniki rozprawy Wyniki niniejszej rozprawy są następujące: 1. Przedstawienie nowych definicji aproksymacyjnych reduktów decyzyjnych oraz nowych metod ich generowania: (a) Przedstawienie oraz dyskusja o właściwościach większościowej przybliżonej decyzji większościowej, (b) Przedstawienia dwóch nowych algorytmów wyszukiwania aproksymacyjnych reduktów decyzyjnych opartych na większościowej decyzji uogólnionej, (c) Przedstawienie nowej metody konstrukcji klasyfikatora opartego na aproksymacyjnych reduktach decyzyjnych oraz hierarchii reguł i wyjątków, (d) Przedstawienie nowego algorytmu wyszukiwania aproksymacyjnych reduktów przybliżonych wykorzystującego ważenie obiektów treningowych oraz pozwalającego na ujednolicenie metod obliczeniowych dla dwóch znanych z literatury przedmiotu podejść wyszukiwania reduktów przybliżonych. 2. Przedstawienie metod tworzenia zespołów podzbiorów cech opartych na aproksymacyjnych reduktach decyzyjnych: (a) Ocena i porównanie metod głosowania i identyfikacji decyzji w klasyfikatorach opartych na reduktach decyzyjnych, (b) Omówienie metod dywersyfikacji reduktów w zespole, (c) Przedstawienie metody dywersyfikacji opartej na algorytmie hierarchicznego grupowania reduktów i zaproponowanie miary odległości pomiędzy reduktami, (d) Dostosowanie algorytmu AdaBoost do wyliczania zespołów aproksymacyjnych reduktów decyzyjnych. 3. Nowe zastosowania, biblioteka programowania i środowisko eksperymentalne: (a) Stworzenie biblioteki z otwartym kodem źródłowym implementującej omawiane metody, (b) Przeprowadzenie dyskusji na temat konstrukcji uproszczonych modeli i wykonanie eksperymentów z wykorzystaniem drzew decyzyjnych oraz aproksymacyjnych reduktów przybliżonych na danych wzorcowych, (c) Zastosowanie omawianych metod w problemie segmentacji obrazów medycznych MRI z nadzorem, włączając etapy ekstrakcji cech, tworzenia danych, selekcji cech i konstrukcji klasyfikatora, (d) Przeprowadzenie serii eksperymentów stosując zaproponowane metody na wzorcowych zbiorach danych. 6
1.4 Układ rozprawy Rozdział 2 zawiera wprowadzenie w tematykę zbiorów przybliżonych. Omówiono tu zagadnienia związane z selekcją cech w zbiorach danych i miarami jakości podzbiorów cech. Wprowadzono podstawowe pojęcia i definicje w szczególności definicje tablicy decyzyjnej, reduktu decyzyjnego, funkcji decyzji uogólnionej. Omawiane są zagadnienia związane z algorytmami generowania reduktów decyzyjnych, ich złożonością i potencjalnymi usprawnieniami. Ostatnia sekcja zawiera opis metodyki wykorzystanej w przeprowadzonych eksperymentach obliczeniowych. W Rozdziale 3 omówiono zagadnienia związane z indukcją reguł i drzew decyzyjnych. Po krótkim wprowadzeniu i omówieniu znanych z literatury podejść, zaprezentowano hybrydowe rozwiązanie bazujące na zmodyfikowanym algorytmie indukcji drzew oraz aproksymacyjnych reduktów decyzyjnych. Na bazie tego rozwiązania omówiono, w jaki sposób redukty przybliżone powiązane z symboliczną metodą uczenia maszynowego mogą przyczynić się do uproszczenia modelu decyzyjnego przy jednoczesnym zachowaniu porównywalnej dokładności klasyfikacji. Rozwiązanie opiera się na zmodyfikowanym algorytmie indukcji drzew decyzyjnych C4.5 [100]. Drzewo budowane jest na podstawie atrybutów zawartych w aproksymacyjnym redukcie decyzyjnym generowanym metodą zachłanną. Do podstawowego algorytmu wprowadzono dodatkowe kryterium stopu zbliżone w swej zasadzie działania do określania progu aproksymacji przy generowaniu reduktów przybliżonych. Na bazie omówionego algorytmu zaproponowano cztery modele decyzyjne różniące się pewnymi parametrami. Dla wszystkich czterech modeli wykonano szereg eksperymentów obliczeniowych i porównano z klasycznym algorytmem C4.5. Ostatnia sekcja zawiera podsumowanie wyników. Otrzymane wyniki pokazują, iż zaproponowane rozwiązanie w większości upraszcza model decyzyjny bez straty dla dokładności klasyfikacji. W Rozdziale 4 omówiono nowe pojęcie funkcji większościowej decyzji uogólnionej oraz przybliżonej większościowej decyzji uogólnionej. Obie funkcje są rozszerzeniami definicji funkcji decyzji uogólnionej pojęcia znanego z teorii zbiorów przybliżonych wykorzystywanego do analizy danych zapisanych w postaci niespójnych tablic decyzyjnych. Następnie, na bazie przybliżonej większościowej decyzji uogólnionej wprowadzono nowe definicje aproksymacyjnych reduktów decyzyjnych, omówiono ich właściwości wraz z dowodami i zaprezentowano algorytm ich generowania. Na podstawie nowej definicji reduktu przybliżonego oraz inspiracji logiką domniemaną (ang. default logic) [3] zaproponowano konstrukcję nowego klasyfikatora bazującego na hierarchii reguł decyzyjnych i tak zwanych wyjątkach (ang. exceptions) oraz wyjątkach-lukach (ang. gaps). Nowy klasyfikator nie tylko osiąga dobre wyniki klasyfikacji, ale przede wszystkim, pozwala na większą redukcję cech, jak również zachowanie informacji dostępnej w oryginalnych danych. W części eksperymentalnej porównujemy trzy warianty tego klasyfikatora z klasycznym klasyfikatorem opartym na regułach decyzyjnych tworzonych na podstawie atrybutów z przybliżonych reduktów. W Rozdziale 5 opisano zespoły aproksymacyjnych reduktów decyzyjnych. Po pierwsze, omówiono pojęcie dywersyfikacji oraz zaprezentowano metody dywersyfikowania reduktów decyzyjnych. Pierwsza z metod bazuje na hierarchicznej analizie skupień. Dzięki zdefiniowaniu odległości pomiędzy reduktami możliwe staje się ich grupowanie, natomiast dzięki hierarchicznej konstrukcji grup, wybór docelowej ilości grup może zostać przeprowadzony na końcu procesu na przykład na podstawie analizy konstrukcji dendrogramu. Inne metody dywersyfikacji bazują na sterowaniu permutacją atrybutów, która stanowi wejście dla omawianego wcześniej algo- 7
rytmu generowania reduktów przybliżonych. Po drugie, zaprezentowano definicję aproksymacyjnych reduktów decyzyjnych generowanych na danych, w których każdemu obiektowi przypisano pewną wagę. Dalej, pokazano jak nowa definicja pozwala na ujednolicenie dwóch znanych z literatury przedmiotu podejść do generowania reduktów opartych na funkcjach jakości podzbioru cech. Zaprezentowano dwa przykłady takich funkcji i odpowiadające im schematy ważenia. Po trzecie, nowa definicja reduktu przybliżonego generowanego na danych ważonych, została wykorzystana przy modyfikacji algorytmu AdaBoost znanego z zespołowego uczenia maszynowego. Algorytm Ada Boost został wykorzystany do generowania zespołów aproksymacyjnych reduktów decyzyjnych. Po czwarte, omówiono podobieństwa z bireduktami decyzyjnymi. Na koniec, zaprezentowano wyniki eksperymentów obliczeniowych. W eksperymentach wykorzystano zestaw klasyfikatorów omówiony w poprzednim rozdziale, jednak tym razem powiązanych w zespoły. Wyniki pokazują, że wykorzystanie zespołów znacząco poprawia dokładność klasyfikacji oraz pozwala na wprowadzanie większych redukcji złożoności na poziomie pojedynczych klasyfikatorów składowych. Z drugiej strony, dyskusyjne jest czy model zespołowy złożony z wielu prostszych klasyfikatorów, postrzegany jako całość jest łatwiejszy w interpretacji niż model złożony z pojedynczego klasyfikatora. Eksperymenty pokazały także, iż strategie projektowania klasyfikatorów złożonych powinny być inne niż ich pojedynczych odpowiednich. Na przykład model wykorzystujący hierarchiczny klasyfikator i nie korzystający z zapisu rozbieżności osiągał relatywnie lepsze rezultaty w zespole niż jako pojedynczy klasyfikator. W Rozdziale 6 zaprezentowano zastosowanie omówionych metod do problemu segmentacji medycznych obrazów MRI, przy czym zastosowano podejście uczenia maszynowego z nadzorem. Omówiono zastosowane metody ekstrakcji cech z obrazów MRI ludzkiego mózgu, etap konstrukcji tablicy decyzyjnej, selekcję cech oraz wygenerowanie hierarchii reguł na podstawie rozwiązania zaproponowanego w Rozdziale 4. Zastosowanie takiego klasyfikatora pozwala na wykonanie segmentacji dla nowych przypadków obrazów MRI, to znaczy przyporządkowanie etykiet z typem tkanki do poszczególnych pikseli obrazu. Ponadto, omawiamy propozycję wizualizacji reguł wyjątków na przykładzie obrazów MRI i analizy porównawczej tych wyjątków w powiązaniu z obszarami, na których klasyfikator popełnił błędy segmentacji. Na koniec omawiamy zagadnienie optymalizacji parametrów modelu włączając w to dyskusję o zależności pomiędzy poziomem aproksymacji stosowanym w reduktach przybliżonych a jakością danych treningowych. Rozdział 7 zawiera podsumowanie, wnioski końcowe oraz kierunki dalszych badań. W Dodatku A przedstawiono spis wykorzystywanych oznaczeń. Dodatek B zawiera matematyczne dowody zawartych w rozprawie stwierdzeń. W Dodatku C umieszczono opis biblioteki programistycznej NRough. W Dodatku D umieszczono szczegółowe wyniki eksperymentów. 2 Zagadnienia wprowadzające 2.1 Reprezentacja danych W niniejszej rozprawie zakładamy, iż dane reprezentowane są w postaci tabeli decyzyjnej zgodnie z poniższą definicją: 8
Definicja 2.1.1. Tabela decyzyjna jest to trójka A = (U,A {d}), gdzie U jest skończonym, niepustym, zbiorem zwanym uniwersum, przy czym elementy zbioru U nazywamy obiektami, A jest skończonym, niepustym zbiorem atrybutów (własności, cech) oraz d / A jest szczególnym atrybutem określającym przynależność obiektów do pewnej grupy (klasy, pojęcia) zwanym dalej atrybutem decyzyjnym lub decyzją. Do obiektów uniwersum będziemy odwoływać się poprzez ich indeksy porządkowe i = 1,..., U. Każdy atrybut a A jest rozumiany jako funkcja a : U V a gdzie V a oznacza dziedzinę wartości atrybutu a. Wartości z dziedziny decyzji v d V d, których opisem za pomocą wartości atrybutów A jesteśmy zainteresowani. 2.2 Wsparcie Decyzji i Odkrywanie Wiedzy W sekcji omówiono proces odkrywania wiedzy (KDD) [56] przedstawiony na Rysunku 2-1. W rozprawie koncentrujemy się na etapie selekcji cech oraz budowaniu klasyfikatorów. Nasze rozważania ograniczamy do symbolicznych metod uczenia maszynowego. Data Selection Preprocessing Transformation Feature Selection Data Mining Interpretaion & Evaluation Raw data Target data Preprocessed data Transformed data Filtered data Patterns and Models Knowledge Rysunek 2-1: Proces odkrywania wiedzy w bazach danych (KDD) 2.3 Selekcja Cech Selekcja cech jest jednym z najważniejszych etapów w procesie odkrywania wiedzy jest podstawowym narzędziem wykorzystywanym na drodze do zrozumienia danego problemu. Pozwala osiągnąć lepsze rezultaty w klasyfikacji i konstrukcji modeli decyzyjnych [44]. W tej sekcji omówiono podział metod selekcji cech ze względu na relację z algorytmami uczącymi oraz przytoczono wybrane przykłady metod znane z literatury przedmiotu. 2.3.1 Metody Selekcji Cech Pod kątem interakcji z algorytmem uczącym, metody selekcji cech można podzielić na filtry, wrappery (opakowane) oraz metody wbudowane [42, 76]. Filtry to grupa metod, która autonomicznie podejmuje decyzję, które z cech są istotne dla późniejszego etapu uczenia modelu [10]. Decyzja podejmowana jest na podstawie niezależnego od algorytmu uczącego kryterium. na przykład na podstawie informacji wzajemnej (ang. mutual information). W metodach opakowanych występuje sprzężenie zwrotne z algorytmu uczącego. Dzięki temu podzbiór cech optymalizowany jest pod kątem konkretnego klasyfikatora [43, 58]. W metodach wbudowanych proces selekcji cech wbudowany jest w proces uczenia i jest jego integralną częścią [73], w przeciwieństwie do metod opakowanych gdzie selektor cech jest niezależny od algorytmu uczącego. 9
2.3.2 Zespołowe Metody Selekcji Cech W niniejszej sekcji omówiono wybrane przykłady zespołowych metod selekcji cech [104]. W szczególności zaadresowano rankingowe i nierankingowe metody zespołowej selekcji cech [76], łączenia wyników z niezależnych selektorów cech [104, 133, 136] oraz dywersyfikacji [12, 45, 84, 86, 112, 135], a także metody zorientowane na stabilność (ang. robustness) [107] oraz przykłady ich zastosowań [85, 108, 138]. 2.4 Selekcja Cech Oparta na Zbiorach Przybliżonych 2.4.1 Redukty Decyzyjne i Decyzja Uogólniona Kluczowym pojęciem w teorii zbiorów przybliżonych jest pojęcie relacji nierozróżnialności. Definicja 2.4.1. Niech A = (U, A) będzie systemem informacyjnym. Dowolny B A definiuje w zbiorze U dwuargumentową relację IND A (B): IND A (B) = {(x,y) U 2 a B a(x) = a(y)} (2.1) IND A (B) jest zwana relacją nierozróżnialności generowaną przez zbiór B (w skrócie relacja B- nierozróżnialności). Jeżeli (x,y) IND A (B) wtedy obiekty x i y są od wzajemnie nierozróżnialne na podstawie atrybutów zawartych w B. Klasy równości utworzone na podstawie relacji B-nierozróżnialności w niniejszej rozprawie są oznaczane poprzez [x] B ilekroć chcemy określić klasę równości wyznaczoną przez podzbiór cech B, do której należy obiekt x oraz jako E B chcąc oznaczyć zbiory E t = {x U : B(x) = v t } wynikające z podziału uniwersum U/B. W teorii zbiorów przybliżonych, reduktem nazywamy minimalny podzbiór atrybutów, który może być użyty do jednoznacznego określenia wartości atrybutu decyzyjnego dla wszystkich obiektów. Podzbiory, które nie są minimalne nazywamy nad-reduktami. Definicja 2.4.2. Podzbiór B A jest reduktem decyzyjnym dla tabeli decyzyjnej A = (U, A {d}), wtedy i tylko wtedy gdy jest to najmniejszy możliwy podzbiór cech, takich że dowolna para obiektów x,y U, dla których d(x) d(y) jest rozróżnialna na podstawie wartości atrybutów w B. Definicja 2.4.2 dobrze sprawdza się przy redukcji cech w spójnych tablicach decyzyjnych. W sytuacji kiedy tablica jest niespójna nawet pełen zbiór atrybutów A nie spełnia kryterium bycia reduktem. W literaturze przedmiotu jest wiele alternatywnych definicji, które mogą zostać zastosowane do niespójnych tablic decyzyjnych w celu redukcji cech, przykładem takiej alternatywy może być warunek aby redukcja cech nie prowadziła do zmian w tak zwanym obszarze pozytywnym. Innym przykładem może być definicja reduktu decyzyjnego opartego na tak zwanej funkcji decyzji uogólnionej [89]. Definicja 2.4.3. Dla dowolnej tablicy decyzyjnej możemy rozważać funkcję decyzji uogólnionej d : 2 U 2 V d, której wartość przyjmuje postać zbioru: d (E) = {k : X k E } (2.2) 10
Moc zbioru uogólnionej decyzji odzwierciedla poziom niespójności w opisie atrybutu decyzyjnego przez cechy B A. Jeżeli d ([x] A ) = 1, wtedy tablica decyzyjna A = (U,A {d}) jest spójna, w przeciwnym przypadku jest niespójna. Definicja 2.4.4. Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest -nadreduktem decyzyjnym, wtedy i tylko wtedy jeżeli spełniony jest następujący warunek: d ([x] B ) = d ([x] A ) (2.3) x U B A jest -reduktem decyzyjnym, wtedy i tylko wtedy, gdy jest -nadreduktem decyzyjnym oraz żaden jego podzbiór nie spełnia powyższego warunku. Stwierdzenie 2.4.1. Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest nadreduktem decyzyjnym, wtedy: d ([x] A ) d ([y] A ) x,y U a B a(x) a(y) (2.4) Druga definicja jest szczególnie pomocna w konstrukcji algorytmów wyszukiwania reduktów, ponieważ pozwala na szybkie stwierdzenie czy dany atrybut może być usunięty ze zbioru cech. Innymi słowy, atrybut może być usunięty jeżeli: d ([x] B {a} ) = d ([x] A ) (2.5) x U Decyzja uogólniona pozwala na generowanie reduktów tradycyjnymi metodami [7, 110]. Różnica polega na tym, że wartości nowego atrybutu decyzyjnego zawierającego zbiory decyzji uogólnionej będą traktowane jako pojedyncze wartości symboliczne a wymaganie rozróżnialności względem decyzji będzie dotyczyło tych symboli. Na przykład wartość {1, 2} jest traktowana jako pojedynczy symbol, a nie jako zbiór dwóch wartości. Należy wspomnieć, że w reguły decyzyjne generowane na podstawie decyzji uogólnionej posiadającej więcej niż jedną wartość będą wskazywać na dysjunkcję decyzji na przykład (a = v a ) (b = v b ) (c = v c ) (d = 1) (d = 2). 2.4.2 Aproksymacyjne Redukty Decyzyjne Spośród wielu znanych z literatury przedmiotu podejść do generowania aproksymacyjnych reduktów decyzyjnych [79, 161] koncentrujemy się na podejściu opartym na miarach jakości podzbiorów cech. Zdefiniujmy miarę F : 2 A R, która określa poziom wyznaczalności F (B) decyzji d przez podzbiór B A. Decyzja, która cecha z A może zostać zredukowana może zostać podjęta na podstawie straty jaka powstanie po usunięciu danej cechy. Na tej podstawie możemy zdefiniować pojęcie (F, ε)-aproksymacyjnego reduktu decyzyjnego. Definicja 2.4.5. Niech A = (U,A {d}) będzie tablicą decyzyjną i dany jest próg aproksymacji (przybliżenia) ε [0, 1). B A jest (F, ε)-aproksymacyjnym (przybliżonym) reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: F (B) (1 ε)f (A) (2.6) 11
oraz żaden z właściwych podzbiorów C B go nie spełnia. Możemy sformułować też alternatywną wersję Definicji 2.6 nie odwołującą się do wartości F (A) oraz przy założeniu, że przedział wartości F (B) będzie znormalizowany do [0, 1]: Definicja 2.4.6. Niech A = (U,A {d}) będzie tablicą decyzyjną i dany jest próg aproksymacji (przybliżenia) ε [0, 1) oraz niemalejąca, monotoniczna (w sensie zawierania się zbiorów) funkcja F : 2 A [0,1]. B A jest (F,ε)-aproksymacyjnym (przybliżonym) reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: oraz żaden z właściwych podzbiorów C B go nie spełnia. F (B) 1 ε (2.7) Istnieje wiele przykładów definiowania funkcji F. Na przykład może odzwierciedlać moc obszaru pozytywnego generowanego przez podzbiór cech. Definicja 2.4.7. Niech A = (U, A {d}) będzie tablicą decyzyjną. Obszarem pozytywny P OS(B) jest podzbiorem obiektów uniwersum U, dla których możliwa jest jednoznaczna klasyfikacja do jednej z klasy decyzyjnych wykorzystując tylko wartości atrybutów zawartych w B: P OS(B) = {x U : y [x]b d(y) = d(x)} (2.8) Powyższa definicja może być zapisana w równoważny sposób za pomocą klas nierozróżnialności utworzonych na podstawie B: P OS(B) = {E U/B : x,y E d(x) = d(y)} (2.9) Powyższa definicja oznacza, że P OS(B) jest sumą klas równoważności generowanych przez B, w których obiekty posiadają jednakową decyzję. Rozważmy teraz funkcję γ : 2 A [0,1] zdefiniowaną przez równanie (2.10), która jest powszechnie wykorzystywana w teorii zbiorów przybliżonych do określenia poziomu wyznaczalności decyzji przez podzbiór cech [88]: γ(b) = P OS(B) U (2.10) Definicja 2.4.8. Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest γ-reduktem decyzyjnym dla A, wtedy i tylko wtedy jeżeli jest nieredukowalnym zbiorem atrybutów, takich że γ(b) = γ(a), lub równoważnie P OS(B) = P OS(A). Inny przykład miary F [150]: Definicja 2.4.9. Niech A = (U,A {d}) będzie tablicą decyzyjną. Dla B A, relatywną funkcją wzmocnienia (ang. Relative gain function) R : 2 A [0,1] nazwiemy funkcję następującej postaci: R(B) = 1 V d E U/B X k E max k V d X k (2.11) 12
Inny przykład miary F bazujący na często wykorzystywanej funkcji pewności (ang. confidence) podczas identyfikacji decyzji dla reguły decyzyjnej, oryginalnie zaproponowany w [123]: M(B) = E U/B E U max X k E k V d E (2.12) Definicja 2.4.10. Niech A = (U,A {d}) będzie tablicą decyzyjną i dany jest próg aproksymacji (przybliżenia) ε [0, 1). B A jest (M, ε)-aproksymacyjnym (przybliżonym) reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: i żaden z właściwych podzbiorów C B go nie spełnia. M(B) (1 ε)m(a) (2.13) Dla spójnej tablicy decyzyjnej A = (U,A {d}) zawsze zachodzi równość γ(a) = R(A) = M(A) = 1. Miara M(B) jest też monotoniczna: Stwierdzenie 2.4.2. Niech A = (U, A {d}) będzie tablicą decyzyjną. Dla podzbiorów cech B,C A, takich że C B zachodzi następująca nierówność: 2.4.3 Rozważania Algorytmiczne M(B) M(C) (2.14) Problem wyszukiwania minimalnych reduktów decyzyjnych jest problemem NP-trudnym [110]. Podobnie, problem wyszukiwania minimalnych (M, ε)-aproksymacyjnych reduktów przybliżonych jest NP-trudny [117] i do ich generowania zwykle wykorzystywane sa metody heurystyczne, których przykładem jest algorytm REDORD [154]. Algorytm ten składa się z dwóch części. W pierwszej generowane są permutacje atrybutów (w sposób losowy lub zgodnie z pewną strategią, której propozycje opisano w dalszej części rozprawy). W drugiej podejmowana jest próba redukcji atrybutów zgodnie z kolejnością występowania atrybutów w permutacji. 2.5 Metodologia Eksperymentów Obliczeniowych Eksperymenty obliczeniowo przeprowadzono na 21 wzorcowych zbiorach danych z repozytorium UCI [74]. Porównania klasyfikatorów dokonano przy uwzględnieniu najlepszych praktyk (kroswalidacja oraz nieparametryczne testy statystyczne) [16, 24, 33, 53]. 3 Uczenie Maszynowe Drzew i Reguł Decyzyjnych 3.1 Indukcja Reguł Decyzyjnych W niniejszej sekcji omówiono zagadnienie indukcji reguł decyzyjnych [18, 19, 37, 66, 98, 102, 119, 121]. 13
3.2 Indukcja Reguł Oparta na Reduktach Decyzyjnych Pojęcie reduktu decyzyjnego może zostać wykorzystane do generowania minimalnych reguł decyzyjnych. Zbiór reguł można utworzyć poprzez rzutowanie reduktu decyzyjnego na dane treningowe i utworzenie klas nierozróżnialności. Dla każdej z nich możemy utworzyć regułę, której lewa strona odpowiada atrybutom w redukcie i ich wartościom występującym w klasie, a strona prawa odpowiada pewnej decyzji. W zależności od rodzaju reduktu stosuje się różne podejścia do wyznaczania jej wartości. W klasycznym redukcie decyzyjnym (dla spójnych danych) decyzja w danej klasie będzie tylko jedna. W omawianym wcześniej podejściu wykorzystującym miarę M(B) wybiera się wartość decyzji, która jest decyzją dominującą. W literaturze przedmiotu można znaleźć wiele innych opisów indukcji reguł opartych na reduktach [39, 80, 119, 120, 127]. Na przykład w [128] analizowaliśmy czy kryteria użyte do redukcji atrybutów można stosować także w indukcji reguł. Dla miary M(B) oraz γ(b) kryteria identyfikacji to: oraz dla miary R(B): k = argmax X k E (3.1) k V d k = argmax k V d X k E X k gdzie k jest decyzją z dziedziny V d, X k jest zbiorem obiektów z przypisaną k-tą decyzją oraz E to zbiór obiektów należący do danej klasy nierozróżnialności. (3.2) 3.3 Indukcja Drzew Decyzyjnych W niniejszej sekcji omówiono zagadnienie indukcji drzew decyzyjnych oraz różnice i podobieństwa w odniesieniu do indukcji reguł decyzyjnych [14, 98, 100, 105]. W dalszej części omówiono także zagadnienie przycinania drzew [14, 78, 99, 100]. 3.4 Połączenie Reduktów i Drzew Decyzyjnych Przykład tworzenia klasyfikatora z wykorzystaniem reduktów decyzyjnych omawiamy na podstawie indukcji drzew decyzyjnych. Szkielet konstrukcji modelu może być scharakteryzowany następująco: 1. Wygeneruj wiele podzbiorów cech na podstawie przybliżonych reduktów decyzyjnych. 2. Wybierz najbardziej odpowiedni podzbiór stosując określone kryterium optymalizacji. 3. Stosując jedynie atrybuty z wybranego podzbioru, wygeneruj drzewo decyzyjne. 4. Przytnij drzewo stosując schemat przycinania na koniec lub w takcie indukcji drzewa. 5. Zweryfikuj dokładność otrzymanego modelu. 14
3.4.1 Selekcja Cech Wejściowych W opisywanym modelu do wygenerowaniu podzbiorów cech wykorzystano (M, ε)-redukty decyzyjne opisane w Sekcji 2.4 oraz zachłanną wersję algorytmu opisanego w Sekcji 2.4.3. 3.4.2 Budowa Drzewa Decyzyjnego Drzewo decyzyjne konstruowano z w oparciu o algorytm przechodzenia wszerz, dzięki czemu uzyskano bardziej równomierną głębokość podgałęzi. Po drugie wprowadzono kryterium stopu dla rozrostu całego drzewa polegające na ocenie klas równoważności generowanych przez drzewo i zatrzymaniu tego procesu przy osiągnięciu zadowalającej jakości. Kryterium Podziału Gałęzi Drzewa W zaproponowanym modelu w celu określenia atrybutu wykorzystywanego do wygenerowania następnego podziału gałęzi drzewa użyto kryterium największego przyrostu miary M(B). Zmiany tej dokonano aby kryteria podziału były maksymalnie zbliżone do kryteriów wykorzystanych przy generowaniu reduktu i wyborze cech w poprzednim kroku. Zwróćmy uwagę, że choć wykorzystywana jest ta sama miara to kryteria te nie są jednoznaczne. W przypadku drzewa, oszacowanie przyrostu odbywa się jedynie na podzbiorze danych, podczas gdy przy selekcji cech analizowany jest za każdym razem cały zbiór danych. Kryterium Stopu W procedurze indukcji drzewa wprowadzono dodatkowe kryterium stopu, które przerywa generowanie całego drzewa w momencie spełnienia warunku określonego Równaniem 2.13. Zwróćmy uwagę, że poszczególne gałęzie drzewa odpowiadają klasom równoważności generowanym na podstawie atrybutów użytych do wygenerowania danej gałęzi oraz podzbioru danych wyznaczonym przez tę gałąź. Na takim zbiorze klas równoważności możemy policzyć wartość miary M(B) oraz sprawdzić dla określonego parametru ε. Należy zwrócić uwagę, że wprowadzenie takiego kryterium nie jest kosztowne, ponieważ przy każdym podziale gałęzi musimy sprawdzić tylko bieżący przyrost wartości miary M(B) na lokalnej porcji danych i donieść go do warunku z Równania 2.13. Parametr dotyczący kryterium stopu dla indukcji drzewa będziemy oznaczać poprzez ε t aby odróżnić go od ε, który oznacza poziomu determinacji decyzji w przybliżonych reduktach decyzyjnych. 3.4.3 Eksperymenty Obliczeniowe W ramach eksperymentów obliczeniowych porównano cztery modele decyzyjne. Z czego jeden to klasyczny algorytm C4.5 z wbudowaną procedurą przycinania drzewa EBP. Pozostałe trzy modele różnią się stopniem wykorzystania omówionych powyżej modyfikacji np. zastąpienie przycinania EBP, kryterium stopu opartym na mierze M(B), generowanie drzewa na podstawie atrybutów występujących w reducie. W wynikach eksperymentów przede wszystkim należy odnotować fakt, że podejścia oparte na reduktach generowały modele, które wykorzystywały mniejszą liczbę atrybutów, generowane reguły decyzyjne były krótsze oraz było ich mniej, przy jednoczesnym braku różnic w klasyfikacji. Podsumowując otrzymywane modele były prostsze a nie pogarszało to wyników klasyfikacji. 15
Na uwagę zasługuje fakt, że zmodyfikowane kryterium jest obliczeniowo mniej kosztowne niż przycinanie drzewa zaimplementowane C4.5 i nie wymaga stosowania zbioru walidacyjnego. 4 Redukty i Większościowa Decyzja Uogólniona 4.1 Większościowa Decyzja Uogólniona Definicja 4.1.1. Niech A = (U, A {d}) będzie tablicą decyzyjną. Funkcją większościowej decyzji uogólnionej m d : 2 U 2 V d nazwiemy funkcję o następującej postaci: m d (E) = {k : X k E = max( X j E )} (4.1) j Funkcja większościowej decyzji uogólnionej odzwierciedla wybór najliczniejszej decyzji w ramach każdej klasy równoważności E U. Pełni taką samą rolę jak funkcja większościowa M(B) omówiona w Sekcji 2.4.2. Poniżej w Tabeli 4.1 zaprezentowano przykład tablicy decyzyjnej wraz z decyzją uogólnioną oraz większościową decyzją uogólnioną. Tablica 4.1: Tablica decyzyjna A = (U,A {d}) z decyzją uogólnioną d ([x] A ), większościową decyzją uogólnioną m d ([x] A ) oraz rozkładem wartości atrybutu decyzyjnego d (d 0,d 1,d 2 ) Id a 1 a 2 a 3 a 4 d d ([x] A ) m d ([x] A ) d 0 d 1 d 2 x 1 1 1 2 2 0 x 2 1 1 2 2 1 x 3 1 1 2 2 1 x 4 1 1 2 2 0 x 5 3 3 1 2 1 x 6 3 3 1 2 0 {0,1} {0,1} 0.5 0.5 0.0 {0,1} {0,1} 0.5 0.5 0.0 x 7 2 3 1 2 1 {1} {1} 0.0 1.0 0.0 x 8 1 2 2 1 2 x 9 1 2 2 1 2 x 10 1 2 2 1 1 x 11 1 2 2 1 1 x 12 1 2 2 1 0 {0,1,2} {1,2} 0.2 0.4 0.4 x 13 2 1 1 1 1 {1} {1} 0.0 1.0 0.0 x 14 2 2 1 1 0 {0} {0} 1.0 0.0 0.0 Definicja 4.1.2. Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest (m, =)-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy zachodzi następujący warunek: m d ([x] B ) = m d ([x] A ) (4.2) x U B A jest (m, =)-reduktem decyzyjnym wtedy i tylko wtedy gdy jest (m, =)-nadreduktem decyzyjnym oraz żaden jego podzbiór nie spełnia powyższego warunku. 16
Stwierdzenie 4.1.1. Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m,=)-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: ( ) m d ([x] A ) m d ([y] A ) x,y U a B a(x) a(y) W praktyce powyższa definicja może się okazać zbyt restrykcyjna w kwestii redukcji atrybutów. Poniżej przedstawiamy wersję ze zmodyfikowanym kryterium pozwalającą na mniej restrykcyjną redukcję atrybutów. Definicja 4.1.3. Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy zachodzi następujący warunek: (4.3) m d ([x] B ) m d ([x] A ) (4.4) x U B A jest (m, )-reduktem decyzyjnym, wtedy i tylko wtedy gdy jest (m, )-nadreduktem decyzyjnym oraz żaden jego właściwy podzbiór C B nie spełnia powyższego warunku. W praktyce weryfikacja warunku 4.3 z Definicji 4.1.2 może okazać zbyt skomplikowana. Poniżej przedstawiamy definicję, która zamiast zawierania zbiorów wykorzystuje operację przecięcia. Stwierdzenie 4.1.2. Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: x U y [x] B m d ([y] A ) (4.5) Poniższa definicja pozawala na łatwiejszą weryfikację czy B A jest (m, )-nadreduktem. Stwierdzenie 4.1.3. Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: x U y [x] B m d ([y] A ) = m d ([x] B ) (4.6) Stwierdzenie 4.1.4. Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: M(B) = M(A) (4.7) Zauważmy, że Definicja 4.1.3 jest bardziej restrykcyjna w kwestii redukcji cech niż Definicja 2.4.10 i może okazać się że podzbiór otrzymany zgodnie z Definicją 2.4.10 będzie mógł być jeszcze zredukowany na podstawie Definicji 2.4.10. 4.2 Przybliżona Większościowa Decyzja Uogólniona Definicja 4.2.1. Niech A = (U, A {d}) będzie tablicą decyzyjną oraz próg przybliżenia ε [0,1). Funkcja przybliżonej większościowej decyzji uogólnionej m ε d : 2U 2 V d nazywamy funkcję 17
o następującej postaci: m ε d(e) = {k : X k E (1 ε)max X j E } (4.8) j Stwierdzenie 4.2.1. Dla ε = 0 mamy: E m 0 d(e) = m d (E) (4.9) Stwierdzenie 4.2.2. Dla ε 1 mamy: E lim ε 1 mε d(e) = d (E) (4.10) Poniżej przedstawiamy zmodyfikowaną definicję (m ε, )-reduktu decyzyjnego rozszerzającą definicję omawianą w poprzedniej sekcji o parametr sterujący wyborem klas decyzyjnych w ramach każdej klasy równoważności. Zauważmy, że dla ε = 0 definicja ta jest równoważna definicji omawianej w Sekcji 4.1. Definicja 4.2.2. Niech A = (U,A {d}) będzie tablicą decyzyjną oraz próg przybliżenia ε [0,1). B A jest (m ε, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: x U y [x] B m ε d([y] A ) (4.11) B A jest (m ε, )-reduktem decyzyjnym, wtedy i tylko wtedy gdy jest (m ε, )-nadreduktem decyzyjnym oraz żaden jego podzbiór właściwy C B nie spełnia powyższego warunku. Stwierdzenie 4.2.3. Niech A = (U, A {d}) będzie tablicą decyzyjną. Następująca zależność jest prawdziwa dla każdego podzbioru B A: x U y [x] B m ε d([y] A ) m ε d([x] B ) (4.12) Stwierdzenie 4.2.4. Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest (m ε, )- nadreduktem decyzyjnym, wtedy zachodzi następująca nierówność: M(B) (1 ε)m(a) (4.13) Zauważmy, że w przypadku Stwierdzenia 4.1.4 mamy równoważność stwierdzeń, że B A jest (m, )-reduktem decyzyjnym oraz, że M(B) = M(A). Natomiast w przypadku Stwierdzenia 4.2.4 i (m ε, )-reduktu decyzyjnego mamy tylko implikację. Poniżej jako Algorytm 1 oraz Algorytm 2 przedstawiamy algorytm generowania (m ε, )- reduktów decyzyjnych. Szersze omówienie oraz przykład działania został pominięty z niniejszego opracowania i znajduje się w oryginalnej wersji niniejszej rozprawy. Warunek oparty na nierówności 4.11 w Definicji 4.2.2 pozwala na duże zaoszczędzenie czasu obliczeń. Przy pierwszym wykryciu pustego przecięcia, można przerwać dalsze walidacje. Puste 18
Algorytm 1 Generowanie reduktów decyzyjnych opartych na decyzji uogólnionej Wejście: A = (U,A {d}), ε [0,1), σ : {1,...,n} {1,...,n}, n = A A temp - temporary decision table for storing equivalence classes) Wyjście: B A 1: Calculate Generalized Majority Decision m ε d (E A) for all objects in A 2: B A 3: E B CreateEquivalenceClasses(A) 4: for i = 1 n do 5: E C Reduce(E B, B, a σ(i) ) 6: if E C E B then 7: E B = E C 8: B B {a σ(i) } 9: end if 10: end for 11: return B przecięcie zbiorów decyzji uogólnionej oznacza, że danego atrybutu nie można zredukować i musi on się znajdować podzbiorze będącym reduktem. Stwierdzenie 4.2.3 również jest istotne pod względem skrócenia obliczeń. Dzięki niemu możemy wykorzystywać wynik przecięcia zbiorów decyzji uogólnionych w kolejnej iteracji. Zmiany te w praktyce powodują znaczne przyspieszenie generowania reduktów, w porównaniu do (M, ε)-reduktów decyzyjnych omawianych w Sekcji 2.4.2, chociaż pesymistyczna złożoność obliczeniowa jest ta sama. 4.3 Aproksymacyjne Redukty Decyzyjne i Reguły Wyjątki W niniejszej sekcji przedstawiamy nowy typ klasyfikatora opartego na (m φ, )-reduktach oraz hierarchii reguł decyzyjnych. Klasyfikator wykorzystuje także specjalny typ reguł, do których odwołujemy się jako tak zwane wyjątki. 4.3.1 (m φ, )-Redukty Decyzyjne Przedefiniujmy pojęcie (m ε, )-reduktu. Przez analogię, nowe pojęcie oznaczamy jako (m ε,φ, )- redukt decyzyjny. Nowa definicja jest rozszerzeniem definicji (m ε, ). Dla przejrzystości będziemy stosować wartość parametru ε = 0 i pomijać go w oznaczeniach. Nowa definicja otrzyma zatem oznaczenie (m φ, ). Definicja 4.3.1. Niech φ [0,1) będzie progiem przybliżenia oraz A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m φ, )-nadreduktem decyzyjnym wtedy i tylko wtedy gdy istnieje zbiór obiektów X U, taki że X (1 φ) U oraz spełniony jest następujący warunek: x X y [x] B X m d ([y] A ) (4.14) B A jest (m φ, )-reduktem decyzyjnym wtedy i tylko wtedy gdy jest (m φ, )-nadreduktem decyzyjnym oraz żaden jego podzbiór nie spełnia powyższego warunku. Stwierdzenie 4.3.1. Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest (m φ, )- nadreduktem decyzyjnym, wtedy istnieje taki podzbiór X U, że spełniona jest nierówność X 19
Algorytm 2 Metoda Reduce dokonująca redukcji atrybutu Wejście: Kolekcja klas równoważności E B U/B, Podzbiór atrybutów B A, Atrybut do redukcji a B Wyjście: Kolekcja klas równoważności E C U/C gdzie C B jeśli a B został usunięty lub E B U/C w przeciwnym przypadku 1: function Reduce(E B, B, {a}) 2: C B {a} 3: E C 4: for all EquivalenceClasses E E B do 5: DEC 6: v B GetInstance(E) 7: v C Remove(v B, {a}) 8: E tmp Find(E C, v C ) 9: if E tmp NULL then 10: DEC GetDec(E tmp ) GetDec(E) 11: if DEC > 0 then 12: SetDec(E tmp, DEC) 13: else 14: return E B 15: end if 16: else 17: AddEquivalenceClass(E C, E tmp ) 18: end if 19: end for 20: return E C 21: end function (1 φ) U oraz warunek (4.14) i X jest wyznaczalne przez A, co oznacza, że X jest sumą pewnych klas nierozróżnialności U/A. Powyższe stwierdzenie pokazuje w jakim sensie podzbiory obiektów X U są sumą klas równoważności utworzonych na postawie pełnego zbioru atrybutów A, który następnie jest redukowany do B, a klasy równoważności łączone w coraz większe zbiory. Od tej pory będziemy zakładać, że podzbiory obiektów X U omawiane w kontekście (m φ, )-reduktów przyjmują formę sum klas równoważności U/A. Stwierdzenie 4.3.2. Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest (m φ, )- nadreduktem decyzyjnym, wtedy zachodzi następująca nierówność: M(B) M(A) φ (4.15) Metoda generowania (m φ, )-reduktów decyzyjnych została zaprezentowana jako Algorytm 3 (w tym przypadku opcja generowania wyjątków powinna zostać pominięta). Przykład i opis działania algorytmu oraz dyskusja o potencjalnej optymalizacji zostały pominięte w niniejszym opracowaniu i znajdują się w pełnej wersji rozprawy. 4.3.2 Reguły Wyjątki Wprowadzenie pojęcia reguły wyjątku rozpoczniemy od przedstawienia prostego przykładu. Rozważmy fragment tablicy decyzyjnej z Tabeli 4.2 prezentującej dane o gatunkach zwierząt po- 20
trafiących latać. Na podstawie prezentowanego fragmentu, możemy utworzyć listę reguł na Tablica 4.2: Zwierzęta potrafiące latać - przykład tablicy decyzyjnej Gromada Gatunek Czy lata?... Ptaki Kondor Tak Ptaki Papuga Tak Ptaki Gołąb Tak Ptaki Sowa Tak Ptaki Jastrząb Tak Ptaki Dzięcioł Tak Ptaki Pingwin Nie... przykład jeśli Gatunek = Kondor to potrafi latać, jeśli Gatunek = Papuga to potrafi latać,..., jeśli Gatunek = Pingwin to nie potrafi latać. Takie reguły, choć poprawne, nie są zbyt użyteczne ponieważ bazują na pojedynczych przypadkach z treningowego zbioru danych, to znaczy ich wsparcie i pokrycie jest bardzo niskie. Ponad to lista reguł opisująca każdy gatunek była by bardzo długa. Jak już zaadresowaliśmy w poprzednich rozdziałach zależy nam na uproszczeniu modelu decyzyjnego, które w tym przypadku może oznaczać redukcję ilości reguł decyzyjnych. Zauważmy, że reguła jeśli Gromada = Ptaki to potrafi latać nie jest w pełni poprawna - istnieją przypadki dla których ta reguła jest błędna. Z drugiej strony taka reguła posiada duże pokrycie i dla większości przypadków jest poprawna i jej eliminuje potrzebę posiadania wielu reguł opartych na atrybucie Gatunek. Jeżeli do tej reguły dodamy dodatkową regułę postaci if Gromada = Ptaki oraz Gatunek = Pingwin to nie potrafi latać nasz model będzie w pełni poprawny a zamiast początkowo siedmiu reguł będzie zawierać jedynie dwie. Aby zapewnić poprawność wnioskowania musimy jeszcze zadbać o właściwą kolejność wyszukiwania reguł. Najpierw sprawdzamy reguły bardziej szczegółowe, później, jeżeli żadna nie ma zastosowania, sprawdzamy reguły ogólniejsze. Reguły bardziej szczegółowe będziemy w naszym podejściu nazywać wyjątkami natomiast ogólniejsze regułami ogólnymi lub po prostu regułami. Spróbujmy uporządkować warunki dotyczące reguł ogólnych oraz warunków: 1. Reguła-Warunek są zawsze powiązana z regułą ogólną, 2. Reguła ogólna może również być warunkiem dla innej reguły (możemy rozważyć wielopoziomową hierarchię reguł), 3. Obiekty pokryte przez regułę wyjątek są również pokryte przez odpowiednią regułę ogólną, 4. Wszystkie atrybuty warunkowe użyte do konstrukcji reguły ogólnej występują również na powiązanych regułach wyjątkach (wyjątek dodatkowo uszczegóławia regułę ogólną, potencjalnie wskazując na inną wartość decyzji). W proponowanej budowie klasyfikatora możemy zauważyć wiele analogii do pojęć domniemania i rozszerzenia znanych z teorii Logiki domniemań [3]. Logika domniemań może wyrażać zdania jak "wszystkie ptaki latają", które w klasycznej logice byłoby zdaniem fałszywym. Logika domniemań posiada narzędzia formalne, dzięki którym możemy utworzyć zbiór zdań ogólnych i określić dla nich rozszerzenia (wyjątki), co w pełni zdefiniuje dany problem. Hierarchia reguł decyzyjnych była także omawiana w [111]. 21
Analizując przykłady generowania (m ε, )-reduktów omówione w rozprawie, można dojść do wniosku, że czasem pojedyncze obiekty będą w stanie zablokować potencjalną redukcję atrybutu ze względu na puste przecięcie zbioru większościowej decyzji uogólnionej. Z jednej strony chcielibyśmy aby redukcja cech była większa, z drugiej występowanie tych obiektów blokuje, zgodnie z posiadaną definicją, możliwość redukcji. Definicja 4.3.1 rozwiązuje ten problem poprzez zgodę na usunięcie pewnej liczny obiektów (lub dopuszczenie do pewnych niespójności) o ile liczba wszystkich niespójności nie jest większa niż określony parametr φ. Jeżeli chcielibyśmy zachować informację o przypadkach niespólnych, które musimy wykluczyć aby dokonać redukcji pewnych paramentów, wiedzę o tych obiektach możemy zapisać w postaci wyjątków. Algorytm?? przedstawia zmodyfikowaną wersję generowania (m φ, )-reduktów z dodatkowym krokiem zapisywania wyjątków w bazie reguł. Zauważmy, że wyjątki są tworzone jedynie w przypadku pomyślnej redukcji atrybutu. Szerszy opis działania algorytmu zamieszczono w pełnej wersji niniejszej rozprawy. Algorytm 3 Metoda generowania (m φ, )-reduktów wraz z opcją generowania reguł-wyjątków Wejście: Kolekcja klas równoważności E B U/B, Poziom przybliżenia φ [0,1); Zbiór atrybutów B A, Atrybut do redukcji a B Wyjście: Zaktualizowany zbiór reguł R ex, Kolekcja klas równoważności E C U/C gdzie C B jeżeli a B został usunięty lub E B U/B w przeciwnym przypadku 1: function Reduce3(E B, B, {a}, φ, R ex ) 2: C B {a} 3: E C 4: w C GetWeight(E B ) 5: Shuffle(E B ) # alternatywnie: SortDescending(E B ) 6: for all EquivalenceClasses E E B do 7: DEC 8: v B GetInstance(E) 9: v C Remove(v B, {a}) 10: E tmp Find(E C, v C ) 11: if E tmp NULL then 12: DEC GetDec(E tmp ) GetDec(E) 13: if DEC > 0 then 14: SetDec(E tmp, DEC) 15: else 16: w C w C E 17: if w C (1 φ) U then 18: return E B 19: end if 20: StoreExceptionRule(R ex, E tmp ) #opcja 21: end if 22: else 23: AddEquivalenceClass(E C, E) 24: end if 25: end for 26: SetWeight(E C, w C ) 27: return E C 28: end function W procesie generowania (m φ, )-reduktów generowane są wyjątki, które są zapisywane w ściśle określonej kolejności (zaczynając od najbardziej szczegółowych). Na koniec, na podsta- 22
wie otrzymanego reduktu, dodawane są reguły ogólne bazujące na atrybutach które należą do reduktu. W procesie klasyfikacji dla nowych przypadków obowiązuje ta sama kolejność sprawdzania. Najpierw sprawdzane jest czy obiekt testowy pasuje do najbardziej szczegółowych reguł wyjątków. Jeżeli jakaś reguła pasuje, wyszukiwanie jest przerywane, a wynikiem jest decyzja, na którą wskazywał wyjątek. Jeżeli nie, przeszukiwane są coraz bardziej ogólniejsze reguły. Na koniec reguła ogólna. Jeżeli żadna reguła nie pasuje, obiekt jest nierozpoznany (opcjonalnie można przydzielić decyzję najczęstszą w treningowym zbiorze danych, jednak w naszych eksperymentach ta zasada nie była stosowana.) 4.3.3 Reguły Wyjątki-Luki Za każdym razem jeżeli obiekt blokujący redukcję może być usunięty tracimy pewien fragment informacji. Wyjątki pozwalają na zakodowanie tej informacji w modelu w postaci specjalnych reguł. W naszych eksperymentach rozważyliśmy jeszcze inny rodzaj wyjątków - takich, które nie kodują informacji o samym obiekcie ale zapisują, że w przypadku danego usuniętego wzorca nie powinniśmy podejmować żadnej decyzji. Modelujemy to w sposób bardzo podobny do wyjątków, jednak tym razem wyjątek wskazuje na decyzję o specjalnej wartości oznaczającej obiekt nierozpoznany. Takie wyjątki nazywamy wyjątkami-lukami lub po prostu lukami (ang. gap) od stwierdzenia, że w danym obszarze pozostaje luka w naszej wiedzy. 4.4 Biredukty i Większościowa Decyzja Uogólniona W niniejszej sekcji zaadresowano pewne analogie i różnice pomiędzy pojęciami (m φ, )-reduktu decyzyjnego oraz bireduktów decyzyjnych [117, 118, 126]. Definicja 4.4.1. Niech A = (U,A {d}) będzie tablicą decyzyjną i niech B A, X U. B wyznacza d w zakresie X, co oznaczamy jako B X d, wtedy i tylko wtedy gdy B rozróżnia wszystkie pary obiektów u i,u j X, takie że d(u i ) d(u j ). Para (X,B) jest bireduktem decyzyjnym wtedy i tylko wtedy gdy następujące warunki są spełnione: 1. Zachodzi B X d, 2. Nie istnieje podzbiór właściwy B B, taki że B X d, 3. Nie istnieje podzbiór właściwy X X, taki że B X d. 4.5 Eksperymenty Obliczeniowe z (m φ, )-Reduktami W ramach eksperymentów obliczeniowych porównano trzy modele klasyfikacji oparte na omawianych w rozprawie (m φ, )-reduktach i klasyfikatorach wykorzystujących reguły-wyjątki i reguły-luki oraz porównano je z klasycznym modelem reguł decyzyjnych opartym na (M, ε)- reduktach. Wyniki pokazują, że nie występują znaczące statystycznie różnice na poziomie popełniania błędów przez wszystkie klasyfikatory, jednak pod kątem precyzji klasyfikacji najlepszy jest model z dodatkową bazą reguł-wyjątków. Innymi słowy jest to model, który w nie podejmuje decyzji w przypadku zidentyfikowania obiektu przez regułę-wyjątek. Należy też zwrócić uwagę na fakt, że modele wykorzystujące dodatkowe bazy reguł-wyjątków modelują pełną wiedzę zawartą w danych bez pogorszenia wyników (co oznacza że zjawisko nadmiernego dostosowania 23
może w tym przypadku być pominięte). Długość reguł podstawowych jest też w tym przypadku znacząco krótsza jednak przy uwzględnieniu dodatkowej bazy reguł i ich ilości dyskusyjne jest czy są to modele prostsze i bardziej zrozumiałe dla użytkowników. 5 Zespoły Reduktów Decyzyjnych i Klasyfikatorów W niniejszym rozdziale opisujemy zagadnienia związane z zespołami klasyfikatorów [159], poświęcając szczególną uwagę zagadnieniu wykorzystania tych samych mechanizmów, znanych z dziedziny uczenia maszynowego [69], w procesie generowania zespołów reduktów decyzyjnych. Szczególną uwagę poświęcamy mechanizmom dywersyfikacji [68, 70], łączenia wyników (klasyfikacji oraz selekcji cech). Omówiono również znane z literatury zbiorów przybliżonych podejścia wykorzystujące koncept uczenia zespołowego [93, 154], polegające na wykorzystaniu pewnej liczby reduktów do utworzenia reguł decyzyjnych a następnie wykorzystania mechanizmu głosowania do wygenerowania końcowej decyzji. 5.1 Dywersyfikacja Podzbiorów Cech W niniejszej sekcji omówiono zagadnienie dywersyfikacji w zespołach, w zadaniach klasyfikacji i selekcji cech. Pełniejsze wprowadzenie do zagadnienia dywersyfikacji znajduje się w pełnej wersji rozprawy. Poniżej omówimy jedynie, jak zbiory przybliżone mogą zostać wykorzystane do konstrukcji zespołów zarówno podzbiorów cech, jak i klasyfikatorów. Omawiane w poprzednich rozdziałach metody pozwalają na wygenerowanie wielu reduktów przybliżonych, to znaczy wielu różnych podzbiorów cech determinujących wartości atrybutu decyzyjnego. Mocno powiązane cechy atrybutów będą z reguły występować zamiennie w generowanych podzbiorach cech. Pozwala to na analizowanie wyznaczania wartości atrybutu decyzyjnego z różnych perspektyw i na podstawie różnych przesłanek wyrażonych w formie podzbiorów atrybutów warunkowych. Feature space R2 f7 R3 f8 f1 R1 f2 f6 f9 f3 f4 f5 Rysunek 5-1: Ilustracja różnorodności reduktów decyzyjnych - zbiór danych posiadający dziewięć cech oraz trzy redukty decyzyjne: R1, R2, oraz R3. Rysunek 5-1 przedstawia powyższą zasadę tworzenia zespołów mając na uwadze różnorodność, w tym przypadku wyrażoną przez podzbiory cech wejściowych modelu. W przedstawionym przykładzie na podstawie danych treningowych wygenerowano trzy redukty decyzyjne (R1, R2, R3). Ponieważ cechy zawarte w reduktach R1 oraz R2 w dużym stopniu się pokrywają, z 24
omawianej perspektywy jest zasadne zbudować zespół na podstawie reduktów R1 i R3 lub alternatywnie R2 i R3. W dalszej części omawiamy bardziej zaawansowane przykłady dobory reduktów w zespoły mając na uwadze ich zróżnicowanie. 5.1.1 Podejście Permutacyjne W omawianym w rozprawie algorytmie REDORD permutacja cech jest jednym z argumentów wejściowych i wyznacza porządek w jakim badane jest czy atrybuty dodane zostaną do podzbioru cech będącego reduktem decyzyjnym. Zauważmy, że atrybuty znajdujące się na początku permutacji mają większe szanse na bycie częścią podzbioru niż atrybuty znajdujące się na końcu permutacji. Podczas generowania kolejnych permutacji możemy sterować kolejnością atrybutów jeżeli dany atrybut nie występuje jeszcze w żadnym z reduktów zwiększamy jego szansę na wylosowanie na początku następnej losowanej permutacji [117]. Zauważmy również, iż mechanizm permutacyjny może być wykorzystany w interakcji z ekspertem, który uporządkuje kolejność atrybutów, w których powinny być one dodawane do reduktu decyzyjnego (lub redukowane z pełnego zbioru cech). 5.1.2 Grupowanie Cech Kolejną omawianą przez nas metodą dywersyfikacji jest grupowanie atrybutów [149]. W tym przypadku dywersyfikacja cech odbywa się poprzez zróżnicowanie parametrów wykorzystanych do generowania cech użytych do konstrukcji tablicy decyzyjnej. Rozważmy scenariusz, w którym wartości poszczególnych cech zależą od użytych parametrów. Za pomocą różnych kombinacji ustawień, możemy generować kolejne atrybuty i dodawać je do tablicy decyzyjnej. Zauważmy, że cechy generowane tą samą metodą ekstrakcji cech posiadają takie same znaczenie semantyczne i mogą być potraktowane jako grupa atrybutów. Proponowana przez nas metoda dywersyfikacji polega na konstrukcji reduktów w taki sposób, aby w pierwszej kolejności wybierane były pojedyncze atrybuty z każdej z grup. Wybór większej ilości atrybutów należących do tej samej grupy powinien być możliwy jedynie w przypadku, gdy dany podzbiór nie spełnia kryterium jakości (np. nie wyznacza decyzji wystarczająco dobrze, a wykorzystano już reprezentantów z każdej grupy). Rysunek 5-2 przedstawia schemat oraz komponenty takiego mechanizmu. 5.1.3 Hierarchiczne Grupowanie Reduktów Decyzyjnych Poniżej przedstawiamy propozycję dywersyfikacji przybliżonych reduktów decyzyjnych opartą na hierarchicznej analizie skupień [77]. W Sekcji 3.2 omówiono w jaki sposób redukty mogą zostać użyte do stworzenia prostego klasyfikatora opartego na regułach decyzyjnych. W przypadku decyzyjnych reduktów przybliżonych możemy oczekiwać, że wraz ze zwiększaniem progu przybliżenia więcej obiektów na zbiorze treningowym będzie niepoprawnie rozpoznane (zostanie im przypisana niewłaściwa decyzja). Z drugiej strony zależy nam na tym, aby w zespole posiadać klasyfikatory bazowe, które nie popełniają błędów na tych samych obiektach. Dążymy do sytuacji, w której cały zbiór danych treningowych będzie pokryty przez bazowe klasyfikatory będące w stanie poprawnie klasyfikować dane obiekty. Na podstawie błędów popełnianych przez oparty na redukcie klasyfikator bazowy możemy utworzyć binarny wektor, w którym elementy v i odpowiadają odpowiednio obiektom x i ze zbioru 25
Feature extraction methods (Meta-Attributes) Objects Database Parameter generator Meta-attributes a1, a2, a3, a4, a5, a6 c1, c2, c3 b1, b2, b3 b4, b5 Attribute selector Permutation generator Greedy selector Heuristic search Quality measures Hybrid approach Reduct generator a1, b2, c3 b1, c1 a2, c3 a4, a5, b4, c2 Reducts with metaattributes (incl. params) Reduct ensembles Decision Rules Data preparation Data & Domain knowledge Granular attribute reduction Knowledge Extraction feature extraction Rysunek 5-2: Schemat selekcji cech z grupowaniem atrybutów treningowego, a wartości binarne oznaczają poprawność wyniku klasyfikacji reguły decyzyjnej utworzonej na podstawie klasy równoważności [x i ] B, gdzie 1 oznacza poprawny wynik klasyfikacji oraz 0 w przeciwnym przypadku (Równanie 5.1). 1, jeżeli d(x k ) = argmax X E v B [k] = X U/{d} 0, w p.p. Miara podobieństwa reduktów aproksymacyjnych zostać może w ten sposób sprowadzona do miary odległości pomiędzy wynikami klasyfikacji z wykorzystaniem reguł decyzyjnych. 5.1.4 Podejścia Losowe Zróżnicowanie w zespole można osiągnąć metodami opartymi na przeszukiwaniu losowym. W przypadku reduktów możemy wykorzystać podejścia oparte na losowym próbkowaniu z powtórzeniami zbioru danych (tak jak w metodzie Bagging [120]) czy wspomniane już losowe generowanie permutacji wyznaczające kolejność, w jakiej atrybuty będą weryfikowane pod kątem redukcji. W przypadku reduktów przybliżonych możemy też generować zespół na podstawie różnych wartości progu przybliżenia ε. Jak pokazano w [140] taki model może osiągać bardzo dobre wyniki klasyfikacji. (5.1) 5.2 Ważone Redukty Decyzyjne Omawiane w powyższych rozdziałach metody konstrukcji klasyfikatorów oparte na reduktach przybliżonych nie pozwalają na sterowanie istotnością poszczególnych obiektów. Poniżej prezentujemy metodę konstrukcji przybliżonych reduktów decyzyjnych na danych, w których każdemu obiektowi przyporządkowano nieujemną wagę na podstawie funkcji ω : U [0, + ). Przedefiniujmy pojęcie mocy zbioru Y U, zgodnie z następującą definicją: Y ω = u Y ω(u) (5.2) 26
Na podstawie powyższej definicji, przekształćmy definicję mary M, zakładając że istnieje przynajmniej jeden u U taki, że ω(u) > 0: M ω (B) = 1 U ω E U/B max X k E ω (5.3) k V d gdzie wartość decyzji k jest identyfikowana na podstawie następującego fragmentu powyższego wzoru: k = argmax X k E ω (5.4) k V d Dla trywialnego przypadku 1 : U {1} otrzymujemy M 1 (B) = M(B). Dla klasycznych reduktów decyzyjnych B A w spójnej tablicy decyzyjnej zachodzi zawsze M ω (B) = 1. Poniżej przedstawiamy właściwości miary M ω : Stwierdzenie 5.2.1. Niech A = (U,A {d}) będzie tablicą decyzyjną oraz ω : U [0,+ ) będzie schematem ważenia obiektów uniwersum. Dla dowolnych podzbiorów B,C A, takich że C B jest spełniona następująca nierówność: M ω (B) M ω (C) (5.5) Stwierdzenie 5.2.2. Niech A = (U,A {d}) będzie tablicą decyzyjną oraz ω : U [0,+ ) będzie schematem ważenia obiektów uniwersum. Dla dowolnego B A są spełnione nierówności: 1 V d M ω(b) 1 (5.6) Definicja 5.2.1. Niech ε [0,1) będzie danym progiem przybliżenia, A = (U,A {d}) będzie tablicą decyzyjną oraz ω : U [0, + ) zadanym schematem ważenia obiektów należących do uniwersum. B A jest (ω, ε)-aproksymacyjnym reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek i żaden podzbiór właściwy C B go nie spełnia. M ω (B) (1 ε)m ω (A) (5.7) Stwierdzenie 5.2.3. Niech ε [0, 1) będzie danym progiem przybliżenia, A = (U, A {d}) będzie tablicą decyzyjną oraz ω : U [0, + ) zadanym schematem ważenia obiektów należących do uniwersum. Problem znalezienia (ω, ε)-aproksymacyjnego reduktu decyzyjnego z najmniejszą możliwą ilością elementów jest problemem NP-trudnym [123]. 5.2.1 Przykład Schematu Ważenia Stwierdzenie 5.2.4. Niech A = (U, A {d}) będzie tablicą decyzyjną. Rozważmy funkcję r : U [0, + ) zdefiniowaną w następujący sposób: r(u) = 1 {x U : d(x) = d(u)} (5.8) 27
Dla tak zdefiniowanego schematu ważenia obiektów, otrzymujemy: M r (B) = R(B) (5.9) Powyższe stwierdzenie pokazuje jak wykorzystując ten sam model obliczeniowy można otrzymać zarówno redukty decyzyjne oparte na mierze M(B) jak i na R(B) [130] stosując odpowiednie schematy ważenia 1 oraz r. 5.2.2 Zastosowanie Ważonych Reduktów Decyzyjnych Wykorzystanie ważenia obiektów nie jest niczym nowym w dziedzinie uczenia maszynowego, jednak powiązane z teorią zbiorów przybliżonych i aproksymacyjnymi reduktami decyzyjnymi daje zupełnie nowe narzędzie w odkrywaniu zależności w danych oraz modelowaniu decyzyjnym. Wagi mogą dla przykładu zostać przyporządkowane na podstawie wiedzy eksperta. Na przykład w problemie segmentacji obrazów MRI [146] ekspert mógłby zaznaczać na obrazie obszary, w których klasyfikator się pomylił, co powodowałoby zwiększanie wag dla tych obiektów i ponowny trening klasyfikatora. W [139] zaproponowano dwu etapową konstrukcję klasyfikatora w oparciu o informację o poziomie PVE (Partial Volume Effect - efekt zobrazowania woksla, zawierającego kilka rodzajów tkanek). Taka informacja może też posłużyć jako czynnik zwiększający wagi bardziej problematycznych obszarów obrazu. 5.3 Boosting Aproksymacyjnych Reduktów Decyzyjnych Różne schematy ważenia mogą prowadzić do różnych (ω, ε)-reduktów. Ten fakt może zostać wykorzystany do dywersyfikacji reduktów w zespole. W rozprawie przedstawiamy algorytm bazujący na konstrukcji boosting [30] będący wariantem algorytmu AdaBoost [160]. W tym przypadku w roli słabego klasyfikatora użyto (ω, ε)-reduktów [140]. 5.4 Strategie Identyfikacji i Głosowania Reguł Zespoły klasyfikatorów wymagają określenia metody zebrania poszczególnych wyników od klasyfikatorów słabych oraz określenia na ich podstawie wyniku końcowego. Poniżej przedstawiamy sześć metod głosowania opartych na poszczególnych współczynnikach wykorzystywanych podczas konstrukcji reguł decyzyjnych. Współczynniki te mają także swoje zastosowanie w procesie redukcji cech. Ciekawym zagadnieniem wydaje się być analiza, jak na końcowy wynik wpływa wykorzystanie tych samych kryteriów w procesie redukcji, identyfikacji reguł oraz w końcowym głosowaniu. Zagadnienie to zostało przeanalizowane w pracy [128, 150]. 5.5 Eksperymenty z Zespołami (m φ, )-Reduktów W części eksperymentalnej porównano te same cztery modele decyzyjne opisane w Sekcji 4.5 jednak w tym przypadku na ich podstawie utworzono zespoły klasyfikatorów, do porównania włączono też Lasy Losowe [13] oparte na drzewach decyzyjnych C4.5. Przede wszystkim na uwagę zasługuje fakt, że podobnie jak w przypadku pojedynczych drzew i w tym przypadku 28
Tablica 5.1: Sześć opcji ważenia reguł decyzyjnych odnoszących się do części następnika reguły, (plain, confidence and coverage), oraz części poprzednika reguły (single oraz support). E oznacza ilość obiektów wspierających lewą stronę reguły (liczność klasy nierozróżnialności). X E jest zbiorem obiektów posiadających najliczniejszą decyzję w E. single ω-support plain 1 E ω / U ω ω-confidence X ω E E ω/ E ω X ω E E ω/ U ω ω-coverage ( X ω E E ω/ X ω E ω)/( E ω / U ω ) X ω E E ω/ X ω E ω modele oparte na zaproponowanej w rozprawie metodzie można uznać za prostsze (pod kątem ilości i długości reguł) przy jednoczesnym braku znaczących różnic w jakości klasyfikacji (dokładność oraz precyzja). Dokonano też porównania zespołów z ich odpowiednikami w postaci pojedynczych klasyfikatorów o tym samym typie klasyfikatora bazowego. Porównanie takie może być wykonane jedynie poglądowo np. pojedynczy klasyfikator wybierany był metodą zachłanną, natomiast zespół metodą losowania. Zwracamy jednak uwagę, że poziom aproksymacji ε w przypadku klasyfikatorów złożonych przy porównywaniu ich na zbliżonych poziomach dokładności jest dużo wyższy w przypadku zespołów. Oznacza to, ze pojedyncze reguły są krótsze i jest ich mniej na poziomie pojedynczego klasyfikatora. Należy jednak pamiętać, że w zespole mamy do czynienia z dużą liczbą takich klasyfikatorów i ogólnie cały model należy postrzegać jako bardziej skomplikowany jednak wciąż intuicyjny i zrozumiały dla użytkowników. 6 Segmentacja Obrazów MRI 6.1 Wprowadzenie do Segmentacji Obrazów MRI W niniejszym rozdziale opisano podejście do segmentacji obrazów MRI mózgu z nadzorem bazujące na aproksymacyjnych reduktach decyzyjnych oraz teorii zbiorów przybliżonych. Celem segmentacji jest przypisanie do każdego woksla na danym obrazie etykiety z rodzajem tkanki, którą reprezentuje. W eksperymentach wykorzystano serię obrazów pochodzących z bazy SBD (Simulated Brain Database) [20, 21, 71, 72]. Obrazy poddano ekstrakcji cech przy użyciu algorytmów bez nadzoru. Wyekstrahowane cechy zapisano w postaci tabeli decyzyjnej, w której rekordy odpowiadają wokslom obrazu. Kolumny to ich cechy, natomiast atrybut decyzyjny oznacza rodzaj zobrazowanej tkanki a jego wartości pochodzą z dokonanej wcześniej segmentacji obrazu przez eksperta. Klasyfikator użyty do segmentacji bazuje na omawianych w Rozdziale 4 (m φ, )-reduktach oraz hierarchicznej bazie reguł decyzyjnych z wyjątkami. 6.2 Ekstrakcja Cech W niniejszej sekcji omówiono metody ekstrakcji cech z obrazów MRI. Źródło informacji do konstrukcji tablicy decyzyjnej stanowią obrazy MRI w trzech modalnościach (T1, T2, PD) oraz odpowiadający im fantom przedstawiający poprawny wynik segmentacji (Rysunek 6-1). Do metod ekstrakcji cech wykorzystanych do zbudowania tablicy decyzyjnej należą: 29
(a) T1 (b) T2 (c) PD (d) PH Rysunek 6-1: Przykład obrazu w modalnościach T1,T2 i PD Algorytm 4 (α, β)-hcluster Wejście: Elementy histogramu DOM Wyjście: Zaetykietowanie elementy histogramu 1: CAN DOM 2: REP 3: Dodaj element z największą wartością w histogramie do REP, jako pierwszy reprezentant grupy. 4: while (max i CAN (min j REP dist(i,j) + α * h i ) β) do 5: CAN CAN {i rep } 6: REP REP {i rep } 7: end while 8: Przypisz do każdego elementu w DOM identyfikator przypisany najbliższym elementom w REP 1. Grupowanie wartości poszczególnych woksli autorską metodą opartą o analizę histogramową (HCLUSTER), 2. Wykorzystanie sieci Kohonena, 3. Zastosowanie filtrów obrazu min. wykrywanie krawędzi, 4. Analiza sąsiedztwa, 5. Maskowanie poszczególnych obszarów obrazu i generowanie informacji przestrzennej. 6.2.1 Analiza Skupień Oparta na Histogramie i Sieciach Kohonena W niniejszym rozdziale przedstawiono szczegóły ekstrakcji cech metodami opartymi na analizie skupień, wykorzystującej analizę histogramową oraz na samo organizujących się sieciach Kohonena. Szczegóły dostępne są w pełnej wersji rozprawy, tu jedynie przytaczamy algorytm HCLUSTER (Algorytm 4) użyty do pogrupowania wartości woksli na podstawie histogramu. 6.3 Wyniki Segmentacji Obrazów MRI Rysunek 6-2 przedstawia przykładowe wyniki segmentacji dla dwóch obrazów MRI. Zwiększony próg aproksymacji pozytywnie wpływa na jakość segmentacji. Sposób przeprowadzenia eksperymentu oraz szczegółowe wyniki opisano w pełnej wersji niniejszej rozprawy. 30
(a) Errors (φ = 0.0) (b) Errors (φ = 0.06) (c) Errors (φ = 0.10) (d) Result (φ = 0.14) Rysunek 6-2: Błędy w segmentacji dla warstwy #90 6.4 Wizualizacja Reguł Wyjątków W niniejszej sekcji zaadresowano potencjalne możliwości wizualizacji reguł decyzyjnych oraz reguł wyjątków. Wizualizacja reguł może zostać wykorzystana jako element interakcji z ekspertem jeszcze na etapie projektowania systemu decyzyjnego na przykład do określania obszarów obrazu problematycznych. 6.5 Optymalizacja Parametrów i Progu Aproksymacji Wszystkie omawiane w tym rozdziale metody ekstrakcji cech posiadają pewien zbiór parametrów. W tej części omawiamy metodę ich optymalizacji z wykorzystaniem wspomnianej wcześniej metody grupowania atrybutów. Tablica 6.1 przedstawia zestawienie metod ekstrakcji cech wraz z ich parametrami. Na wyższym poziomie abstrakcji każda z metod ekstrakcji dostarcza pewnej informacji semantycznej o analizowanym obiekcie (wokslu). Decyzja o użyciu konkretnych parametrów powinna być sprawą techniczną i może wykraczać poza obszar zrozumiały dla ekspertów dziedzinowych. Te dwa aspekty powinny zostać od siebie oddzielone. W [149] zaproponowano podejście oparte na grupowaniu atrybutów i dokonywaniu selekcji cech wykorzystując dodatkową informację o przynależności atrybutu do danej grupy. Na przykład możemy tak sterować dodawaniem atrybutów do reduktu aby w pierwszej kolejności dodano reprezentanta z każdej grupy i dopiero wtedy, jeżeli nadal jakość podzbioru jest niezadowalająca, dodawać kolejnych reprezentantów do reduktu. W opisanym podejściu proponujemy, aby poszczególne atrybuty były generowane za pomocą konkretnej metody i jej parametrów dopiero w momencie gdy chcemy dodać taki atrybut do reduktu. Parametry do generowania atrybutu mogą zostać dobrane w taki sposób aby maksymalizować miarę M(B). Przestrzeń wartości parametrów jest potencjalnie nieskończona, dlatego wygenerowanie wszystkich możliwych ustawień i wyniku w postaci kolumn tablicy decyzyjnej jest w praktyce niemożliwe. Poprzez generowanie różnych podzbiorów atrybutów zawierających atrybuty wygenerowane za pomocą różnych ustawień osiągamy nie tylko zróżnicowanie, ale także możemy stworzyć atrybuty wzajemnie uzupełniające się w procesie wyznaczania decyzji przez dany redukt. Schemat tego procesu obrazuje Rysunek 6-3. 31
Tablica 6.1: Meta atrybuty i ich parametry w segmentacji obrazów MRI. Meta-atrybut Opis Parametry somm ag hcmag edge somn br hcnbr msk Segmentacja obrazu bez nadzoru Segmentacja obrazu baz nadzoru na bazie histogramu Wykrywa granice między obszarami tkanek Dla obszaru granicznego, przypisanie najczęstszej tkanki w sąsiedztwie na bazie atrybutu som Dla obszaru granicznego, przypisanie najczęstszej tkanki w sąsiedztwie na bazie atrybutu hc Określenie pozycji woksla względem punktu centralnego Modalność obrazu Liczba klastrów Współczynnik uczenia się Liczna iteracji Promień Liczba klastrów Szerokość słupka Minimalna odległość między klastrami Współczynnik istotności dla wysokości Stopień przybliżenia Liczba klastrów Próg szumu Kształt okna Rozmiar okna Kształt okna Rozmiar okna Liczba obszarów maskowań Promień Kształt dla operatora erozji 7 Podsumowanie W rozprawie skoncentrowaliśmy się na konstrukcji modeli opartych na podzbiorach cech generowanych na podstawie przybliżonych reduktów decyzyjnych. Przedstawiliśmy nowe sposoby ich tworzenia ze szczególnym nastawieniem na ich uniwersalność i wszechstronność, ale przede wszystkim na prostotę. Główne wyniki rozprawy to: Przedstawienie nowych definicji aproksymacyjnych reduktów decyzyjnych oraz nowe metody ich generowania, Przedstawienie nowego typu klasyfikatora opartego na hierarchii reguł decyzyjnych, regułach ogólnych i regułach wyjątkach, Analiza konstrukcji zespołów reduktów decyzyjnych, w szczególności takich aspektów jak dywersyfikacja, głosowanie bazowych klasyfikatorów, złożoność modeli zespołowych, Analiza kryteriów używanych podczas indukcji reguł, głosowania i redukcji atrybutów. Podsumujmy materiał każdego z rozdziałów oraz wskazujemy na pewne otwarte i nierozwiązane w rozprawie kwestie oraz potencjalne kierunki dalszych badań. 32
Image library Attribute extraction methods Granular attrib. reduction MRI Image in three modalities Phantom image Parameter generator Image histogram clustering SOM clustering Voxel relative position mask Edge detection and neighbor analysis Decision table with attribute grouping META ObjectId SOM Clustering Hist. Clustering Decision TECHN. VoxelId SOM_T1_5 SOM_T2_7 HC_T1_3 HC_T1_5 Tissue class 1 1 1 1 1 1 2 2 2 2 1 2 3 1 1 1 2 3 4 3 4 2 3 1 5 4 5 3 4 2 6 5 6 3 4 3 7 1 7 2 3 1 8 3 1 1 5 2 9 4 2 1 5 2 Decision attribute Rysunek 6-3: Proces segmentacji obrazów MRI z meta atrybutami. W Rozdziale 1 przedstawiono główne założenia i cele rozprawy oraz wyszczególniono nowy wkład w dziedzinę problemu. Rozdział 2 zawiera wprowadzenie w tematykę zbiorów przybliżonych, selekcji cech i pojęć związanych z odkrywaniem wiedzy i uczeniem maszynowym. W Rozdziale 3 zaprezentowano metodę złożoną z aproksymacyjnych reduktów przybliżonych oraz algorytmu indukcji drzew decyzyjnych. Zaprezentowana metoda miała na celu studium przykładowej metody hybrydowej, która z jednej strony nastawiona była na prostotę (w tym przypadku redukcję cech wykorzystywanych przez model decyzyjny), z drugiej wykorzystującej dobrze znany algorytm z uczenia maszynowego. Prezentowana metoda nie była nastawiona na generowanie najlepszych możliwych wyników klasyfikacji. Osiągnięto model, który z jednej strony jest prostszy niż model opierający się na standardowym algorytmie indukcji drzew (na przykład pod kątem ilości wykorzystanych atrybutów), z drugiej zaś, otrzymane wyniki klasyfikacji były takie same, co wykazano przeprowadzając serię testów statystycznych. W Rozdziale 4 zaprezentowano nowe pojęcia większościowej decyzji uogólnionej oraz przybliżonej większościowej decyzji uogólnionej. Oba pojęcia są rozszerzeniami dobrze znanej z literatury przedmiotu definicji decyzji uogólnionej, która przede wszystkim znajduje zastosowanie w konstrukcji modeli decyzyjnych na niespójnych danych. Na podstawie nowych definicji opracowano nowe algorytmy generowania aproksymacyjnych reduktów decyzyjnych. Omówiono także właściwości nowych reduktów i poparto je dowodami. Następnie, na podstawie inspiracji logiką domniemaną oraz nowych definicji reduktów przybliżonych, zaproponowano nowy typ klasyfikatora opartego na hierarchii reguł ogólnych i tak zwanych wyjątkach. Omówiono także specyficzną postać wyjątków jakimi są tak zwane reguły-luki. Pokazano korzystny wpływ zaproponowanego modelu na reprezentację wiedzy oraz na podniesienie jakości klasyfikacji. Z drugiej strony pozostaje kwestią dyskusyjną czy wprowadzenie hierarchii reguł oraz wyjątków jest bez znaczenia na przejrzystość i prostotę modeli decyzyjnych. W tym miejscu, chcielibyśmy zwrócić uwagę na kilka otwartych kwestii związanych z kla- 33