AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI KATEDRA INFORMATYKI

Transkrypt

1 AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI KATEDRA INFORMATYKI ROZPRAWA DOKTORSKA BADANIA NAD NOWYMI ALGORYTMAMI GENEROWANIA DRZEW DECYZJI MGR INŻ. MAKSYMILIAN KNAP Promotor: Prof. dr hab. inż. Zdzisław S. Hippe Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Kraków, 2008

2 Pragnę wyrazić swoją wdzięczność promotorowi mojej pracy prof. Zdzisławowi S. Hippe za udzielone zaufanie, opiekę naukową, wiele inspirujących dyskusji oraz konstruktywną krytykę. Z całego serca dziękuję moim najbliższym za nieocenione wsparcie, którego mi udzielali. Niniejsza praca powstała, przy wsparciu finansowym Ministerstwa Nauki i Szkolnictwa Wyższego w ramach grantu promotorskiego nr N N , za co również serdecznie dziękuję.

3 Spis treści ROZDZIAŁ 1 Wstęp. Cel i zakres pracy 4 ROZDZIAŁ 2 Współczesny stan badań nad drzewami decyzji 10 ROZDZIAŁ 3 Elementy teorii zbiorów przybliżonych w analizie danych sprzecznych 36 ROZDZIAŁ 4 Architektura systemu TreeSEEKER 41 ROZDZIAŁ 5 Moduł budowy modelu uczenia drzew decyzji 63 ROZDZIAŁ 6 Wyniki badań nowo-opracowanych algorytmów generowania drzew decyzji 80 ROZDZIAŁ 7 Podsumowanie 87 Literatura 89

4 ROZDZIAŁ 1 Wstęp. Cel i zakres pracy Postępy w dziedzinie sprzętu informatycznego, a zwłaszcza nośników informacji, umożliwiły gromadzenie dużych zbiorów danych o objętościach przekraczających rząd tera bajtów. Przemysł, bankowość, rynek ubezpieczeniowy, firmy telekomunikacyjne, sieci handlowe, systemy opieki medycznej to tylko niektóre przykłady, w których istnieją lub powstają tego typu zbiory danych. Wyzwaniem staje się obecnie nie tyle efektywne przechowywanie danych, lecz przede wszystkim ich analiza. Z tego właśnie względu, powstało zapotrzebowanie na nowe metody i narzędzia informatyczne, mogące wspomagać człowieka w odkrywaniu wiedzy z danych [Fayyad i in., 1996]. Zagadnienia te są obszarem badań w dziedzinie informatyki, związanej z odkrywaniem wiedzy (ang. knowledge discovery in databases, KDD). Termin ten oznacza nietrywialny proces poszukiwania nowych, potencjalnie użytecznych i zrozumiałych wzorców z danych [Frawley, Piatetsky-Shapiro oraz Matheus, 1991]. Przez wzorzec (ang. pattern) rozumie się tu pewną relację pomiędzy elementami danych, prowadzącą do ujawnienia ukrytych struktur wiedzy, w postaci np. drzew decyzji, reguł składniowych, reguł asocjacyjnych, czy Bayesowskich sieci przekonań [Kubat, Bratko oraz Michalski, 1998; Piatetsky-Shapiro oraz Matheus, 1991; Zembowicz oraz Żytkow, 1996]. Odkrywanie wiedzy jest często określane terminem eksploracja danych (ang. data mining). Jednak samo odkrywanie wiedzy jest pojęciem szerszym, obejmującym eksplorację danych jako jeden z elementów składowych, związanym z zastosowaniem określonego algorytmu ekstrakcji wiedzy z danych [Han 4

5 oraz Kamber, 2001]. Wg. [Fayyad i in., 1996], odkrywanie wiedzy jest interaktywnym i iteracyjnym procesem, w którym można wyróżnić następujące etapy: analizę i poznanie dziedziny zastosowania, identyfikację dostępnej wiedzy i celów analizy; wybór danych związanych z celami procesu; czyszczenie i wstępne przetwarzanie danych; wybór szczegółowego zadania oraz niezbędnych algorytmów odkrywania wiedzy; pozyskiwanie wiedzy z danych (podstawowy krok w eksploracji danych); interpretację i ocenę odkrytej wiedzy, a także zastosowanie odkrytej wiedzy w odniesieniu do nowych (niewidzianych 1 ) danych. Obecnie większość badań dotyczących odkrywania wiedzy koncentruje się na algorytmach eksploracji danych, chociaż inne etapy wspomnianego powyżej procesu mają równie duże znaczenie w jego pomyślnej realizacji [Brachmann oraz Tej, 1996; Cios, Pedrycz oraz Świnarski, 2000; Han oraz Kamber, 2001; Mannila, 1997]. Należy tutaj podkreślić dużą rolę użytkownika; jak wskazują [Brachmann oraz Tej, 1996; Fayyad i in., 1996; Kowalczyk, 1998; Mannila, 1997], to użytkownik systemu odkrywania wiedzy powinien posiadać dobre rozumienie dziedziny zastosowania, tak aby wybrać właściwy podzbiór danych, określić jakie są zadania analizy, jaka powinna być reprezentacja poszukiwanej wiedzy oraz których algorytmów eksploracji należy użyć. Z tego zatem względu, system odkrywania wiedzy powinien być oprogramowaniem interaktywnym, a nie narzędziem w pełni automatycznym, ponieważ proces odkrywania wiedzy jest procesem intensywnego współdziałania człowieka z oprogramowaniem i składa się najczęściej z wielu iteracji, obejmujących modyfikacje wstępnych wyników i powtarzanie niektórych etapów [Brachmann oraz Tej, 1996]. Obszerną i kompletną analizę możliwości i ograniczeń procesu odkrywania wiedzy przedstawili [Fayyad i in., 1996; Han oraz Kamber, 2001; Weiss oraz Indurkhya, 1999], wskazując na następujące podstawowe kategorie za- 1 Pojęciem niewidzianych danych określa się takie dane, które nie brały udziału w trakcie procesu pozyskiwania wiedzy. Mogą to być nowe przypadki lub przypadki wydzielone z oryginalnych danych, służące do weryfikacji uzyskanych modeli. 5

6 dań, rozwiązywanych w procesie odkrywania wiedzy z danych: klasyfikację, regresję, analizę szeregów czasowych, analizę skupień, podsumowanie danych poprzez tworzenie opisów (charakterystycznych lub wyróżniających) klas obiektów, analizę zależności pomiędzy atrybutami opisującymi obiekty oraz wyszukiwanie anomalii i odchyleń od wartości typowych w danych. Podsumowując różne interpretacje pojęcia odkrywania wiedzy, można stwierdzić, że zadania te mogą być rozważane w dwóch perspektywach: predykcji lub opisu. Perspektywa predykcji dotyczy przewidywania na podstawie dostępnych danych wartości wybranych atrybutów opisujących rozważany problem. Badania prowadzone w tym zakresie dotyczyły w szczególności klasyfikacji obiektów [Weiss oraz Indurkhya, 1999], gdzie celem jest przewidywanie przypisania obiektów do pewnych kategorii (klas) na podstawie wiedzy, wynikającej z analizy danych o klasyfikowanych obiektach w przeszłości. Natomiast perspektywa opisu w odkrywaniu wiedzy, obejmuje zadania związane z wyszukiwaniem różnych wzorców, charakteryzujących właściwości danych oraz zadania związane z ich prezentacją w zrozumiałej formie, umożliwiającej ich interpretację zjawiskową [Fayyad i in., 1996]. Odkrywanie wiedzy ma charakter interdyscyplinarny, i stosuje techniki znane w uczeniu maszynowym, statystyce, wizualizacji danych, technologii baz danych oraz przetwarzaniu informacji niepewnej (np. z zastosowaniem teorii zbiorów rozmytych czy teorii zbiorów przybliżonych) [Pawlak, 1982]. Uczenie maszynowe i statystyka mają tu obecnie największe znaczenie, z uwagi na wpływ na podstawowe algorytmy odkrywania wiedzy [Mannila, 1996]. Z drugiej jednak strony, specyfika odkrywania wiedzy z baz danych dostarcza nowych problemów badawczych, zarówno w zakresie uczenia maszynowego, jak i w problematyce samych baz danych [Cios, Pedrycz oraz Świnarski, 2000; Han oraz Kamber, 2001; Mannila, 1997; Michalski, Bratko oraz Kubat, 1998; Uthurusamy, 1996; Weiss oraz Indurkhya, 1999]. W dostępnej literaturze dotyczącej odkrywania wiedzy w danych [Abramowicz oraz Zurada, 2001; Dhar oraz Stein, 1997; Groth, 1998; Jackson, 1999; Roiger oraz Geatz, 2003], coraz większą uwagę poświęca się generowa- 6

7 niu modeli uczenia w warunkach niepewności. Z różnych metod przezwyciężania tej trudności, obecnie najczęściej wymienia się zastosowanie elementów teorii zbiorów przybliżonych (ang. rough sets), zaproponowanej przez Pawlaka [Pawlak, 1982; Pawlak, 1992]. Teoria zbiorów przybliżonych daje spójne podstawy metodologiczne dla wielu problemów odkrywania wiedzy, związanych między innymi z analizą danych na różnych poziomach reprezentacji, granularnością dostępnej informacji, oceną jakości dostępnych danych, tworzeniem przybliżonej klasyfikacji obiektów, badaniem zależności zachodzących między podzbiorami atrybutów opisujących obiekty, selekcją atrybutów czy tworzeniem nowych atrybutów [Komorowski i in., 1999; Pawlak, 1992; Pawlak i in., 1995]. W procesie odkrywania wiedzy i generowania modeli uczenia 2 ogromną rolę odgrywa tworzenie quasi-optymalnych drzew decyzji, na podstawie zbiorów danych (reprezentujących informacje o zbiorze analizowanych obiektów). Wynika to z faktu, że drzewa te są niezwykle ważnym obiektem badań, zarówno praktycznych jak i teoretycznych, m. in. z uwagi na występowanie nietrywialnych problemów podczas ich projektowania oraz stosowania [Dattatreya oraz Kanal, 1985; Moret, 1982; Quinlan, 1990; Safavian oraz Landgrebe, 1991]. Wydaje się także, iż algorytmy tworzenia drzew decyzji mogą w pewnym stopniu odtworzyć sposób myślenia człowieka podczas podejmowania decyzji, albo też wykryć nieprawidłowości w analizowanym zbiorze danych. W większości znanych algorytmów generujących drzewa decyzji [Breiman i in., 1984; Cherkassky oraz Mulier, 1998; Michie, Spiegelhalter oraz Taylor, 1994; Hunt, Marin oraz Stone, 1967; Mitchell, 1997; Quinlan, 1993; Quinlan, 2003; Loh oraz Vanichsetakul, 1988; Loh oraz Shih, 1997; Müller oraz Wysotzki, 1994; Müller oraz Wysotzki, 1997] nie zostały zadowalająco rozwiązane zagadnienia budowy drzew na podstawie danych sprzecznych. Algorytmy te na ogół zawodzą w przypadkach zbiorów uczących opisanych dużą liczbą atrybutów oraz zawierających znaczną liczbę przypadków. 2 Przedstawione w niniejszej rozprawie rozważania dotyczą uczenia nadzorowanego [Roiger oraz Geatz, 2003]. 7

8 Zasadniczym celem niniejszej rozprawy jest próba opracowania nowych algorytmów generowania drzew decyzji, a mianowicie algorytmu tworzącego drzewo decyzji z uprzednio wygenerowanych quasi-optymalnych reguł składniowych (o proponowanej nazwie TVR, Tree-Via-Rule). W literaturze opisane są algorytmy przekształcające drzewo decyzji w reguły składniowe (np. [Quinlan, 1993 a]), zdecydowanie trudniejszy w realizacji jest algorytm odwrotny. W drugim, proponowanym algorytmie generującym drzewa decyzji (o tymczasowej nazwie VCF, Varied-Confidence-Factor), wykorzystano informację o istotności w procesie klasyfikacji poszczególnych atrybutów opisujących, pobraną z generowanej w tle dla analizowanych danych sieci przekonań Bayesa [Jensen, 2001; Heckerman, 1996]. W korzeniu tak generowanego drzewa, umieszczony zostaje atrybut opisujący, ujawniający największy wpływ marginalnego prawdopodobieństwa na atrybut decyzyjny. Obydwa wymienione algorytmy zostały zaprojektowane z uwzględnieniem elementów teorii zbiorów przybliżonych Pawlaka [Pawlak, 1982; Pawlak, 1992], co dało im możliwość przetwarzania zbiorów uczących zawierających przypadki sprzeczne. Teza postawiona w dysertacji jest następująca: przetwarzanie danych typu 2A [Varmuza, 1998] przy pomocy sieci przekonań Bayesa lub z zastosowaniem rekurencyjnego algorytmu pokrycia do generowania reguł składniowych [Hippe, 1998], przypuszczalnie może być podstawą nowej metodologii budowy drzew decyzji, o skuteczności klasyfikacji porównywalnej z klasyfikacją takich algorytmów jak np. ID3/C4.5 [Quinlan, 1990; Quinlan, 1993]. Jednocześnie, zastosowanie wymienionych koncepcji w połączeniu z teorią zbiorów przybliżonych Pawlaka [Pawlak, 1982; Pawlak, 1992], umożliwia traktowanie przypadków sprzecznych, generując drzewa pewne lub drzewa możliwe. Szczegółowy zakres niniejszej rozprawy obejmuje próbę opracowania wspomnianych uprzednio algorytmów budowy drzew decyzji, a następnie ich implementację w specjalnie opracowanym systemie analizy danych, umożli- 8

9 wiającym m. inn. tworzenie zadanych reprezentacji analizowanych zbiorów danych, generowanie drzew decyzji, graficzną ich reprezentację oraz testowanie ich skuteczności klasyfikacyjnej. W celu udowodnienia prawdziwości założonej tezy, przewiduje się przeprowadzenie wyczerpujących badań porównawczych opracowanych algorytmów, poprzez analizę baz informacyjnych pobranych z repozytorium baz danych do uczenia maszynowego [Newman i in., 1998], a także poprzez analizę własnych danych o znamionach melanocytowych skóry [Hippe i in., 2002]. 9

10 ROZDZIAŁ 2 Współczesny stan badań nad drzewami decyzji Niniejszy rozdział zawiera przegląd aktualnych danych literaturowych na temat drzew decyzji, poprzedzony zwięzłymi definicjami najważniejszych pojęć i zagadnień z tej dziedziny informatyki. Definicje te są niezbędne w procesie budowania głównych treści przeglądu. Natomiast w dalszych fragmentach rozdziału, w odrębnych akapitach oznaczonych odpowiednimi tytułami, omówiono algorytmy indukcji drzew decyzji, oraz między innymi kryteria wyboru atrybutu do korzenia drzewa, kryterium zakończenia procesu indukcji drzewa, i metody oceny jakości drzew decyzji. Drzewo decyzji jest jedną z alternatyw strukturalnej informacji atrybut -wartość, umożliwiającą podział zbioru obserwacji, a więc podział zbioru danych, na klasy lub kategorie. Drzewo decyzji składa się z węzłów decyzyjnych, węzłów terminalnych (liści) i z łączących je gałęzi. Węzeł decyzyjny, umiejscowiony na szczycie struktury drzewa, jest nazywany korzeniem. Ogólnie biorąc węzły decyzyjne określają testy, które należy przeprowadzić względem danej wartości atrybutu, z jedną gałęzią dla każdego wyniku testu, przy czym w szerszym kontekście węzeł decyzyjny może zawierać dowolną funkcyjną kombinację atrybutów [Brodley oraz Utgoff, 1995; Pagallo, 1989]. Natomiast węzły terminalne reprezentują określoną klasę (kategorię) obiektów, stanowiąc tzw. liście: jednorodne dla obiektów tej samej kategorii, lub niejednorodne w przypadku obiektów reprezentujących różne kategorie. Z kolei gałęzie reprezentują wartości wyników testu przeprowadzonego w danym 10

11 węźle. Na Rysunku 2.1 przedstawiono przykładową strukturę drzewa decyzji dla danych Quinlana gra w golfa [Quinlan, 1993], z zaznaczonymi elementami jego struktury. Rysunek 2.1 Przykładowe drzewo decyzji dla zbioru gra w golfa wg. [Quinlan, 1993]. W węźle początkowym (korzeniu drzewa) jest podana informacja o rodzaju zastosowanego algorytmu indukcji drzewa (tutaj algorytm ID3/C4.5. W drugim wierszu etykiety tego węzła podano obliczoną (przez system) wartość średniej liczby pytań E(S) = 1.71 (znaczenie tego parametru oraz sposób jego obliczenia jest omówiony w dalszej treści rozdziału). Natomiast informacja Stan_nieba (trzeci wiersz etykiety) jest nazwą atrybutu opisującego, wybranego do testu w korzeniu. Atrybut ten ma trzy wartości: <deszcz>, <pochmurno> lub <słońce>, zapoczątkowujące trzy ścieżki (gałęzie). Węzły końcowe (liście) zawierają, oprócz informacji o etykiecie rozpoznawanej klasy (<>, <Nie_grać>), dane o liczbie przypadków zlokalizowanych w danym węźle terminalnym. Przykładowo, w prawym skrajnym węźle zapis 3/0 wskazuje, że zbiór przypadków w tym węźle jest zbiorem czystym, zawierającym 3 przypadki <Nie_grać> i 0 przypadków przeciwnych. Omawiane drzewo decyzji zostało wygenerowane przy pomocy opracowanego w ramach niniejszej dysertacji systemu TreeSE- EKER [Hippe oraz Knap, 2003]. Konstruowanie drzew decyzji Zasadniczym celem budowy drzew decyzji jest ustalenie, jakie strategiczne pytanie należy postawić na temat zmiennych zależnych, które spowoduje podział zbioru danych na bardziej homogeniczne skupiska danych, z możliwie małym błędem rzeczywistym. Konstruowanie drzew decyzji następuje poprzez rekurencyjny podział zbioru danych do momentu, aż każdy powstały w wyniku podziału podzbiór albo jest jednorodny (to znaczy zawiera elementy jednej tylko klasy decyzji), lub przeważająca część jego elementów należy do jednej kategorii. Utworzone w ten sposób (formalnie) drzewo decy- 11

12 zji przedstawia tzw. model uczenia, objaśniający struktury wiedzy, ukrytej w analizowanym zbiorze danych. Zbiór ten jest nazywany zbiorem (lub ciągiem) uczącym, natomiast jakość otrzymanego drzewa sprawdza się analizując (tzn. klasyfikując) przypadki zawarte w odrębnym zbiorze danych, zwanym zbiorem (lub ciągiem) testującym. Obydwa wspomniane zbiory uczący i testujący są de facto specjalnym opisem badanych obiektów, który może być zestawiony w postaci tablicy decyzji wg Pawlaka [Pawlak, 1995], w której wiersze reprezentują kolejne obiekty, zaś kolumny odpowiadają wybranym cechom tych obiektów. Informacja o przynależności danego obiektu do określonej kategorii (klasy decyzji) jest zapisana w ostatniej (skrajnej prawej) kolumnie tablicy. Ten sposób reprezentacji danych znany jest również w literaturze pod nazwą danych typu 2A [Varmuza, 1998]. Tablica 2.1 zawiera przykładowy zbiór danych gra w golfa Quinlana [Quinlan, 1993 c], zawierający 14 przypadków opisanych za pomocą czterech atrybutów: stan nieba, tempertura, wilgotność oraz wiatr, z kolumną decyzji usytuowaną w skrajnej prawej kolumnie tablicy. Skrajna lewa kolumna nie należy do ciała tablicy, lecz została dodatkowo dopisana, aby łatwo było się zorientować, jaka liczba przypadków została ujęta w tablicy. Tablica 2.1 Przykładowa tablica decyzji zawierająca dane gra w golfa Lp. Stan nieba Temperatura Wilgotność Wiatr słońce słońce słońce słońce słońce pochmurno pochmurno pochmurno pochmurno deszcz deszcz deszcz deszcz deszcz tak tak nie nie nie tak nie tak nie tak tak nie nie nie Decyzja (czy grać w golfa?) Nie grać Nie grać Nie grać Nie grać Nie grać 12

13 Przy założeniu, że C jest zbiorem treningowym, zdefiniowanym atrybutami opisującymi X i (gdzie i = 1...n), ogólny algorytm indukcji drzew decyzji jest następujący: 1. jeżeli wszystkie obiekty zbioru treningowego C należą do jednej klasy, to należy utworzyć węzeł terminalny oznaczony nazwą tej klasy i zakończ pracę; 2. w przeciwnym przypadku należy wybrać jeden atrybut X (z wartościami x 1... x m ) i utworzyć węzeł decyzyjny W; 3. podzielić zbiór treningowy C na podzbiory C 1... C m odpowiadające wartościom atrybutu X, i 4. zastosować rekurencyjnie niniejszy algorytm dla powstałych podzbiorów C 1...C m. W ten ogólny sposób działają w zasadzie wszystkie algorytmy tworzenia drzew decyzji. Jedyne różnice w ich implementacjach polegają na odpowiedniej konstrukcji kryterium wyboru atrybutu umieszczanego w korzeniu drzewa oraz w pozostałych węzłach decyzyjnych. Czasem, ze względów czysto technicznych, odchodzi się od realizacji indukcji drzew decyzji za pośrednictwem algorytmów rekurencyjnych, szczególnie gdy są poddane analizie zbiory o dużej liczności obiektów, opisanych wieloma atrybutami. Wówczas każde wywołanie rekurencyjnego algorytmu pociąga za sobą odłożenie na stosie dużych ilości danych, powodując realokację dużych obszarów pamięci (wynika to z samej idei algorytmu rekurencyjnego). Z tego względu, w takich przypadkach wykorzystuje się metodę konstruowania drzewa strategią wszerz, to znaczy biorąc po kolei (od lewej strony tablicy do prawej) atrybuty opisujące, użyte w tablicy decyzji. Poniżej przedstawiono przykładowe drzewa decyzji: optymalne, wygenerowane za pomocą standardowego algorytmu rekurencyjnego (Rys. 2.2) oraz drzewo wygenerowane z wykorzystaniem strategii wszerz (Rys. 2.3). 13

14 Rysunek 2.2. Optymalne drzewo decyzji, wygenerowane za pomocą standardowego algorytmu rekurencyjnego Rysunek 2.3. Drzewo decyzji wygenerowane z wykorzystaniem strategii wszerz Porównując powyższe drzewa decyzji wygenerowane na podstawie tego samego zbioru uczącego można stwierdzić, iż drzewo utworzone z wykorzystaniem standardowego algorytmu rekurencyjnego konkretnie ID3/C4.5 jest mniej złożone od drzewa wygenerowanego za pomocą strategii wszerz. Korzystając z innych dostępnych metod służących ocenie drzew decyzji (opisanych w dalszych punktach niniejszego rozdziału), przypuszczalnie można byłoby stwierdzić, że drzewo z Rysunku 2.2 jest bardziej optymalne. 14

15 Kryterium wyboru atrybutu do korzenia oraz kolejnych węzłów decyzyjnych drzewa W zasadzie jest to najważniejsza część algorytmu indukcji drzew decyzji. Poprawny dobór kryterium gwarantuje czytelną i nieskomplikowaną strukturę drzewa decyzji. Wybór właściwego atrybutu ze zbioru atrybutów, jest dokonywany dzięki wprowadzeniu określonego systemu ocen. Wybierając jeden z atrybutów, algorytm dzieli oryginalny zbiór danych na mniejsze podzbiory w zależności od wartości, jakie przyjmuje wybrany atrybut. Kryteria systemu ocen atrybutów opierają się na założeniu, iż najbardziej bezużytecznym atrybutem jest ten, w którym rozkład częstości występowania kolejnych wartości atrybut-decyzja jest taki sam przed, jak i po podziale. Obserwując znane implementacje algorytmów tworzenia drzew decyzji, można zidentyfikować trzy główne grupy kryteriów, wykorzystywanych podczas procesu wyboru cech do kolejnych węzłów decyzyjnych [Quinlan, 1990]: 1. kryteria oparte na pojęciach z teorii informacji (np. na entropii informacji), szeregujące atrybuty opisujące zgodnie z wybranym kryterium, 2. kryteria oparte o szacowanie błędu klasyfikacji zbioru wejściowego, działające na założeniu, że podczas wzrostu drzewa decyzji można oceniać z rozsądnie małym błędem wartość stanu drzewa dla każdego podziału w klasyfikacji zbioru treningowego przy czym spośród zbadanych stanów wybierany jest ten, który gwarantuje najmniejszy błąd klasyfikacji, 3. kryteria wykorzystujące badanie statystycznej niezależności między rozkładem klas-decyzji a podziałem C na podzbiory, dążące do usunięcia atrybutów, które wydają się nieistotne w procesie rozpoznawania poszczególnych klas obiektów ze zbioru uczącego. Kryteria pierwszej grupy są stosowane najczęściej. Wykorzystują je wszystkie algorytmy wywodzące się z podejścia zwanego Concept Learning System (CLS) [Hunt, Marin oraz Stone, 1967], czy też jego rozwinięcia, np. ID3 [Quinlan, 1990]. W algorytmie ID3, jako kryterium wyboru cech do ko- 15

16 lejnych węzłów decyzyjnych, wykorzystano miarę entropii. Entropia wyliczana jest z zależności: n E= i=1 p i log 2 p i (2.1) gdzie: n - jest liczbą przypadków w zbiorze uczącym, p i - prawdopodobieństwem wystąpienia i-tej alternatywy (przypadku). Na podstawie miary entropii informacji, Quinlan zdefiniował kryterium korzyści Gain(X), decydujące o wyborze atrybutów do kolejnych węzłów w drzewie. Parametr ten wskazuje jaki jest przyrost informacji, uzyskany dzięki wyborowi badanego atrybutu X do węzła decyzyjnego. Korzyść Gain(X) wylicza się z zależności 2.2: Gain X = E C E X C (2.2) gdzie: C - jest zbiorem uczącym, E(C) - entropią zbioru C, tj. przeciętną ilością informacji, potrzebną do zidentyfikowania klasy w zbiorze C, wyliczaną wg równania 2.3: k E C = freq K j,c C j=1 freq K log j,c 2 (2.3) C freq K j, C - jest liczbą obiektów w zbiorze C, należących do klasy j, C - liczbą obiektów w zbiorze C, zaś E X C - oczekiwaną wartością informacji dla poddrzewa, powstałego w wyniku podziału zbioru C na podzbiory, odpowiadającą wartością przyjmowanym przez atrybut X, wyliczaną z poniższego wzoru: E X C = l i=1 C i C E C i (2.4) Zastosowanie przyrostu informacji jako kryterium wyboru atrybutu, oznacza obliczenie przyrostu informacji dla wszystkich dostępnych atrybutów przy każdym rekurencyjnym wywołaniu algorytmu, aby dokonać wyboru atry- 16

17 butu opisującego, dla którego wartość ta będzie maksymalna. Tak skonstruowane kryterium ma jednak tendencję do nieuzasadnionego preferowania atrybutów o wielu możliwych wartościach. Wadę tę wyeliminowano w późniejszych wersjach algorytmu ID3, tj. C4.5, C5.0 [Quinlan, 1993], wprowadzając tak zwany współczynnik przyrostu informacji, definiowany jako: Gain X GainRatio X = SplitInfo X (2.5) gdzie: SplitInfo(X) określa informację uzyskaną poprzez podział zbioru obiektów według wartości atrybutu X, i jest wyliczane z poniższego wzoru: n SplitInfo X = C i i=1 C log C i 2 C (2.6) Algorytmy budowy drzew decyzji wykorzystujące trzecią grupę kryteriów do oceny atrybutów (tzw. kryteria mierzące statystyczną niezależność), stosują głównie standardowe statystyczne testy niezależności, oparte na tabeli wielodzielczej i statystyce 2. Statystyka ta jest pomocna w ustaleniu, czy dany atrybut jest istotny w procesie klasyfikacji. Wykorzystywanie podczas wyboru kolejności atrybutów tylko narzędzi statystycznych, nie zawsze jest możliwe, albo wygodne, ze względów praktycznych. Na wybór atrybutu usytuowanego w węźle decyzyjnym często narzuca się jeszcze dodatkowe kryteria, np. koszt jego zastosowania. Jako przykład podać można drzewo decyzji dotyczące rozpoznawania niektórych chorób. Atrybuty, które zawierają wyniki szczególnych badań klinicznych nie zawsze można przetestować, gdyż koszt lub czas przeprowadzenia badań mógłby być zbyt duży, powodując w efekcie bezużyteczność skonstruowanego przy ich pomocy systemu doradczego. Kryterium wyboru atrybutu do korzenia oraz kolejnych węzłów decyzyjnych drzewa dla atrybutów ciągłych Najczęstszym sposobem przetwarzania atrybutów o wartościach ciągłych jest tzw. proces kwantyzacji [Paterson oraz Niblett, 1982; Breiman i in., 17

18 1984]. Polega on na podziale zbioru wartości rzeczywistych atrybutu na przedziały, i przyporządkowaniu im etykiet symbolicznych. Zakładając, że atrybut X ={x 1, x 2,... x n }, gdzie {x 1, x 2,... x n } są uporządkowanymi wartościami rzeczywistymi atrybutu X (tzn. wartościami posortowanymi w kolejności rosnącej), możemy stwierdzić, że istnieje pewna wartość w taka, że x i w x i 1 dla ustalonego i = (1,..., n-1), dzieląca zbiór X na dwa podzbiory, zazwyczaj, za punkt podziału obiera się środek przedziału [ x i, x i 1 ]. Zatem, aby wybrać najbardziej odpowiedni podział, wystarczy przeprowadzić n-1 porównań dla wszystkich uzyskanych podziałów (jako kryterium wyboru najlepszego punktu podziału, można przyjąć jedno z kryteriów zaproponowanych w poprzednim punkcie, np. maksymalizację zysku lub minimalizację entropii informacji). Dalsza procedura wyboru właściwego atrybutu z grupy atrybutów numerycznych do korzenia lub dalszych węzłów decyzyjnych, przebiega analogicznie jak w przypadku atrybutów o wartościach symbolicznych. Kryterium zakończenia rekurencyjnych wywołań algorytmu tworzącego drzewo decyzji Proces budowy drzewa decyzji rozpoczyna się od drzewa złożonego z jednego węzła, do którego przyporządkowane są wszystkie przypadki zbioru uczącego. W dalszych krokach algorytmu budowy drzewa, konstruowane są podziały, tworzone przez kolejne węzły decyzyjne. Wraz ze wzrostem drzewa, maleje liczność przypadków w zbiorze uczącym docierających do jego kolejnych poziomów. W celu zakończenia dalszych podziałów zbioru i utworzenia węzła terminalnego, algorytmy wykorzystują poniższe kryteria: a. wystąpienie wartości klasy decyzyjnej w podzbiorze dostępnym w węźle jest zdarzeniem z prawdopodobieństwem warunkowym równym 1, b. zastosowanie każdego dostępnego podziału daje zerową lub ujemną miarę zmiany różnorodności klas, c. Podzbiór dostępny w węźle jest zbiorem pustym. 18

19 Gdy obiekty w badanym węźle decyzyjnym należą do tej samej klasy, zachodzi przypadek a). Sytuacja b) ma miejsce w przypadku węzła, w którym zbiór dostępnych testów stosuje atrybuty z jednakową wartością dla wszystkich badanych przypadków. Natomiast warunek c) bezpośrednio wiąże się z brakiem uzasadnienia dla więcej niż jednokrotnego użycia danego podziału, w obrębie jednej ścieżki drzewa decyzji. Wystąpienie przypadków b) lub c) może świadczyć o niepoprawności zbioru uczącego lub o niedostatecznym stopniu opisu przypadków przez dostępny zestaw atrybutów. Po wstrzymaniu procedury podziału zbioru obiektów, wierzchołek staje się liściem, do którego należy przyporządkować etykietę klasy. W sytuacji, gdy zbiór dostępnych obiektów określany jest przez kilka klas decyzji, etykieta zostaje wybrana na podstawie najliczniej występującej kategorii. Kryteria oceny drzew decyzji Kryteria oceny drzew decyzji stosowane są do porównania skuteczności klasyfikacyjnej drzew, utworzonych za pomocą różnych algorytmów dla tego samego zbioru uczącego. Kryteria te umożliwiają wybór najlepszego drzewa. Do kryteriów ocen najczęściej stosowanych zaliczyć można: 1. określenie błędu klasyfikacji który jest obliczany na podstawie procesu klasyfikacji zbioru testowego, i określa (np. w procentach) liczbę błędnie sklasyfikowanych obiektów, 2. określenie dokładności klasyfikacji polegającej na określeniu liczby poprawnie sklasyfikowanych obiektów z badanego (zazwyczaj testowego) zbioru przypadków, 3. określenie liczby węzłów drzewa decyzji, 4. określenie liczby poziomów drzewa decyzji, lub 5. obliczenie średniej liczby pytań E(S) [Dąbrowski, 1974] który to parametr wskazuje, w szczególności w odniesieniu do drzew binarnych, porównawczą jakość systemu identyfikacyjnego, wykorzystującego 19

20 analizowane drzewo. Średnia liczba pytań, przywołana już na Rys. 2.1, jest obliczana ze wzoru 2.7: n E S = S c i p i (2.7) i=1 w którym S c i jest liczbą pytań, które należy zadać aby zidentyfikować alternatywę c i, natomiast p i jest prawdopodobieństwem tej alternatywy. Porównanie średniej liczby pytań dla dwu (lub więcej) systemów identyfikujących ten sam zbiór przypadków, umożliwia dokonanie oceny, który z rozpatrywanych systemów jest lepszy. W takim przypadku można postawić pytanie, czy (i kiedy) dane drzewo decyzji jest optymalne, tzn. czy reprezentuje najlepszy system? Odpowiedź na tak postawione pytanie można uzyskać przyjmując założenie, że dla zbioru przypadków istnieje liczba, która jest dolną granicą wartości średniej liczby pytań wszystkich systemów identyfikacyjnych analizowanego zbioru. Jeżeli E(S) dla pewnego systemu jest równe tej liczbie, system ten jest najlepszy dla danego zbioru alternatyw. Celem określenia jej wartości zakładamy, że C={c 1,c 2,c 3,...c N } jest zbiorem alternatyw, zaś liczby P {c i }= p i (dla i = 1, 2, 3,... N) prawdopodobieństwem elementów zbioru C. Wtedy dla każdego systemu identyfikacyjnego S zachodzi nierówność: E S H C (2.8) gdzie H(C) jest ilością informacji potrzebnej do identyfikacji elementów zbioru C (wzór 2.1). Zatem, H(C) może być uznane za średnią liczbę pytań w pewnym idealnym systemie rozpoznającym elementy zbioru C. Wykorzystując teoremat stwierdzający, że aby istniał idealny system S identyfikujący elementy zbioru C, koniecznym i wystarczającym jest aby dla każdego i = 1, 2, 3,... N, wartość wyrażenia log 2 p i była całkowita. Narzuca to 20

21 wniosek, że jedynie niektóre zbiory alternatyw mogą być reprezentowane przez absolutnie najlepszy system identyfikacyjny, tzn. dla którego spełnione jest równanie E S =H C. Wszystkie inne zbiory przypadków (alternatyw) wykazują taką właściwość, że zawsze istnieje system identyfikacyjny, w którym średnia liczba pytań różni się od wartości H(C) o nie więcej niż jeden. Korzystne cechy i ograniczenia drzew decyzji Tak jak każda struktura reprezentacji wiedzy, również drzewa decyzji posiadają zalety i ograniczenia. Do zalet drzew decyzji można zaliczyć: 1. możliwość reprezentacji dowolnej hipotezy konstrukcja drzewa decyzji umożliwia reprezentację dowolnego pojęcia, którego definicję można wyrazić w zależności od atrybutów użytych do opisu obiektów, 2. efektywność procesu klasyfikacji wyznaczenie kategorii przykładu za pomocą drzewa decyzji polega na przejściu ścieżki od korzenia drzewa do jednego z jego liści, poprzez wykonywanie w odwiedzanych kolejno węzłach umieszczonych w nich testów i przemieszczanie się wzdłuż gałęzi odpowiadających uzyskiwanym wynikom. W praktyce wymaga to czasu ograniczonego liniowo poprzez liczbę atrybutów zbioru wejściowego (inne reprezentacje wiedzy nie oferują lepszych możliwości pod względem obliczeniowym), 3. łatwość przejścia od drzewa decyzji do reprezentacji regułowej, 4. czytelność reprezentacji o ile drzewa nie są zbyt duże i złożone, 5. nie wymagają wiedzy a priori na temat analizowanego zbioru treningowego, 6. są narzędziami klasyfikacji zmienna zależna musi posiadać wartości dyskretne. 21

22 Jako ograniczenia drzew decyzji wymienić można: 1. ryzyko dużej złożoności drzewa dla złożonych hipotez drzewa mogą być również bardzo złożone. Wiąże się to z tym, że zazwyczaj testy stosowane do budowy drzewa, wykorzystują tylko pojedynczy atrybut, co implikuje utratę zależności pomiędzy atrybutami, 2. brak łatwej możliwości inkrementacyjnego aktualizowania po dodaniu nowych przykładów trudno jest zaktualizować już istniejące drzewo. Istnieją algorytmy realizujące to zadanie (ID4 [Schlimmer oraz Fisher, 1986], ID5 [Utgoff, 1988], ID5R [Utgoff, 1989]), jednak są dość kosztowne, a zaktualizowane drzewo zazwyczaj jest mniej czytelne, niż drzewo zbudowane na nowo. Przycinanie drzew decyzji W trakcie indukcji drzew decyzji istnieje ryzyko nadmiernego dopasowania do zbioru treningowego. Drzewo może okazać się zbyt złożone i objaśniać przypadkowe zależności, występujące w zbiorze uczącym, zwłaszcza, gdy jest on zaszumiony, tzn. zawiera pewną liczbę błędnych danych. Przycinanie drzewa decyzji ma na celu przeciwdziałanie jego nadmiernemu wzrostowi. Sam proces przycinania polega na zastępowaniu wybranych poddrzew liśćmi w konsekwencji prowadząc do uproszczenia drzewa. Faza przycinania następuje po wybudowaniu pełnego, zazwyczaj wielo-poziomowego drzewa decyzji. Dla każdego węzła decyzyjnego, liczona jest oczekiwana liczba błędnie klasyfikowanych przypadków (ang. expected error rate), która wystąpiłaby gdyby rozpatrywane poddrzewo zostało zastąpione liściem. Wartość ta porównywana jest z liczbą błędnych klasyfikacji, dla drzewa zawierającego badany węzeł. W sytuacji gdy usunięcie węzła doprowadziłoby do zwiększenia liczby oczekiwanych błędów, poddrzewo nie jest usuwane. W przeciwnym wypadku rozpatrywany węzeł decyzyjny zastępowany jest liściem, i jest etykietowany najczęściej występującą klasą, spośród klas występujących w usuniętych gałęziach. Na ogół sposób wyboru odpowiedniego algorytmu przyci- 22

23 nania drzewa nie jest wystarczający, należy również zdecydować, w jaki sposób szacowana będzie oczekiwana liczba błędów. W poniższych punktach przedstawiono dwie możliwości szacowania tej wartości: 1. przycinanie z oddzielnym zbiorem przycinania do obliczenia liczby błędów używany jest oddzielny zbiór przykładów, niebiorący udziału w indukcji drzewa decyzji. Zazwyczaj, przy dużych zbiorach danych, używa się 2/3 przykładów do tworzenia drzewa, oraz pozostałą 1/3 do jego przycinania, 2. przycinanie na podstawie obiektów uczących do obliczania liczby błędów wykorzystywany jest ten sam zestaw przykładów. Daje to gorsze efekty, jednak przy małej liczności przypadków w zbiorze uczącym takie rozwiązanie może być konieczne. Brakujące wartości atrybutów Często zbiór przykładów treningowych może zawierać niewypełnione wartości atrybutów. Istnieje kilka sposobów pokonania tej trudności podczas tworzenia drzewa opartego na niekompletnych danych [Quinlan, 1993 b]. Najczęściej wymieniane to: 1. pomijanie obiektów zawierających brakujące wartości, 2. uzupełnianie brakujących wartości atrybutu z wykorzystaniem poniższych kryteriów: a. najczęściej występującą wartością, b. najczęściej występującą wartością w podzbiorze obiektów tej samej kategorii, c. wartością średnią z podzbioru obiektów tej samej kategorii. Na ogól systemy odkrywania wiedzy, metodę uzupełniania nieznanych wartości pozostawiają ich użytkownikom. Budowany w ramach badań opisanych w niniejszej rozprawie system o nazwie TreeSEEKER, został wyposażony w mechanizmy pozwalające na wykrywanie oraz uzupełnianie brakujących 23

24 wartości atrybutów opisujących. Zostaną one szczegółowo opisane w części doświadczalnej, na str. 41. Znane algorytmy indukcji drzew decyzji Poniżej omówiono najważniejsze cechy znanych algorytmów indukcji drzew decyzji. Algorytm CART Algorytm CART (ang. Classification and Regression Trees), to jeden z najpopularniejszych i najskuteczniejszych algorytmów indukcji drzew decyzji [Breiman i in., 1984; Cherkassky oraz Mulier, 1998; Michie, Spiegelhalter oraz Taylor, 1994]. Jest to nieparametryczny algorytm, który tworzy drzewa binarne wykorzystując w podziałach zarówno cechy ciągłe jak i dyskretne. Dla cech ciągłych rozpatrywane są wszystkie możliwe podziały na dwa zbiory (,a] oraz (a, ), a dla cech dyskretnych wszystkie możliwe podziały zbioru wartości cechy na dwa rozłączne i uzupełniające się podzbiory. Każdemu węzłowi przypisuje się etykietę klasy dominującej w węźle, bądź wynikającą z oceny kosztów pomyłek. Jako kryterium oceniające jakość podziałów CART stosuje przyrost czystości węzłów. Sugerowaną miarą nieczystości jest tzw. Gini index: k 2 Gini C =1 p j (2.9) j =1 gdzie: p j jest prawdopodobieństwem j-tej klasy w węźle C. Możliwe jest także użycie miary entropii obliczanej wg wzoru 2.1. Cechą charakterystyczną algorytmu CART jest tworzenie tylko węzłów binarnych, tzn. takich, z których wychodzą jedynie dwie gałęzie. Algorytm dokonuje podziału danych na dwie superklasy (grupy oryginalnych klas), i dla nich ocenia jakość podziałów. System łączy klasy w grupy, by powstałe superklasy były w miarę 24

25 możliwości równoliczne. W przypadku danych, dla których brakuje wartości wykorzystywanej w danym węźle, analizowane są tzw. podziały zastępcze (ang. surrogate splits). Dla dokonanego podziału węzła, wyznacza się dodatkowo podziały wykorzystujące cechy, które są maksymalnie zbliżone do podziału wybranego, i cechy te (w odpowiedniej kolejności) są wykorzystywane w przypadku braku wartości cechy używanej w głównym warunku podziału. Algorytm CART może wykorzystywać kryterium przerwania procesu indukcji z zadaną minimalną liczbą wektorów w węźle, choć sugerowanym rozwiązaniem jest budowanie maksymalnego drzewa, i ocena jego zdolności do uogólnienia. W wewnętrznym teście wyznacza się optymalną wartość minimalizującą: Err D l D (2.10) gdzie: l D jest liczbą liści drzewa D. Algorytm CART stosuje dwa warianty tej metody. W pierwszym z nich zostaje wybrane drzewo decyzji o minimalnej wartości powyższego wyrażenia, natomiast drugi wariant obcina drzewo maksymalnie. Algorytm CART umożliwia również budowanie drzew decyzji dla problemów regresji. Algorytm ID3 Algorytm ID3 [Mitchell, 1997, Quinlan, 1990] został oparty na teorii informacji. Jego poważną wadą, która bardzo ogranicza zastosowanie w praktyce, jest wymóg dyskretności wszystkich cech przestrzeni klasyfikacji. W przypadku konieczności użycia omawianego algorytmu do problemów zdefiniowanych w przestrzeniach o cechach ciągłych, wtedy trzeba najpierw zdyskretyzować wszystkie cechy. Etap dyskretyzacji jest wówczas etapem kluczowym dla jakości ostatecznej klasyfikacji, więc ta sama metoda ID3 może dawać odmienne rezultaty dla różnych metod dyskretyzacji. Kryterium oceniającym podziały jest kryterium przyrostu czystości, wyliczanie na podstawie 25

26 wzoru 2.2. Miarą niejednorodności węzła jest miara entropii (wzór 2.1). Przyrost czystości jest nazywany wówczas zyskiem informacyjnym (ang. information gain). Metoda polega na rekurencyjnym dzieleniu węzłów na podwęzły aż do uzyskania maksymalnego drzewa. W każdym kolejnym kroku algorytm dzieli dany węzeł na tyle podwęzłów, ile wartości ma najbardziej informatywna cecha (cecha oferująca maksymalną redukcję entropii). Niekorzystną konsekwencją takiej strategii jest tendencja do częstszego wykorzystywania tych cech, które mają dużą (w stosunku do innych) liczbę możliwych wartości. Algorytm C4.5 Algorytm budowania drzew decyzji o nazwie C4.5, jest obok algorytm u CART jednym z dwóch najpopularniejszych i najczęściej stosowanych [Quinlan, 1993]. Algorytm ten jest w istocie rzeczy rozszerzeniem algorytmu ID3, polegającym na: 1. modyfikacji miary niejednorodności węzłów, 2. wprowadzeniu możliwości wykorzystania atrybutów ciągłych, 3. wprowadzeniu metody oczyszczania drzewa (przycinania), oraz 4. umożliwieniu klasyfikacji danych o brakujących wartościach. Modyfikacja miary niejednorodności węzłów ma na celu uniknięcie niepożądanego efektu preferowania atrybutów o dużej liczbie możliwych wartości. Zamiast zysku informacyjnego (wzór 2.2) stosuje się względny zysk informacji (ang. gain ratio) określony wzorem 2.5. Dla atrybutów ciągłych, algorytm C4.5 rozpatruje podobnie jak CART wszystkie możliwe podziały na dwa podzbiory, zdeterminowane punktem podziału w. W przeciwieństwie do atrybutów dyskretnych, ciągłe mogą pojawiać się na wielu poziomach tej samej gałęzi drzewa. Dla każdego z możliwych podziałów, ocenia się jego jakość mierząc wartość względnego zysku informacyjnego, i wybiera ten, który daje maksymalny zysk. Oczyszczanie (przycinanie) drzewa stosowane w algorytmie C4.5 opiera się na statystycznej ocenie istotności różnicy błędu klasyfika- 26

27 cji dla danego węzła i jego podwęzłów. Zakładając dwumianowy rozkład liczby błędów, ocenia się prawdopodobieństwo zmniejszenia błędu w badanym węźle, i obcina się te, dla których to prawdopodobieństwo nie przekracza żądanego progu, ewentualnie zamienia poddrzewo o korzeniu w danym węźle jego najlepszym poddrzewem. C4.5 potrafi operować na danych, w których brakuje pewnych wartości. W trakcie procesu budowania drzewa, ocena zysku nie uwzględnia danych, dla których brakuje wartości badanej cechy, a wyliczony zysk skaluje się mnożąc przez częstość występowania wartości tej cechy w próbie treningowej. Podział danych na podwęzły wprowadza wówczas wagi dla wektorów treningowych, które dla wektora z brakującą wartością atrybutu decyzyjnego odpowiadają rozkładowi pozostałych danych w podwęzłach. Stosownej modyfikacji podlegają wówczas współczynniki p i ze wzoru określającego względny zysk zamiast mocy zbiorów liczy się sumy wag elementów tych zbiorów. Współczynniki p i są uwzględniane również przy podejmowaniu decyzji na podstawie drzewa, by wyliczyć prawdopodobieństwa wpadania do poszczególnych węzłów oraz przynależenia do poszczególnych klas. Algorytm C4.5, oprócz metody indukcji drzewa decyzji, umożliwia przekształcenie drzewa w zbiór reguł. Reguły traktowane są tutaj jako różny od drzewa model klasyfikacji, ponieważ nie są one wierną reprezentacją drzewa. Reguły wiernie opisujące drzewo są poddawane procesowi oczyszczania. Z każdej reguły usuwane są przesłanki, których pominięcie nie powoduje spadku jakości klasyfikacji zbioru treningowego. Ponieważ oczyszczanie wykonywane jest dla każdej reguły z osobna, można w ten sposób otrzymać klasyfikator istotnie różny od drzewa (zwykle dający w testach niższe wartości poprawności). Algorytmy FACT oraz QUEST Algorytmy FACT (Fast Algorithm for Classification Trees) [Loh oraz Vanichsetakul, 1988] oraz QUEST (Quick, Unbiased, Efficient, Statistical Tree) [Loh oraz Shih, 1997], oparte są na parametrycznych metodach staty- 27

28 stycznych. Obydwa algorytmy dokonują podziałów dla cech ciągłych, natomiast cechy dyskretne są konwertowane do ciągłych specjalnymi metodami. Wykonują one najpierw projekcję danego wymiaru do przestrzeni o wymiarowości równej liczbie symboli przetwarzanej cechy (symbolom odpowiadają wektory składające się z wielu zer i jednej jedynki), a następnie rzutowane są na odpowiednio wybraną prostą. Algorytm QUEST stosuje tutaj strategię nieco rozbudowaną w stosunku do algorytmu FACT. Wybór cechy podziału jest w tych algorytmach wyraźnie oddzielony od samego podziału. W pierwszym etapie, wybierana jest cecha podziału, którą algorytm FACT wybiera na podstawie analizy każdej cechy (ściśle, cech ciągłych po przeprowadzeniu procesu kwantyzacji) statystyką F znaną z metody analizy wariancji (ANO- VA) [Brandt, 1999; Tadeusiewicz, Izworski oraz Majewski, 1993] wybierana jest ta cecha, dla której wartość statystyki F jest maksymalna. Algorytm QU- EST również używa statystyki F do oceny cech ciągłych, jednak ich ocena wykonywana jest poprzez test 2 niezależności klasy i danej cechy, w celu uniknięcia faworyzowania zmiennych dyskretnych przy wyborze cechy podziału. Dla danej cechy algorytm FACT dokonuje podziału na podstawie wyników liniowej dyskryminacji. Węzeł dzielony jest na tyle podwęzłów, ile klas jest w nim reprezentowanych. Algorytm QUEST generuje drzewa binarne przed dokonaniem podziału łączy klasy w dwie grupy wyznaczone metodą klasteryzacji two-means zastosowaną do zbioru średnich wyliczonych dla poszczególnych klas (jeśli średnie są jednakowe, to wyznacza się grupy tak, że klasa dominująca stanowi jedną z nich, a reszta klas drugą). Dodatkowo zamiast liniowej dyskryminacji, do wyznaczania podziału algorytm QUEST wykorzystuje dyskryminację kwadratową. W jej wyniku otrzymuje się dwa potencjalne punkty podziału, z których wybiera się ten, który jest bliższy średniej wartości przyjmowanej przez analizowaną cechę, w populacji wektorów należących do jednego z klastrów. W obydwu algorytmach, kontrola złożoności drzew może się odbywać z wykorzystaniem kryterium stopu procesu indukcji. Algorytm QUEST potrafi także stosować w tym celu krzyżową walidację na wzór algorytmu CART. 28

29 Algorytm Cal5 Algorytm indukcji drzew decyzji Cal5 [Müller oraz Wysotzki, 1994; Müller oraz Wysotzki, 1997] przeznaczony jest dla przestrzeni cech ciągłych. Podstawowym krokiem tej metody jest algorytm podziału cech ciągłych na przedziały, wykorzystujący metody statystyczne do oceny jednorodności węzłów. Istnieje jednak możliwość odpowiedniej adaptacji omawianego algorytmu na użytek zbiorów zawierających także cechy symboliczne. Należy wówczas skorzystać z tych samych mechanizmów, które w przypadku cech ciągłych (w połączonym procesie dyskretyzacji i oceny przedziałów z niej wynikających) odpowiadają za ocenę wyznaczanych zbiorów i podejmują decyzję o zakończeniu (bądź nie) gałęzi drzewa. Każdy węzeł drzewa Cal5 może mieć inną liczbę podwęzłów jest ona wyznaczana automatycznie w procesie podziału zakresu danej cechy na przedziały i łączenia powstałych przedziałów. Sposób działania metody jest uzależniony od dwóch parametrów: progu decyzyjnego S (określającego minimalne prawdopodobieństwo poprawnej klasyfikacji danego węzła, które pozwala uznać go za liść) oraz poziomu dla statystycznych testów wykorzystywanych w procesie dyskretyzacji. Drzewo budowane jest rekurencyjnie poprzez dokonywanie podziałów węzłów na podwęzły. Analiza każdego węzła, który nie jest liściem jest prowadzona w trzech etapach: 1. etap polegający na wyborze najlepszego atrybutu decyzja o wyborze cechy, której dotyczyć będą warunki dzielące węzeł, może być podejmowana w algorytmie Cal5 na podstawie oceny statystycznej, bądź oceny opartej na entropii. Metoda statystyczna polega na ocenie każdej z cech, posługując się: Q= A2 A 2 D 2 (2.11) gdzie: D jest średnią kwadratów wariancji oszacowanej na podstawie wektorów treningowych poszczególnych klas, natomiast A jest średnią 29

30 kwadratów odległości pomiędzy średnimi wartościami cechy dla różnych klas. Metoda oparta na entropii, ocenia cechy wyliczając średnią entropię podwęzłów, ważoną proporcjonalnie do liczności przedziałów, czyli odpowiednią entropię warunkową, a zatem jest to ta sama metoda, która jest używana np. w algorytmie ID3, czyli uwzględniająca zysk informacyjny. Zastosowanie tej metody wymaga uprzedniej dyskretyzacji ocenianych cech, a zatem niejako odwraca kolejność tych dwóch etapów, 2. etap dyskretyzacji pierwszym krokiem procesu dyskretyzacji cech jest posortowanie wektorów treningowych według rosnących wartości badanej cechy. Następnie, analizowane są przedziały odpowiednio rozszerzane, by obejmowały kolejne (od lewej do prawej) wektory. Analiza przedziału x polega na sprawdzaniu dwóch hipotez: a. H1 istnieje klasa c, dla której p c x S (2.12) b. H2 dla wszystkich klas c C, p c X S (2.13) Weryfikacja hipotez odbywa się poprzez wyznaczenie przedziału ufności dla zadanego poziomu α (z wykorzystaniem nierówności Czebyszewa, oraz przy założeniu rozkładu Bernoulliego dla każdej z klas) i sprawdzenie, czy przedział ten w całości leży po odpowiedniej stronie progu S. Może zajść jedna z trzech sytuacji: a. hipoteza H1 jest prawdziwa. Wówczas przedział jest uznawany za wyznaczony będzie wyznaczał liść drzewa decyzji o etykiecie klasy, dla której spełniony jest warunek hipotezy. Wyznaczane są następne przedziały dla kolejnych danych w uporządkowanej liście, b. hipoteza H2 jest prawdziwa. Wówczas przedział jest również uznawany za wyznaczony, ale będzie wyznaczał węzeł przeznaczony do dalszego podziału, bo żadna z klas nie dominuje w wystarczający sposób, lub 30

31 c. ani H1, ani H2 nie są prawdziwe. Rozszerzamy przedział o następny przypadek z uporządkowanej listy. Jeśli na liście nie ma więcej wektorów, to dany przedział wyznacza liść o etykiecie klasy dominującej; oraz 3. etap łączenia przedziałów wynikających z dyskretyzacji po dyskretyzacji sąsiednie przedziały są łączone jeśli oba są liśćmi o tej samej klasie dominującej. Również kiedy przedziały nie są liśćmi (są przeznaczone do dalszego podziału), można je połączyć jeśli zawierają ten sam zestaw klas (po eliminacji tych istotnie mniej reprezentowanych niż w przypadku równego podziału eliminacja ta opiera się również na wyniku testu statystycznego). Inne algorytmy budowy drzew decyzji Istnieje wiele innych algorytmów indukcji drzew decyzji; część z nich stanowi na ogół różne modyfikacje uprzednio omówionych algorytmów. Na przykład system NewID [Nguyen, 1998], stosuje podobnie jak algorytm ID3 miarę zysku informacji do wyboru cech używanych do kolejnych podziałów, i umożliwia analizę zbiorów zawierających także atrybuty o wartościach ciągłych. Innym przykładem algorytmu bazującego na teorii informacji jest TDDT (ang. Top-Down Decision Trees), dostępny w bibliotece MLC++ [Kohavi, Sommerfield oraz Dougherty, 1997]. Jest to algorytm bardzo podobny do algorytmu C4.5 najistotniejszą różnicą jest używanie miary zysku informacji podzielonego przez logarytm z liczby generowanych podziałem podwęzłów drzewa decyzji. Taka modyfikacja ma na celu uniknięcie nadmiernego rozdrabniania węzłów poprzez preferowanie cech, dających duży zysk informacji w skutek dużej liczby wartości. W literaturze spotkać można opisy algorytmów indukcji drzew decyzji, w których testy w węzłach decyzyjnych wykorzystują więcej niż jedną cechę. Drzewa indukowane przez tego typu algorytmy mogą być mniej złożone, choć ich interpretacja jest na ogół zdecydowanie trudniejsza niż w przypadku kla- 31

32 sycznych drzew decyzji. Jednym z takich rozwiązań są drzewa wykorzystujące w testach węzłów kombinacje liniowe, znajdowane z użyciem kryteriów dipolowych [Bobrowski oraz Krętowski, 2000]. Rysunki 2.4 oraz 2.5 zawierają drzewa decyzji wygenerowane dla tych samych danych. Drzewo z Rysunku 2.4 wygenerowane zostało za pomocą jednego z klasycznych algorytmów indukcji drzew decyzji. Natomiast drugie drzewo (Rys. 2.5) otrzymano za pomocą algorytmu wykorzystującego w węzłach liniowe kombinacje cech. Innym typem algorytmów wykorzystujących liniowe kombinacje cech są Drzewa Maszyn Liniowych LMDT (ang. Linear Machine Decision Trees) [Brodley oraz Utgoff, 1991; Brodley oraz Utgoff, 1992]. Wykorzystują one w każdym węźle drzewa tzw. maszyny liniowe, czyli metody wyznaczania liniowych funkcji dyskryminujących (po jednej dla każdej z klas). Innym znanym algorytmem budowy drzew decyzji jest algorytm OC1 (ang. oblique classifier) generujący drzewa ukośne [Murthy, Kasif oraz Salzberg, 1994; Murthy, 1997]. Algorytm ten szuka drzew metodą wspinaczki (ang. hill climbing), a kombinacje liniowe wykorzystywane w węzłach wyznaczane są w procesie łączącym metody heurystyczne i niedeterministyczne (dla wychodzenia z minimów lokalnych). Drzewami decyzji o bardziej złożonej postaci są drzewa z opcjami (ang. option decision trees) [Buntine, 1993; Kohavi oraz Kunz, 1997]. Umożliwiają one reprezentację wielu drzew w jednym reprezentacja jest prostsza niż dla wielu osobnych drzew, bowiem drzewa mogą zawierać wspólne fragmenty. Rysunek 2.4. Drzewo wygenerowane za pomocą jednego z klasycznych algorytmów indukcji drzew decyzji 32

33 Rysunek 2.5. Drzewo skośne, zawierające w korzeniu liniową kombinację atrybutów Innym ze znanych rozwiązań są drzewa numerujące SE-Tree (ang. set enumeration tree). Są one drzewiastą reprezentacją zbioru potęgowego kombinacji wszystkich atrybutów i ich wartości w problemie klasyfikacji [Rymon, 1993]. Gałęzie odpowiadają regułom jądra (ang. kernel rules), czyli parom atrybut-wartość, które charakteryzują analizowaną klasę. Podana tu strategia ustala kolejność w jakiej mają być badane gałęzie, dążąc do osiągnięcia reguł minimalnego jądra. Umożliwia się tym samym przeszukanie całej przestrzeni hipotez, a decyzja, którą hipotezę wybrać, jest odroczona do etapu późniejszego. Idealne SE-drzewa eliminują obciążenie przeszukiwania, choć okazały się być trudne w użyciu do rozwiązywania praktycznych problemów. Istnieją również drzewa k-wymiarowe (ang. kd-trees) wykorzystywane do reprezentacji przestrzeni wzorca, gdzie są generowane z użyciem algorytmu zachłannego szeregowania atrybutów [Bentley, 1975; Samet, 1989; Bentley, 1990; Salganicoff, 1993]. Drzewa tego typu dążą do podziału przestrzeni na obszary, które mają w przybliżeniu to samo prawdopodobieństwo otrzymania przyszłych wzorców. Oznacza to, że gdy lokalna gęstość przykładów rośnie, to objętość odpowiadających podziałów maleje. Podczas budowy drzewkd podziały zatrzymują się na podstawie testu prawdopodobieństwa progowego dla generowanych obszarów. Następnie, obliczane są pesymistyczne oszacowania prawdopodobieństwa, że utworzone liście będą poprawnie klasyfiko- 33

34 wały wzorce pokrywane przez nie. Jeżeli te oszacowania nie są zadowalające, to każdy liść jest zastępowany przez drzewo decyzyjne (zbudowane w kategoriach uogólnionych drzew kwadratów (ang. quad trees). Zaobserwowano, że metoda ta wykazuje bardzo duże podobieństwo do klasyfikacji najbliższego sąsiada. Z tego powodu zaproponowano interesujący schemat, oparty na wprowadzeniu wag wzorców, umożliwiający systemowi zapominanie przestarzałych pojęć. Implementacje tego podejścia wymagają dynamicznego uaktualniania użytych struktur danych. Innym znanym z literatury pojęciem są drzewa modeli (ang. model trees), wykorzystywane w procesie przewidywania ciągłych wartości numerycznych [Frank i in., 1989]. Drzewa modeli są typem drzew decyzji zawierających w liściach funkcje liniowej regresji. Drzewa te mogą być stosowane do problemów klasyfikacji poprzez zastosowanie standardowej metody transformacji problemu klasyfikacji na problem aproksymacji funkcji. Drzewo modelu generuje bardziej dokładne klasyfikatory niż algorytm C5.0, zwłaszcza w przypadku, gdy większość atrybutów jest numeryczna. W literaturze można znaleźć również doniesienia o meta drzewach decyzji (ang. meta decision tree) [Todorowski oraz Džeroski, 2003]. Drzewa te są próbą łączenia wielu klasyfikatorów. Liście meta drzew zamiast określenia przynależności badanego obiektu, wskazują który klasyfikator należy wykorzystać w procesie klasyfikacji. Do badań nad tymi strukturami wykorzystano klasyfikatory otrzymane z pięciu algorytmów uczenia: dwóch algorytmów generowania drzew decyzji, algorytmu indukcji reguł, algorytmu najbliższego sąsiada oraz naiwnego klasyfikatora Bayesa. W niniejszym rozdziale przedstawiono podstawowe informacje dotyczące indukcji drzew decyzji oraz wybranych algorytmów służących do ich generowania. Żaden z powyżej opisanych algorytmów nie posiada wbudowanej metody pozwalającej na generowanie drzew decyzji w warunkach niepewności, to znaczy w przypadku, gdy zbiór uczący zawiera przypadki sprzeczne. Z różnych metod przezwyciężania tej trudności, obecnie najczęściej wymienia 34

35 się zastosowanie elementów teorii zbiorów przybliżonych Pawlaka [Pawlak, 1982; Pawlak, 1992]. Kolejny rozdział zostanie zatem poświęcony omówieniu elementów tej teorii oraz możliwości jej wykorzystania w procesie generowania quasi-optymalnych drzew decyzji. 35

36 ROZDZIAŁ 3 Elementy teorii zbiorów przybliżonych w analizie danych sprzecznych Teoria zbiorów przybliżonych, zapoczątkowana w roku 1982 [Pawlak, 1982] przez niedawno zmarłego profesora Zdzisława Pawlaka, ujmuje koncepcję zastosowania pewnych formalizmów matematycznych do analizy danych cechujących się brakiem precyzji oraz wewnętrznymi sprzecznościami. Teoria ta stale uzupełniana i rozwijana również przez innych badaczy [Pawlak oraz Skowron, 2007; Skowron, 2006; Grzymała-Busse oraz Ziarko, 2006; Grzymała- Busse, 2006; Ziarko, 2006; Cyran oraz Mrózek, 2001] zawdzięcza swoje szerokie zastosowanie nie tylko możliwością interpretacji danych sprzecznych, lecz także zdolnością redukcji liczby atrybutów opisujących obiekty w minimalny zbiór cech, zwanych redukatem zbioru atrybutów. W tym miejscu należy podkreślić, że wszystkie algorytmy wymienione w poprzednim rozdziale nie posiadają wbudowanego mechanizmu umożliwiającego analizę danych sprzecznych 3. Wydaje się jednak, że uzupełnienie ich o te elementy w planowanym narzędziu informatycznym może przynieść interesujące i nieoczekiwane rezultaty zwłaszcza w odniesieniu do danych medycznych 4. W przypadku występowania w danych (reprezentowanych w postaci tablicy decyzji) przypadków sprzecznych tzn. posiadających te same wartości atrybutów opisujących, lecz sprzeczne wartości zmiennej zależnej, teoria zbio- 3 Przypadki sprzeczne charakteryzują się posiadaniem tych samych wartości atrybutów opisujących, lecz sprzecznych wartości zmiennej zależnej. 4 Dane medyczne, cechują się bardzo często sprzecznymi diagnozami dla pacjentów z takimi samymi symptomami. 36

37 rów przybliżonych posługuje się pojęciami górnego i dolnego przybliżenia. Sprecyzowanie wspomnianych pojęć wymaga zdefiniowania pojęcia tablicy decyzji. Tablica decyzji jest uporządkowanym zbiorem DT = U,C, A,V, f (3.1) w którym: U, C i A są niepustymi, skończonymi zbiorami, elementy zbioru U nazywamy obiektami, bądź przypadkami, elementy zbioru C nazywamy atrybutami opisującymi, elementy zbioru A nazywamy atrybutami decyzyjnymi, C, A Q,C A=Q,C A=, a Q jest skończonym zbiorem atrybutów, V =X V q, przy czym V q nazywamy dziedziną atrybutu q Q, f :U Q V nazywamy funkcją informacji. W tablicy decyzji każdy podzbiór zbioru wszystkich przypadków, określony taką samą wartością decyzji, nazywa się konceptem. Niech U oznacza zbiór wszystkich przypadków tablicy decyzyjnej i niech P będzie podzbiorem zbioru Q wszystkich zmiennych, tzn. atrybutów i decyzji. Niech P będzie podzbiorem A. Relacja nierozróżnialności na U zdefiniowana dla wszystkich x, y U przez x y wtedy i tylko wtedy, gdy dla obu x i y wartości dla wszystkich zmiennych z P są identyczne. Równoważne klasy są nazwane zbiorami elementarnymi P. Równoważne klasy zawierające x oznaczono [ x] p. Każdą skończoną sumę mnogościową zbiorów elementarnych zbioru P nazywamy zbiorem definiowalnym w P. Niech X będzie konceptem. Ogólnie, X nie jest zdefiniowanym zbiorem w P. Jednakże, zbiór X może być przybliżony przez dwa zbiory definiowalne w P. Pierwszy nazywany jest dolnym przybliżeniem X w P, oznaczony jako P X i zdefiniowany następująco: { x U [ x] p X } (2.2) drugi zbiór jest nazywany górnym przybliżeniem X w P, oznaczony jako P X i zdefiniowany następująco: { x U [ x] p X } (2.3) 37

38 Dolne przybliżenie X w A jest największym definiowalnym zbiorem w A, zawierającym X. Z kolei górne przybliżenie X w A jest najmniejszym definiowalnym zbiorem w A zawierającym X. Zbiór przybliżony X jest rodziną wszystkich podzbiorów zbioru U mających to samo dolne i to samo górne przybliżenie X. Przyjęto założenie, że planowane narzędzie informatyczne ma przetwarzać dane typu 2A. Przykładowa tablica tego typu (Tablica 3.1) opisuje wybrane owoce (koncepty: Banan, Jabłko, Grejpfrut) za pomocą pięciu cech (opisujących: Kolor, Rozmiar, Kształt, Smak, Waga). Tablica 3.1. Przykładowa tablica decyzji Owoce Q U C A Kolor Rozmiar Kształt Smak Waga Owoc u 1 zielony mały okrągły słodki 0.1 Banan u 2 zielony średni okrągły słodki 0.5 Jabłko u 3 zielony duży okrągły słodki 0.4 Jabłko u 4 zielony średni okrągły kwaśny 0.3 Jabłko u 5 zielony mały okrągły słodki 0.1 Grejpfrut u 6 żółty średni wydłużony słodki 0.3 Banan u 7 zielony średni wydłużony słodki 0.2 Banan u 8 zielony duży wydłużony słodki 0.3 Banan u 9 bordowy mały okrągły słodki 0.2 Grejpfrut u 10 zielony mały okrągły kwaśny 0.1 Grejpfrut u 11 czerwony średni okrągły słodki 0.3 Jabłko u 12 czerwony średni okrągły kwaśny 0.4 Jabłko u 13 bordowy mały okrągły słodki 0.2 Grejpfrut Stosując notację DT = U, C, A,V, f, tablica ta stanowi zbiór elementów, w którym: U ={u 1, u 2, u 3, u 4,u 5,u 6,u 7, u 8, u 9, u 10, u 11, u 12,u 13 }, C={Kolor, Rozmiar,Kształt,Smak,Waga }, A={Owoc}, V Q =V Kolor V Rozmiar V Kształt V Smak V Waga i V A =V Owoc, V Kolor ={zielony, bordowy, czerwony,żółty}, V Rozmiar ={mały, średni, duży}, V Kształt ={wydłużony,okrągły }, V Smak ={kwaśny, słodki}, 38

39 V Waga ={0.1, 0.2, 0.3,0.4, 0.5}, V Owoc ={ jabłko,banan, grejpfrut}, f :U Q V np.: f(1, Kolor) = zielony, f(3, Kształt) = okrągły. Charakterystyczną cechą rozpatrywanego zbioru danych jest występowanie dwóch przypadków sprzecznych (przypadek u 1 oraz u 5 ). Wartości wszystkich atrybutów opisujących te przypadki są jednakowe (zielony, mały, okrągły, słodki, 0.1), natomiast wartości atrybutu decyzyjnego są różne, Banan dla przypadku u 1 oraz Grejpfrut dla u 5. W tej sytuacji, zgodnie z teorią zbiorów przybliżonych, obliczane są dolne i górne przybliżenia konceptów. W oparciu o powyższą interpretację elementów teorii zbiorów przybliżonych, klasyfikacja bazująca na zbiorze atrybutów C tablicy 3.1 zawiera następujące przypadki: {{u 1, u 5 },{u 2 }, {u 3 }, {u 4 },{u 6 },{u 7 },{u 8 },{u 9, u 13 },{u 10 }, {u 11 }, {u 12 }}. Wy n i k a stąd, że przypadki {u 1,u 5 } oraz {u 9,u 13 } są nierozróżnialne na zbiorze C, ponieważ wartości atrybutów opisujących są identyczne. Dodatkowo, jednoelementowy zbiór D składa się z trzech konceptów zmiennej zależnej Owoc: Jabłko, Banan, Grejpfrut. Natomiast elementami zbiorów X są obiekty, dla których: X 1 = Jabłko, X 2 =Banan, X 3 =Grejpfrut : X 1 ={u 2, u 3, u 4, u 11, u 12 }, X 2 ={u 1, u 6, u 7, u 8 }, X 3 ={u 5, u 9, u 10, u 13 }. Zatem każdy zbiór X może być przybliżony przez dwa zbiory definiowalne w P: dolne przybliżenie X w P ( P X ) oraz górne przybliżenie X w P ( P X ): P X 1 ={u 2, u 3, u 4, u 11, u 12 }, P X 1 ={u 2, u 3, u 4, u 11, u 12 } P X 2 ={u 6, u 7, u 8 }, P X 2 ={u 1, u 5, u 6, u 7, u 8 } P X 3 ={u 9, u 10, u 13 }, P X 3 ={u 1, u 5, u 9, u 10, u 13 } Można zatem stwierdzić, że dolne przybliżenie zbioru X stanowią obiekty (przypadki) należące do zbioru X, które wyczerpująco opisują zbiór rozpatrywanych obiektów. Natomiast górne przybliżenie zbioru X stanowią 39

40 obiekty, które przynajmniej częściowo opisują zbiór rozpatrywanych obiektów (Rys. 3.1). Rysunek 5.1. Dolne i górne przybliżenie dla konceptów Jabłko, Banan, Grejpfrut Wydaje się, że próba uzupełnienia metod indukcji drzew decyzji elementami teorii zbiorów przybliżonych, umożliwi interesujące rozszerzenie tworzonej metodologii ekstrakcji wiedzy o zdolność generowania modeli pewnych oraz modeli możliwych dla analizowanego zbioru danych. Wydaje się, że w wyniku przyjęcia takiego rozwiązania będzie można generować zbiory drzew, spośród których uda się wyłonić optymalny model uczenia. Badania skuteczności opracowanej metodologii ekstrakcji wiedzy z danych, zostaną przeprowadzone na rzeczywistej bazie zmian melanocytowych skóry [Grzymała-Busse oraz Hippe, 2000], co może przyczynić się do rozwoju wspomaganej komputerowo metodyki wczesnego i nieinwazyjnego diagnozowania jednej z najgroźniejszych chorób współczesnej ludzkości czerniaka skóry. 40

41 ROZDZIAŁ 4 Architektura systemu TreeSEEKER Niniejszy rozdział zawiera opis realizacji projektowej systemu informatycznego TreeSEEKER, umożliwiającego generowanie quasi-optymalnych drzew decyzji. Ogólny schemat blokowy systemu został przedstawiony na Rysunku 4.1. Rysunek 4.1. Schemat blokowy architektury systemu TreeSEEKER W założeniu system TreeSEEKER składa się z czerech podstawowych, realizujących odrębne funkcje, powiązanych ze sobą modułów programowych: 1. modułu preprocesora i heurystycznego agenta, 2. modułu budowy modelu uczenia drzewa decyzji, 3. modułu testowania, oraz 4. modułu prezentacji wyników. Moduł wstępnej analizy danych (preprocesora) aktywowany na etapie wczytywania zbioru uczącego, zawiera własne algorytmy, umożliwiające: 41

42 analizę nagłówka zbioru uczącego, zawierającego informację o atrybutach opisujących, typach ich wartości (symboliczna i numeryczna) oraz o atrybucie decyzyjnym, przeszukanie zbioru uczącego, z zamysłem ujawnienia najczęściej występujących błędów typograficznych, powstających na etapie jego tworzenia (np. wpisania litery l zamiast cyfry 1, czy też litery O zamiast cyfry 0, itp.), analizę przypadków w celu wykrycia brakujących wartości atrybutów opisujących, lub symboli o specjalnym znaczeniu, tj. * (symbolu wieloznaczności) oraz symbolu? wskazującego brak wartości danego atrybutu opisującego [Błajdo i in., 2003], wykrycie w zbiorze uczącym przypadków powtarzających się, tj. przypadków opisanych identycznym zestawem wartości atrybutów oraz należących do tej samej kategorii, wykrycie w zbiorze uczącym przypadków sprzecznych (tzn. przypadków posiadających takie same wartości wszystkich atrybutów, lecz należących do odmiennych kategorii) algorytm zostanie opisany w Rozdziale 5-tym niniejszej rozprawy. Zadaniem modułu heurystycznego agenta jest ocena wielkości wczytywanego zbioru uczącego na podstawie obliczenia iloczynu: szacowanej liczby przypadków oraz liczby atrybutów opisowych. W przypadku gdy wynik wspomnianego iloczynu będzie większy od 2000, moduł umożliwi utworzenie reprezentacji oryginalnego zbioru. Tak przetworzony zbiór będzie zawierał proporcjonalną liczbę przypadków ze wszystkich kategorii występujących w zbiorze źródłowym. Moduł budowy modelu uczenia (drzewa decyzji) wraz z zaimplementowanymi algorytmami, zostanie opisany w Rozdziale 5-ym niniejszej rozprawy. 42

43 Moduł testowania wygenerowanego drzewa decyzji, umożliwia przeprowadzenie automatycznego procesu klasyfikacji przypadków ze zbioru testującego. Wyniki klasyfikacji są prezentowane za pomocą kolejnego modułu modułu prezentacji wyników w formie tablicy, zawierającej nazwę algorytmu za pomocą którego utworzono drzewo decyzji oraz przeprowadzono klasyfikację, liczbę badanych przypadków ze zbioru testującego, liczbę przypadków poprawnie sklasyfikowanych, liczbę przypadków błędnie sklasyfikowanych oraz błąd klasyfikacji wyrażony w procentach. Dodatkowo dostępnym elementem modułu prezentacji wyników jest tablica rozproszenia [Roiger oraz Geatz, 2003]. Opracowane w ramach niniejszej rozprawy narzędzie informatyczne TreeSEEKER, wykonane zostało zgodnie z powyżej przedstawionymi ogólnymi założeniami. W dalszej treści rozdziału przedstawiono opis badań głównych funkcji opracowanych algorytmów, odpowiedzialnych za proces wstępnego przetwarzania danych, realizację heurystycznego agenta oraz działanie modułu prezentacji wyników. Badania poszczególnych algorytmów wykonano stosując konwencję nakreślania celu oraz przyjętej metodyki badań, prezentacji uzyskanych wyników oraz ich dyskusji. Badanie poprawności linii sterującej nagłówka bazy informacyjnej Cel badań: badania dotyczyły analizy nagłówka zbioru uczącego (Rys. 4.2), w zakresie zgodności informacji zawartych w nagłówku zbioru, z jego treścią. Nagłówek zawiera zakodowaną informację o liczbie, typie oraz nazwach kolejnych atrybutów opisujących. 43

44 < s n n s d > [ Stan nieba Temperatura Wilgotność Wiatr Decyzja ] Wg przyjętej koncepcji formatu zbiorów uczących 5 (z definicji w formacie tekstowym), nagłówek składa się z linii sterującej oraz listy nazw poszczególnych atrybutów. Linia sterująca niesie informację o typach kolejnych atrybutów, zawartą między rozpoczynającym ją znakiem <, a znakiem końca linii >. Zgodnie z przyjętą konwencją, atrybuty opisane wartościami symbolicznymi są w linii sterującej oznaczone literą s, atrybutom przyjmującym wartości numeryczne przypisuje się symbol n, natomiast atrybut decyzyjny jest oznaczany znakiem d. Lista nazw atrybutów znajduje się między znakami nawiasów kwadratowych [ oraz ], i zawiera listę nazw kolejnych atrybutów, oddzielonych tzw. białymi znakami. Metodyka badań: badania przeprowadzono analizując zbiór uczący, opisany w Tablicy 2.1 (Rozdział 2) wprowadzając do jego nagłówka modyfikacje polegające na zastosowaniu krótszej linii sterującej w stosunku do liczby atrybutów opisujących przypadki (Rys. 4.3) oraz użyciu mniejszej liczby nazw atrybutów w stosunku do ich rzeczywistej liczby (Rys. 4.4). Wyniki badań: moduł analizy danych poprawnie wykrywa badane niezgodności linii sterującej, w stosunku do opisu przypadków w zbiorze uczącym. 5 Przyjęty format bazy informacyjnej wynika m. inn. z uzgodnień z współpracującą grupą w Kansas Uniersity (KU), Lawrence (KS) USA. Dzięki przyjęciu wspólnego formatu danych, można je bez trudności przetwarzać stosując narzędzia informatyczne opracowane w KU oraz w WSIZ w Rze - szowie. Rysunek 4.2: Przykładowy nagłówek zbioru uczącego < s n s d > [ Stan nieba Temperatura Wilgotność Wiatr Decyzja ] Rysunek 4.3. Fragment zbioru uczącego, posiadającego krótszą linię sterującą niż liczba atrybutów opisujących < s n n s d > [ Stan nieba Temperatura Wilgotność Decyzja ] Rysunek 4.4. Fragment zbioru uczącego, zawierającego mniejszą liczbę nazw atrybutów niż liczba atrybutów opisujących 44

45 Niezgodności te są uznawane za zakłócenia poprawności przyjętego formatu bazy, z jednoczesnym wydaniem odpowiedniego komunikatu w oknie dialogowym (Rys. 4.5). Rysunek 4.5. Komunikat systemu, będący następstwem wykrycia niepoprawnej konstrukcji nagłówka zbioru uczącego Dyskusja wyników: w konsekwencji działania opracowanych algorytmów wstępnej analizy zbioru uczącego, we wszystkich badanych przypadkach opracowany moduł programowy poprawnie reagował na świadome zakłócenia czołówki zbioru uczącego. Stwierdzono także, że sam fakt wydania przez system ostrzeżenia w postaci standardowego okna dialogowego z tym samym komunikatem, jest całkowicie wystarczający i umożliwia przeprowadzenie niezbędnej korekty nagłówka zbioru uczącego. Spostrzeżenia te dotyczą także analizy zbioru testującego. Badanie funkcji wykrywania błędów typograficznych Cel badań: sprawdzenie działania modułu wykrywania błędów typograficznych w analizowanym zbiorze uczącym. Metodyka badań: badania zostały przeprowadzone na zmodyfikowanym zbiorze uczącym z Tablicy 2.1. Wprowadzone zmiany poległy m. inn. na zastąpieniu cyfry 1 literą l, oraz cyfry 0 literą O wybranych wartości atrybutów numerycznych. Natomiast dla atrybutów o wartościach symbolicznych, badania dotyczyły wykrywania liczby 11111, zadeklarowanej jako wartość atrybutu symbolicznego. Zbiór zawierający opisane modyfikacje został przedstawiony na Rys

46 słońce słońce słońce słońce słońce pochmurno pochmurno pochmurno pochmurno deszcz deszcz deszcz deszcz l O tak tak nie nie nie tak nie tak nie tak tak nie nie nie Nie grać Nie grać Nie grać Nie grać Nie grać Rysunek 4.6. Zmodyfikowany zbiór uczący z Tablicy 2.1, przedstawiający wybrane błędy typograficzne (błędne wartości zostały zaznaczone szarym tłem) Wyniki badań: wykrycie błędów związanych z wprowadzeniem liter jako wartości atrybutów numerycznych oraz wartości liczbowej wprowadzonej dla atrybutu przyjmującego wyłącznie wartości symboliczne, system zgłaszał komunikatem w oknie dialogowym (Rys. 4.7), z jednoczesnym wskazaniem komórek, zawierających błędne wartości, dając możliwość poprawienia wykrytych błędów. Rysunek 4.7. Systemowe okno dialogowe informujące o wykryciu błędów typograficznych w analizowanym zbiorze uczącym Dyskusja wyników: opisany fragment badań dotyczył najbardziej uciążliwej grupy błędów typograficznych w treści zbioru uczącego, i stanowi ilustrację możliwości modułu wstępnego przetwarzania danych. Moduł ten analizuje jeszcze inne odstępstwa od przyjętych zasad tworzenia tablicy decyzji, umożliwiając przeprowadzenie korekty wykrytych błędów. Na podstawie szerszych 46

47 badań, nie cytowanych tu w celu ograniczenia tekstu, można stwierdzić pełną poprawność działania omawianych algorytmów. Badanie wykrywania symbolu? w zbiorze wartości atrybutu numerycznego Cel badań: podobnie jak w poprzednim przypadku wyszukiwania błędów typograficznych badania dotyczyły analizy treści zbioru uczącego. Do zbioru wcześniej już prezentowanego jako wartość jednego z atrybutów numerycznych, wprowadzono specjalny symbol? oznaczający nieznaną wartość. Na tak spreparowanym zbiorze przeprowadzono dalsze badania. Metodyka badań: badania przeprowadzono na zbiorze uczącym zaprezentowanym na Rysunku 4.8. Jedna z wartości atrybutu numerycznego została zastąpiona symbolem?. słońce słońce słońce słońce słońce pochmurno pochmurno pochmurno pochmurno deszcz deszcz deszcz deszcz deszcz ? tak tak nie nie nie tak nie tak nie tak tak nie nie nie Nie grać Nie grać Nie grać Nie grać Nie grać Rysunek 4.8. Zmodyfikowany zbiór uczący z Tablicy 2.1, zawierający symbol? jako wartość jednego z atrybutów numerycznych (błędne wartości zostały zaznaczone szarym tłem) Wyniki badań: system wykrywa symbol braku wartości numerycznej danego atrybutu, wyświetlając odpowiedni komunikat w oknie dialogowym (Rys. 4.9), dając możliwość usunięcia przypadków zawierających? lub uruchomienia procedury zastąpienia symbolu? wyliczoną wartością numeryczną. 47

48 Rysunek 4.9. Komunikat systemu informujący o wykryciu symbolu? w treści zbioru uczącego jako jednej z wartości atrybutu numerycznego Dyskusja wyników: pojawienie się specjalnego symbolu? w treści zbioru uczącego zamiast określonej wartości liczbowej, może wynikać z chwilowego braku informacji o faktycznej wartości analizowanego atrybutu opisującego. System prawidłowo rozpoznaje wystąpienie? w zbiorze wartości numerycznych atrybutów opisujących, dając możliwość jego zastąpienia obliczoną w sposób automatyczny wartością średnią, na podstawie rzeczywistych wartości rozpatrywanego atrybutu dla przypadków należących do tej samej kategorii, co przypadek zawierający symbol?. Analizując wynik działania algorytmu (Rys. 4.10) widać, że wyliczona wartość została obliczona wg reguły ( )/8 = 73,125. Rysunek Zbiór uczący zawierający wyliczoną brakującą wartością atrybutu <Temp> 48

49 Badanie wykrywania symbolu? w zbiorze wartości atrybutu symbolicznego Cel badań: niniejsze badania dotyczył ściśle takiego samego zagadnienia jak poprzednio, jednakże odniesionego do wartości logicznych atrybutów symbolicznych (Rys. 4.11). słońce? słońce słońce słońce pochmurno pochmurno pochmurno pochmurno deszcz deszcz deszcz deszcz deszcz tak tak nie nie nie tak nie tak nie tak tak nie nie nie Nie grać Nie grać Nie grać Nie grać Nie grać Rysunek Zmodyfikowany zbiór uczący z Tablicy 2.1, zawierający symbol? jako wartość jednego z atrybutów symbolicznych (błędne wartości zostały zaznaczone szarym tłem) Metodyka badań: badania przeprowadzono na zbiorze uczącym Rys. 4.11, wprowadzając symbol? jako wartość dowolnie wybranego atrybutu symbolicznego. Wyniki badań: system poprawnie wykrył symbol znaku zapytania w opisie wartości symbolicznej danego atrybutu, wyświetlając identyczny z poprzednim komunikat w oknie dialogowym (Rys. 4.9), dającym możliwość uruchomienia procedury zastąpienia znaku? odpowiednią wartością. Dyskusja wyników: system poprawnie wykrywa wystąpienie symbolu braku wartości? dla atrybutów symbolicznych, dając możliwość usunięcia z wczytanej bazy informacyjnej przypadku, posiadającego w opisie symbol?, lub jego zastąpienia wartością najczęściej występującą wśród przypadków należących do tej samej kategorii, co przypadek zawierający wspomniany symbol (Rys. 4.12). 49

50 Rysunek Zbiór uczący z rzeczywistą, znaczoną wartością symboliczną atrybutu <Stan_nieba> Badanie wykrywania symbolu * w zbiorze wartości atrybutu numerycznego Cel badań: badania dotyczyły analizy treści zbioru uczącego z zamiarem sprawdzenia poprawności działania algorytmu wyszukiwania oraz obsługi danych niepełnych, oznaczonych symbolem wieloznaczności * wśród wartości atrybutów numerycznych (Rys. 4.13). słońce słońce słońce słońce słońce pochmurno pochmurno pochmurno pochmurno deszcz deszcz deszcz deszcz deszcz * tak tak nie nie nie tak nie tak nie tak tak nie nie nie Nie grać Nie grać Nie grać Nie grać Nie grać Rysunek Zmodyfikowany zbiór uczący z Tablicy 2.1, zawierający symbol * jako wartość jednego z atrybutów numerycznych (błędne wartości zostały zaznaczone szarym tłem) Metodyka badań: badania przeprowadzono na zbiorze uczącym z Rysunku 4.13, wprowadzając symbol * jako opis wartości dowolnie wybranego atrybutu numerycznego. 50

51 Wyniki badań: system sygnalizuje wykrycie symbolu wieloznaczności w treści zbioru uczącego odpowiednim komunikatem w oknie dialogowym (Rys 4.14), dając możliwość usunięcia z bazy informacyjnej przypadku zawierającego ten symbol, lub uruchomienia procedury zastąpienia symbolu wieloznaczności rzeczywistą wartością atrybutu dla rozważanego przypadku. Rysunek Komunikat systemu informujący o wykryciu symbolu * w treści zbioru uczącego jako jednej z wartości atrybutu numerycznego Dyskusja wyników: zastosowanie symbolu gwiazdki (wieloznaczności) w opisie atrybutu oznacza, że jego wartość przypuszczalnie nie wpływa na wyniki przypisania danemu przypadkowi określonej kategorii rozpoznawanej przez system. Funkcja ta jest zatem odrębna w porównaniu do użycia znaku zapytania, stosowanego w opisie wartości atrybutów, w sytuacji gdy nie podano (z różnych przyczyn) wartości atrybutu dla danego przypadku. System poprawnie wykrywa wystąpienie symbolu wieloznaczności * dla atrybutów numerycznych, dając możliwość usunięcia przypadku posiadającego ten symbol ze zbioru uczącego, lub jego zastąpienie wartością rzeczywistą. Algorytm zamiany symbolu gwiazdki, użytego zamiast wartości numerycznej, polega na wielokrotnym dodaniu do zbioru uczącego przypadku zawierającego ten symbol, zastępując go kolejnymi wartościami przyjmowanymi przez dany atrybut wśród przypadków, należących do tej samej klasy, co przypadek analizowany (Rys. 4.15). Omawiając zatem przykład z Rys widzimy, że do analizowanego zbioru dodano sześć przypadków (oznaczone ramką koloru czerwonego), zastępując symbol gwiazdki kolejnymi wartościami atrybutu <Temp>, występującymi wśród przypadków należących do klasy. Wartości wszystkich pozostałych atrybutów pozostały niezmienione. 51

52 Rysunek Zbiór uczący zawierający przypadki powstałe po rozwinięciu symbolu * (otoczone czerwoną ramką), żółtą ramką otoczono wstawioną wartość rzeczywistą dla atrybutu przypadku oryginalnego Badanie wykrywania symbolu * w zbiorze wartości atrybutu symbolicznego Cel badań: badania dotyczyły analizy treści zbioru uczącego z zamysłem sprawdzenia poprawności działania algorytmu wyszukiwania oraz obsługi danych niepełnych, oznaczonych symbolem gwiazdki, wstępujących w opisie wartości atrybutów symbolicznych. Metodyka badań: badania przeprowadzono na zbiorze uczącym z Rys. 4.16, wprowadzając symbol * jako wartość dowolnie wybranego atrybutu symbolicznego. Wyniki badań: wystąpienie symbolu gwiazdki w treści bazy informacyjnej jest zgłaszane odpowiednim komunikatem w oknie dialogowym (Rys. 4.14), dającym możliwość usunięcia przypadku z bazy informacyjnej posiadającego ten symbol, lub uruchomienie procedury zastąpienia znaku * właściwą wartością. 52

53 słońce słońce słońce słońce słońce pochmurno pochmurno pochmurno pochmurno * deszcz deszcz deszcz deszcz tak tak nie nie nie tak nie tak nie tak tak nie nie nie Nie grać Nie grać Nie grać Nie grać Nie grać Rysunek Zmodyfikowany zbiór uczący z tablicy 2.1, zawierający symbol * jako wartość jednego z atrybutów symbolicznych (błędne wartości zostały zaznaczone szarym tłem) Dyskusja wyników: system poprawnie wykrywa wystąpienie symbolu wieloznaczności * dla wartości atrybutów symbolicznych, dając możliwość usunięcia ze zbioru uczącego przypadku posiadającego ten symbol, lub jego rozwinięcie. Proces rozwinięcia polega na wielokrotnym dodaniu rozważanego przypadku do zbioru, zastępując symbol * wszystkimi wartościami danego atrybutu występującymi dla tej samej klasy, do której należy przypadek zawierający symbol gwiazdki (Rys. 4.17). Podobnie jak w poprzednim przypadku, wartości wszystkich pozostałych atrybutów pozostają niezmienione. Rysunek Zbiór uczący zawierający przypadki powstałe po rozwinięciu symbolu * (otoczone czerwoną ramką), żółtą ramką otoczono wstawioną wartość rzeczywistą dla atrybutu przypadku oryginalnego 53

54 Badanie funkcji wyłączania atrybutów Cel badań: zazwyczaj bazy informacyjne cechują się nadmiarem atrybutów opisujących. Duża liczba cech opisujących obiekty wiąże się w większości przypadków z wydłużeniem czasu uczenia, na ogół bez zwiększenia jego dokładności, ponieważ opis przypadków może zawierać atrybuty, które mimo niewielkiego wpływu na identyfikację klasy obiektu, biorą udział w obliczeniach. Wydawało się zatem konieczne wyposażenie systemu TreeSEEKER w funkcję wyłączania poszczególnych atrybutów, która by w łatwy sposób umożliwiała tworzenie różnych platform uczenia, poprzez eliminację z tego procesu wybranych atrybutów opisujących. Poniższe badania miały na celu sprawdzenie działania funkcji wyłączania atrybutów, zaimplementowanej w systemie TreeSEEKER. Metodyka badań: badania przeprowadzono na zbiorze z Tablicy 2.1. W pierwszym kroku wygenerowano drzewo decyzji dla zbioru zawierającego wszystkie atrybuty opisujące, następnie losowo wyłączono jeden z atrybutów. Wygenerowane drzewa decyzji zostały porównane z wykorzystaniem kryterium średniej liczby pytań. Wyniki badań: Tablica 4.1 zawiera badaną średnią liczbę pytań dla drzew decyzji wygenerowanych przy pełnym opisie przypadków ze zbioru uczącego oraz przy losowo wyłączonym jednym atrybucie opisującym. Tablica 4.1. Średnia liczba pytań drzew decyzji wygenerowanych dla zbioru oryginalnego oraz zbioru z wyłączonymi atrybutami Algorytm budowy drzewa decyzji Z pełnym opisem ID3/C4.5 [Quinlan, 1993] 1,71 Średnia liczba pytań Z wyłączonym atrybutem opisującym <stan_nieba> <temperatura> 3,57 1,71 Dyskusja wyników: przeprowadzone badania wskazują na poprawne działanie badanej funkcji. Opracowany interfejs użytkownika daje możliwość wyłączenia dowolnego atrybutu ze zbioru atrybutów opisujących przypadki. Wyniki badań zawarte w Tablicy 4.1 wskazują, że zastosowane rozwiązanie umożli- 54

55 wia w kontrolowany sposób dokonanie oceny wpływu danego atrybutu na jakość wygenerowanego drzewa decyzji. Analizując wyniki zawarte w powyższej tablicy można przypuszczać, że atrybut <stan_nieba> w przeciwieństwie do atrybutu <temperatura> (którego wyłączenie nie powodowało wzrostu badanego parametru) ma duży wpływ na rozpoznawaną kategorię (po wyłączeniu średnia liczba pytań wzrosła, powodując znaczny wzrost złożoności uzyskanego drzewa decyzji). Badanie funkcji wyłączania przypadków Cel badań: zamysł zastosowania funkcji wyłączania przypadków w systemie TreeSEEKER wiąże się z opracowaniem możliwości eliminacji z procesu badań określonej grupy przypadków. Występowanie tych przypadków (np. przypadków redundantnych) może spowodować niepotrzebne przedłużenie czasu przetwarzania, bez uzyskania wyraźnej poprawy jakości procesu klasyfikacji. Badanie opisanej funkcji miało na celu sprawdzenie działania algorytmu wyłączania przypadków we wczytanym zbiorze uczącym. Metodyka badań: badania przeprowadzono na zbiorze zawierającym 548 przypadków zmian melanocytowych skóry [Hippe i in., 2002]. Podobnie jak w przypadku badania funkcji wyłączania atrybutów, porównana została średnia liczba pytań dla wygenerowanych drzew decyzji (dla zbiorów z włączonymi i wyłączonymi przypadkami powtarzającymi się). Wyniki badań: zestawienie średniej liczby pytań dla wygenerowanych drzew decyzji wraz z liczbą przypadków powtarzających się w zbiorze uczącym zostało zawarte w tablicy 4.2. Tablica 4.2. Średnia liczba pytań drzew decyzji wygenerowanych dla zbioru oryginalnego zawierającego przypadki powtarzające się oraz zbioru po ich wyłączeniu Algorytm budowy drzewa decyzji Średnia liczba pytań/liczba przypadków powtarzających się Z włączonymi przypadkami powtarzającymi się Z pominięciem przypadków powtarzających się ID3/C4.5 3, ,

56 Dyskusja wyników: przeprowadzone badania potwierdziły prawidłowe działanie funkcji wyłączania przypadków; w odniesieniu do analizowanego zbioru uczącego można dostrzec ich znikomy wpływ na jakość generowanego drzewa decyzji (różnica średniej liczby pytań wynosi jedynie 0,04). Dodatkowo, badana funkcja wskutek wyłączenia określonego przypadku (lub grupy przypadków) daje możliwość poszukiwania optymalnej ich liczby dla danego problemu uczenia. Badanie funkcji zmiany atrybutu decyzyjnego Cel badań: mając na uwadze fakt, że w trakcie prowadzenia badań często zachodzi konieczność zmiany atrybutu decyzyjnego, budowany system został wyposażony w mechanizm realizujący tę funkcję. Badania miały na celu sprawdzenie funkcji zmiany kolumny decyzji dla wczytanego zbioru uczącego. Metodyka badań: przyjęta metodyka badań polegała na wczytaniu do systemu TreeSEEKER bazy informacyjnej dotyczącej gry w golfa (Tablica 2.1), posiadającej: atrybut decyzyjny o nazwie <Decyzja> (dotyczący pytania grać czy nie grać w golfa) oraz atrybuty opisujące tj.: <Stan nieba>, <Temp.>, <Wilgotność>, <Wiatr>. Następnie dokonano zmiany atrybutu decyzyjnego w analizowanej bazie na atrybut <Stan nieba> i wygenerowano odpowiednie drzewo decyzji. Wyniki: w wyniku zmiany atrybutu opisującego <Stan nieba> na atrybut decyzyjny, kolumna zawierająca go została umieszczona jako skrajna prawa kolumna tablicy decyzji (Rys. 4.18). 56

57 Rysunek Widok zbioru uczącego po dokonanej zamianie kolumny decyzji. Żółtą ramką został oznaczony nowy atrybut decyzyjny <Stan nieba> Rysunek Drzewo decyzji wygenerowane ze zbioru uczącego z Rys z atrybutem decyzyjnym <Stan_nieba> Dyskusja wyników: opracowana funkcja umożliwia ustawienie dowolnego atrybutu (spośród atrybutów opisujących przypadki w zbiorze uczącym) jako atrybut decyzyjny, wygenerowanie drzewa decyzji oraz przeprowadzenie procesu klasyfikacji przypadków ze zbioru testującego (system automatycznie zmienia w nim położenie atrybutu decyzyjnego). 57

58 Wykrywanie zbiorów o dużej liczbie przypadków lub zawierających obiekty opisane wieloma atrybutami Cel badań: podczas tworzenia bazy informacyjnej opis przypadków polega na ogół na zastosowaniu dużej liczby atrybutów opisujących, często nawet w niepotrzebnym nadmiarze. Dzieje się to zazwyczaj dlatego, że na tym etapie konstruowania bazy informacyjnej nie jest dostępna wiedza, które z atrybutów mają istotny wpływ na rozpoznanie kategorii badanych przypadków, a które atrybuty mogą zostać pominięte, bez pogarszania jakości klasyfikacji. Zasadniczy algorytm obsługi tego typu baz, rozpoczyna swoje działanie od sprawdzenia wartości iloczynu liczby atrybutów oraz liczby przypadków. Opierając się na danych opublikowanych w [Varmuza 1998], przyjęto założenie, że krytyczna wartość wspomnianego iloczynu powinna być nie większa niż 2000; w przypadku jej przekroczenia algorytm wymusza wydanie na zewnątrz komunikatu sugerującego konieczność zmniejszenia formalnych rozmiarów badanej bazy informacyjnej poprzez utworzenie jej częściowej (wyrażonej w procentach) reprezentacji. Algorytm tworzenia zadanej procentowej reprezentacji oryginalnej bazy informacyjnej, wybiera w sposób losowy pewien podzbiór przypadków, który jest następnie włączany do tworzonej reprezentacji z zachowaniem procentowego stosunku liczby przypadków z poszczególnych klas zbioru źródłowego. Opracowany algorytm nie dokonuje analizy danych, mającej na celu wykrycie atrybutów o znikomym wpływie na kategorię przypadków. Proces ten może być przeprowadzony przez zewnętrzne narzędzia informatyczne, zaprojektowane do realizacji tego typu zadań. Istnieje także inna możliwość zmniejszenia rozmiarów badanych baz informacyjnych, przez usuniecie nadmiarowych (redundantnych) przypadków. Przeprowadzenie tej operacji jest ułatwione przypisaniem takim przypadkom barwnego (zielonego) tła podczas wyświetlania treści badanej bazy informacyjnej na ekranie komputera. Sam proces usuwania zbędnych przypadków jest trywialnie prosty i polega na wykorzystaniu wewnętrznego algorytmu, opisanego w jednym z poprzednich punktów niniejszego rozdziału. 58

59 Rysunek Okno dialogowe informujące o wczytaniu zbioru zawierającego dużą liczbę przypadków lub obiektów opisanych wieloma atrybutami, pozwalające na wybranie zadanej procentowej reprezentacji przeznaczonej do dalszej analizy Metodyka badań: badania przeprowadzono na spreparowanym zbiorze opisywanym już poprzenio (np. w paragrafie Badanie funkcji wyłączania przypadków). Kolejny etap badań polegał na kilkukrotnym wczytaniu do systemu TreeSEEKER oryginalnego zbioru uczącego, tworząc z niego za każdym razem inną procentową reprezentację (90%, 80%, 70%, 40% i 30%), a następnie przeprowadzeniu procesu analizy liczności przypadków dla kolejnych klas decyzji. Wyniki badań: informacja o wykryciu przez system bazy, której iloczyn liczby atrybutów oraz liczby przypadków jest większy od 2000, ma postać komunikatu w oknie dialogowym (Rys. 4.19). Okno to pozwala wczytać do systemu oryginalną bazę informacyjną lub jej wybraną procentową reprezentację. Celem ułatwienia wyboru reprezentacji zbioru uczącego, poprzez wybranie przycisku Info..., dostępna jest funkcja podawania szczegółowej informacji o analizowanych przypadkach. Dyskusja wyników: wyniki przeprowadzonych badań zawarte w Tablicy 4.3 wskazują, że odstępstwo od oryginalnej liczności danej klasy decyzji w zadanej reprezentacji waha się na poziomie dziesiątych części procenta. Na podstawie przeprowadzonych badań można stwierdzić, że działanie modułu heurystycznego agenta jest prawidłowe, i w wielu przypadkach może znacznie skrócić czas przetwarzania, bez wyraźnego pogorszenia wyników klasyfikacji. 59

60 Tablica 4.3. Błąd klasyfikacji uzyskany podczas badań przyprowadzonych na reprezentacjach zbioru uczącego zawierającego znaczną liczbę przypadków Klasy decyzji występujące w zbiorze uczącym procentowa reprezentacja oryginalnego zbioru uczącego 100% 90% 80% 70% 40% 30% lp lp % lp % lp % lp % lp % Melanoma łagodna , , , , ,8 Melanoma podejrzana , , , , ,6 Melanoma złośliwa , , , , ,8 Znamię błękitne , , , , ,5 Badanie modułu prezentacji wyników klasyfikacji Cel badań: badania miały na celu sprawdzenie działania modułu prezentacji drzewa decyzji (w postaci graficznej i tekstowej) oraz wyników klasyfikacji zbiorów testujących przy pomocy wygenerowanego modelu uczenia. Metodyka badań: przyjęta metodyka badań polegała na wygenerowaniu drzewa decyzji, a następnie przy jego pomocy na wykonaniu klasyfikacji zbioru testującego. Wyniki badań: system poprawnie wygenerował drzewo decyzji oraz wykonał klasyfikację zbioru testującego. Na poniższych rysunkach przedstawiono wygenerowane drzewo decyzji w postaci tekstowej (Rys. 4.20) oraz w postaci graficznej (Rys. 4.21), Rysunek 4.22 zawiera zrzut ekranowy systemu TreeSEEKER z widocznymi wynikami klasyfikacji zbioru testującego. Rysunek Widok wygenerowanego drzewa decyzji w postaci tekstowej 60

61 Rysunek Widok wygenerowanego drzewa decyzji w postaci graficznej Dyskusja wyników: zestawienie dokładnej analizy wyników uczenia dostarcza informacji nie tylko o uzyskanym błędzie klasyfikacji, liczbie przypadków poprawnie oraz błędnie sklasyfikowanych (dolna lewa część zestawienia), lecz także w jego górnej części widoczna jest informacja o badanych przypadkach, ze wskazaniem przypisanej kategorii w wyniku procesu klasyfikacji. Rysunek Widok prezentujący szczegółowe wyniki klasyfikacji. Górna część widoku przedstawia przypadki ze zbioru testowego z dodatkową kolumną zawierającą przypisaną przez system kategorię, lewa dolna zawiera ogólne informacje o wynikach klasyfikacji, natomiast w prawej dolnej części okna umieszczono tablicę rozproszenia 61

62 Celem niniejszego rozdziału było przedstawienie wyników badań opracowanych algorytmów, realizujących główne operacje przeprowadzane w kolejnych modułach systemu TreeSEEKER: preprocesora i heurystycznego agenta, testowania oraz prezentacji wyników klasyfikacji. Kolejny rozdział omawia wyniki badań nad nowo-opracowanymi algorytmami generowania drzew decyzji. 62

63 ROZDZIAŁ 5 Moduł budowy modelu uczenia drzew decyzji Niniejszy rozdział zawiera opis modułu budowy modelu uczenia w postaci drzew decyzji oraz wyniki badań głównych bloków programowych, realizujących poszczególne funkcje modułu. Schemat blokowy modułu został przedstawiony na Rysunku 5.1. Rysunek 5.1. Schemat blokowy modułu budowy modelu uczenia w postaci drzew decyzji, zawierający informację o wewnętrznych blokach programowych, połączeniach i kierunku przepływu informacji. 63

64 Moduł budowy modelu uczenia systemu TreeSEEKER składa się z bloków realizujących następujące algorytmy: algorytm wykrywania w zbiorze uczącym przypadków sprzecznych (tzn. przypadków posiadających takie same wartości wszystkich atrybutów, lecz należących do odmiennych kategorii). Algorytm ten został już wymieniony w ramach opisu modułu pre-processingu, lecz w związku z usytuowaniem go na pograniczu z modułem budowy modelu uczenia, zostanie opisany w niniejszym rozdziale, algorytm budowy drzewa decyzji w oparciu o współczynniki Czerwińskiego [Czerwiński, 1970], algorytm ID3/C4.5 [Quinlan, 1993], nowo-opracowane algorytmy TVR (Tree-Via-Rule) oraz VCF (Varied-Confidence-Factor). Dodatkowo, w procesie generowania drzew decyzji przy pomocy algorytmu VCF, system TreeSEEKER wykorzystuje zewnętrzny moduł umożliwiający wygenerowanie (w tle) sieci przekonań dla analizowanego zbioru danych. W zależności od wybranego algorytmu budowy drzewa decyzji, uzyskiwane są modele uczenia w różnej formie, a mianowicie: pojedyncze drzewo decyzji (dla algorytmu wykorzystującego współczynniki Czerwińskiego, algorytmu ID3/C4.5 oraz algorytmu TVR), las drzew, tzn. zbiór różnych drzew decyzji opisujących ten sam zbiór wejściowy, ze wskazaniem drzewa, cechującego się najmniejszą wartością średniej liczby pytań [Dąbrowski, 1974] (dla algorytmu VCF); lub drzewo pewne i drzewo możliwe (dla algorytmu TVR ), podczas analizy zbioru danych zawierającego przypadki sprzeczne. W opisie wyników przeprowadzonych badań zastosowano konwencję nakreślania celu oraz przyjętej metodyki eksperymentu, prezentacji uzyskanych rezultatów oraz ich dyskusji. Metodyka przeprowadzonych badań polegała na wygenerowaniu drzew decyzji (dla zbioru przedstawionego w Tablicy 2.1), 64

65 analizy ich złożoności oraz poprawności wyników klasyfikacji. Jako zbiór testujący zgodnie ze znaną i stosowaną metodą resubstytucji [Grzymała-Busse i in., 2008] zastosowano zbiór uczący. W badaniach wymagających sprzecznego zbioru wejściowego, wykorzystano ten sam zbiór (niesprzeczny) wprowadzając do jego treści dodatkowy przypadek, który wraz z pierwszym oryginalnym przypadkiem powodował wystąpienie sprzeczności (Rys. 5.2). Badanie funkcji analizującej zbiór wejściowy na obecność występowania przypadków sprzecznych Cel badań: badania miały na celu sprawdzenie działania algorytmu wykrywania w analizowanym zbiorze wejściowym przypadków sprzecznych. Rysunek 5.2. Zbiór wejściowy z Tablicy 2.1 z dodanym przypadkiem nr 1 powodującym sprzeczność z drugim przypadkiem zbioru. System prezentuje przypadki sprzeczne oznaczając je kolorem czerwonym, z informacją w kolumnie #Sp. o numerze przypadku będącego z nim w sprzeczności. Dodatkowo na pasku stanu widnieje informacja o sumarycznej liczbie takich przypadków w zbiorze źródłowym Wyniki badań: system poprawnie wykrył przypadki sprzeczne występujące w zbiorze źródłowym (Rys. 5.2), oznaczając ich tło kolorem czerwonym i jednocześnie wydał komunikat w postaci standardowego okna dialogowego informującego o występowaniu takich przypadków (Rys. 5.3). 65

66 Rysunek 5.3. Systemowe okno dialogowe informujące o odnalezieniu w wejściowym zbiorze przypadków sprzecznych oraz o uruchomieniu mechanizmów pozwalających na generowanie pewnych oraz możliwych drzew decyzji Dyskusja wyników: bardzo często, a szczególnie w naukach medycznych, zdarza się, że przypadkom opisanym za pomocą tych samych symptomów przypisywane są różne diagnozy. Sytuacja taka powoduje powstawanie przypadków sprzecznych w tworzonych zbiorach, często jest to konsekwencją błędnej diagnozy jednego z nich. Komunikat o odnalezieniu takich przypadków w analizowanym zbiorze, może pomóc w wyeliminowaniu wspomnianych błędów, poprzez usunięcie przypadków powodujących sprzeczność (funkcja wyłączania przypadków została opisana w poprzednim rozdziale) i analizę zbioru jako niesprzecznego, lub też uruchomienie systemowych mechanizmów, implementujących elementy teorii zbiorów przybliżonych Pawlaka [Pawlak, 1982; Pawlak, 1992], dając możliwość generowania drzewa pewnego i drzewa możliwego. Badanie poprawności generowania drzew decyzji przez algorytm wykorzystujący współczynniki Czerwińskiego Cel badań: badania miały na celu sprawdzenie poprawności działania algorytmu opartego na współczynnikach Czerwińskiego [Czerwiński 1970], oraz poprawności generowanego drzewa decyzji. Algorytm ten został zaimplementowany w systemie TreeSEEKER w związku z częstym wykorzystywaniem go w przetwarzaniu danych ekonomicznych oraz jako polski wkład w dziedzinę drążenia danych. Współczynniki Czerwińskiego wylicza się na podstawie poniższego wzoru: 66

67 k,r min p ij, p i q j i =1, j=1 dc= (5.1) 1 1 min r, k g d z i e : p ij = n ij N, p = i k i=1 r p ij,q j = p ij są wartościami prawdopodo- j=1 bieństw wyliczanych na podstawie odpowiednich wartości z tabeli wielodzielczej (Tablica 5.1). Współczynniki Czerwińskiego odznaczają się następującymi wartościami: 1. 0 dc 1, 2. dc=0 i, j p ij = p i q i, 3. dc=1 i tylko jedno p ij 0 lub j tylko jedno p ij 0. Współczynniki Czerwińskiego wylicza się dla wszystkich atrybutów opisujących X. Maksymalna wartość współczynnika, decyduje o wyborze danego atrybutu do korzenia drzewa decyzji oraz kolejnych węzłów decyzyjnych. Tablica 5.1. Tabela wielodzielcza Y X x 1... x j... x r r n ij j=1 y 1 n n 1j... n 1r r n 1j j= y i n i1... n ij... n ir r n ij j= y k n k1... n kj... n kr r n kj j=1 k n ij j=1 k j=1 n i1... k j=1 n ij... k n ir j=1 N Tabela wielodzielcza jest znanym elementem statystyki, stanowi kombinację dwóch lub więcej tabel liczebności ułożonych w ten sposób, że każda komórka tabeli reprezentuje jedyną kombinację konkretnych wartości tabelaryzowanych zmiennych. Oznacza to, że tabele wielodzielcze umożliwiają analizę li- 67

68 czebności odpowiadających kategoriom wyznaczanym przez więcej niż jedną zmienną. Poprzez analizę tych liczebności można zidentyfikować relacje jakie zachodzą między tabelaryzowanymi zmiennymi. Tabelaryzować powinno się jedynie zmienne dyskretne (nominalne) lub zmienne o ograniczonej ilości wartości. Należy zwrócić uwagę, że w przypadku tabelaryzowania zmiennej ciągłej (np. dochodu) należy ją wpierw zakodować zamieniając na pewną liczbę rozłącznych kategorii (np. niski, średni, wysoki). Najprostszą formą tabeli wielodzielczej jest tabela 2 na 2, w której dwie zmienne są sklasyfikowane krzyżowo, a każda z nich ma tylko dwie wartości. Wyniki badań: błąd klasyfikacji drzewa decyzji wygenerowanego przez algorytm oparty o współczynniki Czerwińskiego wyniósł 0%, średnia liczba pytań wyniosła 1,71 natomiast czas generowania okazał się mniejszy od tysięcznych części sekundy. Drzewo decyzji zostało zaprezentowane na Rys Rysunek 5.4. Drzewo decyzji wygenerowane przy pomocy algorytmu opartego o współczynniki Czerwińskiego Dyskusja wyników: weryfikacja poprawności generowanych drzew decyzji za pomocą badanego algorytmu, została zweryfikowana na wielu innych zbiorach. Wyniki klasyfikacji oraz wartość średniej liczby pytań zawsze były porównywalne z wartościami uzyskiwanymi przez drzewa generowane za pomocą algorytmu ID3/C4.5. W badanym przypadku błąd klasyfikacji wyniósł 0%, wyliczona średnia liczba pytań 1,71. Czas generowania powyższego drzewa decyzji jest pomijalny, a jego wartość była mniejsza od tysięcznych części sekundy. Parametr ten może być z pożytkiem wykorzystywany do porównań czasów generowania drzew, dla większych zbiorów wejściowych. 68

69 Badanie poprawności generowania drzew decyzji przez algorytm ID3/C4.5 Badanie algorytmu ID3/C4.5 oraz weryfikacja uzyskiwanych wyników klasyfikacji zostały celowo pominięte w niniejszej rozprawie. Przyczyną tego podejścia jest fakt, że ten algorytm został bardzo szczegółowo omówiony w części teoretycznej, a implementacja w systemie TreeSEEKER i poprawność generowanych wyników, została szczegółowo przebadana oraz zweryfikowana z implementacją opisaną przez Quinlana [Quinlan, 1993]. Algorytm ten został uznany przeze mnie za wzorcowy dla opracowywanego systemu. Wyniki uzyskiwane za pomocą pozostałych algorytmów, tj. opartego o współczynniki Czerwińskiego, TVR oraz VCF, będą w późniejszych badaniach porównywane z wynikami uzyskanymi za pomocą algorytmu ID3/C4.5. Badanie poprawności generowania drzew decyzji przez nowy algorytm VCF Cel badań: badania miały na celu sprawdzenie poprawności działania algorytmu VCF (Varied-Confidence-Factor). Działanie algorytmu VCF rozpoczyna się od wygenerowania (w tle) sieci przekonań Bayesa dla badanego zbioru wejściowego. Na podstawie wyników wstępnych analiz przyjęto, że sieć przekonań powinna być utworzona dla następujących wartości parametrów sterujących: metoda generowania sieci zachłanna [Mitchell, 1997]; parametr Dirichleta = 77 [Mroczek, 2007]. Dla tak zdefiniowanych parametrów została wygenerowana sieć przekonań Bayesa przedstawiona na Rys. 5.5, w postaci acyklicznego grafu skierowanego dla badanego zbioru źródłowego. 69

70 Rysunek 5.5. Sieć przekonań wygenerowana dla zbioru z Tablicy 2.1. Bezpośredni wpływ na atrybut decyzyjny mają trzy atrybuty opisujące: <Wiatr>, <Wilgotność> oraz <Stan_nieba> Sieć ta składa się z trzech poziomów, tj.: zerowego (patrząc od góry grafu) - zawierającego atrybut decyzyjny, pierwszego z atrybutami mającymi bezpośredni wpływ na atrybut decyzyjny oraz drugiego zawierającego atrybuty o niewielkim, pośrednim wpływie na atrybut decyzyjny. Algorytm VCF wykorzystuje informację zawartą na pierwszym poziomie grafu, kolejno inicjując standardowy algorytm ID3/C4.5 nazwami atrybutów, które mają zostać umiejscowione w korzeniach generowanych drzew decyzji; dalsza część algorytmu przebiega w sposób standardowy. Dla rozpatrywanego przykładu, algorytm VCF generuje trzy drzewa decyzji, w korzeniach których znajdą się kolejno atrybuty <Wiatr>, <Wilgotność>, lub <Stan_nieba>, a następnie stosując kryterium średniej liczby pytań wskazane zostanie drzewo o optymalnej strukturze. Należy dodać, że kryterium uznania wygenerowanego drzewa decyzji za optymalne, zdefiniowane jest w następujący sposób: za optymalne uznawane jest drzewo cechujące się najmniejszą wartością średniej liczby pytań, w przypadku gdy istnieje kilka drzew cechujących się tą samą, minimalną wartością omawianego parametru, wskazywane jest pierwsze z nich. 70

71 Wyniki badań: algorytm VCF dla badanego zbioru źródłowego, wygenerował las drzew składający się z trzech drzew decyzji. Na kolejnych rysunkach (Rys. 5.6, 5.7 oraz 5.8) przedstawiono wygenerowane drzewa decyzji. Rysunek 5.6. Drzewo decyzji wygenerowane przez algorytm VCF z atrybutem <Stan_nieba> w korzeniu, wskazane przez system jako drzewo o optymalnej strukturze Rysunek 5.7. Drzewo decyzji wygenerowane przez algorytm VCF z atrybutem <Wiatr> w korzeniu Rysunek 5.8. Drzewo decyzji wygenerowane przez algorytm VCF z atrybutem <Wilgotność> w korzeniu Dyskusja wyników: Wszystkie wygenerowane drzewa decyzji posiadały oczekiwaną strukturę. System prawidłowo wskazał optymalne drzewo decyzji z wygenerowanego lasu, wybierając drzewo z atrybutem <Stan_nieba> w ko- 71

72 rzeniu. Parametr średniej liczby pytań dla wskazanego drzewa wyniósł 1,71 i był najmniejszy w odniesieniu do innych drzew (wartość parametru dla pozostałych drzew wyniosła: 2,29 dla drzewa z atrybutem <Wilgotność> oraz 2,36 z atrybutem <Wiatr> w korzeniu). Czas generowania poszczególnych drzew był porównywalny i wyniósł ok. 16 ms. Badanie poprawności generowania drzew decyzji przez nowy algorytm TVR Cel badań: jak poprzednio, celem badań było sprawdzenie poprawności generowanych drzew decyzji za pomocą drugiego z nowo-opracowanych algorytmów TVR (Tree-Via-Rule). Algorytm ten został wyposażony w możliwość generowania drzew decyzji w warunkach niepewności, tzn. w przypadku gdy analizowany zbiór źródłowy jest sprzeczny. Jak już wspomniano, algorytm wykorzystuje elementy teorii zbiorów przybliżonych, umożliwiając generowanie pewnych oraz możliwych drzew decyzji, odpowiednio dla dolnego i górnego przybliżenia sprzecznego zbioru źródłowego (mechanizm generowania wspomnianych drzew, zostanie omówiony w dalszej części niniejszego rozdziału po uprzednim omówieniu idei działania algorytmu ponieważ, wykorzystywany jest ten sam algorytm a różnice występują jedynie w odpowiednim przygotowaniu wejściowych zbiorów reguł). Samo działanie algorytmu TVR rozpoczyna się od wygenerowania zbioru reguł za pomocą algorytmu GTS [Hippe, 1998]. W kolejnym kroku uzyskane reguły przekształcane są w odpowiadające im drzewo decyzji. O ile przekształcenie drzewa w odpowiadający mu zbiór reguł jest operacją trywialną, to operacja odwrotna konwersji reguły składniowe drzewo decyzji jest znacznie bardziej skomplikowana. Opracowany algorytm został utrzymany w konwencji standardowego rekurencyjnego algorytmu generowania drzew decyzji (opis został zamieszczony w części teoretycznej), natomiast zmienione zostało kryterium wyboru właściwego atrybutu do korzenia drzewa oraz do kolejnych węzłów decyzyjnych. Dodatkowo dostosowano algorytm do możliwości analizy zbioru źródłowego w postaci 72

73 zbioru reguł składniowych. Wspomniana analiza polega na obliczeniu liczby wystąpień danej pary artybutu-wartość w kolejnych warunkach reguł składniowych dla badanej klasy decyzji. Samo kryterium wyboru poszczególnych atrybutów do korzenia drzewa i kolejnych węzłów decyzyjnych zostało zdefiniowane w następujący sposób: jeżeli wszystkie wartości badanego atrybutu uwzględnione są w warunkach reguł, to wartość kryterium jest iloczynem liczby wystąpień danego atrybutu oraz liczby wszystkich jego wartości, w przeciwnym wypadku wartość kryterium dla badanego atrybutu wynosi zero. Do korzenia generowanego drzewa decyzji wybierany jest atrybut przyjmujący wartość maksymalną powyższego kryterium. W przypadku występowania kilku atrybutów cechujących się tą samą maksymalną wartością kryterium, wybierany jest pierwszy z nich (należy tutaj wspomnieć, że wszystkie nazwy atrybutów oraz ich wartości na etapie wczytywania danych są sortowane w kolejności rosnącej). Wynik działania algorytmu TVR (w odniesieniu do standardowego zbioru analizowanych danych) sprowadza się do wygenerowania zbioru reguł (przedstawionych w poniższej ramce), z którego zostaje utworzone drzewo decyzji, zawierające (w rozważanym przypadku) w korzeniu atrybut <Stan_nieba>. REGUŁA 1 JEŻELI Stan_nieba JEST pochmurno TO Decyzja JEST REGUŁA 2 JEŻELI Stan_nieba JEST słonce ORAZ Temp < 84 ORAZ Wilgotność < 82.5 TO Decyzja JEST REGUŁA 3 JEŻELI Temp < 84 ORAZ Wilgotność < 82.5 ORAZ Wiatr JEST nie TO Decyzja JEST REGUŁA 4 JEŻELI Stan_nieba JEST deszcz ORAZ Temp < 84 ORAZ Wiatr JEST nie TO Decyzja JEST 73

74 REGULA 5 JEŻELI Temp >= 84 TO Decyzja JEST Nie_Grac REGUŁA 6 JEŻELI Stan_nieba JEST słońce ORAZ Temp < 84 ORAZ Wilgotność >= 82.5 TO Decyzja JEST Nie_ REGUŁA 7 JEŻELI Stan_nieba JEST deszcz ORAZ Temp < 84 ORAZ Wiatr JEST tak TO Decyzja JEST Nie_ REGUŁA 8 JEŻELI Stan_nieba JEST słońce ORAZ Temp < 84 ORAZ Wilgotność >= 82.5 ORAZ Wiatr JEST tak TO Decyzja JEST Nie_ Wynik ten wynika z faktu, że utworzony zbiór reguł zawiera sześć warunków z tym atrybutem, zgodnie z informacją zaczerpniętą z źródłowego zbioru uczącego; atrybut <Stan_nieba> posiada trzy różne wartości, co w wyniku daje wartość 18 zdefiniowanego kryterium. Natomiast dla pozostałych atrybutów wartość kryterium wynosi: <Temp> - 14, <Wiatr> - 8 oraz <Wilgotność> - 8. W kolejnym kroku, wejściowy zbiór reguł zostaje podzielony na trzy różne podzbiory zgodnie z wartościami atrybutu <Stan_nieba> i dla tak utworzonych podzbiorów z regułami działanie algorytmu rozpoczyna się od nowa. Poniższy rysunek (Rys. 5.9) przedstawia drzewo decyzji wygenerowane dla powyższego zestawu reguł za pomocą omawianego algorytmu TVR. Rysunek 5.9. Drzewo decyzji wygenerowane za pomocą algorytmu TVR z atrybutem <Stan_nieba> w korzeniu oraz atrybutami <Wiatr> i <Wilgotność> w kolejnych węzłach decyzyjnych 74

75 Na powyższym przykładzie została przedstawiona metodologia generowania drzew decyzji za pomocą algorytmu TVR dla niesprzecznego zbioru źródłowego. W sytuacji gdy analizowany zbiór wejściowy zawiera przypadki sprzeczne jak już wcześniej wspomniano uruchamiany jest mechanizm oparty o elementy teorii zbiorów przybliżonych Pawlaka, tworzący dolne i górne przybliżenia analizowanego zbioru. Kolejne rysunki (Rys. 5.10, 5.11, 5.12, 5.13) przedstawiają wspomniane przybliżenia dla poszczególnych klas decyzji. Wartości decyzji <**> i <*Nie_grać*> oznaczają wartość inną od wartości dla której tworzone jest odpowiednie przybliżenie. Rysunek Dolne przybliżenie analizowanego zbioru danych dla klasy decyzji <> (wiersz oznaczony kolorem zielonym jest wierszem redundantnym) Rysunek Górne przybliżenie analizowanego zbioru danych dla klasy decyzji <> 75

76 Rysunek Dolne przybliżenie analizowanego zbioru danych dla klasy decyzji <Nie_> Rysunek Górne przybliżenie analizowanego zbioru danych dla klasy decyzji <Nie_> Dla tak utworzonych dolnych i górnych przybliżeń, w kolejnym kroku system generuje odpowiadające im zbiory reguł. W poniższej ramce zostały przedstawione reguły wygenerowane dla dolnych przybliżeń analizowanego zbioru źródłowego. Analogiczne zbiory powstają dla górnych przybliżeń. Reguły wygenerowane ze zbioru zawierającego dolne przybliżenie dla wartości klasy decyzji <> REGUŁA 1 JEŻELI Temp >= 84 TO Decyzja JEST ** REGUŁA 2 JEŻELI Stan_nieba JEST słonce ORAZ Temp < 84 ORAZ Wiatr JEST tak TO Decyzja JEST ** REGUŁA 3 JEŻELI Stan_nieba JEST słońce ORAZ Temp < 84 RAZ Wilgotność >= 82.5 TO Decyzja JEST ** 76

77 REGUŁA 4 JEŻELI Stan_nieba JEST deszcz ORAZ Temp < 84 ORAZ Wiatr JEST tak TO Decyzja JEST ** REGULA 5 JEŻELI Stan_nieba JEST pochmurno TO Decyzja JEST Grac REGUŁA 6 JEŻELI Temp < 84 ORAZ Wilgotność < 82.5 ORAZ Wiatr JEST nie TO Decyzja JEST REGUŁA 7 JEŻELI Stan_nieba JEST deszcz ORAZ Temp < 84 ORAZ Wiatr JEST nie TO Decyzja JEST Reguły wygenerowane ze zbioru zawierającego dolne przybliżenie dla wartości klasy decyzji <Nie_grać> REGUŁA 1 JEŻELI Stan_nieba JEST pochmurno TO Decyzja JEST *Nie_* REGUŁA 2 JEŻELI Stan_nieba JEST słońce ORAZ Temp < 84 ORAZ Wilgotność < 82.5 TO Decyzja JEST *Nie_* REGUŁA 3 JEŻELI Temp < 84 ORAZ Wilgotność < 82.5 ORAZ Wiatr JEST nie TO Decyzja JEST *Nie_* REGUŁA 4 JEŻELI Stan_nieba JEST deszcz ORAZ Temp < 84 ORAZ Wiatr JEST nie TO Decyzja JEST *Nie_* REGUŁA 5 JEŻELI Temp >= 84 TO Decyzja JEST Nie_ REGUŁA 6 JEŻELI Stan_nieba JEST słońce ORAZ Temp < 84 ORAZ Wilgotność >= 82.5 TO Decyzja JEST Nie_ REGUŁA 7 JEŻELI Stan_nieba JEST deszcz ORAZ Temp < 84 ORAZ Wiatr JEST tak TO Decyzja JEST Nie_ REGUŁA 8 JEŻELI Stan_nieba JEST słońce ORAZ Temp < 84 ORAZ Wilgotność >= 82.5 ORAZ Wiatr JEST tak TO Decyzja JEST Nie_Grac 77

78 W kolejnym kroku działania algorytmu, otrzymane zbiory reguł są łączone, co powoduje otrzymanie dwuch wynikowych zbiorów, zawierających reguły dla dolnego i górnego przybliżenia. Proces łączenia zbiorów odbywa się z uwzględnieniem analizowanego przybliżenia (dolnego i górnego) dla wszystkich wartości atrybutu decyzyjnego. I tak dla badanego przypadku powyższe zbiory zostają połączone w jeden zbiór, zawierające reguły z oryginalną wartością atrybutu decyzyjnego, tj. <> oraz <Nie_grać>. W ten sposób, wynikowy zbiór reguł zawiera reguły: 5, 6, 7 ze zbioru dolnego przybliżenia dla wartości decyzji <> oraz reguły: 5, 6, 7 i 8 ze zbioru dolnego przybliżenia dla wartości decyzji <Nie_>. Z tak przygotowanych zbiorów, algorytm TVR generuje drzewa decyzji dla odpowiednich przybliżeń. Wyniki badań: Rys. 5.9 przedstawia drzewo decyzji wygenerowane dla niesprzecznego zbioru źródłowego, natomiast Rys oraz 5.15 zawierają odpowiednio drzewa decyzji dolnego i górnego przybliżenia analizowanych danych. Rysunek Drzewo pewne wygenerowane przy pomocy algorytmu TVR dla zmodyfikowanego zbioru z Rys

Pokazać jeszcze