Ensembles of Approximate Decision Reducts in Classification Problems. Zespoły Aproksymacyjnych Reduktów Decyzyjnych w Problemach Klasyfikacji
|
|
- Ignacy Jóźwiak
- 5 lat temu
- Przeglądów:
Transkrypt
1 POLSKA AKADEMIA NAUK Instytut Badań Systemowych Streszczenie rozprawy doktorskiej pt. Ensembles of Approximate Decision Reducts in Classification Problems Zespoły Aproksymacyjnych Reduktów Decyzyjnych w Problemach Klasyfikacji mgr inż. Sebastian Widz Studia Doktoranckie IBS PAN Promotor: dr hab. Dominik Ślęzak Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Warszawa 2018
2 Spis treści 1 Wprowadzenie Cele i Tezy Rozprawy Motywacja Główne wyniki rozprawy Układ rozprawy Zagadnienia wprowadzające Reprezentacja danych Wsparcie Decyzji i Odkrywanie Wiedzy Selekcja Cech Metody Selekcji Cech Zespołowe Metody Selekcji Cech Selekcja Cech Oparta na Zbiorach Przybliżonych Redukty Decyzyjne i Decyzja Uogólniona Aproksymacyjne Redukty Decyzyjne Rozważania Algorytmiczne Metodologia Eksperymentów Obliczeniowych Uczenie Maszynowe Drzew i Reguł Decyzyjnych Indukcja Reguł Decyzyjnych Indukcja Reguł Oparta na Reduktach Decyzyjnych Indukcja Drzew Decyzyjnych Połączenie Reduktów i Drzew Decyzyjnych Selekcja Cech Wejściowych Budowa Drzewa Decyzyjnego Eksperymenty Obliczeniowe Redukty i Większościowa Decyzja Uogólniona Większościowa Decyzja Uogólniona Przybliżona Większościowa Decyzja Uogólniona Aproksymacyjne Redukty Decyzyjne i Reguły Wyjątki (m φ, )-Redukty Decyzyjne Reguły Wyjątki Reguły Wyjątki-Luki Biredukty i Większościowa Decyzja Uogólniona Eksperymenty Obliczeniowe z (m φ, )-Reduktami
3 5 Zespoły Reduktów Decyzyjnych i Klasyfikatorów Dywersyfikacja Podzbiorów Cech Podejście Permutacyjne Grupowanie Cech Hierarchiczne Grupowanie Reduktów Decyzyjnych Podejścia Losowe Ważone Redukty Decyzyjne Przykład Schematu Ważenia Zastosowanie Ważonych Reduktów Decyzyjnych Boosting Aproksymacyjnych Reduktów Decyzyjnych Strategie Identyfikacji i Głosowania Reguł Eksperymenty z Zespołami (m φ, )-Reduktów Segmentacja Obrazów MRI Wprowadzenie do Segmentacji Obrazów MRI Ekstrakcja Cech Analiza Skupień Oparta na Histogramie i Sieciach Kohonena Wyniki Segmentacji Obrazów MRI Wizualizacja Reguł Wyjątków Optymalizacja Parametrów i Progu Aproksymacji Podsumowanie 32 Bibliografia 35 3
4 1 Wprowadzenie 1.1 Cele i Tezy Rozprawy Przedmiotem rozprawy jest zagadnienie konstrukcji zespołów klasyfikatorów bazujących na grupach podzbiorów cech obiektów opisanych w danych treningowych. Punktem wyjścia dla przeprowadzonej dyskusji jest teoria zbiorów przybliżonych (ang. rough sets theory) oraz pojęcie aproksymacyjnych reduktów decyzyjnych, konstruowanych przy wykorzystaniu miar jakości podzbiorów cech i opartych na nich regułach decyzyjnych [89]. Szczególną uwagę poświęcono zagadnieniu tworzenia modeli, które z jednej strony są łatwe w interpretacji dla użytkowników, z drugiej zaś osiągają zadowalającą jakość klasyfikacji. Przeprowadzone badania pozwoliły na sformułowanie następujących hipotez: 1. Teoria zbiorów przybliżonych pozwala na konstrukcję narzędzi selekcji cech, a jej prawa pozwalają na tworzenie klasyfikatorów o wysokiej skuteczności i jednoczesnej zrozumiałości dla ich użytkowników. 2. Istnieje szybka metoda liczenia aproksymacyjnych reduktów decyzyjnych, pozwalająca na tworzenie klasyfikatorów o zbliżonych lub lepszych parametrach klasyfikacji. 3. Możliwe jest zaadoptowanie narzędzi uczenia maszynowego do poprawy parametrów klasyfikatorów opartych na zespołach aproksymacyjnych reduktów decyzyjnych. 4. Możliwe jest stworzenie jednolitego matematycznego szkieletu obliczeniowego pozwalającego na porównywania różnych definicji aproksymacyjnych reduktów decyzyjnych znanych z literatury przedmiotu. 1.2 Motywacja Odkrywanie wiedzy i konstrukcja modeli decyzyjnych bazujących na bardzo dużych repozytoriach danych stanowi wyzwanie zarówno dla projektów komercyjnych jak i akademickich. Konstruowane modele powinny odznaczać się wysokim stopniem poprawności. Wykorzystanie zbyt wielu zmiennych w modelu powoduje, że staje się on zbyt skomplikowany, to znaczy posiada zbyt dużo parametrów w stosunku do liczby obserwacji (rekordów) zawartych w danych treningowych. Większość algorytmów uczenia maszynowego nie osiąga zadowalających wyników na zbiorach danych z dużą ilością atrybutów. Ich użycie powinno być poprzedzone selekcją najistotniejszych cech i ograniczeniem wymiarowości danych. Często stawianym wymaganiem jest prostota modeli, łatwość ich interpretacji oraz wytłumaczalność źródeł popełnianych błędów [148]. Wymaganie to ma często wyższy priorytet niż sama tylko skuteczność, szczególnie w przypadku wysokich kosztów popełnienia błędu. Niestety, jednoczesne osiągnięcie prostoty i wysokiej skuteczności jest często niemożliwe. W procesie projektowania, chcielibyśmy posiadać narzędzia pozwalające na określanie naszych preferencji w stosunku do tych parametrów. 4
5 Symboliczne metody klasyfikacji są postrzegane jako łatwiejsze w interpretacji niż numeryczne. Skupiają się na wyszukiwaniu zależności w danych, i rejestrują je za pomocą zrozumiałego języka reguł decyzyjnych [2, 105]. Z drugiej strony, nawet najbardziej skomplikowane algorytmy numeryczne mogą doprowadzić do nieskomplikowanych rezultatów jeżeli są uczone na danych z ograniczoną ilością cech. Teoria zbiorów przybliżonych [87, 89] jest skutecznym narzędziem wykorzystywanym do aproksymacji pojęć i wnioskowania na podstawie niedeterministycznych danych. Szczególnym jej zastosowaniem jest selekcja cech [91, 131] oparta pojęciu reduktu decyzyjnego minimalnego podzbioru cech, które wyznaczają wartości decyzji w takim samym stopniu co cały zbiór cech zawartych w oryginalnym zbiorze treningowym (lub pojęciu aproksymacyjnego reduktu przybliżonego, który pozwala na określony poziom braku wyznaczalności). Aproksymacyjne redukty decyzyjne zazwyczaj zawierają mniej atrybutów niż ich odpowiedniki właściwe. Przy tworzeniu na ich podstawie reguł decyzyjnych, brak pełnej determinacji decyzji prowadzi do powstawania błędów klasyfikacji również na zbiorze treningowym. Dla niespójnych danych taki stan rzeczy jest naturalny. Z drugiej strony, dla danych spójnych, możemy zaakceptować pewien poziom błędów mając na uwadze prostotę modelu. W obu przypadkach powinniśmy kontrolować poziom i miejsca występowania błędów. Wymagania dotyczące modeli decyzyjnych mogą przyjmować różne formy jak na przykład wykorzystanie wszystkich cech zawarte w oryginalnych danych lub uwzględnienie pewnego poziomu ich redundancji [36]. Inny przykład to włączenie w model informacji reprezentowanej przez mniejszościowe przypadki będące w sprzeczności z większością dostępnych obiektów w danych. Tradycyjne podejścia konstrukcji modeli często nie adresują tych zagadnień. Wymagania te mogą zostać pogodzone przy zastosowaniu wspomnianych już zespołów klasyfikatorów [70, 159]. Zespoły osiągają z reguły wyższą poprawność klasyfikacji niż pojedyncze klasyfikatory. Efekt synergii możliwy jest do osiągnięcia, jeżeli klasyfikatory składowe zawarte w zespole będą od siebie znacząco różne. Ten paradygmat zainspirował nas do zaproponowania nowej metody tworzenia symbolicznych modeli decyzyjnych opartych na regułach tworzonych na podstawie wielu aproksymacyjnych reduktów decyzyjnych powiązanych w zespół. Dzięki zwiększeniu poziomu aproksymacji możliwe jest uzyskanie wielu mniejszych podzbiorów atrybutów, a dzięki temu zwiększenie rozpoznawalności dla nowych przypadków i uniknięcie zjawiska nadmiernego dopasowania modelu. Zastosowanie wybranych metod dywersyfikacji może pozwolić na spełnienie wymagań posiadania wszystkich atrybutów w modelu (każdy atrybut musi być zawarty przynajmniej w jednym redukcie), wymagania o redundancji (każdy atrybut musi występować w więcej niż jednym redukcje) czy wreszcie posiadania reguł poprawnie klasyfikujących mniejszościowe przypadki (każdy obiekt powinien być dobrze klasyfikowany przez przynajmniej jedną regułę). Na przykład, chcąc utworzyć modeli oparty na kilku reduktach aproksymacyjnych, możemy tak sterować doborem reduktów lub reguł decyzyjnych aby każdy obiekt był poprawnie rozpoznawany przynajmniej przez jedną lub większość reguł ale nie wszystkie [117]. 5
6 1.3 Główne wyniki rozprawy Wyniki niniejszej rozprawy są następujące: 1. Przedstawienie nowych definicji aproksymacyjnych reduktów decyzyjnych oraz nowych metod ich generowania: (a) Przedstawienie oraz dyskusja o właściwościach większościowej przybliżonej decyzji większościowej, (b) Przedstawienia dwóch nowych algorytmów wyszukiwania aproksymacyjnych reduktów decyzyjnych opartych na większościowej decyzji uogólnionej, (c) Przedstawienie nowej metody konstrukcji klasyfikatora opartego na aproksymacyjnych reduktach decyzyjnych oraz hierarchii reguł i wyjątków, (d) Przedstawienie nowego algorytmu wyszukiwania aproksymacyjnych reduktów przybliżonych wykorzystującego ważenie obiektów treningowych oraz pozwalającego na ujednolicenie metod obliczeniowych dla dwóch znanych z literatury przedmiotu podejść wyszukiwania reduktów przybliżonych. 2. Przedstawienie metod tworzenia zespołów podzbiorów cech opartych na aproksymacyjnych reduktach decyzyjnych: (a) Ocena i porównanie metod głosowania i identyfikacji decyzji w klasyfikatorach opartych na reduktach decyzyjnych, (b) Omówienie metod dywersyfikacji reduktów w zespole, (c) Przedstawienie metody dywersyfikacji opartej na algorytmie hierarchicznego grupowania reduktów i zaproponowanie miary odległości pomiędzy reduktami, (d) Dostosowanie algorytmu AdaBoost do wyliczania zespołów aproksymacyjnych reduktów decyzyjnych. 3. Nowe zastosowania, biblioteka programowania i środowisko eksperymentalne: (a) Stworzenie biblioteki z otwartym kodem źródłowym implementującej omawiane metody, (b) Przeprowadzenie dyskusji na temat konstrukcji uproszczonych modeli i wykonanie eksperymentów z wykorzystaniem drzew decyzyjnych oraz aproksymacyjnych reduktów przybliżonych na danych wzorcowych, (c) Zastosowanie omawianych metod w problemie segmentacji obrazów medycznych MRI z nadzorem, włączając etapy ekstrakcji cech, tworzenia danych, selekcji cech i konstrukcji klasyfikatora, (d) Przeprowadzenie serii eksperymentów stosując zaproponowane metody na wzorcowych zbiorach danych. 6
7 1.4 Układ rozprawy Rozdział 2 zawiera wprowadzenie w tematykę zbiorów przybliżonych. Omówiono tu zagadnienia związane z selekcją cech w zbiorach danych i miarami jakości podzbiorów cech. Wprowadzono podstawowe pojęcia i definicje w szczególności definicje tablicy decyzyjnej, reduktu decyzyjnego, funkcji decyzji uogólnionej. Omawiane są zagadnienia związane z algorytmami generowania reduktów decyzyjnych, ich złożonością i potencjalnymi usprawnieniami. Ostatnia sekcja zawiera opis metodyki wykorzystanej w przeprowadzonych eksperymentach obliczeniowych. W Rozdziale 3 omówiono zagadnienia związane z indukcją reguł i drzew decyzyjnych. Po krótkim wprowadzeniu i omówieniu znanych z literatury podejść, zaprezentowano hybrydowe rozwiązanie bazujące na zmodyfikowanym algorytmie indukcji drzew oraz aproksymacyjnych reduktów decyzyjnych. Na bazie tego rozwiązania omówiono, w jaki sposób redukty przybliżone powiązane z symboliczną metodą uczenia maszynowego mogą przyczynić się do uproszczenia modelu decyzyjnego przy jednoczesnym zachowaniu porównywalnej dokładności klasyfikacji. Rozwiązanie opiera się na zmodyfikowanym algorytmie indukcji drzew decyzyjnych C4.5 [100]. Drzewo budowane jest na podstawie atrybutów zawartych w aproksymacyjnym redukcie decyzyjnym generowanym metodą zachłanną. Do podstawowego algorytmu wprowadzono dodatkowe kryterium stopu zbliżone w swej zasadzie działania do określania progu aproksymacji przy generowaniu reduktów przybliżonych. Na bazie omówionego algorytmu zaproponowano cztery modele decyzyjne różniące się pewnymi parametrami. Dla wszystkich czterech modeli wykonano szereg eksperymentów obliczeniowych i porównano z klasycznym algorytmem C4.5. Ostatnia sekcja zawiera podsumowanie wyników. Otrzymane wyniki pokazują, iż zaproponowane rozwiązanie w większości upraszcza model decyzyjny bez straty dla dokładności klasyfikacji. W Rozdziale 4 omówiono nowe pojęcie funkcji większościowej decyzji uogólnionej oraz przybliżonej większościowej decyzji uogólnionej. Obie funkcje są rozszerzeniami definicji funkcji decyzji uogólnionej pojęcia znanego z teorii zbiorów przybliżonych wykorzystywanego do analizy danych zapisanych w postaci niespójnych tablic decyzyjnych. Następnie, na bazie przybliżonej większościowej decyzji uogólnionej wprowadzono nowe definicje aproksymacyjnych reduktów decyzyjnych, omówiono ich właściwości wraz z dowodami i zaprezentowano algorytm ich generowania. Na podstawie nowej definicji reduktu przybliżonego oraz inspiracji logiką domniemaną (ang. default logic) [3] zaproponowano konstrukcję nowego klasyfikatora bazującego na hierarchii reguł decyzyjnych i tak zwanych wyjątkach (ang. exceptions) oraz wyjątkach-lukach (ang. gaps). Nowy klasyfikator nie tylko osiąga dobre wyniki klasyfikacji, ale przede wszystkim, pozwala na większą redukcję cech, jak również zachowanie informacji dostępnej w oryginalnych danych. W części eksperymentalnej porównujemy trzy warianty tego klasyfikatora z klasycznym klasyfikatorem opartym na regułach decyzyjnych tworzonych na podstawie atrybutów z przybliżonych reduktów. W Rozdziale 5 opisano zespoły aproksymacyjnych reduktów decyzyjnych. Po pierwsze, omówiono pojęcie dywersyfikacji oraz zaprezentowano metody dywersyfikowania reduktów decyzyjnych. Pierwsza z metod bazuje na hierarchicznej analizie skupień. Dzięki zdefiniowaniu odległości pomiędzy reduktami możliwe staje się ich grupowanie, natomiast dzięki hierarchicznej konstrukcji grup, wybór docelowej ilości grup może zostać przeprowadzony na końcu procesu na przykład na podstawie analizy konstrukcji dendrogramu. Inne metody dywersyfikacji bazują na sterowaniu permutacją atrybutów, która stanowi wejście dla omawianego wcześniej algo- 7
8 rytmu generowania reduktów przybliżonych. Po drugie, zaprezentowano definicję aproksymacyjnych reduktów decyzyjnych generowanych na danych, w których każdemu obiektowi przypisano pewną wagę. Dalej, pokazano jak nowa definicja pozwala na ujednolicenie dwóch znanych z literatury przedmiotu podejść do generowania reduktów opartych na funkcjach jakości podzbioru cech. Zaprezentowano dwa przykłady takich funkcji i odpowiadające im schematy ważenia. Po trzecie, nowa definicja reduktu przybliżonego generowanego na danych ważonych, została wykorzystana przy modyfikacji algorytmu AdaBoost znanego z zespołowego uczenia maszynowego. Algorytm Ada Boost został wykorzystany do generowania zespołów aproksymacyjnych reduktów decyzyjnych. Po czwarte, omówiono podobieństwa z bireduktami decyzyjnymi. Na koniec, zaprezentowano wyniki eksperymentów obliczeniowych. W eksperymentach wykorzystano zestaw klasyfikatorów omówiony w poprzednim rozdziale, jednak tym razem powiązanych w zespoły. Wyniki pokazują, że wykorzystanie zespołów znacząco poprawia dokładność klasyfikacji oraz pozwala na wprowadzanie większych redukcji złożoności na poziomie pojedynczych klasyfikatorów składowych. Z drugiej strony, dyskusyjne jest czy model zespołowy złożony z wielu prostszych klasyfikatorów, postrzegany jako całość jest łatwiejszy w interpretacji niż model złożony z pojedynczego klasyfikatora. Eksperymenty pokazały także, iż strategie projektowania klasyfikatorów złożonych powinny być inne niż ich pojedynczych odpowiednich. Na przykład model wykorzystujący hierarchiczny klasyfikator i nie korzystający z zapisu rozbieżności osiągał relatywnie lepsze rezultaty w zespole niż jako pojedynczy klasyfikator. W Rozdziale 6 zaprezentowano zastosowanie omówionych metod do problemu segmentacji medycznych obrazów MRI, przy czym zastosowano podejście uczenia maszynowego z nadzorem. Omówiono zastosowane metody ekstrakcji cech z obrazów MRI ludzkiego mózgu, etap konstrukcji tablicy decyzyjnej, selekcję cech oraz wygenerowanie hierarchii reguł na podstawie rozwiązania zaproponowanego w Rozdziale 4. Zastosowanie takiego klasyfikatora pozwala na wykonanie segmentacji dla nowych przypadków obrazów MRI, to znaczy przyporządkowanie etykiet z typem tkanki do poszczególnych pikseli obrazu. Ponadto, omawiamy propozycję wizualizacji reguł wyjątków na przykładzie obrazów MRI i analizy porównawczej tych wyjątków w powiązaniu z obszarami, na których klasyfikator popełnił błędy segmentacji. Na koniec omawiamy zagadnienie optymalizacji parametrów modelu włączając w to dyskusję o zależności pomiędzy poziomem aproksymacji stosowanym w reduktach przybliżonych a jakością danych treningowych. Rozdział 7 zawiera podsumowanie, wnioski końcowe oraz kierunki dalszych badań. W Dodatku A przedstawiono spis wykorzystywanych oznaczeń. Dodatek B zawiera matematyczne dowody zawartych w rozprawie stwierdzeń. W Dodatku C umieszczono opis biblioteki programistycznej NRough. W Dodatku D umieszczono szczegółowe wyniki eksperymentów. 2 Zagadnienia wprowadzające 2.1 Reprezentacja danych W niniejszej rozprawie zakładamy, iż dane reprezentowane są w postaci tabeli decyzyjnej zgodnie z poniższą definicją: 8
9 Definicja Tabela decyzyjna jest to trójka A = (U,A {d}), gdzie U jest skończonym, niepustym, zbiorem zwanym uniwersum, przy czym elementy zbioru U nazywamy obiektami, A jest skończonym, niepustym zbiorem atrybutów (własności, cech) oraz d / A jest szczególnym atrybutem określającym przynależność obiektów do pewnej grupy (klasy, pojęcia) zwanym dalej atrybutem decyzyjnym lub decyzją. Do obiektów uniwersum będziemy odwoływać się poprzez ich indeksy porządkowe i = 1,..., U. Każdy atrybut a A jest rozumiany jako funkcja a : U V a gdzie V a oznacza dziedzinę wartości atrybutu a. Wartości z dziedziny decyzji v d V d, których opisem za pomocą wartości atrybutów A jesteśmy zainteresowani. 2.2 Wsparcie Decyzji i Odkrywanie Wiedzy W sekcji omówiono proces odkrywania wiedzy (KDD) [56] przedstawiony na Rysunku 2-1. W rozprawie koncentrujemy się na etapie selekcji cech oraz budowaniu klasyfikatorów. Nasze rozważania ograniczamy do symbolicznych metod uczenia maszynowego. Data Selection Preprocessing Transformation Feature Selection Data Mining Interpretaion & Evaluation Raw data Target data Preprocessed data Transformed data Filtered data Patterns and Models Knowledge Rysunek 2-1: Proces odkrywania wiedzy w bazach danych (KDD) 2.3 Selekcja Cech Selekcja cech jest jednym z najważniejszych etapów w procesie odkrywania wiedzy jest podstawowym narzędziem wykorzystywanym na drodze do zrozumienia danego problemu. Pozwala osiągnąć lepsze rezultaty w klasyfikacji i konstrukcji modeli decyzyjnych [44]. W tej sekcji omówiono podział metod selekcji cech ze względu na relację z algorytmami uczącymi oraz przytoczono wybrane przykłady metod znane z literatury przedmiotu Metody Selekcji Cech Pod kątem interakcji z algorytmem uczącym, metody selekcji cech można podzielić na filtry, wrappery (opakowane) oraz metody wbudowane [42, 76]. Filtry to grupa metod, która autonomicznie podejmuje decyzję, które z cech są istotne dla późniejszego etapu uczenia modelu [10]. Decyzja podejmowana jest na podstawie niezależnego od algorytmu uczącego kryterium. na przykład na podstawie informacji wzajemnej (ang. mutual information). W metodach opakowanych występuje sprzężenie zwrotne z algorytmu uczącego. Dzięki temu podzbiór cech optymalizowany jest pod kątem konkretnego klasyfikatora [43, 58]. W metodach wbudowanych proces selekcji cech wbudowany jest w proces uczenia i jest jego integralną częścią [73], w przeciwieństwie do metod opakowanych gdzie selektor cech jest niezależny od algorytmu uczącego. 9
10 2.3.2 Zespołowe Metody Selekcji Cech W niniejszej sekcji omówiono wybrane przykłady zespołowych metod selekcji cech [104]. W szczególności zaadresowano rankingowe i nierankingowe metody zespołowej selekcji cech [76], łączenia wyników z niezależnych selektorów cech [104, 133, 136] oraz dywersyfikacji [12, 45, 84, 86, 112, 135], a także metody zorientowane na stabilność (ang. robustness) [107] oraz przykłady ich zastosowań [85, 108, 138]. 2.4 Selekcja Cech Oparta na Zbiorach Przybliżonych Redukty Decyzyjne i Decyzja Uogólniona Kluczowym pojęciem w teorii zbiorów przybliżonych jest pojęcie relacji nierozróżnialności. Definicja Niech A = (U, A) będzie systemem informacyjnym. Dowolny B A definiuje w zbiorze U dwuargumentową relację IND A (B): IND A (B) = {(x,y) U 2 a B a(x) = a(y)} (2.1) IND A (B) jest zwana relacją nierozróżnialności generowaną przez zbiór B (w skrócie relacja B- nierozróżnialności). Jeżeli (x,y) IND A (B) wtedy obiekty x i y są od wzajemnie nierozróżnialne na podstawie atrybutów zawartych w B. Klasy równości utworzone na podstawie relacji B-nierozróżnialności w niniejszej rozprawie są oznaczane poprzez [x] B ilekroć chcemy określić klasę równości wyznaczoną przez podzbiór cech B, do której należy obiekt x oraz jako E B chcąc oznaczyć zbiory E t = {x U : B(x) = v t } wynikające z podziału uniwersum U/B. W teorii zbiorów przybliżonych, reduktem nazywamy minimalny podzbiór atrybutów, który może być użyty do jednoznacznego określenia wartości atrybutu decyzyjnego dla wszystkich obiektów. Podzbiory, które nie są minimalne nazywamy nad-reduktami. Definicja Podzbiór B A jest reduktem decyzyjnym dla tabeli decyzyjnej A = (U, A {d}), wtedy i tylko wtedy gdy jest to najmniejszy możliwy podzbiór cech, takich że dowolna para obiektów x,y U, dla których d(x) d(y) jest rozróżnialna na podstawie wartości atrybutów w B. Definicja dobrze sprawdza się przy redukcji cech w spójnych tablicach decyzyjnych. W sytuacji kiedy tablica jest niespójna nawet pełen zbiór atrybutów A nie spełnia kryterium bycia reduktem. W literaturze przedmiotu jest wiele alternatywnych definicji, które mogą zostać zastosowane do niespójnych tablic decyzyjnych w celu redukcji cech, przykładem takiej alternatywy może być warunek aby redukcja cech nie prowadziła do zmian w tak zwanym obszarze pozytywnym. Innym przykładem może być definicja reduktu decyzyjnego opartego na tak zwanej funkcji decyzji uogólnionej [89]. Definicja Dla dowolnej tablicy decyzyjnej możemy rozważać funkcję decyzji uogólnionej d : 2 U 2 V d, której wartość przyjmuje postać zbioru: d (E) = {k : X k E } (2.2) 10
11 Moc zbioru uogólnionej decyzji odzwierciedla poziom niespójności w opisie atrybutu decyzyjnego przez cechy B A. Jeżeli d ([x] A ) = 1, wtedy tablica decyzyjna A = (U,A {d}) jest spójna, w przeciwnym przypadku jest niespójna. Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest -nadreduktem decyzyjnym, wtedy i tylko wtedy jeżeli spełniony jest następujący warunek: d ([x] B ) = d ([x] A ) (2.3) x U B A jest -reduktem decyzyjnym, wtedy i tylko wtedy, gdy jest -nadreduktem decyzyjnym oraz żaden jego podzbiór nie spełnia powyższego warunku. Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest nadreduktem decyzyjnym, wtedy: d ([x] A ) d ([y] A ) x,y U a B a(x) a(y) (2.4) Druga definicja jest szczególnie pomocna w konstrukcji algorytmów wyszukiwania reduktów, ponieważ pozwala na szybkie stwierdzenie czy dany atrybut może być usunięty ze zbioru cech. Innymi słowy, atrybut może być usunięty jeżeli: d ([x] B {a} ) = d ([x] A ) (2.5) x U Decyzja uogólniona pozwala na generowanie reduktów tradycyjnymi metodami [7, 110]. Różnica polega na tym, że wartości nowego atrybutu decyzyjnego zawierającego zbiory decyzji uogólnionej będą traktowane jako pojedyncze wartości symboliczne a wymaganie rozróżnialności względem decyzji będzie dotyczyło tych symboli. Na przykład wartość {1, 2} jest traktowana jako pojedynczy symbol, a nie jako zbiór dwóch wartości. Należy wspomnieć, że w reguły decyzyjne generowane na podstawie decyzji uogólnionej posiadającej więcej niż jedną wartość będą wskazywać na dysjunkcję decyzji na przykład (a = v a ) (b = v b ) (c = v c ) (d = 1) (d = 2) Aproksymacyjne Redukty Decyzyjne Spośród wielu znanych z literatury przedmiotu podejść do generowania aproksymacyjnych reduktów decyzyjnych [79, 161] koncentrujemy się na podejściu opartym na miarach jakości podzbiorów cech. Zdefiniujmy miarę F : 2 A R, która określa poziom wyznaczalności F (B) decyzji d przez podzbiór B A. Decyzja, która cecha z A może zostać zredukowana może zostać podjęta na podstawie straty jaka powstanie po usunięciu danej cechy. Na tej podstawie możemy zdefiniować pojęcie (F, ε)-aproksymacyjnego reduktu decyzyjnego. Definicja Niech A = (U,A {d}) będzie tablicą decyzyjną i dany jest próg aproksymacji (przybliżenia) ε [0, 1). B A jest (F, ε)-aproksymacyjnym (przybliżonym) reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: F (B) (1 ε)f (A) (2.6) 11
12 oraz żaden z właściwych podzbiorów C B go nie spełnia. Możemy sformułować też alternatywną wersję Definicji 2.6 nie odwołującą się do wartości F (A) oraz przy założeniu, że przedział wartości F (B) będzie znormalizowany do [0, 1]: Definicja Niech A = (U,A {d}) będzie tablicą decyzyjną i dany jest próg aproksymacji (przybliżenia) ε [0, 1) oraz niemalejąca, monotoniczna (w sensie zawierania się zbiorów) funkcja F : 2 A [0,1]. B A jest (F,ε)-aproksymacyjnym (przybliżonym) reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: oraz żaden z właściwych podzbiorów C B go nie spełnia. F (B) 1 ε (2.7) Istnieje wiele przykładów definiowania funkcji F. Na przykład może odzwierciedlać moc obszaru pozytywnego generowanego przez podzbiór cech. Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną. Obszarem pozytywny P OS(B) jest podzbiorem obiektów uniwersum U, dla których możliwa jest jednoznaczna klasyfikacja do jednej z klasy decyzyjnych wykorzystując tylko wartości atrybutów zawartych w B: P OS(B) = {x U : y [x]b d(y) = d(x)} (2.8) Powyższa definicja może być zapisana w równoważny sposób za pomocą klas nierozróżnialności utworzonych na podstawie B: P OS(B) = {E U/B : x,y E d(x) = d(y)} (2.9) Powyższa definicja oznacza, że P OS(B) jest sumą klas równoważności generowanych przez B, w których obiekty posiadają jednakową decyzję. Rozważmy teraz funkcję γ : 2 A [0,1] zdefiniowaną przez równanie (2.10), która jest powszechnie wykorzystywana w teorii zbiorów przybliżonych do określenia poziomu wyznaczalności decyzji przez podzbiór cech [88]: γ(b) = P OS(B) U (2.10) Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest γ-reduktem decyzyjnym dla A, wtedy i tylko wtedy jeżeli jest nieredukowalnym zbiorem atrybutów, takich że γ(b) = γ(a), lub równoważnie P OS(B) = P OS(A). Inny przykład miary F [150]: Definicja Niech A = (U,A {d}) będzie tablicą decyzyjną. Dla B A, relatywną funkcją wzmocnienia (ang. Relative gain function) R : 2 A [0,1] nazwiemy funkcję następującej postaci: R(B) = 1 V d E U/B X k E max k V d X k (2.11) 12
13 Inny przykład miary F bazujący na często wykorzystywanej funkcji pewności (ang. confidence) podczas identyfikacji decyzji dla reguły decyzyjnej, oryginalnie zaproponowany w [123]: M(B) = E U/B E U max X k E k V d E (2.12) Definicja Niech A = (U,A {d}) będzie tablicą decyzyjną i dany jest próg aproksymacji (przybliżenia) ε [0, 1). B A jest (M, ε)-aproksymacyjnym (przybliżonym) reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: i żaden z właściwych podzbiorów C B go nie spełnia. M(B) (1 ε)m(a) (2.13) Dla spójnej tablicy decyzyjnej A = (U,A {d}) zawsze zachodzi równość γ(a) = R(A) = M(A) = 1. Miara M(B) jest też monotoniczna: Stwierdzenie Niech A = (U, A {d}) będzie tablicą decyzyjną. Dla podzbiorów cech B,C A, takich że C B zachodzi następująca nierówność: Rozważania Algorytmiczne M(B) M(C) (2.14) Problem wyszukiwania minimalnych reduktów decyzyjnych jest problemem NP-trudnym [110]. Podobnie, problem wyszukiwania minimalnych (M, ε)-aproksymacyjnych reduktów przybliżonych jest NP-trudny [117] i do ich generowania zwykle wykorzystywane sa metody heurystyczne, których przykładem jest algorytm REDORD [154]. Algorytm ten składa się z dwóch części. W pierwszej generowane są permutacje atrybutów (w sposób losowy lub zgodnie z pewną strategią, której propozycje opisano w dalszej części rozprawy). W drugiej podejmowana jest próba redukcji atrybutów zgodnie z kolejnością występowania atrybutów w permutacji. 2.5 Metodologia Eksperymentów Obliczeniowych Eksperymenty obliczeniowo przeprowadzono na 21 wzorcowych zbiorach danych z repozytorium UCI [74]. Porównania klasyfikatorów dokonano przy uwzględnieniu najlepszych praktyk (kroswalidacja oraz nieparametryczne testy statystyczne) [16, 24, 33, 53]. 3 Uczenie Maszynowe Drzew i Reguł Decyzyjnych 3.1 Indukcja Reguł Decyzyjnych W niniejszej sekcji omówiono zagadnienie indukcji reguł decyzyjnych [18, 19, 37, 66, 98, 102, 119, 121]. 13
14 3.2 Indukcja Reguł Oparta na Reduktach Decyzyjnych Pojęcie reduktu decyzyjnego może zostać wykorzystane do generowania minimalnych reguł decyzyjnych. Zbiór reguł można utworzyć poprzez rzutowanie reduktu decyzyjnego na dane treningowe i utworzenie klas nierozróżnialności. Dla każdej z nich możemy utworzyć regułę, której lewa strona odpowiada atrybutom w redukcie i ich wartościom występującym w klasie, a strona prawa odpowiada pewnej decyzji. W zależności od rodzaju reduktu stosuje się różne podejścia do wyznaczania jej wartości. W klasycznym redukcie decyzyjnym (dla spójnych danych) decyzja w danej klasie będzie tylko jedna. W omawianym wcześniej podejściu wykorzystującym miarę M(B) wybiera się wartość decyzji, która jest decyzją dominującą. W literaturze przedmiotu można znaleźć wiele innych opisów indukcji reguł opartych na reduktach [39, 80, 119, 120, 127]. Na przykład w [128] analizowaliśmy czy kryteria użyte do redukcji atrybutów można stosować także w indukcji reguł. Dla miary M(B) oraz γ(b) kryteria identyfikacji to: oraz dla miary R(B): k = argmax X k E (3.1) k V d k = argmax k V d X k E X k gdzie k jest decyzją z dziedziny V d, X k jest zbiorem obiektów z przypisaną k-tą decyzją oraz E to zbiór obiektów należący do danej klasy nierozróżnialności. (3.2) 3.3 Indukcja Drzew Decyzyjnych W niniejszej sekcji omówiono zagadnienie indukcji drzew decyzyjnych oraz różnice i podobieństwa w odniesieniu do indukcji reguł decyzyjnych [14, 98, 100, 105]. W dalszej części omówiono także zagadnienie przycinania drzew [14, 78, 99, 100]. 3.4 Połączenie Reduktów i Drzew Decyzyjnych Przykład tworzenia klasyfikatora z wykorzystaniem reduktów decyzyjnych omawiamy na podstawie indukcji drzew decyzyjnych. Szkielet konstrukcji modelu może być scharakteryzowany następująco: 1. Wygeneruj wiele podzbiorów cech na podstawie przybliżonych reduktów decyzyjnych. 2. Wybierz najbardziej odpowiedni podzbiór stosując określone kryterium optymalizacji. 3. Stosując jedynie atrybuty z wybranego podzbioru, wygeneruj drzewo decyzyjne. 4. Przytnij drzewo stosując schemat przycinania na koniec lub w takcie indukcji drzewa. 5. Zweryfikuj dokładność otrzymanego modelu. 14
15 3.4.1 Selekcja Cech Wejściowych W opisywanym modelu do wygenerowaniu podzbiorów cech wykorzystano (M, ε)-redukty decyzyjne opisane w Sekcji 2.4 oraz zachłanną wersję algorytmu opisanego w Sekcji Budowa Drzewa Decyzyjnego Drzewo decyzyjne konstruowano z w oparciu o algorytm przechodzenia wszerz, dzięki czemu uzyskano bardziej równomierną głębokość podgałęzi. Po drugie wprowadzono kryterium stopu dla rozrostu całego drzewa polegające na ocenie klas równoważności generowanych przez drzewo i zatrzymaniu tego procesu przy osiągnięciu zadowalającej jakości. Kryterium Podziału Gałęzi Drzewa W zaproponowanym modelu w celu określenia atrybutu wykorzystywanego do wygenerowania następnego podziału gałęzi drzewa użyto kryterium największego przyrostu miary M(B). Zmiany tej dokonano aby kryteria podziału były maksymalnie zbliżone do kryteriów wykorzystanych przy generowaniu reduktu i wyborze cech w poprzednim kroku. Zwróćmy uwagę, że choć wykorzystywana jest ta sama miara to kryteria te nie są jednoznaczne. W przypadku drzewa, oszacowanie przyrostu odbywa się jedynie na podzbiorze danych, podczas gdy przy selekcji cech analizowany jest za każdym razem cały zbiór danych. Kryterium Stopu W procedurze indukcji drzewa wprowadzono dodatkowe kryterium stopu, które przerywa generowanie całego drzewa w momencie spełnienia warunku określonego Równaniem Zwróćmy uwagę, że poszczególne gałęzie drzewa odpowiadają klasom równoważności generowanym na podstawie atrybutów użytych do wygenerowania danej gałęzi oraz podzbioru danych wyznaczonym przez tę gałąź. Na takim zbiorze klas równoważności możemy policzyć wartość miary M(B) oraz sprawdzić dla określonego parametru ε. Należy zwrócić uwagę, że wprowadzenie takiego kryterium nie jest kosztowne, ponieważ przy każdym podziale gałęzi musimy sprawdzić tylko bieżący przyrost wartości miary M(B) na lokalnej porcji danych i donieść go do warunku z Równania Parametr dotyczący kryterium stopu dla indukcji drzewa będziemy oznaczać poprzez ε t aby odróżnić go od ε, który oznacza poziomu determinacji decyzji w przybliżonych reduktach decyzyjnych Eksperymenty Obliczeniowe W ramach eksperymentów obliczeniowych porównano cztery modele decyzyjne. Z czego jeden to klasyczny algorytm C4.5 z wbudowaną procedurą przycinania drzewa EBP. Pozostałe trzy modele różnią się stopniem wykorzystania omówionych powyżej modyfikacji np. zastąpienie przycinania EBP, kryterium stopu opartym na mierze M(B), generowanie drzewa na podstawie atrybutów występujących w reducie. W wynikach eksperymentów przede wszystkim należy odnotować fakt, że podejścia oparte na reduktach generowały modele, które wykorzystywały mniejszą liczbę atrybutów, generowane reguły decyzyjne były krótsze oraz było ich mniej, przy jednoczesnym braku różnic w klasyfikacji. Podsumowując otrzymywane modele były prostsze a nie pogarszało to wyników klasyfikacji. 15
16 Na uwagę zasługuje fakt, że zmodyfikowane kryterium jest obliczeniowo mniej kosztowne niż przycinanie drzewa zaimplementowane C4.5 i nie wymaga stosowania zbioru walidacyjnego. 4 Redukty i Większościowa Decyzja Uogólniona 4.1 Większościowa Decyzja Uogólniona Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną. Funkcją większościowej decyzji uogólnionej m d : 2 U 2 V d nazwiemy funkcję o następującej postaci: m d (E) = {k : X k E = max( X j E )} (4.1) j Funkcja większościowej decyzji uogólnionej odzwierciedla wybór najliczniejszej decyzji w ramach każdej klasy równoważności E U. Pełni taką samą rolę jak funkcja większościowa M(B) omówiona w Sekcji Poniżej w Tabeli 4.1 zaprezentowano przykład tablicy decyzyjnej wraz z decyzją uogólnioną oraz większościową decyzją uogólnioną. Tablica 4.1: Tablica decyzyjna A = (U,A {d}) z decyzją uogólnioną d ([x] A ), większościową decyzją uogólnioną m d ([x] A ) oraz rozkładem wartości atrybutu decyzyjnego d (d 0,d 1,d 2 ) Id a 1 a 2 a 3 a 4 d d ([x] A ) m d ([x] A ) d 0 d 1 d 2 x x x x x x {0,1} {0,1} {0,1} {0,1} x {1} {1} x x x x x {0,1,2} {1,2} x {1} {1} x {0} {0} Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest (m, =)-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy zachodzi następujący warunek: m d ([x] B ) = m d ([x] A ) (4.2) x U B A jest (m, =)-reduktem decyzyjnym wtedy i tylko wtedy gdy jest (m, =)-nadreduktem decyzyjnym oraz żaden jego podzbiór nie spełnia powyższego warunku. 16
17 Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m,=)-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: ( ) m d ([x] A ) m d ([y] A ) x,y U a B a(x) a(y) W praktyce powyższa definicja może się okazać zbyt restrykcyjna w kwestii redukcji atrybutów. Poniżej przedstawiamy wersję ze zmodyfikowanym kryterium pozwalającą na mniej restrykcyjną redukcję atrybutów. Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy zachodzi następujący warunek: (4.3) m d ([x] B ) m d ([x] A ) (4.4) x U B A jest (m, )-reduktem decyzyjnym, wtedy i tylko wtedy gdy jest (m, )-nadreduktem decyzyjnym oraz żaden jego właściwy podzbiór C B nie spełnia powyższego warunku. W praktyce weryfikacja warunku 4.3 z Definicji może okazać zbyt skomplikowana. Poniżej przedstawiamy definicję, która zamiast zawierania zbiorów wykorzystuje operację przecięcia. Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: x U y [x] B m d ([y] A ) (4.5) Poniższa definicja pozawala na łatwiejszą weryfikację czy B A jest (m, )-nadreduktem. Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: x U y [x] B m d ([y] A ) = m d ([x] B ) (4.6) Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek: M(B) = M(A) (4.7) Zauważmy, że Definicja jest bardziej restrykcyjna w kwestii redukcji cech niż Definicja i może okazać się że podzbiór otrzymany zgodnie z Definicją będzie mógł być jeszcze zredukowany na podstawie Definicji Przybliżona Większościowa Decyzja Uogólniona Definicja Niech A = (U, A {d}) będzie tablicą decyzyjną oraz próg przybliżenia ε [0,1). Funkcja przybliżonej większościowej decyzji uogólnionej m ε d : 2U 2 V d nazywamy funkcję 17
18 o następującej postaci: m ε d(e) = {k : X k E (1 ε)max X j E } (4.8) j Stwierdzenie Dla ε = 0 mamy: E m 0 d(e) = m d (E) (4.9) Stwierdzenie Dla ε 1 mamy: E lim ε 1 mε d(e) = d (E) (4.10) Poniżej przedstawiamy zmodyfikowaną definicję (m ε, )-reduktu decyzyjnego rozszerzającą definicję omawianą w poprzedniej sekcji o parametr sterujący wyborem klas decyzyjnych w ramach każdej klasy równoważności. Zauważmy, że dla ε = 0 definicja ta jest równoważna definicji omawianej w Sekcji 4.1. Definicja Niech A = (U,A {d}) będzie tablicą decyzyjną oraz próg przybliżenia ε [0,1). B A jest (m ε, )-nadreduktem decyzyjnym, wtedy i tylko wtedy gdy: x U y [x] B m ε d([y] A ) (4.11) B A jest (m ε, )-reduktem decyzyjnym, wtedy i tylko wtedy gdy jest (m ε, )-nadreduktem decyzyjnym oraz żaden jego podzbiór właściwy C B nie spełnia powyższego warunku. Stwierdzenie Niech A = (U, A {d}) będzie tablicą decyzyjną. Następująca zależność jest prawdziwa dla każdego podzbioru B A: x U y [x] B m ε d([y] A ) m ε d([x] B ) (4.12) Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest (m ε, )- nadreduktem decyzyjnym, wtedy zachodzi następująca nierówność: M(B) (1 ε)m(a) (4.13) Zauważmy, że w przypadku Stwierdzenia mamy równoważność stwierdzeń, że B A jest (m, )-reduktem decyzyjnym oraz, że M(B) = M(A). Natomiast w przypadku Stwierdzenia i (m ε, )-reduktu decyzyjnego mamy tylko implikację. Poniżej jako Algorytm 1 oraz Algorytm 2 przedstawiamy algorytm generowania (m ε, )- reduktów decyzyjnych. Szersze omówienie oraz przykład działania został pominięty z niniejszego opracowania i znajduje się w oryginalnej wersji niniejszej rozprawy. Warunek oparty na nierówności 4.11 w Definicji pozwala na duże zaoszczędzenie czasu obliczeń. Przy pierwszym wykryciu pustego przecięcia, można przerwać dalsze walidacje. Puste 18
19 Algorytm 1 Generowanie reduktów decyzyjnych opartych na decyzji uogólnionej Wejście: A = (U,A {d}), ε [0,1), σ : {1,...,n} {1,...,n}, n = A A temp - temporary decision table for storing equivalence classes) Wyjście: B A 1: Calculate Generalized Majority Decision m ε d (E A) for all objects in A 2: B A 3: E B CreateEquivalenceClasses(A) 4: for i = 1 n do 5: E C Reduce(E B, B, a σ(i) ) 6: if E C E B then 7: E B = E C 8: B B {a σ(i) } 9: end if 10: end for 11: return B przecięcie zbiorów decyzji uogólnionej oznacza, że danego atrybutu nie można zredukować i musi on się znajdować podzbiorze będącym reduktem. Stwierdzenie również jest istotne pod względem skrócenia obliczeń. Dzięki niemu możemy wykorzystywać wynik przecięcia zbiorów decyzji uogólnionych w kolejnej iteracji. Zmiany te w praktyce powodują znaczne przyspieszenie generowania reduktów, w porównaniu do (M, ε)-reduktów decyzyjnych omawianych w Sekcji 2.4.2, chociaż pesymistyczna złożoność obliczeniowa jest ta sama. 4.3 Aproksymacyjne Redukty Decyzyjne i Reguły Wyjątki W niniejszej sekcji przedstawiamy nowy typ klasyfikatora opartego na (m φ, )-reduktach oraz hierarchii reguł decyzyjnych. Klasyfikator wykorzystuje także specjalny typ reguł, do których odwołujemy się jako tak zwane wyjątki (m φ, )-Redukty Decyzyjne Przedefiniujmy pojęcie (m ε, )-reduktu. Przez analogię, nowe pojęcie oznaczamy jako (m ε,φ, )- redukt decyzyjny. Nowa definicja jest rozszerzeniem definicji (m ε, ). Dla przejrzystości będziemy stosować wartość parametru ε = 0 i pomijać go w oznaczeniach. Nowa definicja otrzyma zatem oznaczenie (m φ, ). Definicja Niech φ [0,1) będzie progiem przybliżenia oraz A = (U,A {d}) będzie tablicą decyzyjną. B A jest (m φ, )-nadreduktem decyzyjnym wtedy i tylko wtedy gdy istnieje zbiór obiektów X U, taki że X (1 φ) U oraz spełniony jest następujący warunek: x X y [x] B X m d ([y] A ) (4.14) B A jest (m φ, )-reduktem decyzyjnym wtedy i tylko wtedy gdy jest (m φ, )-nadreduktem decyzyjnym oraz żaden jego podzbiór nie spełnia powyższego warunku. Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest (m φ, )- nadreduktem decyzyjnym, wtedy istnieje taki podzbiór X U, że spełniona jest nierówność X 19
20 Algorytm 2 Metoda Reduce dokonująca redukcji atrybutu Wejście: Kolekcja klas równoważności E B U/B, Podzbiór atrybutów B A, Atrybut do redukcji a B Wyjście: Kolekcja klas równoważności E C U/C gdzie C B jeśli a B został usunięty lub E B U/C w przeciwnym przypadku 1: function Reduce(E B, B, {a}) 2: C B {a} 3: E C 4: for all EquivalenceClasses E E B do 5: DEC 6: v B GetInstance(E) 7: v C Remove(v B, {a}) 8: E tmp Find(E C, v C ) 9: if E tmp NULL then 10: DEC GetDec(E tmp ) GetDec(E) 11: if DEC > 0 then 12: SetDec(E tmp, DEC) 13: else 14: return E B 15: end if 16: else 17: AddEquivalenceClass(E C, E tmp ) 18: end if 19: end for 20: return E C 21: end function (1 φ) U oraz warunek (4.14) i X jest wyznaczalne przez A, co oznacza, że X jest sumą pewnych klas nierozróżnialności U/A. Powyższe stwierdzenie pokazuje w jakim sensie podzbiory obiektów X U są sumą klas równoważności utworzonych na postawie pełnego zbioru atrybutów A, który następnie jest redukowany do B, a klasy równoważności łączone w coraz większe zbiory. Od tej pory będziemy zakładać, że podzbiory obiektów X U omawiane w kontekście (m φ, )-reduktów przyjmują formę sum klas równoważności U/A. Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną. Jeżeli B A jest (m φ, )- nadreduktem decyzyjnym, wtedy zachodzi następująca nierówność: M(B) M(A) φ (4.15) Metoda generowania (m φ, )-reduktów decyzyjnych została zaprezentowana jako Algorytm 3 (w tym przypadku opcja generowania wyjątków powinna zostać pominięta). Przykład i opis działania algorytmu oraz dyskusja o potencjalnej optymalizacji zostały pominięte w niniejszym opracowaniu i znajdują się w pełnej wersji rozprawy Reguły Wyjątki Wprowadzenie pojęcia reguły wyjątku rozpoczniemy od przedstawienia prostego przykładu. Rozważmy fragment tablicy decyzyjnej z Tabeli 4.2 prezentującej dane o gatunkach zwierząt po- 20
21 trafiących latać. Na podstawie prezentowanego fragmentu, możemy utworzyć listę reguł na Tablica 4.2: Zwierzęta potrafiące latać - przykład tablicy decyzyjnej Gromada Gatunek Czy lata?... Ptaki Kondor Tak Ptaki Papuga Tak Ptaki Gołąb Tak Ptaki Sowa Tak Ptaki Jastrząb Tak Ptaki Dzięcioł Tak Ptaki Pingwin Nie... przykład jeśli Gatunek = Kondor to potrafi latać, jeśli Gatunek = Papuga to potrafi latać,..., jeśli Gatunek = Pingwin to nie potrafi latać. Takie reguły, choć poprawne, nie są zbyt użyteczne ponieważ bazują na pojedynczych przypadkach z treningowego zbioru danych, to znaczy ich wsparcie i pokrycie jest bardzo niskie. Ponad to lista reguł opisująca każdy gatunek była by bardzo długa. Jak już zaadresowaliśmy w poprzednich rozdziałach zależy nam na uproszczeniu modelu decyzyjnego, które w tym przypadku może oznaczać redukcję ilości reguł decyzyjnych. Zauważmy, że reguła jeśli Gromada = Ptaki to potrafi latać nie jest w pełni poprawna - istnieją przypadki dla których ta reguła jest błędna. Z drugiej strony taka reguła posiada duże pokrycie i dla większości przypadków jest poprawna i jej eliminuje potrzebę posiadania wielu reguł opartych na atrybucie Gatunek. Jeżeli do tej reguły dodamy dodatkową regułę postaci if Gromada = Ptaki oraz Gatunek = Pingwin to nie potrafi latać nasz model będzie w pełni poprawny a zamiast początkowo siedmiu reguł będzie zawierać jedynie dwie. Aby zapewnić poprawność wnioskowania musimy jeszcze zadbać o właściwą kolejność wyszukiwania reguł. Najpierw sprawdzamy reguły bardziej szczegółowe, później, jeżeli żadna nie ma zastosowania, sprawdzamy reguły ogólniejsze. Reguły bardziej szczegółowe będziemy w naszym podejściu nazywać wyjątkami natomiast ogólniejsze regułami ogólnymi lub po prostu regułami. Spróbujmy uporządkować warunki dotyczące reguł ogólnych oraz warunków: 1. Reguła-Warunek są zawsze powiązana z regułą ogólną, 2. Reguła ogólna może również być warunkiem dla innej reguły (możemy rozważyć wielopoziomową hierarchię reguł), 3. Obiekty pokryte przez regułę wyjątek są również pokryte przez odpowiednią regułę ogólną, 4. Wszystkie atrybuty warunkowe użyte do konstrukcji reguły ogólnej występują również na powiązanych regułach wyjątkach (wyjątek dodatkowo uszczegóławia regułę ogólną, potencjalnie wskazując na inną wartość decyzji). W proponowanej budowie klasyfikatora możemy zauważyć wiele analogii do pojęć domniemania i rozszerzenia znanych z teorii Logiki domniemań [3]. Logika domniemań może wyrażać zdania jak "wszystkie ptaki latają", które w klasycznej logice byłoby zdaniem fałszywym. Logika domniemań posiada narzędzia formalne, dzięki którym możemy utworzyć zbiór zdań ogólnych i określić dla nich rozszerzenia (wyjątki), co w pełni zdefiniuje dany problem. Hierarchia reguł decyzyjnych była także omawiana w [111]. 21
22 Analizując przykłady generowania (m ε, )-reduktów omówione w rozprawie, można dojść do wniosku, że czasem pojedyncze obiekty będą w stanie zablokować potencjalną redukcję atrybutu ze względu na puste przecięcie zbioru większościowej decyzji uogólnionej. Z jednej strony chcielibyśmy aby redukcja cech była większa, z drugiej występowanie tych obiektów blokuje, zgodnie z posiadaną definicją, możliwość redukcji. Definicja rozwiązuje ten problem poprzez zgodę na usunięcie pewnej liczny obiektów (lub dopuszczenie do pewnych niespójności) o ile liczba wszystkich niespójności nie jest większa niż określony parametr φ. Jeżeli chcielibyśmy zachować informację o przypadkach niespólnych, które musimy wykluczyć aby dokonać redukcji pewnych paramentów, wiedzę o tych obiektach możemy zapisać w postaci wyjątków. Algorytm?? przedstawia zmodyfikowaną wersję generowania (m φ, )-reduktów z dodatkowym krokiem zapisywania wyjątków w bazie reguł. Zauważmy, że wyjątki są tworzone jedynie w przypadku pomyślnej redukcji atrybutu. Szerszy opis działania algorytmu zamieszczono w pełnej wersji niniejszej rozprawy. Algorytm 3 Metoda generowania (m φ, )-reduktów wraz z opcją generowania reguł-wyjątków Wejście: Kolekcja klas równoważności E B U/B, Poziom przybliżenia φ [0,1); Zbiór atrybutów B A, Atrybut do redukcji a B Wyjście: Zaktualizowany zbiór reguł R ex, Kolekcja klas równoważności E C U/C gdzie C B jeżeli a B został usunięty lub E B U/B w przeciwnym przypadku 1: function Reduce3(E B, B, {a}, φ, R ex ) 2: C B {a} 3: E C 4: w C GetWeight(E B ) 5: Shuffle(E B ) # alternatywnie: SortDescending(E B ) 6: for all EquivalenceClasses E E B do 7: DEC 8: v B GetInstance(E) 9: v C Remove(v B, {a}) 10: E tmp Find(E C, v C ) 11: if E tmp NULL then 12: DEC GetDec(E tmp ) GetDec(E) 13: if DEC > 0 then 14: SetDec(E tmp, DEC) 15: else 16: w C w C E 17: if w C (1 φ) U then 18: return E B 19: end if 20: StoreExceptionRule(R ex, E tmp ) #opcja 21: end if 22: else 23: AddEquivalenceClass(E C, E) 24: end if 25: end for 26: SetWeight(E C, w C ) 27: return E C 28: end function W procesie generowania (m φ, )-reduktów generowane są wyjątki, które są zapisywane w ściśle określonej kolejności (zaczynając od najbardziej szczegółowych). Na koniec, na podsta- 22
23 wie otrzymanego reduktu, dodawane są reguły ogólne bazujące na atrybutach które należą do reduktu. W procesie klasyfikacji dla nowych przypadków obowiązuje ta sama kolejność sprawdzania. Najpierw sprawdzane jest czy obiekt testowy pasuje do najbardziej szczegółowych reguł wyjątków. Jeżeli jakaś reguła pasuje, wyszukiwanie jest przerywane, a wynikiem jest decyzja, na którą wskazywał wyjątek. Jeżeli nie, przeszukiwane są coraz bardziej ogólniejsze reguły. Na koniec reguła ogólna. Jeżeli żadna reguła nie pasuje, obiekt jest nierozpoznany (opcjonalnie można przydzielić decyzję najczęstszą w treningowym zbiorze danych, jednak w naszych eksperymentach ta zasada nie była stosowana.) Reguły Wyjątki-Luki Za każdym razem jeżeli obiekt blokujący redukcję może być usunięty tracimy pewien fragment informacji. Wyjątki pozwalają na zakodowanie tej informacji w modelu w postaci specjalnych reguł. W naszych eksperymentach rozważyliśmy jeszcze inny rodzaj wyjątków - takich, które nie kodują informacji o samym obiekcie ale zapisują, że w przypadku danego usuniętego wzorca nie powinniśmy podejmować żadnej decyzji. Modelujemy to w sposób bardzo podobny do wyjątków, jednak tym razem wyjątek wskazuje na decyzję o specjalnej wartości oznaczającej obiekt nierozpoznany. Takie wyjątki nazywamy wyjątkami-lukami lub po prostu lukami (ang. gap) od stwierdzenia, że w danym obszarze pozostaje luka w naszej wiedzy. 4.4 Biredukty i Większościowa Decyzja Uogólniona W niniejszej sekcji zaadresowano pewne analogie i różnice pomiędzy pojęciami (m φ, )-reduktu decyzyjnego oraz bireduktów decyzyjnych [117, 118, 126]. Definicja Niech A = (U,A {d}) będzie tablicą decyzyjną i niech B A, X U. B wyznacza d w zakresie X, co oznaczamy jako B X d, wtedy i tylko wtedy gdy B rozróżnia wszystkie pary obiektów u i,u j X, takie że d(u i ) d(u j ). Para (X,B) jest bireduktem decyzyjnym wtedy i tylko wtedy gdy następujące warunki są spełnione: 1. Zachodzi B X d, 2. Nie istnieje podzbiór właściwy B B, taki że B X d, 3. Nie istnieje podzbiór właściwy X X, taki że B X d. 4.5 Eksperymenty Obliczeniowe z (m φ, )-Reduktami W ramach eksperymentów obliczeniowych porównano trzy modele klasyfikacji oparte na omawianych w rozprawie (m φ, )-reduktach i klasyfikatorach wykorzystujących reguły-wyjątki i reguły-luki oraz porównano je z klasycznym modelem reguł decyzyjnych opartym na (M, ε)- reduktach. Wyniki pokazują, że nie występują znaczące statystycznie różnice na poziomie popełniania błędów przez wszystkie klasyfikatory, jednak pod kątem precyzji klasyfikacji najlepszy jest model z dodatkową bazą reguł-wyjątków. Innymi słowy jest to model, który w nie podejmuje decyzji w przypadku zidentyfikowania obiektu przez regułę-wyjątek. Należy też zwrócić uwagę na fakt, że modele wykorzystujące dodatkowe bazy reguł-wyjątków modelują pełną wiedzę zawartą w danych bez pogorszenia wyników (co oznacza że zjawisko nadmiernego dostosowania 23
24 może w tym przypadku być pominięte). Długość reguł podstawowych jest też w tym przypadku znacząco krótsza jednak przy uwzględnieniu dodatkowej bazy reguł i ich ilości dyskusyjne jest czy są to modele prostsze i bardziej zrozumiałe dla użytkowników. 5 Zespoły Reduktów Decyzyjnych i Klasyfikatorów W niniejszym rozdziale opisujemy zagadnienia związane z zespołami klasyfikatorów [159], poświęcając szczególną uwagę zagadnieniu wykorzystania tych samych mechanizmów, znanych z dziedziny uczenia maszynowego [69], w procesie generowania zespołów reduktów decyzyjnych. Szczególną uwagę poświęcamy mechanizmom dywersyfikacji [68, 70], łączenia wyników (klasyfikacji oraz selekcji cech). Omówiono również znane z literatury zbiorów przybliżonych podejścia wykorzystujące koncept uczenia zespołowego [93, 154], polegające na wykorzystaniu pewnej liczby reduktów do utworzenia reguł decyzyjnych a następnie wykorzystania mechanizmu głosowania do wygenerowania końcowej decyzji. 5.1 Dywersyfikacja Podzbiorów Cech W niniejszej sekcji omówiono zagadnienie dywersyfikacji w zespołach, w zadaniach klasyfikacji i selekcji cech. Pełniejsze wprowadzenie do zagadnienia dywersyfikacji znajduje się w pełnej wersji rozprawy. Poniżej omówimy jedynie, jak zbiory przybliżone mogą zostać wykorzystane do konstrukcji zespołów zarówno podzbiorów cech, jak i klasyfikatorów. Omawiane w poprzednich rozdziałach metody pozwalają na wygenerowanie wielu reduktów przybliżonych, to znaczy wielu różnych podzbiorów cech determinujących wartości atrybutu decyzyjnego. Mocno powiązane cechy atrybutów będą z reguły występować zamiennie w generowanych podzbiorach cech. Pozwala to na analizowanie wyznaczania wartości atrybutu decyzyjnego z różnych perspektyw i na podstawie różnych przesłanek wyrażonych w formie podzbiorów atrybutów warunkowych. Feature space R2 f7 R3 f8 f1 R1 f2 f6 f9 f3 f4 f5 Rysunek 5-1: Ilustracja różnorodności reduktów decyzyjnych - zbiór danych posiadający dziewięć cech oraz trzy redukty decyzyjne: R1, R2, oraz R3. Rysunek 5-1 przedstawia powyższą zasadę tworzenia zespołów mając na uwadze różnorodność, w tym przypadku wyrażoną przez podzbiory cech wejściowych modelu. W przedstawionym przykładzie na podstawie danych treningowych wygenerowano trzy redukty decyzyjne (R1, R2, R3). Ponieważ cechy zawarte w reduktach R1 oraz R2 w dużym stopniu się pokrywają, z 24
25 omawianej perspektywy jest zasadne zbudować zespół na podstawie reduktów R1 i R3 lub alternatywnie R2 i R3. W dalszej części omawiamy bardziej zaawansowane przykłady dobory reduktów w zespoły mając na uwadze ich zróżnicowanie Podejście Permutacyjne W omawianym w rozprawie algorytmie REDORD permutacja cech jest jednym z argumentów wejściowych i wyznacza porządek w jakim badane jest czy atrybuty dodane zostaną do podzbioru cech będącego reduktem decyzyjnym. Zauważmy, że atrybuty znajdujące się na początku permutacji mają większe szanse na bycie częścią podzbioru niż atrybuty znajdujące się na końcu permutacji. Podczas generowania kolejnych permutacji możemy sterować kolejnością atrybutów jeżeli dany atrybut nie występuje jeszcze w żadnym z reduktów zwiększamy jego szansę na wylosowanie na początku następnej losowanej permutacji [117]. Zauważmy również, iż mechanizm permutacyjny może być wykorzystany w interakcji z ekspertem, który uporządkuje kolejność atrybutów, w których powinny być one dodawane do reduktu decyzyjnego (lub redukowane z pełnego zbioru cech) Grupowanie Cech Kolejną omawianą przez nas metodą dywersyfikacji jest grupowanie atrybutów [149]. W tym przypadku dywersyfikacja cech odbywa się poprzez zróżnicowanie parametrów wykorzystanych do generowania cech użytych do konstrukcji tablicy decyzyjnej. Rozważmy scenariusz, w którym wartości poszczególnych cech zależą od użytych parametrów. Za pomocą różnych kombinacji ustawień, możemy generować kolejne atrybuty i dodawać je do tablicy decyzyjnej. Zauważmy, że cechy generowane tą samą metodą ekstrakcji cech posiadają takie same znaczenie semantyczne i mogą być potraktowane jako grupa atrybutów. Proponowana przez nas metoda dywersyfikacji polega na konstrukcji reduktów w taki sposób, aby w pierwszej kolejności wybierane były pojedyncze atrybuty z każdej z grup. Wybór większej ilości atrybutów należących do tej samej grupy powinien być możliwy jedynie w przypadku, gdy dany podzbiór nie spełnia kryterium jakości (np. nie wyznacza decyzji wystarczająco dobrze, a wykorzystano już reprezentantów z każdej grupy). Rysunek 5-2 przedstawia schemat oraz komponenty takiego mechanizmu Hierarchiczne Grupowanie Reduktów Decyzyjnych Poniżej przedstawiamy propozycję dywersyfikacji przybliżonych reduktów decyzyjnych opartą na hierarchicznej analizie skupień [77]. W Sekcji 3.2 omówiono w jaki sposób redukty mogą zostać użyte do stworzenia prostego klasyfikatora opartego na regułach decyzyjnych. W przypadku decyzyjnych reduktów przybliżonych możemy oczekiwać, że wraz ze zwiększaniem progu przybliżenia więcej obiektów na zbiorze treningowym będzie niepoprawnie rozpoznane (zostanie im przypisana niewłaściwa decyzja). Z drugiej strony zależy nam na tym, aby w zespole posiadać klasyfikatory bazowe, które nie popełniają błędów na tych samych obiektach. Dążymy do sytuacji, w której cały zbiór danych treningowych będzie pokryty przez bazowe klasyfikatory będące w stanie poprawnie klasyfikować dane obiekty. Na podstawie błędów popełnianych przez oparty na redukcie klasyfikator bazowy możemy utworzyć binarny wektor, w którym elementy v i odpowiadają odpowiednio obiektom x i ze zbioru 25
26 Feature extraction methods (Meta-Attributes) Objects Database Parameter generator Meta-attributes a1, a2, a3, a4, a5, a6 c1, c2, c3 b1, b2, b3 b4, b5 Attribute selector Permutation generator Greedy selector Heuristic search Quality measures Hybrid approach Reduct generator a1, b2, c3 b1, c1 a2, c3 a4, a5, b4, c2 Reducts with metaattributes (incl. params) Reduct ensembles Decision Rules Data preparation Data & Domain knowledge Granular attribute reduction Knowledge Extraction feature extraction Rysunek 5-2: Schemat selekcji cech z grupowaniem atrybutów treningowego, a wartości binarne oznaczają poprawność wyniku klasyfikacji reguły decyzyjnej utworzonej na podstawie klasy równoważności [x i ] B, gdzie 1 oznacza poprawny wynik klasyfikacji oraz 0 w przeciwnym przypadku (Równanie 5.1). 1, jeżeli d(x k ) = argmax X E v B [k] = X U/{d} 0, w p.p. Miara podobieństwa reduktów aproksymacyjnych zostać może w ten sposób sprowadzona do miary odległości pomiędzy wynikami klasyfikacji z wykorzystaniem reguł decyzyjnych Podejścia Losowe Zróżnicowanie w zespole można osiągnąć metodami opartymi na przeszukiwaniu losowym. W przypadku reduktów możemy wykorzystać podejścia oparte na losowym próbkowaniu z powtórzeniami zbioru danych (tak jak w metodzie Bagging [120]) czy wspomniane już losowe generowanie permutacji wyznaczające kolejność, w jakiej atrybuty będą weryfikowane pod kątem redukcji. W przypadku reduktów przybliżonych możemy też generować zespół na podstawie różnych wartości progu przybliżenia ε. Jak pokazano w [140] taki model może osiągać bardzo dobre wyniki klasyfikacji. (5.1) 5.2 Ważone Redukty Decyzyjne Omawiane w powyższych rozdziałach metody konstrukcji klasyfikatorów oparte na reduktach przybliżonych nie pozwalają na sterowanie istotnością poszczególnych obiektów. Poniżej prezentujemy metodę konstrukcji przybliżonych reduktów decyzyjnych na danych, w których każdemu obiektowi przyporządkowano nieujemną wagę na podstawie funkcji ω : U [0, + ). Przedefiniujmy pojęcie mocy zbioru Y U, zgodnie z następującą definicją: Y ω = u Y ω(u) (5.2) 26
27 Na podstawie powyższej definicji, przekształćmy definicję mary M, zakładając że istnieje przynajmniej jeden u U taki, że ω(u) > 0: M ω (B) = 1 U ω E U/B max X k E ω (5.3) k V d gdzie wartość decyzji k jest identyfikowana na podstawie następującego fragmentu powyższego wzoru: k = argmax X k E ω (5.4) k V d Dla trywialnego przypadku 1 : U {1} otrzymujemy M 1 (B) = M(B). Dla klasycznych reduktów decyzyjnych B A w spójnej tablicy decyzyjnej zachodzi zawsze M ω (B) = 1. Poniżej przedstawiamy właściwości miary M ω : Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną oraz ω : U [0,+ ) będzie schematem ważenia obiektów uniwersum. Dla dowolnych podzbiorów B,C A, takich że C B jest spełniona następująca nierówność: M ω (B) M ω (C) (5.5) Stwierdzenie Niech A = (U,A {d}) będzie tablicą decyzyjną oraz ω : U [0,+ ) będzie schematem ważenia obiektów uniwersum. Dla dowolnego B A są spełnione nierówności: 1 V d M ω(b) 1 (5.6) Definicja Niech ε [0,1) będzie danym progiem przybliżenia, A = (U,A {d}) będzie tablicą decyzyjną oraz ω : U [0, + ) zadanym schematem ważenia obiektów należących do uniwersum. B A jest (ω, ε)-aproksymacyjnym reduktem decyzyjnym, wtedy i tylko wtedy gdy spełniony jest następujący warunek i żaden podzbiór właściwy C B go nie spełnia. M ω (B) (1 ε)m ω (A) (5.7) Stwierdzenie Niech ε [0, 1) będzie danym progiem przybliżenia, A = (U, A {d}) będzie tablicą decyzyjną oraz ω : U [0, + ) zadanym schematem ważenia obiektów należących do uniwersum. Problem znalezienia (ω, ε)-aproksymacyjnego reduktu decyzyjnego z najmniejszą możliwą ilością elementów jest problemem NP-trudnym [123] Przykład Schematu Ważenia Stwierdzenie Niech A = (U, A {d}) będzie tablicą decyzyjną. Rozważmy funkcję r : U [0, + ) zdefiniowaną w następujący sposób: r(u) = 1 {x U : d(x) = d(u)} (5.8) 27
28 Dla tak zdefiniowanego schematu ważenia obiektów, otrzymujemy: M r (B) = R(B) (5.9) Powyższe stwierdzenie pokazuje jak wykorzystując ten sam model obliczeniowy można otrzymać zarówno redukty decyzyjne oparte na mierze M(B) jak i na R(B) [130] stosując odpowiednie schematy ważenia 1 oraz r Zastosowanie Ważonych Reduktów Decyzyjnych Wykorzystanie ważenia obiektów nie jest niczym nowym w dziedzinie uczenia maszynowego, jednak powiązane z teorią zbiorów przybliżonych i aproksymacyjnymi reduktami decyzyjnymi daje zupełnie nowe narzędzie w odkrywaniu zależności w danych oraz modelowaniu decyzyjnym. Wagi mogą dla przykładu zostać przyporządkowane na podstawie wiedzy eksperta. Na przykład w problemie segmentacji obrazów MRI [146] ekspert mógłby zaznaczać na obrazie obszary, w których klasyfikator się pomylił, co powodowałoby zwiększanie wag dla tych obiektów i ponowny trening klasyfikatora. W [139] zaproponowano dwu etapową konstrukcję klasyfikatora w oparciu o informację o poziomie PVE (Partial Volume Effect - efekt zobrazowania woksla, zawierającego kilka rodzajów tkanek). Taka informacja może też posłużyć jako czynnik zwiększający wagi bardziej problematycznych obszarów obrazu. 5.3 Boosting Aproksymacyjnych Reduktów Decyzyjnych Różne schematy ważenia mogą prowadzić do różnych (ω, ε)-reduktów. Ten fakt może zostać wykorzystany do dywersyfikacji reduktów w zespole. W rozprawie przedstawiamy algorytm bazujący na konstrukcji boosting [30] będący wariantem algorytmu AdaBoost [160]. W tym przypadku w roli słabego klasyfikatora użyto (ω, ε)-reduktów [140]. 5.4 Strategie Identyfikacji i Głosowania Reguł Zespoły klasyfikatorów wymagają określenia metody zebrania poszczególnych wyników od klasyfikatorów słabych oraz określenia na ich podstawie wyniku końcowego. Poniżej przedstawiamy sześć metod głosowania opartych na poszczególnych współczynnikach wykorzystywanych podczas konstrukcji reguł decyzyjnych. Współczynniki te mają także swoje zastosowanie w procesie redukcji cech. Ciekawym zagadnieniem wydaje się być analiza, jak na końcowy wynik wpływa wykorzystanie tych samych kryteriów w procesie redukcji, identyfikacji reguł oraz w końcowym głosowaniu. Zagadnienie to zostało przeanalizowane w pracy [128, 150]. 5.5 Eksperymenty z Zespołami (m φ, )-Reduktów W części eksperymentalnej porównano te same cztery modele decyzyjne opisane w Sekcji 4.5 jednak w tym przypadku na ich podstawie utworzono zespoły klasyfikatorów, do porównania włączono też Lasy Losowe [13] oparte na drzewach decyzyjnych C4.5. Przede wszystkim na uwagę zasługuje fakt, że podobnie jak w przypadku pojedynczych drzew i w tym przypadku 28
29 Tablica 5.1: Sześć opcji ważenia reguł decyzyjnych odnoszących się do części następnika reguły, (plain, confidence and coverage), oraz części poprzednika reguły (single oraz support). E oznacza ilość obiektów wspierających lewą stronę reguły (liczność klasy nierozróżnialności). X E jest zbiorem obiektów posiadających najliczniejszą decyzję w E. single ω-support plain 1 E ω / U ω ω-confidence X ω E E ω/ E ω X ω E E ω/ U ω ω-coverage ( X ω E E ω/ X ω E ω)/( E ω / U ω ) X ω E E ω/ X ω E ω modele oparte na zaproponowanej w rozprawie metodzie można uznać za prostsze (pod kątem ilości i długości reguł) przy jednoczesnym braku znaczących różnic w jakości klasyfikacji (dokładność oraz precyzja). Dokonano też porównania zespołów z ich odpowiednikami w postaci pojedynczych klasyfikatorów o tym samym typie klasyfikatora bazowego. Porównanie takie może być wykonane jedynie poglądowo np. pojedynczy klasyfikator wybierany był metodą zachłanną, natomiast zespół metodą losowania. Zwracamy jednak uwagę, że poziom aproksymacji ε w przypadku klasyfikatorów złożonych przy porównywaniu ich na zbliżonych poziomach dokładności jest dużo wyższy w przypadku zespołów. Oznacza to, ze pojedyncze reguły są krótsze i jest ich mniej na poziomie pojedynczego klasyfikatora. Należy jednak pamiętać, że w zespole mamy do czynienia z dużą liczbą takich klasyfikatorów i ogólnie cały model należy postrzegać jako bardziej skomplikowany jednak wciąż intuicyjny i zrozumiały dla użytkowników. 6 Segmentacja Obrazów MRI 6.1 Wprowadzenie do Segmentacji Obrazów MRI W niniejszym rozdziale opisano podejście do segmentacji obrazów MRI mózgu z nadzorem bazujące na aproksymacyjnych reduktach decyzyjnych oraz teorii zbiorów przybliżonych. Celem segmentacji jest przypisanie do każdego woksla na danym obrazie etykiety z rodzajem tkanki, którą reprezentuje. W eksperymentach wykorzystano serię obrazów pochodzących z bazy SBD (Simulated Brain Database) [20, 21, 71, 72]. Obrazy poddano ekstrakcji cech przy użyciu algorytmów bez nadzoru. Wyekstrahowane cechy zapisano w postaci tabeli decyzyjnej, w której rekordy odpowiadają wokslom obrazu. Kolumny to ich cechy, natomiast atrybut decyzyjny oznacza rodzaj zobrazowanej tkanki a jego wartości pochodzą z dokonanej wcześniej segmentacji obrazu przez eksperta. Klasyfikator użyty do segmentacji bazuje na omawianych w Rozdziale 4 (m φ, )-reduktach oraz hierarchicznej bazie reguł decyzyjnych z wyjątkami. 6.2 Ekstrakcja Cech W niniejszej sekcji omówiono metody ekstrakcji cech z obrazów MRI. Źródło informacji do konstrukcji tablicy decyzyjnej stanowią obrazy MRI w trzech modalnościach (T1, T2, PD) oraz odpowiadający im fantom przedstawiający poprawny wynik segmentacji (Rysunek 6-1). Do metod ekstrakcji cech wykorzystanych do zbudowania tablicy decyzyjnej należą: 29
30 (a) T1 (b) T2 (c) PD (d) PH Rysunek 6-1: Przykład obrazu w modalnościach T1,T2 i PD Algorytm 4 (α, β)-hcluster Wejście: Elementy histogramu DOM Wyjście: Zaetykietowanie elementy histogramu 1: CAN DOM 2: REP 3: Dodaj element z największą wartością w histogramie do REP, jako pierwszy reprezentant grupy. 4: while (max i CAN (min j REP dist(i,j) + α * h i ) β) do 5: CAN CAN {i rep } 6: REP REP {i rep } 7: end while 8: Przypisz do każdego elementu w DOM identyfikator przypisany najbliższym elementom w REP 1. Grupowanie wartości poszczególnych woksli autorską metodą opartą o analizę histogramową (HCLUSTER), 2. Wykorzystanie sieci Kohonena, 3. Zastosowanie filtrów obrazu min. wykrywanie krawędzi, 4. Analiza sąsiedztwa, 5. Maskowanie poszczególnych obszarów obrazu i generowanie informacji przestrzennej Analiza Skupień Oparta na Histogramie i Sieciach Kohonena W niniejszym rozdziale przedstawiono szczegóły ekstrakcji cech metodami opartymi na analizie skupień, wykorzystującej analizę histogramową oraz na samo organizujących się sieciach Kohonena. Szczegóły dostępne są w pełnej wersji rozprawy, tu jedynie przytaczamy algorytm HCLUSTER (Algorytm 4) użyty do pogrupowania wartości woksli na podstawie histogramu. 6.3 Wyniki Segmentacji Obrazów MRI Rysunek 6-2 przedstawia przykładowe wyniki segmentacji dla dwóch obrazów MRI. Zwiększony próg aproksymacji pozytywnie wpływa na jakość segmentacji. Sposób przeprowadzenia eksperymentu oraz szczegółowe wyniki opisano w pełnej wersji niniejszej rozprawy. 30
31 (a) Errors (φ = 0.0) (b) Errors (φ = 0.06) (c) Errors (φ = 0.10) (d) Result (φ = 0.14) Rysunek 6-2: Błędy w segmentacji dla warstwy # Wizualizacja Reguł Wyjątków W niniejszej sekcji zaadresowano potencjalne możliwości wizualizacji reguł decyzyjnych oraz reguł wyjątków. Wizualizacja reguł może zostać wykorzystana jako element interakcji z ekspertem jeszcze na etapie projektowania systemu decyzyjnego na przykład do określania obszarów obrazu problematycznych. 6.5 Optymalizacja Parametrów i Progu Aproksymacji Wszystkie omawiane w tym rozdziale metody ekstrakcji cech posiadają pewien zbiór parametrów. W tej części omawiamy metodę ich optymalizacji z wykorzystaniem wspomnianej wcześniej metody grupowania atrybutów. Tablica 6.1 przedstawia zestawienie metod ekstrakcji cech wraz z ich parametrami. Na wyższym poziomie abstrakcji każda z metod ekstrakcji dostarcza pewnej informacji semantycznej o analizowanym obiekcie (wokslu). Decyzja o użyciu konkretnych parametrów powinna być sprawą techniczną i może wykraczać poza obszar zrozumiały dla ekspertów dziedzinowych. Te dwa aspekty powinny zostać od siebie oddzielone. W [149] zaproponowano podejście oparte na grupowaniu atrybutów i dokonywaniu selekcji cech wykorzystując dodatkową informację o przynależności atrybutu do danej grupy. Na przykład możemy tak sterować dodawaniem atrybutów do reduktu aby w pierwszej kolejności dodano reprezentanta z każdej grupy i dopiero wtedy, jeżeli nadal jakość podzbioru jest niezadowalająca, dodawać kolejnych reprezentantów do reduktu. W opisanym podejściu proponujemy, aby poszczególne atrybuty były generowane za pomocą konkretnej metody i jej parametrów dopiero w momencie gdy chcemy dodać taki atrybut do reduktu. Parametry do generowania atrybutu mogą zostać dobrane w taki sposób aby maksymalizować miarę M(B). Przestrzeń wartości parametrów jest potencjalnie nieskończona, dlatego wygenerowanie wszystkich możliwych ustawień i wyniku w postaci kolumn tablicy decyzyjnej jest w praktyce niemożliwe. Poprzez generowanie różnych podzbiorów atrybutów zawierających atrybuty wygenerowane za pomocą różnych ustawień osiągamy nie tylko zróżnicowanie, ale także możemy stworzyć atrybuty wzajemnie uzupełniające się w procesie wyznaczania decyzji przez dany redukt. Schemat tego procesu obrazuje Rysunek
32 Tablica 6.1: Meta atrybuty i ich parametry w segmentacji obrazów MRI. Meta-atrybut Opis Parametry somm ag hcmag edge somn br hcnbr msk Segmentacja obrazu bez nadzoru Segmentacja obrazu baz nadzoru na bazie histogramu Wykrywa granice między obszarami tkanek Dla obszaru granicznego, przypisanie najczęstszej tkanki w sąsiedztwie na bazie atrybutu som Dla obszaru granicznego, przypisanie najczęstszej tkanki w sąsiedztwie na bazie atrybutu hc Określenie pozycji woksla względem punktu centralnego Modalność obrazu Liczba klastrów Współczynnik uczenia się Liczna iteracji Promień Liczba klastrów Szerokość słupka Minimalna odległość między klastrami Współczynnik istotności dla wysokości Stopień przybliżenia Liczba klastrów Próg szumu Kształt okna Rozmiar okna Kształt okna Rozmiar okna Liczba obszarów maskowań Promień Kształt dla operatora erozji 7 Podsumowanie W rozprawie skoncentrowaliśmy się na konstrukcji modeli opartych na podzbiorach cech generowanych na podstawie przybliżonych reduktów decyzyjnych. Przedstawiliśmy nowe sposoby ich tworzenia ze szczególnym nastawieniem na ich uniwersalność i wszechstronność, ale przede wszystkim na prostotę. Główne wyniki rozprawy to: Przedstawienie nowych definicji aproksymacyjnych reduktów decyzyjnych oraz nowe metody ich generowania, Przedstawienie nowego typu klasyfikatora opartego na hierarchii reguł decyzyjnych, regułach ogólnych i regułach wyjątkach, Analiza konstrukcji zespołów reduktów decyzyjnych, w szczególności takich aspektów jak dywersyfikacja, głosowanie bazowych klasyfikatorów, złożoność modeli zespołowych, Analiza kryteriów używanych podczas indukcji reguł, głosowania i redukcji atrybutów. Podsumujmy materiał każdego z rozdziałów oraz wskazujemy na pewne otwarte i nierozwiązane w rozprawie kwestie oraz potencjalne kierunki dalszych badań. 32
33 Image library Attribute extraction methods Granular attrib. reduction MRI Image in three modalities Phantom image Parameter generator Image histogram clustering SOM clustering Voxel relative position mask Edge detection and neighbor analysis Decision table with attribute grouping META ObjectId SOM Clustering Hist. Clustering Decision TECHN. VoxelId SOM_T1_5 SOM_T2_7 HC_T1_3 HC_T1_5 Tissue class Decision attribute Rysunek 6-3: Proces segmentacji obrazów MRI z meta atrybutami. W Rozdziale 1 przedstawiono główne założenia i cele rozprawy oraz wyszczególniono nowy wkład w dziedzinę problemu. Rozdział 2 zawiera wprowadzenie w tematykę zbiorów przybliżonych, selekcji cech i pojęć związanych z odkrywaniem wiedzy i uczeniem maszynowym. W Rozdziale 3 zaprezentowano metodę złożoną z aproksymacyjnych reduktów przybliżonych oraz algorytmu indukcji drzew decyzyjnych. Zaprezentowana metoda miała na celu studium przykładowej metody hybrydowej, która z jednej strony nastawiona była na prostotę (w tym przypadku redukcję cech wykorzystywanych przez model decyzyjny), z drugiej wykorzystującej dobrze znany algorytm z uczenia maszynowego. Prezentowana metoda nie była nastawiona na generowanie najlepszych możliwych wyników klasyfikacji. Osiągnięto model, który z jednej strony jest prostszy niż model opierający się na standardowym algorytmie indukcji drzew (na przykład pod kątem ilości wykorzystanych atrybutów), z drugiej zaś, otrzymane wyniki klasyfikacji były takie same, co wykazano przeprowadzając serię testów statystycznych. W Rozdziale 4 zaprezentowano nowe pojęcia większościowej decyzji uogólnionej oraz przybliżonej większościowej decyzji uogólnionej. Oba pojęcia są rozszerzeniami dobrze znanej z literatury przedmiotu definicji decyzji uogólnionej, która przede wszystkim znajduje zastosowanie w konstrukcji modeli decyzyjnych na niespójnych danych. Na podstawie nowych definicji opracowano nowe algorytmy generowania aproksymacyjnych reduktów decyzyjnych. Omówiono także właściwości nowych reduktów i poparto je dowodami. Następnie, na podstawie inspiracji logiką domniemaną oraz nowych definicji reduktów przybliżonych, zaproponowano nowy typ klasyfikatora opartego na hierarchii reguł ogólnych i tak zwanych wyjątkach. Omówiono także specyficzną postać wyjątków jakimi są tak zwane reguły-luki. Pokazano korzystny wpływ zaproponowanego modelu na reprezentację wiedzy oraz na podniesienie jakości klasyfikacji. Z drugiej strony pozostaje kwestią dyskusyjną czy wprowadzenie hierarchii reguł oraz wyjątków jest bez znaczenia na przejrzystość i prostotę modeli decyzyjnych. W tym miejscu, chcielibyśmy zwrócić uwagę na kilka otwartych kwestii związanych z kla- 33
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.
Analiza danych Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ REGUŁY DECYZYJNE Metoda reprezentacji wiedzy (modelowania
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Systemy ekspertowe. Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych. Część trzecia
Część trzecia Autor Roman Simiński Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych Kontakt siminski@us.edu.pl www.us.edu.pl/~siminski Niniejsze opracowanie zawiera skrót
Zasada indukcji matematycznej
Zasada indukcji matematycznej Twierdzenie 1 (Zasada indukcji matematycznej). Niech ϕ(n) będzie formą zdaniową zmiennej n N 0. Załóżmy, że istnieje n 0 N 0 takie, że 1. ϕ(n 0 ) jest zdaniem prawdziwym,.
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH
WSOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY RZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH 1. Definicje Zbiory, które nie są zbiorami definiowalnymi, są nazywane zbiorami przybliżonymi. Zbiory definiowalne
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
6. Zagadnienie parkowania ciężarówki.
6. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium
7. Zagadnienie parkowania ciężarówki.
7. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można
Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań
TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Algorytm. a programowanie -
Algorytm a programowanie - Program komputerowy: Program komputerowy można rozumieć jako: kod źródłowy - program komputerowy zapisany w pewnym języku programowania, zestaw poszczególnych instrukcji, plik
Sztuczna inteligencja
POLITECHNIKA KRAKOWSKA WIEiK KATEDRA AUTOMATYKI I TECHNIK INFORMACYJNYCH Sztuczna inteligencja www.pk.edu.pl/~zk/si_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 10: Zbiory przybliżone
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.
STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań
Sztuczna Inteligencja Projekt
Sztuczna Inteligencja Projekt Temat: Algorytm F-LEM1 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm F LEM 1. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu F LEM1
1 Wprowadzenie do algorytmiki
Teoretyczne podstawy informatyki - ćwiczenia: Prowadzący: dr inż. Dariusz W Brzeziński 1 Wprowadzenie do algorytmiki 1.1 Algorytm 1. Skończony, uporządkowany ciąg precyzyjnie i zrozumiale opisanych czynności
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Sztuczna Inteligencja Projekt
Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Definicje. Algorytm to:
Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO
Systemy ekspertowe. Generowanie reguł minimalnych. Część czwarta. Autor Roman Simiński.
Część czwarta Autor Roman Simiński Kontakt siminski@us.edu.pl www.us.edu.pl/~siminski Niniejsze opracowanie zawiera skrót treści wykładu, lektura tych materiałów nie zastąpi uważnego w nim uczestnictwa.
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa
Autorzy scenariusza: SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH
Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej
Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej Podstawy matlaba cz.ii Funkcje Dotychczas kod zapisany w matlabie stanowił skrypt który pozwalał na określenie kolejności wykonywania
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;
Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling
Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie
Technologie i systemy oparte na logice rozmytej
Zagadnienia I Technologie i systemy oparte na logice rozmytej Mają zastosowania w sytuacjach kiedy nie posiadamy wystarczającej wiedzy o modelu matematycznym rządzącym danym zjawiskiem oraz tam gdzie zbudowanie
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Algorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3
Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych Wykład 3 W internecie Teoria zbiorów przybliżonych zaproponowany w 1982 r. przez prof. Zdzisława Pawlaka formalizm matematyczny, stanowiący
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.
Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Priorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka
Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Algorytm. Krótka historia algorytmów
Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279
Wykład 8 J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279 sformułowanie problemu przegląd drzewa poszukiwań przykłady problemów wybrane narzędzia programistyczne J. Cichoń, P. Kobylański
9.9 Algorytmy przeglądu
14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Poprawność semantyczna
Poprawność składniowa Poprawność semantyczna Poprawność algorytmu Wypisywanie zdań z języka poprawnych składniowo Poprawne wartościowanie zdań języka, np. w języku programowania skutki wystąpienia wyróżnionych
Matematyka Dyskretna. Andrzej Szepietowski. 25 czerwca 2002 roku
Matematyka Dyskretna Andrzej Szepietowski 25 czerwca 2002 roku Rozdział 1 Poprawność programów Jeżeli projektujemy algorytmy lub piszemy programy, to ważne jest pytanie, czy nasz algorytm lub program
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Typy, klasy typów, składnie w funkcji
Typy, klasy typów, składnie w funkcji Typy w Haskell Każde wyrażenie w Haskell posiada zdefiniowany typ. Dzięki temu już na etapie kompilacji kodu następuje sprawdzenie poprawności kodu i zabezpiecza nas
Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol
KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział Informatyki i Zarządzania Kierunek studiów INFORMATYKA (INF) Stopień studiów - pierwszy Profil studiów - ogólnoakademicki Projekt v1.0 z 18.02.2015 Odniesienie do
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Wykład z Technologii Informacyjnych. Piotr Mika
Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Systemy ekspertowe : Tablice decyzyjne
Instytut Informatyki Uniwersytetu Śląskiego 16 marzec 2010 Tablica decyzyjna Klasy nierozróżnialności i klasy decyzyjne Rdzeń Redukt Macierz nierozróżnialności Rdzeń i redukt w macierzy nierozróżnialności
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Wykorzystane materiały: Zadanie W dalszej części prezentacji będzie omawiane zagadnienie rozpoznawania twarzy Problem ten można jednak uogólnić
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Systemy ekspertowe : program PCShell
Instytut Informatyki Uniwersytetu Śląskiego lab 1 Opis sytemu ekspertowego Metody wnioskowania System PcShell Projekt System ekspertowy - system ekspertowy to system komputerowy zawierający w sobie wyspecjalizowaną
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
LOGIKA I TEORIA ZBIORÓW
LOGIKA I TEORIA ZBIORÓW Logika Logika jest nauką zajmującą się zdaniami Z punktu widzenia logiki istotne jest, czy dane zdanie jest prawdziwe, czy nie Nie jest natomiast istotne o czym to zdanie mówi Definicja
ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH
Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne
domykanie relacji, relacja równoważności, rozkłady zbiorów
1 of 8 2012-03-28 17:45 Logika i teoria mnogości/wykład 5: Para uporządkowana iloczyn kartezjański relacje domykanie relacji relacja równoważności rozkłady zbiorów From Studia Informatyczne < Logika i
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Zapisywanie algorytmów w języku programowania
Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym
Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017
Logika Stosowana Wykład 1 - Logika zdaniowa Marcin Szczuka Instytut Informatyki UW Wykład monograficzny, semestr letni 2016/2017 Marcin Szczuka (MIMUW) Logika Stosowana 2017 1 / 30 Plan wykładu 1 Język