KDD and DM 1 W8: REGUŁY DECYZYJNE. Nguyen Hung Son



Podobne dokumenty
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Hard-Margin Support Vector Machines

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

tum.de/fall2018/ in2357

Wyk lad 8: Leniwe metody klasyfikacji

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

A Zadanie

Previously on CSCI 4622

SID Wykład 10 Systemy uczace się

Stargard Szczecinski i okolice (Polish Edition)

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz

Tychy, plan miasta: Skala 1: (Polish Edition)

WYKŁAD 6. Reguły decyzyjne

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

deep learning for NLP (5 lectures)

Dealing with continuous-valued attributes

Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski

PROGRAMOWANIE SYSTEMÓW CZASU RZECZYWISTEGO

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Revenue Maximization. Sept. 25, 2018

Wprowadzenie do Sztucznej Inteligencji

SQL 4 Structured Query Lenguage

Data Mining Wykład 4. Plan wykładu

Probability definition

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Instrukcja obsługi User s manual

Wprowadzenie do Sztucznej Inteligencji

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2


Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Strategic planning. Jolanta Żyśko University of Physical Education in Warsaw

DELTIM Sp. z o.o. S.K.A ul. Rząsawska 30/38; Częstochowa. Bumper bar X-Lander X-Move

OSTC GLOBAL TRADING CHALLENGE MANUAL

Strategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek

utrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga

Klasyfikacja i regresja Wstęp do środowiska Weka

Change Notice/ Zmienić zawiadomienie BLS Instructor Manual / Podstawowe czynności resuscytacyjne Podrecznik Instruktora

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Sargent Opens Sonairte Farmers' Market

Agnostic Learning and VC dimension

Arrays -II. Arrays. Outline ECE Cal Poly Pomona Electrical & Computer Engineering. Introduction

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

LED PAR 56 7*10W RGBW 4in1 SLIM

Sztuczna Inteligencja Projekt

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

kdpw_stream Struktura komunikatu: Status komunikatu z danymi uzupełniającymi na potrzeby ARM (auth.ste ) Data utworzenia: r.

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Systemy decyzyjne. Wykład 3: Wnioskowanie Boolowskie w obliczeniu Redutów i reguł decyzyjnych. Nguyen Hung Son. Nguyen Hung Son () 1 / 61

Algorytmy klasyfikacji

Odkrywanie wiedzy w danych

Zaawansowane Aplikacje Internetowe

Uszczelnianie profili firmy KLUŚ na przykładzie profilu PDS 4 - ALU / Sealing KLUŚ profiles on example of PDS 4 - ALU profile. Pasek LED / LED strip

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Budowa modeli klasyfikacyjnych o skośnych warunkach

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Installation of EuroCert software for qualified electronic signature


Filozofia z elementami logiki Klasyfikacja wnioskowań I część 2

Modulacja i kodowanie. Labolatorium. Kodowanie źródłowe Kod Huffman a

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

Nazwa projektu: Kreatywni i innowacyjni uczniowie konkurencyjni na rynku pracy

Sztuczna Inteligencja i Systemy Doradcze

For choosen profiles, KLUS company offers end caps with holes for leading power supply cable. It is also possible to drill the end cap independently

Rev Źródło:

Camspot 4.4 Camspot 4.5

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA

Przykład eksploracji danych Case 1.X

Convolution semigroups with linear Jacobi parameters

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

PRZYSPIESZENIE KNN. Ulepszone metody indeksowania przestrzeni danych: R-drzewo, R*-drzewo, SS-drzewo, SR-drzewo.

Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

MS Visual Studio 2005 Team Suite - Performance Tool

METHOD 2 -DIAGNOSTIC OUTSIDE

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO CZERWIEC 2013 POZIOM ROZSZERZONY CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23

Program szkolenia: Fundamenty testowania

Zaawansowane bazy danych i hurtownie danych semestr I

Kraków, 14 marca 2013 r.

Uczenie ze wzmocnieniem

Transkrypt:

DM 1 W8: REGUŁY DECYZYJNE Nguyen Hung Son

Tematy DM 2 Reguły decyzyjne: prosty opis klas decyzyjnych Problem wyszukiwania reguł decyzyjnych Algorytmy generowania reguł decyzyjnych Sekwencyjne pokrywanie Algorytm AQ Problemy badawcze

Klasyfikatory regułowe DM 3 Reguły decyzyjne mają postać: r : (Warunek) (Teza) Warunek: koniunkcja testów na atrybutach Teza: klasa decyzyjna Zbiór reguł: R = {r 1, r 2,,r n } Jak przebiega klasyfikacja nowych obiektów (przypadków)?

Pokrycie regułami DM 4 Reguła r pokryje obiekt x jeśli wartości jego atrybutów spełniają warunek reguły Np. Reguła: r : (Age < 35) (Status = Married) Cheat=No Obiekty: x 1 : (Age=29, Status=Married, Refund=No) x 2 : (Age=28, Status=Single, Refund=Yes) x 3 : (Age=38, Status=Divorced, Refund=No) Tylko x 1 jest pokryty przez regułę r

DM 5 Klasyfikacja nowych przypadków za pomocą zbioru reguł Reguły nie są rozłączne Obiekt może być pokryty przez kilka reguł Strategie rozwiązywania problemu: Wymuszenie rozłączności reguł; Np. reguły wydobywane z drzew decyzyjnych Uporządkowanie reguł Reguły są uporządkowane według ich priorytetów Głosowanie Reguły nie pokrywają wszystkich przypadków Strategie: Dodanie reguły domniemanej r d : ( ) y d do zbioru reguł

DM 6 Przykład: reguły decyzyjne

Reguły decyzyjne vs. drzewo decyzyjne Drzewo decyzyjne to zbiór reguł rozłącznych. Ograniczenie: Metody drzew decyzyjnych są mniej wrażliwe dla danych o wielu klas decyzyjnych. DM 7

DEFINICJE I PROBLEMY DM 8

Reprezentacja reguł DM 9 Logiczna postać reguły Rodzaje reguł R := (a 1 V 1 ) (a k V k ) (decyzja = d) standardowe: V i = 1 uogólnione: R := (a 1 = v 1 ) (a k = v k ) (decyzja = d) V i = {v 1, v 2,..., v m } (pref. dla atrybutów symbolicznych) V i = (a, b) R (pref. dla atrybutów rzeczywistych)

Definicje DM 10 R: (a 1 V 1 ) (a k V k ) (decyzja = d) Pokrycie: Obiekt x spełnia deskryptor (a i V i ) wtw, gdy (a i (x) V i ). Obiekt jest pokryty przez regułę R, jeśli spełnia wszytkie deskryptory w R. Długość: liczba deskrytorów w R Wsparcie: liczba obiektów pokrytych przez R (ozn. support(r) ).

Definicje (c.d.) DM 11 R: warunek (decyzja = d) Pozytywny przykład: obiekt, który spełnia warunek i ma decyzję równą d. Negatywne przykład: obiekt, który spełnia warunek, ale ma decyzję różną od d. p(r): liczba pozytywnych przykładów support(r): wsparcie R Dokładność reguły (ang. accuracy ratio): accuracy(r) = p(r)/support(r)

Jakość reguły decyzyjnej DM 12 Funkcja jakości reguł mają postać: Quality(R) = F(accuracy(R), support(r)) gdzie F jest funkcją rosnącą wzg. każdej zmiennej Przykłady funkcji jakości: Quality 1 (R) = accuracy (R) Quality 2 (R) = accuracy(r) Log(support(P)) Quality 1 (R) często jest zastosowane w praktyce.

Problemy wyszukiwania reguł decyzyjnych DM 13 Znaleźć regułę o maksymalnej dokładności. Znaleźć regułę o dokładności nie mniejszej niż acc min. Znaleźć krótkie reguły. Znaleźć długie reguły. Znaleźć najmniejszy zbiór reguł, który klasyfikuje obiekty z dużą dokładnością

DM 14 POSZUKIWANIE REGUŁ DECYZYJNYCH

Construction of a Rule Based Classifier from data DM 15 Generate an initial set of rules Direct Method: Extract rules directly from data Examples: RIPPER, CN2, Holte s 1R, Boolean reasoning Indirect Method: Extract rules from other classification methods (e.g. decision trees) Example: C4.5 rules Rules are pruned and simplified Rules can be order to obtain a rule set R Rule set R can be further optimized

Indirect Method: Conversion from Decision Trees Rules are mutually exclusive and exhaustive Rule set contains as much information as the tree Rules can be simplified (Refund=No) (Status=Married) No (Status=Married) No DM 16

DM 17 Indirect Method: C4.5 rules Creating an initial set of rules Extract rules from an un-pruned decision tree For each rule, r : A y Consider alternative rules r : A y, where A is obtained by removing one of the conjuncts in A Replace r by r if it has a lower pessimistic error Repeat until we can no longer improve the generalization error Ordering the rules Instead of ordering the rules, order subsets of rules Each subset is a collection of rules with the same consequent (class) The subsets are then ordered in the increasing order of Description length = L(exceptions) + g L(model) where g is a parameter that takes in to account the presence of redundant attributes in a rule set. Default value is 0.5

Algorytmy DM 18 Można adaptować algorytmy wyszukiwania szablonu z ewentualną modyfikacją. Istniejące dwie strategie: przeszukiwania przez wydłużenia przeszukiwanie przez skracanie Dla każdej strategii są dwie metody metoda globalna metoda lokalna

Sekwencyjne pokrywanie - metoda globalna DM 19 Wejście: T - tablica treningu; Wyjście: R - (stadardowa) reguła decyzyjna o maksymalnej dokładności; Schemat: 1: R = ; 2: Generuj R przez dodawanie do niej nowego deskryptora, który maksymalizuje Quality(R); 3: Powtórz krok 2 dopóki warunek stopu zachodzi.

KDD and DM 20

Algorytm DM 21 Wejście: T = (U, A); d - decyzja dla reguły; Wyjście: stadardowa reguła R = (P d); 1: P 0 := ; k := 0; 2. While (not stop()) do 3: D k+1 = znajdź_deskryptor(t,p k,d); 4: P k+1 := P k D k+1 ; 5: k := k+1; 7: end; 9: return R = P n d

Warunek stopu DM 22 Jeśli celem jest generowanie reguły R o maksymalnej dokładności: acccuracy(r) = 1 lub dokładności nie da się poprawiać Jeśli celem jest generowanie reguły R o dokładności niemniejszej niż acc min acccuracy(r) acc min lub dokładności nie da się poprawiać

Wybór deskryptora DM 23 Funkcja znajdź_deskryptor(t, P, d) zwraca deskryptor D = (a = v), który najlepiej wydłuży szablon P, t.j. maksymalizuje Quality(P D). Jeśli celem jest generowanie reguły o maksymalnej dokładności, to Quality(P D) = pos(p D) /support(p D) pos(p D): zbiór obiektów pokrywanych przez (P D) i mających decyzję d.

DM 24 Przykład: generowanie reguły

DM 25

DM 26 Przykład: generowanie reguły (c.d.)

DM 27

DM 28

ALGORYTM AQ DM 29

Algorytm AQ - Metoda lokalna DM 30 Idea: Algorytm generuje regułę R, która pokrywa wybrany obiekt x s (zwany ziarnem lub jądrem) i tylko obiekty o decyzji takiej samej jak x s. Negatywne ziarno: obiekt, który spełnia regułę R i ma decyzję różną od decyzji x s. Deskryptor (a = v) odróżnia x s od x n jeśli (a(x s ) = v) i (a(x n ) v)

Algorytm AQ DM 31 Dane: T - tablica treningu; Szukanee: R = (P d) - reguła decyzyjna o maksymalnej dokładności; 1. Wybierz ziarno x s ; 2. P 0 = ; covered(r) = T; k = 0; 3. While (not stop()) do 4. Wybierz negatywne ziarno x n covered(r); 5. D k+1 = znajdź_deskryptor(t,p k ); 4: P k+1 = P k D k+1 ; 5: k := k+1; 6. Usuń z covered(r) obiekty niespełniające R 7. endwhile

Warunek stopu DM 32 Algorytm kończy się, gdy wśród obiektów pokrywanych przez R nie istnieje obiekt o różnej decyzji niż decyzję x s Formalny zapis: x : x covered(r) d(x) d(x s )

Wybór ziaren DM 33 Ziarno pozytywnwe: reprezentatywne dla klasy (podobne do więszości obiektów z klasy) zróżnicowane od istniejących ziaren (w przypadku generowania zbioru reguł) Ziarno negatywne: podobne do ziarna pozytywnego Odległość Hamminga lub (modyfikowana) odległość Euklidesowa.

Wybór deskryptora DM 34 function znajdź_deskryptor (P,x s,x n ) 1. K = ; 2. forall (atrybut a, który nie występuje w P ) do 3. forall (v V a ) do if ((a = v) odróżnia x s od x n ) then 4. K = K (a = v); 5. D = najlepszy deskryptor w K; 6. return D;

Wybór deskryptora (c.d.) DM 35 Deskryptora D dla bieżącej reguły R jest dobry, jeśli reguła po wydłużeniu o D: pokrywa dużo obiektów o decyzji zgodnej z x s pokrywa mało obiektów o decyzji różnej od x s. Kryterium oceny: w = = x covered(r): d(x) = d(x s ) w = x covered(r): d(x) d(x s ) Quality (R, x s ) = w = + w

Własność algorytmu AQ DM 36 Algorytm można łatwo modyfikować, żeby otrzymać zbiór m najlepszych reguł pokrywających wybrane ziarno (przeszukiwanie wiązkowe). Algorytm AQ generuje dokładne reguły (accuracy = 100%). Problem: nadmiar dopasowania (overfitting)

Generowanie zbioru reguł DM 37 Cel: Generować zbiór reguł, który pokryje wszystkie przykłady w tablicy trenującej, dobrze klasyfikuje obiekty w zbiorze trenującym, ma mały rozmiar.

Algorytm DM 38 Wejście: T - tablica trenująca; Wyjście: S - zbiór reguł pokrywających T; 1.S = ; 2.while (istnieje obiekt x niepokrywany przez S) do 3. Znajdź optymalną regułę R; 4. Dodaj R do S; 5. Usuń z T obiekty pokrywane przez S; 6. end; 7. return S;

INNE ALGORYTMY DM 39

Learn one rule (1R) DM 40 The objective of this function is to extract the best rule that covers the current set of training instances What is the strategy used for rule growing What is the evaluation criteria used for rule growing What is the stopping criteria for rule growing What is the pruning criteria for generalizing the rule

Learn One Rule: Rule Growing Strategy DM 41 General-to-specific approach It is initially assumed that the best rule is the empty rule, r : { } y, where y is the majority class of the instances Iteratively add new conjuncts to the LHS of the rule until the stopping criterion is met Specific-to-general approach A positive instance is chosen as the initial seed for a rule The function keeps refining this rule by generalizing the conjuncts until the stopping criterion is met

Rule Evaluation and Stopping Criteria DM 42 Evaluate rules using rule evaluation metric Accuracy Coverage Entropy Laplace M-estimate A typical condition for terminating the rule growing process is to compare the evaluation metric of the previous candidate rule to the newly grown rule

Learn 1R DM 43 Rule Pruning Each extracted rule can be pruned to improve their ability to generalize beyond the training instances Pruning can be done by removing one of the conjuncts of the rule and then testing it against a validation set Instance Elimination Instance elimination prevents the same rule from being generated again Positive instances must be removed after each rule is extracted Some rule based classifiers keep negative instances, while some remove them prior to generating next rule

RIPPER DM 44 For 2-class problem, choose one of the classes as positive class, and the other as negative class Learn rules for positive class Negative class will be default class For multi-class problem Order the classes according to increasing class prevalence (fraction of instances that belong to a particular class) Learn the rule set for smallest class first, treat the rest as negative class Repeat with next smallest class as positive class

Foil's Information Gain Compares the performance of a rule before and after adding a new conjunct Foil's information gain is defined as = t [ log 2 (p 1 /(p 1 + n 1 )) - log 2 (p 0 /(p 0 + n 0 )) ] where t is the number of positive instances covered by both r and r p 0 n 0 y p 0 n 0 p 1 n 1 y A y A^B y DM 45

Direct Method: RIPPER DM 46 Growing a rule: Start from empty rule Add conjuncts as long as they improve Foil's information gain Stop when rule no longer covers negative examples Prune the rule immediately using incremental reduced error pruning Measure for pruning: v = (p - n) / (p + n) p: number of positive examples covered by the rule in the validation set n: number of negative examples covered by the rule in the validation set Pruning method: delete any final sequence of conditions that maximizes v

RIPPER: Building a Rule Set DM 47 Use sequential covering algorithm Finds the best rule that covers the current set of positive examples Eliminate both positive and negative examples covered by the rule Each time a rule is added to the rule set, compute the description length Stop adding new rules when the new description length is d bits longer than the smallest description length obtained so far. d is often chosen as 64 bits

RIPPER: Optimize the rule set: DM 48 For each rule r in the rule set R Consider 2 alternative rules: Replacement rule (r*): grow new rule from scratch Revised rule (r ): add conjuncts to extend the rule r Compare the rule set for r against the rule set for r* and r Choose rule set that minimizes MDL principle Repeat rule generation and rule optimization for the remaining positive examples

KDD and DM 49

DM 50 C 4.5 rules vs. RIPPER

Problemy DM 51 Uproszczenie zbioru reguł usuwanie zbędnych reguł usuwanie zbędnych deskryptorów w regule Atrybuty rzeczywiste: Problem generowania uogólnionych reguł Reguły dla danych zmieniających się dynamicznie.

Bibliografia DM 52 Michalski R. S., Mozetic I.,Hong J., Lavrac N.(1986): The multi-purpose incremental learning system AQ15 and its testing application to three medical domain. Proc. of the 5-th National Conference on AI (AAAI- 86). Hoa S. Nguyen, H. Son Nguyen (1998). Pattern extraction from data. Fundamenta Informaticae 34/1-2, pp. 129-144.