Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Podobne dokumenty
Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Lab. 02: Algorytm Schrage

Uczenie Maszynowe: reprezentacja wiedzy, wybór i ocena modelu, drzewa decyzjne

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

In»ynierskie zastosowania statystyki wiczenia

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Co to są drzewa decyzji

Indukowane Reguły Decyzyjne I. Wykład 3

Metoda tablic semantycznych. 1 Metoda tablic semantycznych

Drzewa decyzyjne, metody budowania, zastosowania

COLT - Obliczeniowa teoria uczenia si

1 Bª dy i arytmetyka zmiennopozycyjna

Algorytmy zwiazane z gramatykami bezkontekstowymi

2 Liczby rzeczywiste - cz. 2

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Wykªad 6: Model logitowy

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Wyk lad 6: Drzewa decyzyjne

Rekurencyjne struktury danych

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Wyk lad 8: Leniwe metody klasyfikacji

Systemy decyzyjne Wprowadzenie

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Eksploracja danych. Wykªad 8 Drzewa decyzyjne 1 / 260

Wykªad 4. Funkcje wielu zmiennych.

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Algorytm grupowania K-Means Reprezentacja wiedzy Selekcja i ocena modeli

1 0 Je»eli wybierzemy baz A = ((1, 1), (2, 1)) to M(f) A A =. 0 2 Daje to znacznie lepszy opis endomorzmu f.

Ekonometria - wykªad 8

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Przykªady problemów optymalizacji kombinatorycznej

Ciaªa i wielomiany. 1 Denicja ciaªa. Ciaªa i wielomiany 1

Algorytmy klasyfikacji

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Biostatystyka, # 5 /Weterynaria I/

Mierzalne liczby kardynalne

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Metody numeryczne i statystyka dla in»ynierów

Wybrane poj cia i twierdzenia z wykªadu z teorii liczb

Problemy optymalizacyjne - zastosowania

Ukªady równa«liniowych

Maszyny Turinga i problemy nierozstrzygalne. Maszyny Turinga i problemy nierozstrzygalne

Matematyka dyskretna dla informatyków

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

MEODY GRUPOWANIA DANYCH

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Indukcja drzew decyzyjnych

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Podstawy matematyki dla informatyków

SID Wykład 10 Systemy uczace się

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Metody indukcji reguł

Przekroje Dedekinda 1

ELEMENTARNA TEORIA LICZB. 1. Podzielno±

Liniowe zadania najmniejszych kwadratów

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Ekonometria Bayesowska

Teoria grafów i sieci 1 / 188

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Listy i operacje pytania

Maªgorzata Murat. Modele matematyczne.

Zadania z kolokwiów ze Wst pu do Informatyki. Semestr II.

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Spis tre±ci. 1 Wst p Zawarto± rozdziaªów Projekt LoXiM... 2

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Wst p. Elementy systemów decyzyjnych Sprawy organizacyjne. Wprowadzenie Przegl d metod klasykacji

Funkcje, wielomiany. Informacje pomocnicze

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Statystyka matematyczna - ZSTA LMO

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Interpolacja Lagrange'a, bazy wielomianów

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Metody bioinformatyki (MBI)

Indeksowane rodziny zbiorów

Bash i algorytmy. Elwira Wachowicz. 20 lutego

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Funkcje wielu zmiennych

XVII Warmi«sko-Mazurskie Zawody Matematyczne

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Interpolacja funkcjami sklejanymi

Ekstremalnie maªe zbiory

Aproksymacja funkcji metod najmniejszych kwadratów

Funkcje wielu zmiennych

Reguły asocjacyjne, wykł. 11

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Wprowadzenie. Data Science Uczenie się pod nadzorem

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Transkrypt:

Nguyen Hung Son () W5: Drzewa decyzyjne 1 / 38 Systemy decyzyjne Wykªad 5: Drzewa decyzyjne Nguyen Hung Son

Przykªad: klasyfikacja robotów Nguyen Hung Son () W5: Drzewa decyzyjne 2 / 38

Przykªad: drzewo decyzyjne Nguyen Hung Son () W5: Drzewa decyzyjne 3 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 4 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Nguyen Hung Son () W5: Drzewa decyzyjne 5 / 38 Co to jest drzewo decyzyjne Jest to struktura drzewiasta, w której w zªy wewn trzne zawieraj testy na warto±ciach atrybutów z ka»dego w zªa wewn trznego wychodzi tyle gaª zi, ile jest mo»liwych wyników testu w tym w ¹le; li±cie zawieraj informacje o przynale»no± obiektów do klas decyzyjnych. Drzewo decyzyjne koduje program zawieraj cy same instrukcje warunkowe

Klasyfikacja drzewem decyzyjnym Nguyen Hung Son () W5: Drzewa decyzyjne 6 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 7 / 38 Przykªad tablicy decyzyjnej x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no

Przykªad drzewa decyzyjnego Nguyen Hung Son () W5: Drzewa decyzyjne 8 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 9 / 38 Klasyfikacja drzewem decyzyjnym x outlook Temperature humidity wind play(x) 15 rainy hot high weak??? dec(15) = yes

Nguyen Hung Son () W5: Drzewa decyzyjne 10 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Rodzaje testów Wyró»niamy 2 klasy funkcji testów Testy operuj si na warto±ciach pojedy«czego atrybutu (univariate tree): t : V a R t gdzie Testy b d ce kombinacj warto±ci kilku atrybutów (multivariate tree). t : V a1 V a2... V ak R t Va : dziedzina atrybutu a Rt : zbiór mo»liwych wyników testu Nguyen Hung Son () W5: Drzewa decyzyjne 11 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 12 / 38 Przykªady funkcji testu Dla atrybutów nominalnych a i oraz obiekt x: test to»samo±ciowy: t(x) { a i (x) 1 if (a i (x) = v) test równo±ciowy: t(x) = 0 otherwise { 1 if (a i (x) V ) test przynale»no±ciowy: t(x) = 0 otherwise Dla atrybutów o warto±ciach ci gªych: { 1 if (a i (x) > c) test nierówno±ciowy: t(x) = 0 otherwise, i.e., (a i (x) c) gdzie c jest warto±ci progow lub ci ciem

Nguyen Hung Son () W5: Drzewa decyzyjne 13 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Ocena jako±ci drzewa Jako± drzewa ocenia si rozmiarem: im drzewo jest mniejsze, tym lepsze maªa liczba w zªów, maªa wysoko±, lub maªa liczba li±ci; dokªadno±ci klasykacji na zbiorze treningowym dokªadno±ci klasykacji na zbiorze testowym Na przykªad: Q(T ) = α size(t ) + β accuracy(t, P ) gdzie α, β s liczbami rzeczywistymi size(.) jest rozmiarem drzewa accuracy(.,.) jest jako±ci klasykacji Nguyen Hung Son () W5: Drzewa decyzyjne 14 / 38

Problem konstrukcji drzew optymalnych: Dane s : tablica decyzyjna S zbiór funkcji testów TEST, kryterium jako±ci Q Szukane: drzewo decyzyjne T o najwy»szej jako±ci Q(T). Dla wi kszo±ci parametrów, problem szukania optymalnego drzewa jest NP-trudny! Wnioski: Trudno znale¹ optymalne drzewo w czasie wielomianowym; Konieczno± projektowania heurystyk. Quiz: Czy drzewo z przykªadu jest optymalne? Nguyen Hung Son () W5: Drzewa decyzyjne 15 / 38

Optymalne drzewo decyzyjne Nguyen Hung Son () W5: Drzewa decyzyjne 16 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 17 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Nguyen Hung Son () W5: Drzewa decyzyjne 18 / 38 Funkcja rekurencyjna buduj_drzewo(u, dec, T): 1: function buduj_drzewo(u, dec, T) 2: if (kryterium_stopu(u, dec) = true) then 3: T.etykieta = kategoria(u, dec); 4: koniec; 5: end if 6: t := wybierz_test(u, TEST); 7: T.test := t; 8: for v R t do 9: U v := {x U : t(x) = v}; 10: utwórz nowe poddrzewo T ; 11: T.gaª ¹(v) = T ; 12: buduj_drzewo(u v, dec, T ) 13: end for 14: end function

Funkcje pomocnicze Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów: jest pusty lub zawiera obiekty wyª cznie jednej klasy decyzyjnej lub nie ulega podziale przez»aden test Wyznaczenie etykiety zasad wi kszo±ciow : kategoria(p, dec) = arg max c V dec P [dec=c] tzn., etykiet dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze. Kryterium wyboru testu: heurytyczna funkcja oceniaj ca testy. Nguyen Hung Son () W5: Drzewa decyzyjne 19 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 20 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Nguyen Hung Son () W5: Drzewa decyzyjne 21 / 38 Miary ró»norodno±ci zbioru Ka»dy zbiór obiektów X ulega podziale na klasy decyzyjne: X = C 1 C 2... C d gdzie C i = {u X : dec(u) = i}. Wektor (p 1,..., p r ), gdzie p i = C i X, nazywamy rozkªadem klas decyzyjnych w X. Conflict(X) = i<j C i C j = 1 2 Entropy(X) = C i X log C i X = p i log p i ( X 2 C i 2)

Wªasno±ci miar ró»norodno±ci Funkcja conf lict(x) oraz Ent(X) przyjmuj najwi ksz warto±, gdy rozkªad klas decyzyjnych w zbiorze X jest równomierny. najmniejsz warto±, gdy wszystkie obiekty w X s jednej kategorii (X jest jednorodny) W przypadku 2 klas decyzyjnych: Conflict(p, 1 p) = X 2 p(1 p) Entropy(p, 1 p) = p log p (1 p) log(1 p) Nguyen Hung Son () W5: Drzewa decyzyjne 22 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 23 / 38 Kryteria wyboru testu Niech t deniuje podziaª X na podzbiory: X 1... X r. Mo»emy stosowa nast puj ce miary do oceniania testów: liczba par obiektów rozró»nionych przez test t. disc(t, X) = conflict(x) conflict(x i ) kryterium przyrostu informacji (ang. Inf. gain). Gain(t, X) = Entropy(X) i p i Entropy(X i ) Im wi ksze s warto±ci tych ocen, tym lepszy jest test.

Nguyen Hung Son () W5: Drzewa decyzyjne 24 / 38 Miara Entropii dla ci N i p i Entropy(X i )

Rozró»nialno± dla ci Nguyen Hung Son () W5: Drzewa decyzyjne 25 / 38

Wªasno±ci funkcji ocen: Monotoniczno± : Je±li t deniuje drobniejszy podziaª ni» t to Gain(t, X) Gain(t, X) (analogiczn sytuacj mamy dla miary conf lict(). Funkcje ocen testu t przyjmuj maªe warto±ci je±li rozkªady decyzyjne w podzbiorach wyznaczanych przez t s zbli»one. Ci cia brzegowe: mo»na ograniczy przestrze«przeszukiwania do zbioru ci brzegowych Nguyen Hung Son () W5: Drzewa decyzyjne 26 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 27 / 38 Uniwersalne oceny Zamiast bezwzgl dnego przyrostu informacji, stosujemy wspóªczynnik przyrostu informacji Gain_ratio = Gain(t, X) iv(t, X) gdzie iv(t, X), zwana warto±ci informacyjn testu t (information value), jest deniowana jak nast.: iv(t, X) = r i=1 X i X log X i X

Ocena funkcji testu Rozró»nialno± : disc(t, X) = conflict(x) conflict(x i ) Przyrostu informacji (Information gain). Gain(t, X) = Entropy(X) i p i Entropy(X i ) Wspóªczynnik przyrostu informacji (gain ratio) Gain_ratio = Gain(t, X) r X i i=1 X log X i X Inne (np. Gini's index, test χ 2,...) Nguyen Hung Son () W5: Drzewa decyzyjne 28 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 29 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Nguyen Hung Son () W5: Drzewa decyzyjne 30 / 38 Przycinanie drzew Problem nadmiernego dopasowania do danych trenuj cych (prob. przeuczenia si ). Rozwi zanie: zasada krótkiego opisu: skracamy opis kosztem dokªadno±ci klasykacji w zbiorze treningowym zast pienie podrzewa nowym li±ciem (przycinanie) lub mniejszym podrzewem. Podstawowe pytania: Q: Kiedy poddrzewo mo»e by zast pione li±ciem? A: je±li nowy li± jest niegorszy ni» istniej ce poddrzewo dla nowych obiektów (nienale» cych do zbioru treningowego). Q: Jak to sprawdzi? A: testujemy na próbce zwanej zbiorem przycinania!

Nguyen Hung Son () W5: Drzewa decyzyjne 31 / 38 Ogólny schemat algorytmu przycinania Funkcja przytnij(t, P ) 1: for all n T do 2: utwórz nowy li± l etykietowany kategori dominuj c w zbiorze P n 3: if (li± l jest niegorszy od poddrzewa o korzeniu w n pod wzgl dem zbioru P ) then 4: zast p poddrzewo o korzeniu w n li±ciem l; 5: end if 6: end for 7: return T

Nguyen Hung Son () W5: Drzewa decyzyjne 32 / 38 Kryterium przycinania Niech e T (l) - bª d klasykacji kandyduj cego li±cia l, e T (n) - bª d klasykacji poddrzewa o korzeniu w n. Przycinanie ma miejsce, gdy e T (l) e T (n) + µ na ogóª przyjmujemy µ = 1. e T (n)(1 e T (n)) P T,n

Przykªad Nguyen Hung Son () W5: Drzewa decyzyjne 33 / 38

Nguyen Hung Son () W5: Drzewa decyzyjne 34 / 38 Outline 1 Wprowadzenie Denicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakuj cych warto±ci 3 Podsumowanie

Brakuje danych podczas uczenia si Mo»liwe s nast puj ce rozwi zania: Zredukowanie warto±ci kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wspóªczynnik równy: liczba obiektów z nieznanymi warto±ciami liczba wszystkich obiektów Wypeªnienie nieznanych warto±ci atrybutu najcz ±ciej wyst puj c warto±ci w zbiorze obiektów zwi zanych z aktualnym w zªem Wypeªnienie nieznanych warto±ci atrybutu ±redni wa»on wyznaczon na jego zbiorze warto±ci. Nguyen Hung Son () W5: Drzewa decyzyjne 35 / 38

Brakuje danych podczas klasyfikowania Mo»liwe rozwi zania: Zatrzymanie procesu klasykacji w aktualnym w ¹le i zwrócenie wi kszo±ciowej etykiety dla tego w zªa (etykiety, jak ma najwi ksz liczb obiektów trenuj cych w tym w ¹le) Wypeªnienie nieznanej warto±ci wedªug jednej z heurystyk podanych wy»ej dla przypadku konstruowania drzewa Uwzgl dnienie wszystkich gaª zi (wszystkich mo»liwych wyników testu) i poª czenie odpowiednio zwa»onych probabilistycznie rezultatatów w rozkªad prawdopodobie«stwa na zbiorze mo»liwych klas decyzyjnych dla obiektu testowego. Nguyen Hung Son () W5: Drzewa decyzyjne 36 / 38

Zalety drzew decyzyjnych Efektywna (pami ciowo) reprezentacja poj ; Mo»liwo± reprezentacji zªo»onych poj ; Bardzo efektywny (obliczeniowo) proces klasykacji nowych przypadków ; Czytelna wizualizacja dla czªowieka, o ile drzewo nie jest zbyt skomplikowane; Istnieje ªatwa mo»liwo± przej±cia od drzew decyzyjnych do reguª decyzyjnych. Nguyen Hung Son () W5: Drzewa decyzyjne 37 / 38

Wady metody drzew decyzyjnych Mo»liwo± drastycznego bª du klasykacji w przypadku bª dnej warto±ci atrybutu testowanego blisko korzenia drzewa. Brak mo»liwo±ci uczenia si adaptacyjnego Mo»liwe du»e rozmiary drzew dla niektórych poj (ale nie ma reprezentacji hipotez efektywnej dla wszystkich poj ). Nguyen Hung Son () W5: Drzewa decyzyjne 38 / 38