Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Podobne dokumenty
Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wyk lad 6: Drzewa decyzyjne

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Algorytmy klasyfikacji

Co to są drzewa decyzji

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wyk lad 8: Leniwe metody klasyfikacji

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Ćwiczenie 6. Hurtownie danych

Indukowane Reguły Decyzyjne I. Wykład 3

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Drzewa podstawowe poj

Drzewa AVL definicje

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Indukcja drzew decyzyjnych

Wprowadzenie. Data Science Uczenie się pod nadzorem

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

SID Wykład 10 Systemy uczace się

Sztuczna Inteligencja Projekt

Baza danych dla potrzeb zgłębiania DMX

Wyk lad 6 Podprzestrzenie przestrzeni liniowych

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Metody klasyfikacji danych - część 1 p.1/24

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Indukowane Reguły Decyzyjne I. Wykład 8

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Algorytmy klasyfikacji

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Elementy modelowania matematycznego

Wyk lad 3 Wielomiany i u lamki proste

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Metody indukcji reguł

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Statystyka w analizie i planowaniu eksperymentu

Reguły asocjacyjne, wykł. 11

Wyk lad 5 W lasności wyznaczników. Macierz odwrotna

Sztuczna Inteligencja Projekt

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

INDUKCJA DRZEW DECYZYJNYCH

Metody eksploracji danych 5. Klasyfikacja (kontynuacja)

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 4 Dzia lania na macierzach. Określenie wyznacznika

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Procesy Stochastyczne - Zestaw 1

Drzewa klasyfikacyjne algorytm podstawowy

WYK LAD 2: PODSTAWOWE STRUKTURY ALGEBRAICZNE, PIERWIASTKI WIELOMIANÓW, ROZK LAD FUNKCJI WYMIERNEJ NA U LAMKI PROSTE

Podstawy Informatyki. Metody dostępu do danych

Wyk lad 8 macierzy i twierdzenie Kroneckera-Capellego

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Wyk lad 4 Macierz odwrotna i twierdzenie Cramera

Modelowanie motywów łańcuchami Markowa wyższego rzędu

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Wyk lad 14 Formy kwadratowe I

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 9 Przekszta lcenia liniowe i ich zastosowania

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Data Mining Wykład 4. Plan wykładu

Architektura systemów komputerowych

Drzewa Decyzyjne, cz.2

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

Drzewa decyzyjne, metody budowania, zastosowania

Wyk lad 11 1 Wektory i wartości w lasne

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

Wyk lad 1 Podstawowe struktury algebraiczne

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Statystyka w analizie i planowaniu eksperymentu

3.2 Wykorzystanie drzew do generowania pytań

Metody probabilistyczne klasyfikatory bayesowskie

Wstęp. Cechy: Spis treści

Uzgadnianie wyrażeń rachunku predykatów. Adam i orzeszki. Joanna Józefowska. Poznań, rok akademicki 2009/2010

Algorytmy i Struktury Danych

Metoda Simplex bez użycia tabel simplex 29 kwietnia 2010

Drzewa decyzyjne i lasy losowe

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

Równoleg le sortowanie przez scalanie

Kolejka priorytetowa. Często rozważa się kolejki priorytetowe, w których poszukuje się elementu minimalnego zamiast maksymalnego.

Wyk lad 12. (ii) najstarszy wspó lczynnik wielomianu f jest elementem odwracalnym w P. Dowód. Niech st(f) = n i niech a bedzie

Transkrypt:

Drzewa decyzyjne Nguyen Hung Son Nguyen Hung Son () DT 1 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 2 / 34

Co to jest drzewo decyzyjne Jest to struktura drzewiasta, w której wez ly wewnetrzne zawieraja testy na wartościach atrybutów z każdego wez la wewnetrznego wychodzi tyle ga l ezi, ile jest możliwych wyników testu w tym wezle; liście zawieraja decyzje o klasyfikacji obiektów Drzewo decyzyjne koduje program zawierajacy same instrukcje warunkowe Nguyen Hung Son () DT 3 / 34

Przyk lad: klasyfikacja robotów Nguyen Hung Son () DT 4 / 34

Przyk lad: drzewo decyzyjne Nguyen Hung Son () DT 5 / 34

Klasyfikacja drzewem decyzyjnym Nguyen Hung Son () DT 6 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 7 / 34

Przyk lad tablicy decyzyjnej x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no Nguyen Hung Son () DT 8 / 34

Rodzaje testów Wyróżniamy 2 klasy funkcji testów gdzie Testy operuja sie na wartościach pojedyńczego atrybutu (univariate tree): t : V a R t Testy bed ace kombinacja wartości kilku atrybutów (multivariate tree). t : V a1 V a2... V ak R t Va : dziedzina atrybutu a Rt : zbiór możliwych wyników testu Nguyen Hung Son () DT 9 / 34

Przyk lady funkcji testu Dla atrybutów nominalnych a i oraz obiekt x: test tożsamościowy: t(x) { a i (x) 1 if (a i (x) = v) test równościowy: t(x) = 0 otherwise { 1 if (a i (x) V ) test przynależnościowy: t(x) = 0 otherwise Dla atrybutów o wartościach ciag lych: { 1 if (a i (x) > c) test nierównościowy: t(x) = 0 otherwise, i.e., (a i (x) c) gdzie c jest wartościa progowa lub cieciem Nguyen Hung Son () DT 10 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 11 / 34

Ocena jakości drzewa Jakość drzewa ocenia sie rozmiarem: im drzewo jest mniejsze, tym lepsze ma la liczba wez lów, ma la wysokość, lub ma la liczba liści; dok ladnościa klasyfikacji na zbiorze treningowym dok ladnościa klasyfikacji na zbiorze testowym Na przyk lad: Q(T ) = α size(t ) + β accuracy(t, P ) gdzie α, β sa liczbami rzeczywistymi size(.) jest rozmiarem drzewa accuracy(.,.) jest jakościa klasyfikacji Nguyen Hung Son () DT 12 / 34

Problem konstrukcji drzew optymalnych: Dane sa: tablica decyzyjna S zbiór funkcji testów TEST, kryterium jakości Q Szukane: drzewo decyzyjne T o najwyższej jakości Q(T). Dla wi ekszości parametrów, problem szukania optymalnego drzewa jest NP-trudny! Wnioski: Trudno znaleźć optymalne drzewo w czasie wielomianowym; Konieczność projektowania heurystyk. Quiz: Czy drzewo z przyk ladu jest optymalne? Nguyen Hung Son () DT 13 / 34

Optymalne drzewo decyzyjne Nguyen Hung Son () DT 14 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 15 / 34

Funkcja rekurencyjna buduj drzewo(u, dec, T): 1: if (kryterium stopu(u, dec) = true) then 2: T.etykieta = kategoria(u, dec); 3: return; 4: end if 5: t := wybierz test(u, TEST); 6: T.test := t; 7: for v R t do 8: U v := {x U : t(x) = v}; 9: utwórz nowe poddrzewo T ; 10: T.ga l aź(v) = T ; 11: buduj drzewo(u v, dec, T ) 12: end for Nguyen Hung Son () DT 16 / 34

Funkcje pomocnicze Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów: jest pusty lub zawiera obiekty wy l acznie jednej klasy decyzyjnej lub nie ulega podziale przez żaden test Wyznaczenie etykiety zasada wiekszościow a: kategoria(p, dec) = arg max c V dec P [dec=c] tzn., etykieta dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze. Kryterium wyboru testu: heurytyczna funkcja oceniajaca testy. Nguyen Hung Son () DT 17 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 18 / 34

Miary różnorodności zbioru Każdy zbiór obiektów X ulega podziale na klasy decyzyjne: X = C 1 C 2... C d gdzie C i = {u X : dec(u) = i}. Wektor (p 1,..., p r ), gdzie p i = C i X, nazywamy rozk ladem klas decyzyjnych w X. Conflict(X) = i<j C i C j = 1 2 Entropy(X) = C i X log C i X = p i log p i ( X 2 C i 2) Nguyen Hung Son () DT 19 / 34

W lasności miar róznorodności Funkcja conflict(x) oraz Ent(X) przyjmuja najwieksz a wartość, gdy rozk lad klas decyzyjnych w zbiorze X jest równomierny. najmniejsza wartość, gdy wszystkie obiekty w X sa jednej kategorii (X jest jednorodny) W przypadku 2 klas decyzyjnych: Conflict(p, 1 p) = X 2 p(1 p) Entropy(p, 1 p) = p log p (1 p) log(1 p) Nguyen Hung Son () DT 20 / 34

Kryteria wyboru testu Niech t definiuje podzia l X na podzbiory: X 1... X r. Możemy stosować nastepuj ace miary do oceniania testów: liczba par obiektów rozróżnionych przez test t. disc(t, X) = conflict(x) conflict(x i ) kryterium przyrostu informacji (ang. Inf. gain). Gain(t, X) = Entropy(X) i p i Entropy(X i ) Im wieksze sa wartości tych ocen, tym lepszy jest test. Nguyen Hung Son () DT 21 / 34

Miara Entropii dla ci eć N i p i Entropy(X i ) Nguyen Hung Son () DT 22 / 34

Rozróżnialność dla ci eć Nguyen Hung Son () DT 23 / 34

W lasności funkcji ocen: Monotoniczność: Jeśli t definiuje drobniejszy podzia l niż t to Gain(t, X) Gain(t, X) (analogiczna sytuacje mamy dla miary conflict(). Funkcje ocen testu t przyjmuja ma le wartości jeśli rozk lady decyzyjne w podzbiorach wyznaczanych przez t sa zbliżone. Nguyen Hung Son () DT 24 / 34

Uniwersalne oceny Zamiast bezwzgl ednego przyrostu informacji, stosujemy wspó lczynnik przyrostu informacji Gain ratio = Gain(t, X) iv(t, X) gdzie iv(t, X), zwana wartościa informacyjna testu t (information value), jest definiowana jak nast.: iv(t, X) = r i=1 X i X log X i X Nguyen Hung Son () DT 25 / 34

Ocena funkcji testu Rozróżnialność: disc(t, X) = conflict(x) conflict(x i ) Przyrostu informacji (Information gain). Gain(t, X) = Entropy(X) i p i Entropy(X i ) Wspó lczynnik przyrostu informacji (gain ratio) Gain ratio = Gain(t, X) r X i i=1 X log X i X Inne (np. Gini s index, test χ 2,...) Nguyen Hung Son () DT 26 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 27 / 34

Przycinanie drzew Problem nadmiernego dopasowania do danych trenujacych (prob. przeuczenia sie). Rozwiazanie: zasada krótkiego opisu: skracamy opis kosztem dok ladności klasyfikacji w zbiorze treningowym zastapienie podrzewa nowym liściem (przycinanie) lub mniejszym podrzewem. Podstawowe pytania: Q: Kiedy poddrzewo może być zast apione liściem? A: jeśli nowy liść jest niegorszy niż istniejace poddrzewo dla nowych obiektów (nienależacych do zbioru treningowego). Q: Jak to sprawdzić? A: testujemy na próbce zwanej zbiorem przycinania! Nguyen Hung Son () DT 28 / 34

Ogólny schemat algorytmu przycinania Funkcja przytnij(t, P ) 1: for all n T do 2: utwórz nowy liść l etykietowany kategoria dominujac a w zbiorze P n 3: if (liść l jest niegorszy od poddrzewa o korzeniu w n pod wzgledem zbioru P ) then 4: zastap poddrzewo o korzeniu w n liściem l; 5: end if 6: end for 7: return T Nguyen Hung Son () DT 29 / 34

Kryterium przycinania Niech e T (l) - b l ad klasyfikacji kandydujacego liścia l, e T (n) - b l ad klasyfikacji poddrzewa o korzeniu w n. Przycinanie ma miejsce, gdy e T (n)(1 e T (n)) e T (l) e T (n) + µ P T,n na ogó l przyjmujemy µ = 1. Nguyen Hung Son () DT 30 / 34

Przyk lad Nguyen Hung Son () DT 31 / 34

Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości Nguyen Hung Son () DT 32 / 34

Brakuje danych podczas uczenia si e Możliwe sa nastepuj ace rozwiazania: Zredukowanie wartości kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wspó lczynnik równy: liczba obiektów z nieznanymi wartościami liczba wszystkich obiektów Wype lnienie nieznanych wartości atrybutu najcześciej wystepuj ac a wartościa w zbiorze obiektów zwiazanych z aktualnym wez lem Wype lnienie nieznanych wartości atrybutu średnia ważona wyznaczona na jego zbiorze wartości. Nguyen Hung Son () DT 33 / 34

Brakuje danych podczas klasyfikowania Możliwe rozwiazania: Zatrzymanie procesu klasyfikacji w aktualnym weźle i zwrócenie wiekszościowej etykiety dla tego wez la (etykiety, jaka ma najwieksz a liczbe obiektów trenujacych w tym weźle) Wype lnienie nieznanej wartości wed lug jednej z heurystyk podanych wyżej dla przypadku konstruowania drzewa Uwzglednienie wszystkich ga l ezi (wszystkich możliwych wyników testu) i po l aczenie odpowiednio zważonych probabilistycznie rezultatatów w rozk lad prawdopodobieństwa na zbiorze możliwych klas decyzyjnych dla obiektu testowego. Nguyen Hung Son () DT 34 / 34