Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Podobne dokumenty
Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wyk lad 6: Drzewa decyzyjne

Algorytmy klasyfikacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wyk lad 8: Leniwe metody klasyfikacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Co to są drzewa decyzji

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Ćwiczenie 6. Hurtownie danych

Indukowane Reguły Decyzyjne I. Wykład 3

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Drzewa podstawowe poj

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Drzewa AVL definicje

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Indukcja drzew decyzyjnych

Wprowadzenie. Data Science Uczenie się pod nadzorem

SID Wykład 10 Systemy uczace się

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Baza danych dla potrzeb zgłębiania DMX

Wyk lad 6 Podprzestrzenie przestrzeni liniowych

Metody indukcji reguł

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Metody klasyfikacji danych - część 1 p.1/24

Reguły asocjacyjne, wykł. 11

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Wyk lad 4 Dzia lania na macierzach. Określenie wyznacznika

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 5 W lasności wyznaczników. Macierz odwrotna

Wyk lad 3 Wielomiany i u lamki proste

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Algorytmy klasyfikacji

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Indukowane Reguły Decyzyjne I. Wykład 8

Statystyka w analizie i planowaniu eksperymentu

Elementy modelowania matematycznego

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Sztuczna Inteligencja Projekt

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Podstawy Informatyki. Metody dostępu do danych

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Metody eksploracji danych 5. Klasyfikacja (kontynuacja)

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

Uzgadnianie wyrażeń rachunku predykatów. Adam i orzeszki. Joanna Józefowska. Poznań, rok akademicki 2009/2010

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

INDUKCJA DRZEW DECYZYJNYCH

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 1 Podstawowe struktury algebraiczne

Architektura systemów komputerowych

Sztuczna Inteligencja Projekt

Procesy Stochastyczne - Zestaw 1

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Wyk lad 8 macierzy i twierdzenie Kroneckera-Capellego

Drzewa decyzyjne, metody budowania, zastosowania

Metody probabilistyczne klasyfikatory bayesowskie

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Data Mining Wykład 4. Plan wykładu

Drzewa klasyfikacyjne algorytm podstawowy

Wyk lad 4 Macierz odwrotna i twierdzenie Cramera

Grzegorz Mazur. Zak lad Metod Obliczeniowych Chemii UJ. 14 marca 2007

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Wyk lad 9 Przekszta lcenia liniowe i ich zastosowania

WYK LAD 2: PODSTAWOWE STRUKTURY ALGEBRAICZNE, PIERWIASTKI WIELOMIANÓW, ROZK LAD FUNKCJI WYMIERNEJ NA U LAMKI PROSTE

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Testowanie hipotez statystycznych

Drzewa Decyzyjne, cz.2

Wyk lad 11 1 Wektory i wartości w lasne

Wyk lad 3 Wyznaczniki

Logika Stosowana. Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie. Marcin Szczuka. Instytut Matematyki UW

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Wyk lad 14 Formy kwadratowe I

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

3.2 Wykorzystanie drzew do generowania pytań

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka w analizie i planowaniu eksperymentu

Kolejka priorytetowa. Często rozważa się kolejki priorytetowe, w których poszukuje się elementu minimalnego zamiast maksymalnego.

Równoleg le sortowanie przez scalanie

Wstęp. Cechy: Spis treści

Algorytmy i Struktury Danych

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

Transkrypt:

Systemy decyzyjne Wyk lad 4:

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Co to jest drzewo decyzyjne Jest to struktura drzewiasta, w której wez ly wewnetrzne zawieraja testy na wartościach atrybutów z każdego wez la wewnetrznego wychodzi tyle ga l ezi, ile jest możliwych wyników testu w tym wezle; liście zawieraja decyzje o klasyfikacji obiektów Drzewo decyzyjne koduje program zawierajacy same instrukcje warunkowe

Przyk lad tablicy decyzyjnej x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no

Przyk lad drzewa decyzyjnego

Klasyfikacja drzewem decyzyjnym x outlook Temperature humidity wind play(x) 15 rainy hot high weak??? dec(15) = yes

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Rodzaje testów Wprowadzenie Wyróżniamy 2 klasy funkcji testów gdzie Testy operuja sie na wartościach pojedyńczego atrybutu (univariate tree): t : V a R t Testy bed ace kombinacja wartości kilku atrybutów (multivariate tree). Va : dziedzina atrybutu a t : V a1 V a2... V ak R t Rt : zbiór możliwych wyników testu

Przyk lady funkcji testu Dla atrybutów nominalnych a i oraz obiekt x: test tożsamościowy: t(x) { a i (x) 1 if (a i (x) = v) test równościowy: t(x) = 0 otherwise { 1 if (a i (x) V ) test przynależnościowy: t(x) = 0 otherwise Dla atrybutów o wartościach ciag lych: { 1 if (a i (x) > c) test nierównościowy: t(x) = 0 otherwise, i.e., (a i (x) c) gdzie c jest wartościa progowa lub cieciem

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Ocena jakości drzewa Jakość drzewa ocenia sie rozmiarem: im drzewo jest mniejsze, tym lepsze ma la liczba wez lów, ma la wysokość, lub ma la liczba liści; dok ladnościa klasyfikacji na zbiorze treningowym dok ladnościa klasyfikacji na zbiorze testowym Na przyk lad: Q(T ) = α size(t ) + β accuracy(t, P ) gdzie α, β sa liczbami rzeczywistymi size(.) jest rozmiarem drzewa accuracy(.,.) jest jakościa klasyfikacji

Problem konstrukcji drzew optymalnych: Dane sa: tablica decyzyjna S zbiór funkcji testów TEST, kryterium jakości Q Szukane: drzewo decyzyjne T o najwyższej jakości Q(T). Dla wi ekszości parametrów, problem szukania optymalnego drzewa jest NP-trudny! Wnioski: Trudno znaleźć optymalne drzewo w czasie wielomianowym; Konieczność projektowania heurystyk. Quiz: Czy drzewo z przyk ladu jest optymalne?

decyzyjne

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Funkcja rekurencyjna buduj drzewo(u, dec, T): 1: if (kryterium stopu(u, dec) = true) then 2: T.etykieta = kategoria(u, dec); 3: return; 4: end if 5: t := wybierz test(u, TEST); 6: T.test := t; 7: for v R t do 8: U v := {x U : t(x) = v}; 9: utwórz nowe poddrzewo T ; 10: T.ga l aź(v) = T ; 11: buduj drzewo(u v, dec, T ) 12: end for

Funkcje pomocnicze Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów: jest pusty lub zawiera obiekty wy l acznie jednej klasy decyzyjnej lub nie ulega podziale przez żaden test Wyznaczenie etykiety zasada wiekszościow a: kategoria(p, dec) = arg max c V dec P [dec=c] tzn., etykieta dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze. : heurytyczna funkcja oceniajaca testy.

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Miary różnorodności zbioru Każdy zbiór obiektów X ulega podziale na klasy decyzyjne: X = C 1 C 2... C d gdzie C i = {u X : dec(u) = i}. Wektor (p 1,..., p r ), gdzie p i = C i X, nazywamy rozk ladem klas decyzyjnych w X. Conflict(X) = i<j C i C j = 1 2 Entropy(X) = C i X log C i X = p i log p i ( X 2 C i 2)

W lasności miar róznorodności Funkcja conflict(x) oraz Ent(X) przyjmuja najwieksz a wartość, gdy rozk lad klas decyzyjnych w zbiorze X jest równomierny. najmniejsza wartość, gdy wszystkie obiekty w X sa jednej kategorii (X jest jednorodny) W przypadku 2 klas decyzyjnych: Conflict(p, 1 p) = X 2 p(1 p) Entropy(p, 1 p) = p log p (1 p) log(1 p)

Kryteria wyboru testu Niech t definiuje podzia l X na podzbiory: X 1... X r. Możemy stosować nastepuj ace miary do oceniania testów: liczba par obiektów rozróżnionych przez test t. disc(t, X) = conflict(x) conflict(x i ) kryterium przyrostu informacji (ang. Inf. gain). Gain(t, X) = Entropy(X) i p i Entropy(X i ) Im wieksze sa wartości tych ocen, tym lepszy jest test.

W lasności funkcji ocen: Monotoniczność: Jeśli t definiuje drobniejszy podzia l niż t to Gain(t, X) Gain(t, X) (analogiczna sytuacje mamy dla miary conflict(). Funkcje ocen testu t przyjmuja ma le wartości jeśli rozk lady decyzyjne w podzbiorach wyznaczanych przez t sa zbliżone.

Uniwersalne oceny Zamiast bezwzgl ednego przyrostu informacji, stosujemy wspó lczynnik przyrostu informacji Gain ratio = Gain(t, X) iv(t, X) gdzie iv(t, X), zwana wartościa informacyjna testu t (information value), jest definiowana jak nast.: iv(t, X) = r i=1 X i X log X i X

Ocena funkcji testu Rozróżnialność: disc(t, X) = conflict(x) conflict(x i ) Przyrostu informacji (Information gain). Gain(t, X) = Entropy(X) i p i Entropy(X i ) Wspó lczynnik przyrostu informacji (gain ratio) Gain ratio = Gain(t, X) r X i i=1 X log X i X Inne (np. Gini s index, test χ 2,...)

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Problem nadmiernego dopasowania do danych trenujacych (prob. przeuczenia sie). Rozwiazanie: zasada krótkiego opisu: skracamy opis kosztem dok ladności klasyfikacji w zbiorze treningowym zastapienie podrzewa nowym liściem (przycinanie) lub mniejszym podrzewem. Podstawowe pytania: Q: Kiedy poddrzewo może być zastapione liściem? A: jeśli nowy liść jest niegorszy niż istniejace poddrzewo dla nowych obiektów (nienależacych do zbioru treningowego). Q: Jak to sprawdzić? A: testujemy na próbce zwanej zbiorem przycinania!

algorytmu przycinania Funkcja przytnij(t, P ) 1: for all n T do 2: utwórz nowy liść l etykietowany kategoria dominujac a w zbiorze P n 3: if (liść l jest niegorszy od poddrzewa o korzeniu w n pod wzgledem zbioru P ) then 4: zastap poddrzewo o korzeniu w n liściem l; 5: end if 6: end for 7: return T

Kryterium przycinania Niech e T (l) - b l ad klasyfikacji kandydujacego liścia l, e T (n) - b l ad klasyfikacji poddrzewa o korzeniu w n. Przycinanie ma miejsce, gdy e T (n)(1 e T (n)) e T (l) e T (n) + µ P T,n na ogó l przyjmujemy µ = 1.

Przyk lad Wprowadzenie

Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3

Brakuje danych podczas uczenia si e Możliwe sa nastepuj ace rozwiazania: Zredukowanie wartości kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wspó lczynnik równy: liczba obiektów z nieznanymi wartościami liczba wszystkich obiektów Wype lnienie nieznanych wartości atrybutu najcześciej wystepuj ac a wartościa w zbiorze obiektów zwiazanych z aktualnym wez lem Wype lnienie nieznanych wartości atrybutu średnia ważona wyznaczona na jego zbiorze wartości.

Brakuje danych podczas klasyfikowania Możliwe rozwiazania: Zatrzymanie procesu klasyfikacji w aktualnym weźle i zwrócenie wiekszościowej etykiety dla tego wez la (etykiety, jaka ma najwieksz a liczbe obiektów trenujacych w tym weźle) Wype lnienie nieznanej wartości wed lug jednej z heurystyk podanych wyżej dla przypadku konstruowania drzewa Uwzglednienie wszystkich ga l ezi (wszystkich możliwych wyników testu) i po l aczenie odpowiednio zważonych probabilistycznie rezultatatów w rozk lad prawdopodobieństwa na zbiorze możliwych klas decyzyjnych dla obiektu testowego.

Zalety drzew decyzyjnych Efektywna (pami eciowo) reprezentacja poj eć; Możliwość reprezentacji z lożonych poj eć; Bardzo efektywny (obliczeniowo) proces klasyfikacji nowych przypadków ; Czytelna wizualizacja dla cz lowieka, o ile drzewo nie jest zbyt skomplikowane; Istnieje latwa możliwość przejścia od drzew decyzyjnych do regu l decyzyjnych.

Wady metody drzew decyzyjnych Możliwość drastycznego b l edu klasyfikacji w przypadku b l ednej wartości atrybutu testowanego blisko korzenia drzewa. Brak możliwości uczenia si e adaptacyjnego Możliwe duże rozmiary drzew dla niektórych poj eć (ale nie ma reprezentacji hipotez efektywnej dla wszystkich poj eć).