INDUKCJA DRZEW DECYZYJNYCH

Podobne dokumenty
INDUKCJA DRZEW DECYZYJNYCH

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Drzewa klasyfikacyjne algorytm podstawowy

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ALGORYTM RANDOM FOREST

Wybrane zagadnienia uczenia maszynowego

Algorytmy klasyfikacji

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Drzewa decyzyjne i lasy losowe

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Indukcja drzew decyzyjnych

Wprowadzenie do klasyfikacji

Elementy modelowania matematycznego

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18


Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Co to są drzewa decyzji

Metody klasyfikacji danych - część 1 p.1/24

Drzewa klasyfikacyjne

Automatyczne wyodrębnianie reguł

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Drzewa Decyzyjne, cz.2

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Data Mining Wykład 4. Plan wykładu

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Odkrywanie wiedzy w danych

Wstęp. Cechy: Spis treści

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Algorytmy klasyfikacji

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Drzewa klasyfikacyjne

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Podstawy. Prawdopodobieństwo. Witold Andrzejewski & Paweł Boiński, Politechnika Poznańska, Wydział Informatyki 218/633

Projekt Sieci neuronowe

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Ćwiczenie 6. Hurtownie danych

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

KLASYFIKACJA. Słownik języka polskiego

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

Indukowane Reguły Decyzyjne I. Wykład 8

ED Laboratorium 3. Drzewa decyzyjne

Laboratorium 6. Indukcja drzew decyzyjnych.

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

SZTUCZNA INTELIGENCJA

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Wprowadzenie do uczenia maszynowego

Indukowane Reguły Decyzyjne I. Wykład 3

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Metody selekcji cech

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Klasyfikacja metodą Bayesa

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Weryfikacja hipotez statystycznych

Systemy uczące się Lab 4

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

Agnieszka Nowak Brzezińska Wykład III

Elementy inteligencji obliczeniowej

Testowanie modeli predykcyjnych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Klasyfikacja LDA + walidacja

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Spis treści WSTĘP... 9

A Zadanie

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Moduł: algorytmy sztucznej inteligencji, wykład 3. Agnieszka Nowak Brzezińska

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Kompresja bezstratna. Entropia. Kod Huffmana

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Agnieszka Nowak Brzezińska

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Agnieszka Nowak Brzezińska Wykład III

Sieć przesyłająca żetony CP (counter propagation)

Podstawy Informatyki. Metody dostępu do danych

Analiza danych. TEMATYKA PRZEDMIOTU

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Testowanie hipotez statystycznych

Jakość uczenia i generalizacja

Transkrypt:

INDUKCJA DRZEW DECYZYJNYCH 1. Pojęcia podstawowe. 2. Idea algorytmów TDIT. 3. Kryteria oceny atrybutów entropia. 4. "Klasyczna" postać algorytmu ID3. 5. Przykład ilustracyjny. 6. Transformacja drzewa do zbioru reguł. 7. Ograniczenia w stosowaniu drzew decyzyjnych i rozszerzenia algorytmów. 8. Uwzględnianie atrybutów wielowartościowych oraz binaryzacja drzew. 9. Uwzględnianie atrybutów liczbowych. 10. Zjawisko przeuczenia i wwzględnianie danych zaszumionych. 11. Techniki ograniczania rozmiarów drzew (prepruning oraz post-pruning). 12. Przykłady zastosowań praktycznych

1. Pojęcia podstawowe Przykłady uczące - dane w reprezentacji atrybutwartość Obiekt = (wektor atrybut-wartość, klasa decyzyjna) Obiekt Atr1 Atr2... Klasa 1 v11 v12... C1 2 v21 v22... C2 3........................... CEL: znaleźć drzewo decyzyjne, które "wyjaśnia" przykłady uczące oraz poprawnie klasyfikuje nowe obiekty. Uwagi: Poszukiwana funkcja ma dyskretne wartości wyjściowe. Opisy przykładów uczących oraz poszukiwana wiedza klasyfikacyjna reprezentowane są w postaci symbolicznej. Pojęcia mogą być opisywane w sposób dysjunkcyjny. Dane treningowe mogą zawierać błędy.

Ogólna idea: Drzewa decyzyjne Rekurencyjny podział zbioru uczącego na podzbiory Predykcja: przejście gałęzi, wybór najbardziej prawdopodobnej klasy decyzyjnej Okreœlenia: TDIDT = Top Down Induction of Decision Trees Kryterium wyboru: używane do podziału zbioru uczącego Kryterium zatrzymania: definiuje warunki zatrzymania procesu podzialu Algorytm redukcji (ang. tree pruning): próba zapobiegania przespecjalizowania tworzonego drzewa. Zalety: Szybkość klasyfikowania, zrozumiałość, "dojrzała" metodologia, liczne zastosowania. Ukierunkowanie: Małe drzewa decyzyjne minimalizujące błedne zaklasyfikowania Znalezienie optymalnego drzewa - NP-trudne!! Strategia przeszukiwania: Top-down

Top Down Induction of Decision Trees za "klasyczną" postacią ID3 [Quinlan 1983] Podstawowy zapis techniki uczenia się drzewa T ze zbioru uczącego S: 1. Wybierz "najlepszy" atrybut A 2. Rozbuduj drzewo poprzez dodanie do węzła nowych gałęzi odpowiadającym poszczególnym wartościom v 1,v 2,... vn atrybutu A 3. Podziel S na podzbiory S 1, S 2,..., Sn odpowiadające wartościom v 1,v 2,... vn atrybutu A i przydziel te podzbiory do odpowiednich gałęzi rozbudowywanego drzewa 4. Jeśli wszystkie przykłady w Si należą do tej samej klasy C zakończ gałęź liściem wskazującym C; w przeciwnym razie rekurencyjnie buduj drzewo Ti dla Si (tzn. powtórz kroki 1-4)

Funkcja logarytmiczna y = loga x a podstawa logarytmu y x = a Rozważmy funkcję logarytmiczną dla a = 2 (tj. y = log2 x) y 5 4 3 2 1 0-1 -2-3 -4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x x 1/8 1/4 1/2 1 2 4 8 y -3-2 -1 0 1 2 3

Miary wyboru testów/atrybutów S - zbiór przykładów jednej z k klas decyzyjnych, ozn. K 1,...,K k. n - liczba przykładów z S, oraz n i - liczebność klasy K i. Entropia związana z klasyfikacją zbioru przykładów S: Ent(S) = = k i 1 p i 2 pi lg, gdzie p i jest prawdopodobieństwem, że losowo wybrany przykład z S należy do klasy K i (p i estymowane jako n i / n). Atrybut a użyty do zbudowania testu w węźle drzewa - entropia warunkowa. Zał. atrybut a przyjmuje p różnych wartości {v 1,v 2,..,v p }. S = {S 1,S 2,...,S p }, gdzie S j zawiera przykłady z v j wartością atrybutu (j=1,..,p); n Sj - liczebność zbioru S j. Entropia podziału zbioru przykładów S ze względu na atrybut a: n p S j Ent(S a) = j = 1 Ent( S j ) n Przyrost informacji wynikający z zastosowania atrybutu a do zbudowania testu dzielącego zbiór przykładów S: Gain(S,a) = Ent(S) Ent(S a)

Zbiór przykładów uczących - J.R. Quinlan no. Height Hair Eyes Attractiveness 1 short blond blue + 2 tall blond brown - 3 tall red blue + 4 short dark blue - 5 tall dark blue - 6 tall blond blue + 7 tall dark brown - 8 short blond brown -

Drzewo decyzyjne dla przykładów Attractiveness Hair dark red blond + Eyes 4, 5, 7 3 blue brown + 1, 6 2, 8

Zbiór reguł decyzyjnych: r1: (Hair=Dark) (Attractiveness,-) Pokryte przykłady {4,5,7} r2: (Hair=Red) (Attractiveness,+) Pokryte przykłady{3} r3: (Hair=Blond) (Eyes=Blue) (Attractiveness,+) Pokryte przykłady {1,6} r4: (Hair=blond) (Eyes=Brown) (Attractiveness,-) Pokryte przykłady {2,8} Techniki poszukiwania nienadmiarowych reguł decyzyjnych: tzw. "dropping condition" (ang.): liniowa (ang. linear), wykładnicza (ang. exponential). r4': (Eyes=Brown) (Attractiveness,-) Pokryte przykłady {2,7,8}

Przeszukiwanie przestrzeni hipotez w ID3 Wybór języka reprezentacji silnie ogranicza przestrzeń hipotez Preferencja poszukiwania porządkuje wybór hipotez Strategia poszukiwania bez nawrotu Statystyczne kryterium wyboru atrybutu dość odporne na "szumy" danych wejściowych Ukierunkowanie do wyboru prostych drzew - Occam's Razor (jest mniej prostych hipotez niż rozbudowanych; prosta hipoteza zgodna z przykładami uczącymi nie jest przypadkowa, proste hipotezy lepiej sprawdzają się w praktycznych zastosowaniach) Lecz! nadal możemy otrzymać wiele równoważnych prostych drzew decyzyjnych; istnieją dalsze ograniczenia dla "źle zdefiniowanych" zbiorów danych. Nadal wiele dyskusji nad kryteriami wyboru atrybutów i sposobów redukcji rozmiarów drzew

Drzewa decyzyjne: Kryteria wyboru (cd.) Information gain (Quinlan 1983) Gain(A) = E(S) - I(A) I(A) = Oczekiwana informacyjność drzewa z atrybutem A jako korzeniem = n q E ( S ) 1 m i= 1 E(S) = - p log p i i j= Wiele innych propozycji kryteriów wyboru: np. GINI Index (CART,84) Gain ration (Quinalan, 86) Binarization (Bratko & Kononenko, 86) Chi-square statistic (Mingres, 89) Normalized information gain (Mantara, 91) v j j GINI Index: 1 - i 2 p i

Ograniczenia w uczeniu się drzew decyzyjnych Pytania i problemy, np.: Kiedy należy zaprzestać rozbudowywać drzewa? aby zapobiec przespecjalizowaniu opisu duże drzewa są trudne do analizy i zrozumienia Jak uwzględniać atrybuty ilościowe? Jak uwzględniać atrybuty ze zbyt dużą liczbą wartości w stosunku do dziedzin pozostałych atrybutów? Jak uwzględniać atrybuty z nieznanymi wartościami? Jak uwzględniać dane "zaszumione"?

Uwzględnianie atrybutów o zbyt dużej liczbie wartości Trudność: miara Information Gain faworyzuje atrybuty o dużej liczbie przyjmowanych wartości Przykład: atrybut - data urodzenia Podejścia: binaryzacja atrybutów zmiana miary Inf Gain na inną Propozycje: Gain Ratio [Quinlan 93] Intuicja: karać zbyt szerokie dziedziny atrybutów; dążyć do znormalizowanych rozkładów wartości. gdzie Gain_Ratio(S,A)=Gain(S,A)/Info(A) Info(A)=- n j= 1 S j log S j 2 S S

Binaryzacja drzew decyzyjnych - przykład: no. Height Hair Blond Hair Red Hair Dark Eyes Attractiveness 1 short + - - blue + 2 tall + - - brown - 3 tall - + - blue + 4 short - - + blue - 5 tall - - - blue - 6 tall + - - blue + 7 tall - - + brown - 8 short + - - brown - H(A Height)=0.951 H(A Hair Blond )=0.781 H(A Hair Red )=0.754 H(A Hair Dark )=0.607 H(A Eyes)=0.607

Binaryzacja drzew decyzyjnych - cd: no. Height Hair Blond Hair Red Eyes Attractiveness 1 short + - blue + 2 tall + - brown - 3 tall - + blue + 6 tall + - blue + 8 short + - brown - Reguły decyzyjne: r1: (Hair=Dark) (Attractiveness,-) Pokryte przyk³ady {4,5,7} r2: (Hair=not Dark) (Eyes=Blue) (Attractiveness,+) Pokryte przyk³ady {1,3,6} r3: (Hair=not Dark) (Eyes=Brown) (Attractiveness,-) Pokryte przyk³ady {2,8}

Uwzględnianie atrybutów liczbowych Problem: Poszukiwanie prostych i łatwych do zrozumienia warunków. Pre-processing: Dyskretyzacja przed uruchomieniem algorytmu indukcji drzewa. Propozycja: tworzyć testy wartości atrybutów dynamicznie w procesie budowy drzewa (atrybut rel próg); gdzie rel jest operatorem typu <,, >,, próg jest pewną charakterystyczną wartością atrybutu. Np. Temperatura (Temperatura > c) Temperatura Play- Tennis? 5 8 17 19 22 29 Nie Nie Tak Tak Tak Nie Jakie wartości c powinny być rozważane? Wiele istniejących propozycji: [Quinalan 86,93], [Wiess 90], [Shapiro 91],...

Zbiór przykładów uczących - wersja zawierająca tzw. sprzeczne przykłady (ang. inconsistent examples). No. Height Hair Eyes Attractiveness 1 short blond blue + 2 tall blond brown - 3 tall red blue + 4 short dark blue - 5 tall dark blue - 6 tall blond blue + 7 tall dark brown - 8 short blond brown - 9 tall dark brown +

Przeuczenie drzewa Zaszumione ( noise ) lub zbyt nietypowe dane mogą powodować nadmierne dopasowanie do przykładów uczących. Do czego to prowadzi? 1. niejednoznaczności wskazań 2. powstały opis jest przespecjalizowany i dopasowany do zaszumiałych danych (ang. Overfiting to data, tracing the noise), 3. niska dokładność klasyfikowania na nowych przypadkach, 4. bardzo złożony opis - niska zrozumiałość dla analityka. Dwa sposoby unikania przeuczenia: (Pre-pruning): Zatrzymuj budowę drzewa wcześniej. (Post-pruning): zbuduj przespecjalizowane pełne drzewo, później je zredukuj. Ocena wielkości redukcji: Różne sposoby. Rule post-pruning (C4.5): zamień drzewo na reguły.

Techniki unikania przespecjalizowania opisów oraz redukcji drzew decyzyjnych Propozycje: Zmienić kryterium zatrzymania, aby kończyć rozbudowę drzewa wcześniej (pre-pruning/ forward pruning) Zezwolić na budowę pełnego drzewa (przespecjalizowanego), następnie redukować / obcinać zbędne gałęzie (post-pruning) Jak tworzyć i używać kryteria: optymalizować działanie na odzielnym zbiorze testowym uwzględniać tylko statystycznie znaczące podziały drzew Minimalizuj(Rozmiar[drzewo]+Liczba[źle sklasyfikowanych przykładów])

Techniki redukcji w trakcie budowy drzew decyzyjnych - forward pruning, pre-pruning Zatrzymaj rozbudowę drzewa w danym węźle jeśli: information gain jest zbyt niski, liczba rozważanych przykładów uczących jest niewiarygodna (mała), zbiór przykładów jest statystycznie nieznaczący (np. Chi-square test), prównanie estymat wybranych błędów jest niekorzystne (static and back-up error Bratko 86).

Podejścia "Train and Test" Uczyć się na części danych, tesować na pozostałych (Nie uwzględnia się założeń o rozkładach gęstości prawdopodobieństw!) "Reduced error pruning": 1. Zbuduj drzewo decyzyjne w oparciu o zbiór uczący 2. Rozważaj każdy węzeł (poddrzewo) jako kandydata do usunięcia 3. Heurystycznie usuwaj węzły, które pozwalają uzyskać zysk na kryterium dla przykładów testowych Znajdź najmniejsze drzewo spośród tych, które są najpoprawniejsze dla danych testowych

Modyfikacje w podstawowym algorytmie Jeśli S jest niepustym zbiorem o niejednoznacznej klasyfikacji przykładów uczących i nie dysponuje się większą liczbą atrybutów do konstrukcji testów zwróć jako rezultat klasę większościową w rozkładzie gęstości klas decyzyjnych. "Najbardziej informatywne" atrybuty - nowe bardziej wyrafinowane miary. "Windowing" idea uwzględniania podzbiorów przykładów w analzie dużych zbiorów danych.