Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. http://zajecia.jakubw.pl/ test 1 dopełnienie testu 1



Podobne dokumenty
Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Co to są drzewa decyzji

Baza danych dla potrzeb zgłębiania DMX

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Indukowane Reguły Decyzyjne I. Wykład 3


Analiza rynku projekt

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ĆWICZENIE NR 43 U R I (1)

Elementy modelowania matematycznego

Równania różniczkowe. Lista nr 2. Literatura: N.M. Matwiejew, Metody całkowania równań różniczkowych zwyczajnych.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Zarządzanie Projektami. Wykład 3 Techniki sieciowe (część 1)

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

EKSPLORACJA DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Dendrochronologia Tworzenie chronologii

Całka nieoznaczona Andrzej Musielak Str 1. Całka nieoznaczona

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Agnieszka Nowak Brzezińska

Stanisław Cichocki Natalia Nehrebecka. Wykład 4

46 Olimpiada Biologiczna

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Zastosowania sieci neuronowych oraz modeli alternatywnych. PLAN WYKŁADU

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

E k o n o m e t r i a S t r o n a 1. Nieliniowy model ekonometryczny

Kombinowanie prognoz. - dlaczego należy kombinować prognozy? - obejmowanie prognoz. - podstawowe metody kombinowania prognoz

WNIOSKOWANIE STATYSTYCZNE

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

Układy sekwencyjne asynchroniczne Zadania projektowe

KURS EKONOMETRIA. Lekcja 1 Wprowadzenie do modelowania ekonometrycznego ZADANIE DOMOWE. Strona 1

Rys.1. Podstawowa klasyfikacja sygnałów

Algorytmy klasyfikacji

Metody klasyfikacji danych - część 1 p.1/24

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB X - ELECTRE TRI

Agnieszka Nowak Brzezińska Wykład III

Sformułowanie Schrödingera mechaniki kwantowej. Fizyka II, lato

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Agnieszka Nowak Brzezińska Wykład III

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

ALGORYTMY I STRUKTURY DANYCH

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

SID Wykład 10 Systemy uczace się

Drzewa decyzyjne i lasy losowe

Wprowadzenie. Data Science Uczenie się pod nadzorem

Niech x 1,..., x n będzie ciągiem zdarzeń. ---

RACHUNEK EFEKTYWNOŚCI INWESTYCJI METODY ZŁOŻONE DYNAMICZNE

WYKORZYSTANIE STATISTICA DATA MINER DO PROGNOZOWANIA W KRAJOWYM DEPOZYCIE PAPIERÓW WARTOŚCIOWYCH

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

Metody indukcji reguł

Zarządzanie ryzykiem. Lista 3

DYNAMIKA KONSTRUKCJI

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Optymalizacja ciągła

DYNAMICZNE MODELE EKONOMETRYCZNE

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Egzamin, AISDI, I termin, 18 czerwca 2015 r.

Witold Orzeszko Uniwersytet Mikołaja Kopernika w Toruniu

ψ przedstawia zależność

Modelowanie motywów łańcuchami Markowa wyższego rzędu

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XLIII nr 2 (2012)

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki

DYNAMICZNE MODELE EKONOMETRYCZNE

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Zastosowania sieci neuronowych oraz modeli alternatywnych. PLAN WYKŁADU

ESTYMACJA KRZYWEJ DOCHODOWOŚCI STÓP PROCENTOWYCH DLA POLSKI

Ekonometryczne modele nieliniowe

Temat: Algorytm kompresji plików metodą Huffmana

2.1 Zagadnienie Cauchy ego dla równania jednorodnego. = f(x, t) dla x R, t > 0, (2.1)

ED Laboratorium 3. Drzewa decyzyjne

Aproksymacja funkcji a regresja symboliczna

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Testowanie modeli predykcyjnych

EFEKT DŹWIGNI NA GPW W WARSZAWIE WPROWADZENIE

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Przykładowe B+ drzewo

WYKŁAD FIZYKAIIIB 2000 Drgania tłumione

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

dyfuzja w płynie nieruchomym (lub w ruchu laminarnym) prowadzi do wzrostu chmury zanieczyszczenia











Wprowadzenie do uczenia maszynowego

Politechnika Częstochowska Wydział Inżynierii Mechanicznej i Informatyki. Sprawozdanie #2 z przedmiotu: Prognozowanie w systemach multimedialnych

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Klasyfikacja LDA + walidacja

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Transkrypt:

Analiza danych Drzewa decyzyjne. Enropia. Jakub Wróblewski jakubw@pjwsk.edu.pl hp://zajecia.jakubw.pl/ DRZEWA DECYZYJNE Meoda reprezenacji wiedzy (modelowania ablic decyzyjnych). Pozwala na przejrzysy opis regularności zawarych w danych, a akże na prose przedsawienie algorymu klasyfikacji. ablica danych Przykład: drzewo binarne. Węzły odpowiadają zbiorom danych, krawędzie warunkom (esom). es dopełnienie esu podablica spełniająca es podablica niespełniająca esu

ZSTĘPUJĄCY ALGORYTM BUDOWY DRZEWA Korzeń: cały zbiór danych. Pojedynczy krok budowy drzewa: - wybieramy węzeł do podziału - wybieramy es i dokonujemy podziału - sprawdzamy kryerium sopu Kryerium sopu: Najprossze gdy nie ma już więcej liści wymagających podziału, zn. akich, kóre zawierają więcej niż jedną klasę decyzyjną. Wybór esu: najczęściej meodą zachłanną, zn. wybieramy aki es, kóry najlepiej podzieli rozparywany węzeł. RODZAJE TESTÓW W zależności od rodzaju danych, najczęssze rodzaje esów o: - większościowy: a i v a i < v sosowany głównie w przypadku danych ciągłych, - równościowy: a i = v a i = v 2 a i = v 3... a i = v k sosowany w przypadku danych dyskrenych (np. symbolicznych). Wówczas drzewo nie jes binarne. 2

PRZYKŁAD DYSKRETNY Oulook Temp. Humid. Wind Spor? Sunny Ho High Weak No 2 Sunny Ho High Srong No 3 Overcas Ho High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cold Normal Weak Yes 6 Rain Cold Normal Srong No 7 Overcas Cold Normal Srong Yes 8 Sunny Mild High Weak No 9 Sunny Cold Normal Weak Yes 0 Rain Mild Normal Weak Yes Sunny Mild Normal Srong Yes 2 Overcas Mild High Srong Yes 3 Overcas Ho Normal Weak Yes 4 Rain Mild High Srong No Oulook Sunny Rain Overcas Humidiy Wind High Normal Srong Weak Spor=No Spor=Yes PRZYKŁAD CIĄGŁY (całe dane) a 2 2 a 2 < 2 a < 7 a 7 a < 6 a 6 2 a < 8 a 8 Jeśli przyjmiemy poziom dokładności 90%, osani krok będzie nieporzebny. a 2 a 6 7 8 3

KLASYFIKACJA ( 7, 5 ) a 2 2 a 2 < 2 a < 7 a 7 a < 6 a 6 2 a < 8 a 8 odpowiedź: czerwony * a 2 a 6 7 8 CEL OPTYMALIZACJI Dążymy do zbudowania drzewa jak najlepiej sprawdzającego się na nowych danych. Opymalizacja może być ylko pośrednia, gdyż nie znamy jeszcze nowych danych. Dobre drzewo powinno być: - poprawne przynajmniej w sosunku do danych reningowych; - ogólne, czyli akie, kóre wychwyuje pewne prawa ukrye w danych, co pozwala na prawidłową klasyfikacje przypadków niewidzianych wcześniej. Ogólność możemy oszacować zgodnie z zasadą minimalnego opisu: dobry model danych o aki, kóry jes jak najmniejszy. Typowa sraegia: minimalizujemy wielkość drzewa przy sałym progu poprawności (00% lub mniej). 4

ENTROPIA Kryerium wyboru esu: Dory es powinien zmniejszać głębokość drzewa, zn. zbliżać nas do liści jednoliych pod względem decyzji. Jednoliość ę można mierzyć za pomocą enropii (ozn. H): H ( P) = k p i log p i gdzie P=(p,... p k ) o pewien rozkład prawdopodobieńswa. W naszym przypadku P będzie rozkładem decyzji w węźle drzewa. Im enropia mniejsza, ym rozkład decyzji jes bardziej nierównomierny. WŁASNOŚCI ENTROPII Enropia jes równa zero ww. gdy rozkład jes skupiony na jednej warości. Enropia jes największa dla rozkładu równomiernego. H(P) = 2 Jeśli logarym ma podsawę 2, o wynik podany jes w biach. 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, 0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, 0 dec = dec = 2 dec = 3 dec = 4 dec = dec = 2 dec = 3 dec = 4 5

KRYTERIUM WYBORU TESTU Mając dany pewien przykładowy es dzielący ablicę danych na podablic, jego jakość liczymy nasępująco: Q( ) = P H ( P i i ) gdzie P o wielkość podablicy spełniającej warunek, H(P ) o enropia rozkładu decyzji w odpowiedniej podablicy. Wyrażenie Q powinniśmy sarać się zminimalizować. WSPÓŁCZYNNIK PRZYROSTU INFORMACJI W przypadku porównywania warunków generujących różną liczbę węzłów poomnych, porzebujemy miary, kóra jes mało (w porównaniu z innymi meodami) wrażliwa na liczbę klas: ϑ( ) = P i H H ( P ) ( P) i gdzie P o wielkość podablicy spełniającej warunek, H(P) o enropia podziału ablicy na podablice, czyli: H ( P) = P P i i log n n 6

ALGORYTM WYBORU TESTU Dla każdego arybuu a i Dla każdej warości esu ij policz jego jakość Q( ij ). Zapamięaj najlepszy es. Wybierz arybu i es najlepszy dla danego węzła. INNE RODZAJE TESTÓW Tesy na gałęziach drzewa nie muszą mieć posaci a i < v. Mogą o być np.: - warunki opisane kombinacjami liniowymi arybuów (prose, hiperpłaszczyzny) - warunki określające odległość obieku od pewnego punku - warunki ypu a i {v, v 2, v 3,...} Poszerzony język opisu danych może znacznie zmniejszyć wielkość drzewa, jednak znalezienie opymalnego warunku jes bardzo koszowne. 7