Indukowane Reguły Decyzyjne I. Wykład 3

Podobne dokumenty
Indukowane Reguły Decyzyjne I. Wykład 8

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Teoria grafów podstawy. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Reguły asocjacyjne, wykł. 11

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Wstęp do programowania. Drzewa. Piotr Chrząstowski-Wachtel

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Graf. Definicja marca / 1

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Co to są drzewa decyzji

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Podstawowe pojęcia dotyczące drzew Podstawowe pojęcia dotyczące grafów Przykłady drzew i grafów

0. ELEMENTY LOGIKI. ALGEBRA BOOLE A

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

Baza danych dla potrzeb zgłębiania DMX

Digraf. 13 maja 2017

7. Teoria drzew - spinanie i przeszukiwanie

Metody indukcji reguł

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Wysokość drzewa Głębokość węzła

Egzaminy i inne zadania. Semestr II.

Wykład 8. Drzewo rozpinające (minimum spanning tree)

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Matematyka dyskretna - 7.Drzewa

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Matematyka dyskretna

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

a) 7 b) 19 c) 21 d) 34

Analiza semantyczna. Gramatyka atrybutywna

Gramatyki grafowe. Dla v V, ϕ(v) etykieta v. Klasa grafów nad Σ - G Σ.

Algorytmiczna teoria grafów

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Matematyczne Podstawy Informatyki

Tworzenie gier na urządzenia mobilne

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Drzewa decyzyjne. 1. Wprowadzenie.

Minimalne drzewa rozpinające

Wprowadzenie. Data Science Uczenie się pod nadzorem

Programowanie sieciowe. Tadeusz Trzaskalik

Podstawowe własności grafów. Wykład 3. Własności grafów

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych DRZEWA KLASYFIKACYJNE ICH BUDOWA, PROBLEMY ZŁOŻONOŚCI I SKALOWALNOŚCI

Znajdowanie skojarzeń na maszynie równoległej

Algorytmiczna teoria grafów

Metoda Tablic Semantycznych

Porządek symetryczny: right(x)

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

Wyk lad 8: Leniwe metody klasyfikacji

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Ilustracja S1 S2. S3 ściana zewnętrzna

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Ogólne wiadomości o grafach

Algorytmy klasyfikacji

INFORMATYKA DANE.

Programowanie obiektowe

4 Klasyczny rachunek zdań

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Programowanie obiektowe

Programowanie dynamiczne i algorytmy zachłanne

Tadeusz Pankowski

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Przypomnij sobie krótki wstęp do teorii grafów przedstawiony na początku semestru.

TEORETYCZNE PODSTAWY INFORMATYKI

Wykład 5. Metoda tabel analitycznych dla Klasycznego Rachunku Zdań

Algorytmy i Struktury Danych.

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

(4) x (y z) = (x y) (x z), x (y z) = (x y) (x z), (3) x (x y) = x, x (x y) = x, (2) x 0 = x, x 1 = x

Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:

Algorytmy z powracaniem

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Efektywny parsing języka naturalnego przy użyciu gramatyk probabilistycznych

Lista liniowa dwukierunkowa

Sztuczna Inteligencja Projekt

Drzewa decyzyjne i lasy losowe

METODY DOWODZENIA TWIERDZEŃ I AUTOMATYZACJA ROZUMOWAŃ

Matematyczne Podstawy Informatyki

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

ED Laboratorium 3. Drzewa decyzyjne

6. Wstępne pojęcia teorii grafów

Kolorowanie wierzchołków Kolorowanie krawędzi Kolorowanie regionów i map. Wykład 8. Kolorowanie

Rachunek predykatów. Formuły rachunku predykatów. Plan wykładu. Relacje i predykaty - przykłady. Relacje i predykaty

Elementy teorii grafów Elementy teorii grafów

RBD Relacyjne Bazy Danych

Algebrą nazywamy strukturę A = (A, {F i : i I }), gdzie A jest zbiorem zwanym uniwersum algebry, zaś F i : A F i

Transkrypt:

Indukowane Reguły Decyzyjne I Wykład 3

IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2

Powtórzenie Cel stosowania modeli i reguł decyzyjnych optymalizacja procesów decyzyjnych 3

Przykład Choroba serca 13 wskaźników Decyzja: Brak choroby (1) Występowanie choroby (2) Koszty błędnych decyzji: Prognozowana choroba, w rzeczywistości brak choroby: 1 Prognozowany brak choroby, w rzeczywistości choroba wystąpi: 5 4

Przykład heart_disease Id Wartość Liczność Liczność % 0 1 150 55,35% 1 2 121 44,65% heart_disease Liczność % 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 1 2 5

Przykład Koszty błędnych decyzji Wszyscy zdrowi (150) jako chorzy 150 x 1= 150 Wszyscy chorzy (121) jako zdrowi 12 x 5 = 605 50 zdrowych jako chorzy, 40 chorych jako zdrowi 50 x 1 + 40 x 5 = 250 30 zdrowych jako chorzy, 20 chorych jako zdrowi 30 x 1 + 20 x 5 = 130 20 zdrowych jako chorzy, 10 chorych jako zdrowi 20 x 1 + 10 x 5 = 70 6

Podstawowa terminologia Dziedzina zbiór (oznaczany przez X) obiektów, których dotyczy nabywana wiedza. Mogą to być: przedmioty, osoby, wydarzenia, sytuacje, stany rzeczy Przykłady, obserwacje, rekordy, obiekty (instancje, krotki) elementy x X dziedziny X Atrybuty, zmienne, charakterystyki charakteryzacja przykładu, funkcje a: X A Kategorie, klasy rozłączne grupy obiektów Etykiety oznaczenia kategorii 7

Podstawowa terminologia Atrybuty funkcje określone na dziedzinie X. Każdy przykład x X jest opisywany przez wartości n 1 atrybutów: a 1 : X A 1, a 2 : X A 2,..., a n : X A n. Typy atrybutów: nominalne (nominal) o skończonym zbiorze nieuporządkowanych wartości porządkowe (ordinal) o przeliczalnym zbiorze uporządkowanych wartości ciągłe (real) o wartościach ze zbioru liczb rzeczywistych 8

Przykład 2 Zebrano dane dotyczące kredytobiorców: Wskaż: - Dziedzinę - Przykłady - Atrybuty i ich typ - Kategorie - Etykiety PŁEĆ WIEK PRZYCHODY p.a. HISTORIA KREDYTOWA PRZYZNANO M 44 100k Zaległości No F 25 20k Spłacony No F 33 70k Spłacony Yes M 41 40k Brak Yes M 35 220k W trakcie Yes F 36 140k Zaległości No M 24 35k Spłacony Yes M 19 20k Spłacony No M 61 120k Spłacony No 9

IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 10

Teoria grafów Graf - zbiór wierzchołków (vertices), które mogą być połączone krawędziami (edges) G=(V,E) A C B D E F V(G)= V={A, B, C, D, E, F} E(G)= E={{B,D},{C,D},{C,E},{E,F}} 11

Teoria grafów Graf - zbiór wierzchołków (vertices), które mogą być połączone krawędziami (edges) G=(V,E) Graf skierowany graf z krawędziami posiadającymi kierunek (początek i koniec) A C B D E F 12

Teoria grafów Graf zbiór wierzchołków (vertices), które mogą być połączone krawędziami (edges) G=(V,E) Graf skierowany graf z krawędziami posiadającymi kierunek (początek i koniec) Droga uporządkowany podzbiór sąsiadujących krawędzi A C B D E F 13

Teoria grafów Droga uporządkowany podzbiór sąsiadujących krawędzi Graf spójny dla każdego wierzchołka istnieje droga do każdego innego wierzchołka (bez uwzględniania kierunków). Graf silnie spójny istnieje droga z uwzględnianiem kierunków Cykl, obwód, droga zamknięta droga w grafie taka, że wierzchołek, w którym droga się rozpoczyna jest jednocześnie końcem ostatniej krawędzi tej drogi Graf acykliczny graf bez cyklu Pętla krawędź zaczynająca się i kończąca w tym samym węźle 14

Teoria grafów Używając pojęć: droga, cykl, graf skierowany, spójny scharakteryzuj poniższy graf A B D C F E 15

Teoria grafów Używając pojęć: droga, cykl, graf skierowany, spójny scharakteryzuj poniższy graf A B D C F E 16

Teoria grafów Używając pojęć: droga, cykl, graf skierowany, spójny scharakteryzuj poniższy graf A B D C F E 17

IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 18

Drzewo Drzewo spójny graf acykliczny. Czy ten graf jest drzewem? B A D C E 19

Drzewo Terminologia Krawędzie grafu gałęzie (branch) Wierzchołki połączone z więcej niż jedną krawędzią węzły (node) Pozostałe wierzchołki (tzn. połączone z jedną krawędzią) liście (leaf) Poziomy drzewa poziom 0 korzeń drzewa poziom k+1 węzły/liście potomne węzła poziomu k maksymalny poziom liści - głębokość drzewa 20

Drzewo Gałęzie: {A,B}, {A,C}, {C,D}, {C,E} Węzły: A, C Liście: B, D, E Korzeń = poziom 0: A Poziom 1: B, C Poziom 2: D, E Głębokość drzewa = 2 A C B D E 21

Drzewo klasyfikacyjne Drzewo klasyfikacyjne spójny, acykliczny graf skierowany liczba krawędzi wchodzących do wierzchołka wynosi co najwyżej 1 liczba krawędzi wychodzących z wierzchołka wynosi 0 lub jest większa niż 1 jeżeli liczba krawędzi A wchodzących do wierzchołka=0, to jest on korzeniem jeżeli liczba krawędzi wychodzących z wierzchołka =0, to jest on liściem C B D E 22

Przykład Wskaż: Korzeń Węzły Liście Gałęzie Poziom 1 Jaka jest głębokość drzewa? 23

Przykład 24

Drzewo klasyfikacyjne Drzewo klasyfikacyjne drzewo, którego węzły, gałęzie i liście mają specjalną interpretację: węzły testy przeprowadzane na wartościach atrybutów przykładów gałęzie grupują przykłady/instancje w zależności od wyniku testów z wyższych poziomów liście etykiety kategorii (decyzje) 25

Przykład Testy 26

Przykład Wyniki testów 27

Przykład Etykiety 28

IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 29

Testy Test funkcja, która przekształca przykłady w skończony zbiór wyników testu. Testy są przeprowadzane na wartościach atrybutów przykładów, czyli mogą być przedstawione jako funkcje gdzie t: A T, T={r 1, r 2,..., r m } zbiór możliwych wyników testu t. Test i jego wynik jest reprezentowany przez węzeł i gałąź wychodzącą z tego węzła. Każdemu wynikowi odpowiada jedna gałąź. Uwaga: Testów może być wiele! 30

Przykład - pogoda 31

Przykład - pogoda Atrybuty A 1 Outlook A 2 Temperature A 3 Humidity A 4 Windy Kategorie i etykiety kategorii Play no, yes Testy t i : A i T i T 1 = {sunny, overcast, rainy} T 2 = {hot, mild, cool} T 3 = {high, normal} T 4 = {false, true} 32

Przykład - pogoda Test Wyniki testu 33

Przykład - pogoda Atrybuty A 1 Outlook A 2 Temperature A 3 Humidity A 4 Windy Kategorie i etykiety kategorii Play no, yes Testy dla Outlook t 1i : A 1 T 1i T 11 = {sunny, overcast or rainy} T 12 = {overcast, sunny or rainy} T 13 = {rainy, sunny or overcast} 34

Przykład pogoda, atrybuty nominalne Test dla Outlook t 1i : A 1 T 1i T 11 = {sunny, overcast or rainy} T 12 = {overcast, sunny or rainy} T 13 = {rainy, sunny or overcast} 35

Przykład pogoda, atrybuty nominalne T 12 = {overcast, sunny or rainy} T 13 = {rainy, sunny or overcast} 36

Przykład pogoda, atrybuty nominalne 37

Przykład pogoda, atrybuty ciągłe Humidity: T={<77.5, >=77.5} 38

Przykład pogoda, atrybuty ciągłe 39

IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 40

Drzewo jako funkcja klasyfikująca Drzewo pozwala wyznaczyć kategorię przykładu: Należy wyznaczyć drogę od korzenia drzewa do jednego z liści odpowiadającą rozważanemu przykładowi Droga jest identyfikowana przez wykonanie testów umieszczonych w kolejno odwiedzanych węzłach Wybór gałęzi na kolejnym poziomie odpowiada uzyskanemu wynikowi testu Możliwość przypisania kategorii obserwacjom przez drzewo oznacza, że jest ono funkcją f:x C. 41

Przykład - pogoda NO YES YES NO 42

Przykład - kredyt Kategorie przyznanie kredytu Etykiety = {K (kredyt), BK (brak kredytu)} Wskaż testy na podanym drzewie Przypisz kategorię do 40 letniego posiadacza mieszkania spółdzielczego, o dochodach 2900 zł 43

Przykład choroba serca v1 44

Przykład choroba serca v2 45

IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 46

Reguły decyzyjne Reguła zdanie warunkowe postaci JEŚLI p TO q gdzie p zdanie logiczne (poprzednik) q zdanie logiczne (następnik) Reguła reprezentuje wnioskowanie logiczne typu: Jeśli prawdziwy jest poprzednik, to prawdziwy jest również następnik reguły 47

W regule decyzyjnej Poprzednik Reguły decyzyjne stanowi zestaw warunków (testów) postawionych na wartości atrybutów (koniunkcję warunków elementarnych) Następnik oznacza przypisanie do kategorii Jeśli atrybuty obserwacji spełniają poprzednik, to reguła przypisuje przykładowi kategorię, a więc jest funkcją f:x C. 48

Reguły a drzewo klasyfikacyjne W dowolnej ścieżce (od korzenia do liścia) niech: t 1, t 2,..., t m testy występujące na tej ścieżce r 1, r 2,..., r m wyniki testów odpowiadające gałęziom na tej ścieżce, gdzie r 1 T t1, r 2 T t2,..., r m T tm d C etykieta związana z liściem Wtedy ścieżka jest równoważna z regułą decyzyjną: t 1 (x)=r 1 t 2 (x)=r 2... t m (x)=r m c(x)=d Uwaga! Ponieważ dla każdego liścia istnieje ścieżka łącząca ten liść z korzeniem, więc zbiór reguł związanych ze ścieżkami klasyfikuje wszystkie przykłady z dziedziny X. 49

Przykład - kredyt Kategorie przyznanie kredytu Etykiety = {K (kredyt), BK (brak kredytu)} Zbuduj reguły decyzyjne dla drzewa Wskaż regułę dotyczącą 40 letniego posiadacza mieszkania spółdzielczego, o dochodach 2900 zł 50

Przykład - kredyt Która reguła dotyczy 40 letniego posiadacza mieszkania spółdzielczego, o dochodach 2900 zł? Czy uzyska on kredyt? 51

Przykład choroba serca węzeł Reguła 3 thal IN (6, 7) AND major_vessels < 0.500 AND exerc_ind_angina IN (1) THEN 2 thal IN (6, 7) major_vessels < 0.500 exerc_ind_angina IN (0) 7 AND AND AND age < 51.000 THEN 2 8 thal IN (6, 7) AND major_vessels < 0.500 AND exerc_ind_angina IN (0) AND age >= 51.000 THEN 1 thal IN (6, 7) 11 AND major_vessels >= 0.500 THEN 2 17 thal IN (3) AND chest_pain_type IN (1, 2, 3) THEN 1 thal IN (3) chest_pain_type IN (4) 29 AND AND major_vessels < 0.500 THEN 1 thal IN (3) chest_pain_type IN (4) 34 AND AND major_vessels >= 0.500 THEN 2 52

Podsumowanie ważne pojęcia Graf skierowany Drzewo Drzewo klasyfikacyjne Testy Gałęzie Węzły Liście Poziomy drzewa Głębokość drzewa Klasyfikacja i nadawanie etykiet Reguły decyzyjne 53