Indukowane Reguły Decyzyjne I Wykład 3
IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2
Powtórzenie Cel stosowania modeli i reguł decyzyjnych optymalizacja procesów decyzyjnych 3
Przykład Choroba serca 13 wskaźników Decyzja: Brak choroby (1) Występowanie choroby (2) Koszty błędnych decyzji: Prognozowana choroba, w rzeczywistości brak choroby: 1 Prognozowany brak choroby, w rzeczywistości choroba wystąpi: 5 4
Przykład heart_disease Id Wartość Liczność Liczność % 0 1 150 55,35% 1 2 121 44,65% heart_disease Liczność % 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 1 2 5
Przykład Koszty błędnych decyzji Wszyscy zdrowi (150) jako chorzy 150 x 1= 150 Wszyscy chorzy (121) jako zdrowi 12 x 5 = 605 50 zdrowych jako chorzy, 40 chorych jako zdrowi 50 x 1 + 40 x 5 = 250 30 zdrowych jako chorzy, 20 chorych jako zdrowi 30 x 1 + 20 x 5 = 130 20 zdrowych jako chorzy, 10 chorych jako zdrowi 20 x 1 + 10 x 5 = 70 6
Podstawowa terminologia Dziedzina zbiór (oznaczany przez X) obiektów, których dotyczy nabywana wiedza. Mogą to być: przedmioty, osoby, wydarzenia, sytuacje, stany rzeczy Przykłady, obserwacje, rekordy, obiekty (instancje, krotki) elementy x X dziedziny X Atrybuty, zmienne, charakterystyki charakteryzacja przykładu, funkcje a: X A Kategorie, klasy rozłączne grupy obiektów Etykiety oznaczenia kategorii 7
Podstawowa terminologia Atrybuty funkcje określone na dziedzinie X. Każdy przykład x X jest opisywany przez wartości n 1 atrybutów: a 1 : X A 1, a 2 : X A 2,..., a n : X A n. Typy atrybutów: nominalne (nominal) o skończonym zbiorze nieuporządkowanych wartości porządkowe (ordinal) o przeliczalnym zbiorze uporządkowanych wartości ciągłe (real) o wartościach ze zbioru liczb rzeczywistych 8
Przykład 2 Zebrano dane dotyczące kredytobiorców: Wskaż: - Dziedzinę - Przykłady - Atrybuty i ich typ - Kategorie - Etykiety PŁEĆ WIEK PRZYCHODY p.a. HISTORIA KREDYTOWA PRZYZNANO M 44 100k Zaległości No F 25 20k Spłacony No F 33 70k Spłacony Yes M 41 40k Brak Yes M 35 220k W trakcie Yes F 36 140k Zaległości No M 24 35k Spłacony Yes M 19 20k Spłacony No M 61 120k Spłacony No 9
IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 10
Teoria grafów Graf - zbiór wierzchołków (vertices), które mogą być połączone krawędziami (edges) G=(V,E) A C B D E F V(G)= V={A, B, C, D, E, F} E(G)= E={{B,D},{C,D},{C,E},{E,F}} 11
Teoria grafów Graf - zbiór wierzchołków (vertices), które mogą być połączone krawędziami (edges) G=(V,E) Graf skierowany graf z krawędziami posiadającymi kierunek (początek i koniec) A C B D E F 12
Teoria grafów Graf zbiór wierzchołków (vertices), które mogą być połączone krawędziami (edges) G=(V,E) Graf skierowany graf z krawędziami posiadającymi kierunek (początek i koniec) Droga uporządkowany podzbiór sąsiadujących krawędzi A C B D E F 13
Teoria grafów Droga uporządkowany podzbiór sąsiadujących krawędzi Graf spójny dla każdego wierzchołka istnieje droga do każdego innego wierzchołka (bez uwzględniania kierunków). Graf silnie spójny istnieje droga z uwzględnianiem kierunków Cykl, obwód, droga zamknięta droga w grafie taka, że wierzchołek, w którym droga się rozpoczyna jest jednocześnie końcem ostatniej krawędzi tej drogi Graf acykliczny graf bez cyklu Pętla krawędź zaczynająca się i kończąca w tym samym węźle 14
Teoria grafów Używając pojęć: droga, cykl, graf skierowany, spójny scharakteryzuj poniższy graf A B D C F E 15
Teoria grafów Używając pojęć: droga, cykl, graf skierowany, spójny scharakteryzuj poniższy graf A B D C F E 16
Teoria grafów Używając pojęć: droga, cykl, graf skierowany, spójny scharakteryzuj poniższy graf A B D C F E 17
IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 18
Drzewo Drzewo spójny graf acykliczny. Czy ten graf jest drzewem? B A D C E 19
Drzewo Terminologia Krawędzie grafu gałęzie (branch) Wierzchołki połączone z więcej niż jedną krawędzią węzły (node) Pozostałe wierzchołki (tzn. połączone z jedną krawędzią) liście (leaf) Poziomy drzewa poziom 0 korzeń drzewa poziom k+1 węzły/liście potomne węzła poziomu k maksymalny poziom liści - głębokość drzewa 20
Drzewo Gałęzie: {A,B}, {A,C}, {C,D}, {C,E} Węzły: A, C Liście: B, D, E Korzeń = poziom 0: A Poziom 1: B, C Poziom 2: D, E Głębokość drzewa = 2 A C B D E 21
Drzewo klasyfikacyjne Drzewo klasyfikacyjne spójny, acykliczny graf skierowany liczba krawędzi wchodzących do wierzchołka wynosi co najwyżej 1 liczba krawędzi wychodzących z wierzchołka wynosi 0 lub jest większa niż 1 jeżeli liczba krawędzi A wchodzących do wierzchołka=0, to jest on korzeniem jeżeli liczba krawędzi wychodzących z wierzchołka =0, to jest on liściem C B D E 22
Przykład Wskaż: Korzeń Węzły Liście Gałęzie Poziom 1 Jaka jest głębokość drzewa? 23
Przykład 24
Drzewo klasyfikacyjne Drzewo klasyfikacyjne drzewo, którego węzły, gałęzie i liście mają specjalną interpretację: węzły testy przeprowadzane na wartościach atrybutów przykładów gałęzie grupują przykłady/instancje w zależności od wyniku testów z wyższych poziomów liście etykiety kategorii (decyzje) 25
Przykład Testy 26
Przykład Wyniki testów 27
Przykład Etykiety 28
IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 29
Testy Test funkcja, która przekształca przykłady w skończony zbiór wyników testu. Testy są przeprowadzane na wartościach atrybutów przykładów, czyli mogą być przedstawione jako funkcje gdzie t: A T, T={r 1, r 2,..., r m } zbiór możliwych wyników testu t. Test i jego wynik jest reprezentowany przez węzeł i gałąź wychodzącą z tego węzła. Każdemu wynikowi odpowiada jedna gałąź. Uwaga: Testów może być wiele! 30
Przykład - pogoda 31
Przykład - pogoda Atrybuty A 1 Outlook A 2 Temperature A 3 Humidity A 4 Windy Kategorie i etykiety kategorii Play no, yes Testy t i : A i T i T 1 = {sunny, overcast, rainy} T 2 = {hot, mild, cool} T 3 = {high, normal} T 4 = {false, true} 32
Przykład - pogoda Test Wyniki testu 33
Przykład - pogoda Atrybuty A 1 Outlook A 2 Temperature A 3 Humidity A 4 Windy Kategorie i etykiety kategorii Play no, yes Testy dla Outlook t 1i : A 1 T 1i T 11 = {sunny, overcast or rainy} T 12 = {overcast, sunny or rainy} T 13 = {rainy, sunny or overcast} 34
Przykład pogoda, atrybuty nominalne Test dla Outlook t 1i : A 1 T 1i T 11 = {sunny, overcast or rainy} T 12 = {overcast, sunny or rainy} T 13 = {rainy, sunny or overcast} 35
Przykład pogoda, atrybuty nominalne T 12 = {overcast, sunny or rainy} T 13 = {rainy, sunny or overcast} 36
Przykład pogoda, atrybuty nominalne 37
Przykład pogoda, atrybuty ciągłe Humidity: T={<77.5, >=77.5} 38
Przykład pogoda, atrybuty ciągłe 39
IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 40
Drzewo jako funkcja klasyfikująca Drzewo pozwala wyznaczyć kategorię przykładu: Należy wyznaczyć drogę od korzenia drzewa do jednego z liści odpowiadającą rozważanemu przykładowi Droga jest identyfikowana przez wykonanie testów umieszczonych w kolejno odwiedzanych węzłach Wybór gałęzi na kolejnym poziomie odpowiada uzyskanemu wynikowi testu Możliwość przypisania kategorii obserwacjom przez drzewo oznacza, że jest ono funkcją f:x C. 41
Przykład - pogoda NO YES YES NO 42
Przykład - kredyt Kategorie przyznanie kredytu Etykiety = {K (kredyt), BK (brak kredytu)} Wskaż testy na podanym drzewie Przypisz kategorię do 40 letniego posiadacza mieszkania spółdzielczego, o dochodach 2900 zł 43
Przykład choroba serca v1 44
Przykład choroba serca v2 45
IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 46
Reguły decyzyjne Reguła zdanie warunkowe postaci JEŚLI p TO q gdzie p zdanie logiczne (poprzednik) q zdanie logiczne (następnik) Reguła reprezentuje wnioskowanie logiczne typu: Jeśli prawdziwy jest poprzednik, to prawdziwy jest również następnik reguły 47
W regule decyzyjnej Poprzednik Reguły decyzyjne stanowi zestaw warunków (testów) postawionych na wartości atrybutów (koniunkcję warunków elementarnych) Następnik oznacza przypisanie do kategorii Jeśli atrybuty obserwacji spełniają poprzednik, to reguła przypisuje przykładowi kategorię, a więc jest funkcją f:x C. 48
Reguły a drzewo klasyfikacyjne W dowolnej ścieżce (od korzenia do liścia) niech: t 1, t 2,..., t m testy występujące na tej ścieżce r 1, r 2,..., r m wyniki testów odpowiadające gałęziom na tej ścieżce, gdzie r 1 T t1, r 2 T t2,..., r m T tm d C etykieta związana z liściem Wtedy ścieżka jest równoważna z regułą decyzyjną: t 1 (x)=r 1 t 2 (x)=r 2... t m (x)=r m c(x)=d Uwaga! Ponieważ dla każdego liścia istnieje ścieżka łącząca ten liść z korzeniem, więc zbiór reguł związanych ze ścieżkami klasyfikuje wszystkie przykłady z dziedziny X. 49
Przykład - kredyt Kategorie przyznanie kredytu Etykiety = {K (kredyt), BK (brak kredytu)} Zbuduj reguły decyzyjne dla drzewa Wskaż regułę dotyczącą 40 letniego posiadacza mieszkania spółdzielczego, o dochodach 2900 zł 50
Przykład - kredyt Która reguła dotyczy 40 letniego posiadacza mieszkania spółdzielczego, o dochodach 2900 zł? Czy uzyska on kredyt? 51
Przykład choroba serca węzeł Reguła 3 thal IN (6, 7) AND major_vessels < 0.500 AND exerc_ind_angina IN (1) THEN 2 thal IN (6, 7) major_vessels < 0.500 exerc_ind_angina IN (0) 7 AND AND AND age < 51.000 THEN 2 8 thal IN (6, 7) AND major_vessels < 0.500 AND exerc_ind_angina IN (0) AND age >= 51.000 THEN 1 thal IN (6, 7) 11 AND major_vessels >= 0.500 THEN 2 17 thal IN (3) AND chest_pain_type IN (1, 2, 3) THEN 1 thal IN (3) chest_pain_type IN (4) 29 AND AND major_vessels < 0.500 THEN 1 thal IN (3) chest_pain_type IN (4) 34 AND AND major_vessels >= 0.500 THEN 2 52
Podsumowanie ważne pojęcia Graf skierowany Drzewo Drzewo klasyfikacyjne Testy Gałęzie Węzły Liście Poziomy drzewa Głębokość drzewa Klasyfikacja i nadawanie etykiet Reguły decyzyjne 53