Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów i reguª decyzyjnych Metody wnioskowa«boolowskich w szukaniu reduktów Systemy decyzyjne oparte o zbiory przybli»one 6 Metoda drzew decyzyjnych Wprowadzenie Konstrukcja drzew decyzyjnych 7 Problem dyskretyzacji Przypomnienia podstawowych poj Problem dyskretyzacji Dyskretyzacja metod wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 124 / 297
Co to jest drzewo decyzyjne Jest to struktura drzewiasta, w której w zªy wewn trzne zawieraj testy na warto±ciach atrybutów z ka»dego w zªa wewn trznego wychodzi tyle gaª zi, ile jest mo»liwych wyników testu w tym w zle; li±cie zawieraj decyzje o klasykacji obiektów Drzewo decyzyjne koduje program zawieraj cy same instrukcje warunkowe H.S. Nguyen (MIM UW) SYD 30 listopada 2017 125 / 297
Przykªad: klasykacja robotów H.S. Nguyen (MIM UW) SYD 30 listopada 2017 126 / 297
Przykªad: drzewo decyzyjne H.S. Nguyen (MIM UW) SYD 30 listopada 2017 127 / 297
Klasykacja drzewem decyzyjnym H.S. Nguyen (MIM UW) SYD 30 listopada 2017 128 / 297
Przykªad tablicy decyzyjnej x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no H.S. Nguyen (MIM UW) SYD 30 listopada 2017 129 / 297
Rodzaje testów Wyró»niamy 2 klasy funkcji testów Testy operuj na warto±ciach pojedy«czego atrybutu (ang. univariate tree): t : V a R t ; Testy b d ce kombinacj warto±ci kilku atrybutów (ang. multivariate tree): t : V a1 V a2... V ak R t ; gdzie Va : dziedzina atrybutu a; Rt : zbiór mo»liwych wyników testu; H.S. Nguyen (MIM UW) SYD 30 listopada 2017 130 / 297
Przykªady funkcji testu Dla atrybutów nominalnych a i oraz obiektu x: test to»samo±ciowy: t(x) { a i (x) 1 if (a i (x) = v) test równo±ciowy: t(x) = 0 otherwise { 1 if (a i (x) V ) test przynale»no±ciowy: t(x) = 0 otherwise Dla atrybutów o warto±ciach ci gªych: { 1 if (a i (x) > c) test nierówno±ciowy: t(x) = 0 otherwise, i.e., (a i (x) c) gdzie c jest warto±ci progow lub ci ciem H.S. Nguyen (MIM UW) SYD 30 listopada 2017 131 / 297
Ocena jako±ci drzewa Jako± drzewa ocenia si za pomoc rozmiaru: im drzewo jest mniejsze, tym lepsze maªa liczba w zªów, maªa wysoko±, lub maªa liczba li±ci; za pomoc dokªadno±ci klasykacji na zbiorze treningowym za pomoc dokªadno±ci klasykacji na zbiorze testowym Na przykªad: Q(T ) = α size(t ) + β accuracy(t, P) gdzie α, β s liczbami rzeczywistymi size(.) jest rozmiarem drzewa accuracy(.,.) jest jako±ci klasykacji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 132 / 297
Denition Problem konstrukcji drzew optymalnych: Dane s : tablica decyzyjna S zbiór funkcji testów TEST, kryterium jako±ci Q Szukane: drzewo decyzyjne T o najwy»szej jako±ci Q(T). Dla wi kszo±ci parametrów, problem szukania optymalnego drzewa jest NP-trudny! Wnioski: Trudno znale¹ optymalne drzewo w czasie wielomianowym; Konieczno± projektowania heurystyk. Quiz: Czy drzewo z przykªadu jest optymalne? H.S. Nguyen (MIM UW) SYD 30 listopada 2017 133 / 297
Optymalne drzewo decyzyjne H.S. Nguyen (MIM UW) SYD 30 listopada 2017 134 / 297
Ogólny algorytm H.S. Nguyen (MIM UW) SYD 30 listopada 2017 135 / 297
Funkcje pomocnicze Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów: jest pusty lub zawiera obiekty wyª cznie jednej klasy decyzyjnej lub nie ulega podziale przez»aden test Wyznaczenie etykiety zasad wi kszo±ciow : kategoria(p, dec) = arg max c V dec P [dec=c] tzn., etykiet dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze. Kryterium wyboru testu: heurytyczna funkcja oceniaj ca testy. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 136 / 297
Miary ró»norodno±ci zbioru Ka»dy zbiór obiektów X ulega podziaªowi na klasy decyzyjne: X = C 1 C 2... C d gdzie C i = {u X : dec(u) = i}. Wektor (p 1,..., p r ), gdzie p i = C i X, nazywamy rozkªadem klas decyzyjnych w X. ( X 2 C i 2) Conflict(X ) = i<j C i C j = 1 2 Entropy(X ) = C i X log C i X = p i log p i H.S. Nguyen (MIM UW) SYD 30 listopada 2017 137 / 297
Wªasno±ci miar róznorodno±ci Funkcja conflict(x ) oraz Ent(X ) przyjmuj najwi ksz warto±, gdy rozkªad klas decyzyjnych w zbiorze X jest równomierny. najmniejsz warto±, gdy wszystkie obiekty w X s jednej kategorii (X jest jednorodny) W przypadku 2 klas decyzyjnych: Conflict(p, 1 p) = X 2 p(1 p) Entropy(p, 1 p) = p log p (1 p) log(1 p) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 138 / 297
Kryteria wyboru testu Niech t deniuje podziaª X na podzbiory: X 1... X r. Mo»emy stosowa nast puj ce miary do oceniania testów: liczba par obiektów rozró»nionych przez test t. disc(t, X ) = conflict(x ) conflict(x i ) kryterium przyrostu informacji (ang. Inf. gain). Gain(t, X ) = Entropy(X ) i p i Entropy(X i ) Im wi ksze s warto±ci tych ocen, tym lepszy jest test. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 139 / 297
Miara Entropii dla ci N i p i Entropy(X i ) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 140 / 297
Rozró»nialno± dla ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 141 / 297
Wªasno±ci funkcji ocen: Monotoniczno± : Je±li t deniuje drobniejszy podziaª ni» t to Gain(t, X ) Gain(t, X ) (analogiczn sytuacj mamy dla miary conflict(). Funkcje ocen testu t przyjmuj maªe warto±ci je±li rozkªady decyzyjne w podzbiorach wyznaczanych przez t s zbli»one. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 142 / 297
Uniwersalne oceny Zamiast bezwzgl dnego przyrostu informacji, stosujemy wspóªczynnik przyrostu informacji Gain_ratio = Gain(t, X ) iv(t, X ) gdzie iv(t, X ), zwana warto±ci informacyjn testu t (information value), jest deniowana jak nast.: iv(t, X ) = r i=1 X i X log X i X H.S. Nguyen (MIM UW) SYD 30 listopada 2017 143 / 297
Ocena funkcji testu Rozró»nialno± : disc(t, X ) = conflict(x ) conflict(x i ) Przyrostu informacji (Information gain). Gain(t, X ) = Entropy(X ) i p i Entropy(X i ) Wspóªczynnik przyrostu informacji (gain ratio) Gain_ratio = Gain(t, X ) r X i i=1 X log X i X Inne (np. Gini's index, test χ 2,...) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 144 / 297
Przycinanie drzew Problem nadmiernego dopasowania do danych trenuj cych (prob. przeuczenia si ). Rozwi zanie: zasada najkrótszego opisu: skracamy opis kosztem dokªadno±ci klasykacji w zbiorze treningowym zast pienie podrzewa nowym li±ciem (przycinanie) lub mniejszym podrzewem. Podstawowe pytania: Q: Kiedy poddrzewo mo»e by zast pione li±ciem? A: Je±li nowy li± jest niegorszy ni» istniej ce poddrzewo dla nowych obiektów (nienale» cych do zbioru treningowego). Q: Jak to sprawdzi? A: Testujemy na próbce zwanej zbiorem przycinania! H.S. Nguyen (MIM UW) SYD 30 listopada 2017 145 / 297
Ogólny schemat algorytmu przycinania H.S. Nguyen (MIM UW) SYD 30 listopada 2017 146 / 297
Kryterium przycinania Niech e T (l) - bª d klasykacji kandyduj cego li±cia l, e T (n) - bª d klasykacji poddrzewa o korzeniu w n. Przycinanie ma miejsce, gdy e T (l) e T (n) + µ na ogóª przyjmujemy µ = 1. e T (n)(1 e T (n)) P T,n H.S. Nguyen (MIM UW) SYD 30 listopada 2017 147 / 297
Przykªad H.S. Nguyen (MIM UW) SYD 30 listopada 2017 148 / 297
Brakuje danych podczas uczenia si Mo»liwe s nast puj ce rozwi zania: Zredukowanie warto±ci kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wspóªczynnik równy: liczba obiektów z nieznanymi warto±ciami liczba wszystkich obiektów Wypeªnienie nieznanych warto±ci atrybutu najcz ±ciej wyst puj c warto±ci w zbiorze obiektów zwi zanych z aktualnym w zªem Wypeªnienie nieznanych warto±ci atrybutu ±redni wa»on wyznaczon na jego zbiorze warto±ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 149 / 297
Brakuje danych podczas klasykowania Mo»liwe rozwi zania: Zatrzymanie procesu klasykacji w aktualnym w ¹le i zwrócenie wi kszo±ciowej etykiety dla tego w zªa (etykiety, jak ma najwi ksz liczb obiektów trenuj cych w tym w ¹le) Wypeªnienie nieznanej warto±ci wedªug jednej z heurystyk podanych wy»ej dla przypadku konstruowania drzewa Uwzgl dnienie wszystkich gaª zi (wszystkich mo»liwych wyników testu) i poª czenie odpowiednio zwa»onych probabilistycznie rezultatatów w rozkªad prawdopodobie«stwa na zbiorze mo»liwych klas decyzyjnych dla obiektu testowego. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 150 / 297
Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów i reguª decyzyjnych Metody wnioskowa«boolowskich w szukaniu reduktów Systemy decyzyjne oparte o zbiory przybli»one 6 Metoda drzew decyzyjnych Wprowadzenie Konstrukcja drzew decyzyjnych 7 Problem dyskretyzacji Przypomnienia podstawowych poj Problem dyskretyzacji Dyskretyzacja metod wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 151 / 297
Podstawowe poj cia Tablic decyzyjn nazywamy struktur S = (U, A {dec}) gdzie U nazywa si zbiorem obiektów U = {u 1,..., u n } A jest zbiorem atrybutów postaci a j : U V j dec jest specjalnym atrybutem zwanym decyzj A S a 1 a 2... dec u 1 100 27... 1 u 2 120 86... 1 u 3 70 52... 1 u 4 95 18... 1............... u 1200 71 82... 2............... dec : U {1,..., d} H.S. Nguyen (MIM UW) SYD 30 listopada 2017 152 / 297
Podstawowe poj cia (c.d.) Klasy decyzyjne: dec deniuje podziaª U = DEC 1... DEC d gdzie DEC k = {x U : dec(x) = k} Rozró»nialno± : Dane s obiekty x, y U zbiór atrybutów B A, mówimy,»e x, y s rozró»nialne przez B wtw, gdy istnieje a B taki,»e a(x) a(y) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 153 / 297
Redukt Zbiór atrybutów B A nazywamy reduktem tablicy S wtw, gdy dla dowolnych obiektów x, y U je±li dec(x) dec(y) i x, y s rozró»nialne przez A, to s równie» rozró»nialne przez B (B zachowuje rozró»nialno± zbioru A) B jest niezredukowalny (tzn.»aden wªa±ciwy podzbiór B nie zachowuje rozró»nialno±ci zbioru A) Problemy: Czy istnieje redukt zawieraj cy k atrybutów? Znale¹ redukt o najmniejszej liczbie atrybutów. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 154 / 297
Funkcje boolowskie funkcje f : {0, 1} n {0, 1} nazywamy Boolowskimi. monotoniczne funkcje Boolowskie mo»na zapisa bez u»ycia negacji. jednomian f = x i1 x i2...x ik monotonicznej f je±li nazywamy implikantem pierwszym funkcji f (x) f (x) dla ka»dego wektora x (jest implikantem) ka»da funkcja wi ksza od f nie jest implikantem Np. funkcja f (x 1, x 2, x 3 ) = (x 1 + x 2 )(x 2 + x3) posiada 2 implikanty pierwsze: f 1 = x 2 i f 2 = x 1 x 3 H.S. Nguyen (MIM UW) SYD 30 listopada 2017 155 / 297
Metoda wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 156 / 297
Przykªad dyskretyzacji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 157 / 297
Ilustracja danych i ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 158 / 297
Niesprzeczny zbiór ci Dana jest niesprzeczna tablica decyzyjna S = (U, A {dec}) Mówimy,»e ci cie (a, c) rozró»nia obiekty x, y je±li albo a(x) < c < a(y) lub a(y) < c < a(x). Zbiór ci P nazywamy niesprzecznym z S je±li dla ka»dej pary obiektów x, y U takich,»e d(x) d(y) istnieje ci cie (a, c) P rozró»niaj ce x i y. Zbiór ci P opt nazywamy optymalnym dla S je±li P opt posiada najmniejsz liczb ci w±ród niesprzecznych zbiorów ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 159 / 297
Klasykacje metod dyskretyzacji 1 Lokalne a globalne metody: 2 Statyczne a dynamiczne metody: Metody statyczne poszukuj zbioru ci dla ka»dego atrybutu w sposób niezale»ny od innych atrybutów. Metody dynamiczne szukaj ci na wszystkich atrybutach jednocze±nie 3 Z nadzorem lub bez: H.S. Nguyen (MIM UW) SYD 30 listopada 2017 160 / 297
Znane metody Podziaª na przedziaªy o równych dªugo±ciach lub równych cz stotliwo±ciach; Metoda OneR Testy statystyczne χ 2 = 2 r (n ij E ij ) 2 E ij i=1 j=1 Z u»yciem funkcji entropii; Gini's index Gain (a; c; U) = Ent (U) E (a; c; U) G(a; c; U) = Gini(U) U L U Gini(U L) U R Gini(U R ) U H.S. Nguyen (MIM UW) SYD 30 listopada 2017 161 / 297
Przykªad H.S. Nguyen (MIM UW) SYD 30 listopada 2017 162 / 297
H.S. Nguyen (MIM UW) SYD 30 listopada 2017 163 / 297
H.S. Nguyen (MIM UW) SYD 30 listopada 2017 164 / 297
Reguªa 3-4-5 Metoda statyczna bez nadzoru: podziaª danych numerycznych na równomierne przedziaªy; Rozpatrujemy liczb ró»nych najbardziej znacz cych cyfr w danym przedziale: je±li ta liczba wynosi 3,6,7 lub 9 to podziel dany przedziaª na 3 równe przedziaªy. je±li ta liczba wynosi 2,4 lub 8 to podziel dany przedziaª na 4 równe przedziaªy. je±li ta liczba wynosi 1,5 lub 10 to podziel dany przedziaª na 5 równych przedziaªów. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 165 / 297
Przykªad H.S. Nguyen (MIM UW) SYD 30 listopada 2017 166 / 297
Dyskretyzacja metod Boolowsk Dana jest niesprzeczna tablica decyzyjna S = (U, A {dec}) Niech C b dzie zbiorem kandyduj cych ci dla tablicy S; Ka»de ci cie (a, c) jest skojarzone ze zmienn Boolowsk p (a,c) ; Niech ψ x,y b dzie funkcj rozró»nialno±ci dla x, y: ψ x,y = {p (a,c) : (a, c) rozró»nia x, y}. Funkcja boolowska Ψ S = {ψ x,y : dec(x) dec(y)} koduje problem dyskretyzacji. Minimalny implikant pierwszy Ψ S optymalny zbiór ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 167 / 297
Przykªad Ciecia kandyduj ce (a, 0.9); (a, 1.15); (a, 1.35); (a, 1.5); (b, 0.75); (b, 1.5); (b, 2.5). Oznaczmy przez p1 a, pa 2, pa 3, pa 4, pb 1, pb 2, pb 3 odpowiadaj ce ci ciom. Wówczas zmienne Boolowskie ψ (2, 1) = p1 a + pb 1 + pb 2 ; ψ (2, 4) = pa 2 + pa 3 + pb 1 ; ψ (2, 6) = p2 a + pa 3 + pa 4 + pb 1 + pb 2 + pb 3 ; ψ (2, 7) = pa 2 + pb 1 ; ψ (3, 1) = p1 a + pa 2 + pb 3 ; ψ (3, 4) = pa 2 + pb 2 + pb 3 ; ψ (3, 6) = p3 a + pa 4 ; ψ (3, 7) = pb 2 + pb 3 ; ψ (5, 1) = p1 a + pa 2 + pa 3 ; ψ (5, 4) = pb 2 ; ψ (5, 6) = p4 a + pb 3 ; ψ (5, 7) = pa 3 + pb 2. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 168 / 297
Przykªad Funkcja koduj ca problem dyskretyzacji Φ S = ( p a + 1 pb + ( 1 2) pb p a + 1 pa + ) 2 pb 3 (p a + 1 pa + 2 pa) ( 3 p a + 2 pa + ) ( 3 pb 1 p b 2 p a + 2 pb + ) ( 2 pb 3 p a + 2 pa + 3 pa + 4 pb + 1 pb + ) 2 pb 3 (p a ( + 3 pa) 4 p a + ) ( 4 pb 3 p a + ) ( 2 pb 1 p b + ) ( 2 pb 3 p a + 3 2) pb. Po sprowadzeniu do postaci DNF mamy: Φ S = p a 2p a 4p b 2 + p a 2p a 3p b 2p b 3 + p a 3p b 1p b 2p b 3 + p a 1p a 4p b 1p b 2. Czyli optymalnym zbiorem ci jest {(a, 1.15), (a, 1.5), (b, 1.5)} H.S. Nguyen (MIM UW) SYD 30 listopada 2017 169 / 297
Optymalny zbiór ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 170 / 297
Heurystyka W algorytmie zachªannym, preferujemy ci cia rozró»niaj ce najwi ksz liczb par obiektów. Miara rozró»nialno±ci dla danego ci cia wzgl dem zbioru obiektów X : disc(c, X ) = conflict(x ) conflict(x L ) conflict(x R ) gdzie conflict(x ) = liczba par obiektów ró»nych decyzji w zbiorze X. Mo»na realizowa zachªann heurystyk w czasie O(nk log n P ), gdzie n jest liczb obiektów, k jest liczb atrybutów, P jest zbiorem ci znalezionych przez algorytm H.S. Nguyen (MIM UW) SYD 30 listopada 2017 171 / 297
Heurystyka S p a 1 p a 2 p a 3 p a 4 p b 1 p b 2 p b 3 d (u 1, u 2 ) 1 0 0 0 1 1 0 1 (u 1, u 3 ) 1 1 0 0 0 0 1 1 (u 1, u 5 ) 1 1 1 0 0 0 0 1 (u 4, u 2 ) 0 1 1 0 1 0 0 1 (u 4, u 3 ) 0 0 1 0 0 1 1 1 (u 4, u 5 ) 0 0 0 0 0 1 0 1 (u 6, u 2 ) 0 1 1 1 1 1 1 1 (u 6, u 3 ) 0 0 1 1 0 0 0 1 (u 6, u 5 ) 0 0 0 1 0 0 1 1 (u 7, u 2 ) 0 1 0 0 1 0 0 1 (u 7, u 3 ) 0 0 0 0 0 1 1 1 (u 7, u 5 ) 0 0 1 0 0 1 0 1 new 0 0 0 0 0 0 0 0 H.S. Nguyen (MIM UW) SYD 30 listopada 2017 172 / 297
Uogólnienia Hiperpªaszczyzny jako ci cia; Krzywe wy»szego rz du; Grupowanie warto±ci nominalnych; Inne kryteria optymalizacji. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 173 / 297
Zastosowania Dyskretyzacja jako proces wst pnego przetwarzania Miar rozró»nialno±ci mo»na stosowa do konstrukcji drzew decyzyjnych. Drzewa generowane t miar maj du»o ciekawych wªasno±ci i du» skuteczno± w procesie klasykacji. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 174 / 297
Konkluzje Rozumowanie Boolowskie jest prostym, ale mocnym narz dziem w dziedzinie rozpoznawania wzorców, eksploracji danych (ang. Data Mining), sztucznej inteligencji... Zªo»ono± funkcji Boolowskiej koduj cej dany problem mo»e by miar trudno±ci tego problemu. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 175 / 297