Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów i reguª decyzyjnych Metody wnioskowa«boolowskich w szukaniu reduktów Systemy decyzyjne oparte o zbiory przybli»one 6 Metoda drzew decyzyjnych Wprowadzenie Konstrukcja drzew decyzyjnych 7 Problem dyskretyzacji Przypomnienia podstawowych poj Problem dyskretyzacji Dyskretyzacja metod wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 124 / 297

Co to jest drzewo decyzyjne Jest to struktura drzewiasta, w której w zªy wewn trzne zawieraj testy na warto±ciach atrybutów z ka»dego w zªa wewn trznego wychodzi tyle gaª zi, ile jest mo»liwych wyników testu w tym w zle; li±cie zawieraj decyzje o klasykacji obiektów Drzewo decyzyjne koduje program zawieraj cy same instrukcje warunkowe H.S. Nguyen (MIM UW) SYD 30 listopada 2017 125 / 297

Przykªad: klasykacja robotów H.S. Nguyen (MIM UW) SYD 30 listopada 2017 126 / 297

Przykªad: drzewo decyzyjne H.S. Nguyen (MIM UW) SYD 30 listopada 2017 127 / 297

Klasykacja drzewem decyzyjnym H.S. Nguyen (MIM UW) SYD 30 listopada 2017 128 / 297

Przykªad tablicy decyzyjnej x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no H.S. Nguyen (MIM UW) SYD 30 listopada 2017 129 / 297

Rodzaje testów Wyró»niamy 2 klasy funkcji testów Testy operuj na warto±ciach pojedy«czego atrybutu (ang. univariate tree): t : V a R t ; Testy b d ce kombinacj warto±ci kilku atrybutów (ang. multivariate tree): t : V a1 V a2... V ak R t ; gdzie Va : dziedzina atrybutu a; Rt : zbiór mo»liwych wyników testu; H.S. Nguyen (MIM UW) SYD 30 listopada 2017 130 / 297

Przykªady funkcji testu Dla atrybutów nominalnych a i oraz obiektu x: test to»samo±ciowy: t(x) { a i (x) 1 if (a i (x) = v) test równo±ciowy: t(x) = 0 otherwise { 1 if (a i (x) V ) test przynale»no±ciowy: t(x) = 0 otherwise Dla atrybutów o warto±ciach ci gªych: { 1 if (a i (x) > c) test nierówno±ciowy: t(x) = 0 otherwise, i.e., (a i (x) c) gdzie c jest warto±ci progow lub ci ciem H.S. Nguyen (MIM UW) SYD 30 listopada 2017 131 / 297

Ocena jako±ci drzewa Jako± drzewa ocenia si za pomoc rozmiaru: im drzewo jest mniejsze, tym lepsze maªa liczba w zªów, maªa wysoko±, lub maªa liczba li±ci; za pomoc dokªadno±ci klasykacji na zbiorze treningowym za pomoc dokªadno±ci klasykacji na zbiorze testowym Na przykªad: Q(T ) = α size(t ) + β accuracy(t, P) gdzie α, β s liczbami rzeczywistymi size(.) jest rozmiarem drzewa accuracy(.,.) jest jako±ci klasykacji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 132 / 297

Denition Problem konstrukcji drzew optymalnych: Dane s : tablica decyzyjna S zbiór funkcji testów TEST, kryterium jako±ci Q Szukane: drzewo decyzyjne T o najwy»szej jako±ci Q(T). Dla wi kszo±ci parametrów, problem szukania optymalnego drzewa jest NP-trudny! Wnioski: Trudno znale¹ optymalne drzewo w czasie wielomianowym; Konieczno± projektowania heurystyk. Quiz: Czy drzewo z przykªadu jest optymalne? H.S. Nguyen (MIM UW) SYD 30 listopada 2017 133 / 297

Optymalne drzewo decyzyjne H.S. Nguyen (MIM UW) SYD 30 listopada 2017 134 / 297

Ogólny algorytm H.S. Nguyen (MIM UW) SYD 30 listopada 2017 135 / 297

Funkcje pomocnicze Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów: jest pusty lub zawiera obiekty wyª cznie jednej klasy decyzyjnej lub nie ulega podziale przez»aden test Wyznaczenie etykiety zasad wi kszo±ciow : kategoria(p, dec) = arg max c V dec P [dec=c] tzn., etykiet dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze. Kryterium wyboru testu: heurytyczna funkcja oceniaj ca testy. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 136 / 297

Miary ró»norodno±ci zbioru Ka»dy zbiór obiektów X ulega podziaªowi na klasy decyzyjne: X = C 1 C 2... C d gdzie C i = {u X : dec(u) = i}. Wektor (p 1,..., p r ), gdzie p i = C i X, nazywamy rozkªadem klas decyzyjnych w X. ( X 2 C i 2) Conflict(X ) = i<j C i C j = 1 2 Entropy(X ) = C i X log C i X = p i log p i H.S. Nguyen (MIM UW) SYD 30 listopada 2017 137 / 297

Wªasno±ci miar róznorodno±ci Funkcja conflict(x ) oraz Ent(X ) przyjmuj najwi ksz warto±, gdy rozkªad klas decyzyjnych w zbiorze X jest równomierny. najmniejsz warto±, gdy wszystkie obiekty w X s jednej kategorii (X jest jednorodny) W przypadku 2 klas decyzyjnych: Conflict(p, 1 p) = X 2 p(1 p) Entropy(p, 1 p) = p log p (1 p) log(1 p) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 138 / 297

Kryteria wyboru testu Niech t deniuje podziaª X na podzbiory: X 1... X r. Mo»emy stosowa nast puj ce miary do oceniania testów: liczba par obiektów rozró»nionych przez test t. disc(t, X ) = conflict(x ) conflict(x i ) kryterium przyrostu informacji (ang. Inf. gain). Gain(t, X ) = Entropy(X ) i p i Entropy(X i ) Im wi ksze s warto±ci tych ocen, tym lepszy jest test. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 139 / 297

Miara Entropii dla ci N i p i Entropy(X i ) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 140 / 297

Rozró»nialno± dla ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 141 / 297

Wªasno±ci funkcji ocen: Monotoniczno± : Je±li t deniuje drobniejszy podziaª ni» t to Gain(t, X ) Gain(t, X ) (analogiczn sytuacj mamy dla miary conflict(). Funkcje ocen testu t przyjmuj maªe warto±ci je±li rozkªady decyzyjne w podzbiorach wyznaczanych przez t s zbli»one. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 142 / 297

Uniwersalne oceny Zamiast bezwzgl dnego przyrostu informacji, stosujemy wspóªczynnik przyrostu informacji Gain_ratio = Gain(t, X ) iv(t, X ) gdzie iv(t, X ), zwana warto±ci informacyjn testu t (information value), jest deniowana jak nast.: iv(t, X ) = r i=1 X i X log X i X H.S. Nguyen (MIM UW) SYD 30 listopada 2017 143 / 297

Ocena funkcji testu Rozró»nialno± : disc(t, X ) = conflict(x ) conflict(x i ) Przyrostu informacji (Information gain). Gain(t, X ) = Entropy(X ) i p i Entropy(X i ) Wspóªczynnik przyrostu informacji (gain ratio) Gain_ratio = Gain(t, X ) r X i i=1 X log X i X Inne (np. Gini's index, test χ 2,...) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 144 / 297

Przycinanie drzew Problem nadmiernego dopasowania do danych trenuj cych (prob. przeuczenia si ). Rozwi zanie: zasada najkrótszego opisu: skracamy opis kosztem dokªadno±ci klasykacji w zbiorze treningowym zast pienie podrzewa nowym li±ciem (przycinanie) lub mniejszym podrzewem. Podstawowe pytania: Q: Kiedy poddrzewo mo»e by zast pione li±ciem? A: Je±li nowy li± jest niegorszy ni» istniej ce poddrzewo dla nowych obiektów (nienale» cych do zbioru treningowego). Q: Jak to sprawdzi? A: Testujemy na próbce zwanej zbiorem przycinania! H.S. Nguyen (MIM UW) SYD 30 listopada 2017 145 / 297

Ogólny schemat algorytmu przycinania H.S. Nguyen (MIM UW) SYD 30 listopada 2017 146 / 297

Kryterium przycinania Niech e T (l) - bª d klasykacji kandyduj cego li±cia l, e T (n) - bª d klasykacji poddrzewa o korzeniu w n. Przycinanie ma miejsce, gdy e T (l) e T (n) + µ na ogóª przyjmujemy µ = 1. e T (n)(1 e T (n)) P T,n H.S. Nguyen (MIM UW) SYD 30 listopada 2017 147 / 297

Przykªad H.S. Nguyen (MIM UW) SYD 30 listopada 2017 148 / 297

Brakuje danych podczas uczenia si Mo»liwe s nast puj ce rozwi zania: Zredukowanie warto±ci kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wspóªczynnik równy: liczba obiektów z nieznanymi warto±ciami liczba wszystkich obiektów Wypeªnienie nieznanych warto±ci atrybutu najcz ±ciej wyst puj c warto±ci w zbiorze obiektów zwi zanych z aktualnym w zªem Wypeªnienie nieznanych warto±ci atrybutu ±redni wa»on wyznaczon na jego zbiorze warto±ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 149 / 297

Brakuje danych podczas klasykowania Mo»liwe rozwi zania: Zatrzymanie procesu klasykacji w aktualnym w ¹le i zwrócenie wi kszo±ciowej etykiety dla tego w zªa (etykiety, jak ma najwi ksz liczb obiektów trenuj cych w tym w ¹le) Wypeªnienie nieznanej warto±ci wedªug jednej z heurystyk podanych wy»ej dla przypadku konstruowania drzewa Uwzgl dnienie wszystkich gaª zi (wszystkich mo»liwych wyników testu) i poª czenie odpowiednio zwa»onych probabilistycznie rezultatatów w rozkªad prawdopodobie«stwa na zbiorze mo»liwych klas decyzyjnych dla obiektu testowego. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 150 / 297

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów i reguª decyzyjnych Metody wnioskowa«boolowskich w szukaniu reduktów Systemy decyzyjne oparte o zbiory przybli»one 6 Metoda drzew decyzyjnych Wprowadzenie Konstrukcja drzew decyzyjnych 7 Problem dyskretyzacji Przypomnienia podstawowych poj Problem dyskretyzacji Dyskretyzacja metod wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 151 / 297

Podstawowe poj cia Tablic decyzyjn nazywamy struktur S = (U, A {dec}) gdzie U nazywa si zbiorem obiektów U = {u 1,..., u n } A jest zbiorem atrybutów postaci a j : U V j dec jest specjalnym atrybutem zwanym decyzj A S a 1 a 2... dec u 1 100 27... 1 u 2 120 86... 1 u 3 70 52... 1 u 4 95 18... 1............... u 1200 71 82... 2............... dec : U {1,..., d} H.S. Nguyen (MIM UW) SYD 30 listopada 2017 152 / 297

Podstawowe poj cia (c.d.) Klasy decyzyjne: dec deniuje podziaª U = DEC 1... DEC d gdzie DEC k = {x U : dec(x) = k} Rozró»nialno± : Dane s obiekty x, y U zbiór atrybutów B A, mówimy,»e x, y s rozró»nialne przez B wtw, gdy istnieje a B taki,»e a(x) a(y) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 153 / 297

Redukt Zbiór atrybutów B A nazywamy reduktem tablicy S wtw, gdy dla dowolnych obiektów x, y U je±li dec(x) dec(y) i x, y s rozró»nialne przez A, to s równie» rozró»nialne przez B (B zachowuje rozró»nialno± zbioru A) B jest niezredukowalny (tzn.»aden wªa±ciwy podzbiór B nie zachowuje rozró»nialno±ci zbioru A) Problemy: Czy istnieje redukt zawieraj cy k atrybutów? Znale¹ redukt o najmniejszej liczbie atrybutów. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 154 / 297

Funkcje boolowskie funkcje f : {0, 1} n {0, 1} nazywamy Boolowskimi. monotoniczne funkcje Boolowskie mo»na zapisa bez u»ycia negacji. jednomian f = x i1 x i2...x ik monotonicznej f je±li nazywamy implikantem pierwszym funkcji f (x) f (x) dla ka»dego wektora x (jest implikantem) ka»da funkcja wi ksza od f nie jest implikantem Np. funkcja f (x 1, x 2, x 3 ) = (x 1 + x 2 )(x 2 + x3) posiada 2 implikanty pierwsze: f 1 = x 2 i f 2 = x 1 x 3 H.S. Nguyen (MIM UW) SYD 30 listopada 2017 155 / 297

Metoda wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 156 / 297

Przykªad dyskretyzacji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 157 / 297

Ilustracja danych i ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 158 / 297

Niesprzeczny zbiór ci Dana jest niesprzeczna tablica decyzyjna S = (U, A {dec}) Mówimy,»e ci cie (a, c) rozró»nia obiekty x, y je±li albo a(x) < c < a(y) lub a(y) < c < a(x). Zbiór ci P nazywamy niesprzecznym z S je±li dla ka»dej pary obiektów x, y U takich,»e d(x) d(y) istnieje ci cie (a, c) P rozró»niaj ce x i y. Zbiór ci P opt nazywamy optymalnym dla S je±li P opt posiada najmniejsz liczb ci w±ród niesprzecznych zbiorów ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 159 / 297

Klasykacje metod dyskretyzacji 1 Lokalne a globalne metody: 2 Statyczne a dynamiczne metody: Metody statyczne poszukuj zbioru ci dla ka»dego atrybutu w sposób niezale»ny od innych atrybutów. Metody dynamiczne szukaj ci na wszystkich atrybutach jednocze±nie 3 Z nadzorem lub bez: H.S. Nguyen (MIM UW) SYD 30 listopada 2017 160 / 297

Znane metody Podziaª na przedziaªy o równych dªugo±ciach lub równych cz stotliwo±ciach; Metoda OneR Testy statystyczne χ 2 = 2 r (n ij E ij ) 2 E ij i=1 j=1 Z u»yciem funkcji entropii; Gini's index Gain (a; c; U) = Ent (U) E (a; c; U) G(a; c; U) = Gini(U) U L U Gini(U L) U R Gini(U R ) U H.S. Nguyen (MIM UW) SYD 30 listopada 2017 161 / 297

H.S. Nguyen (MIM UW) SYD 30 listopada 2017 163 / 297

H.S. Nguyen (MIM UW) SYD 30 listopada 2017 164 / 297

Reguªa 3-4-5 Metoda statyczna bez nadzoru: podziaª danych numerycznych na równomierne przedziaªy; Rozpatrujemy liczb ró»nych najbardziej znacz cych cyfr w danym przedziale: je±li ta liczba wynosi 3,6,7 lub 9 to podziel dany przedziaª na 3 równe przedziaªy. je±li ta liczba wynosi 2,4 lub 8 to podziel dany przedziaª na 4 równe przedziaªy. je±li ta liczba wynosi 1,5 lub 10 to podziel dany przedziaª na 5 równych przedziaªów. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 165 / 297

Dyskretyzacja metod Boolowsk Dana jest niesprzeczna tablica decyzyjna S = (U, A {dec}) Niech C b dzie zbiorem kandyduj cych ci dla tablicy S; Ka»de ci cie (a, c) jest skojarzone ze zmienn Boolowsk p (a,c) ; Niech ψ x,y b dzie funkcj rozró»nialno±ci dla x, y: ψ x,y = {p (a,c) : (a, c) rozró»nia x, y}. Funkcja boolowska Ψ S = {ψ x,y : dec(x) dec(y)} koduje problem dyskretyzacji. Minimalny implikant pierwszy Ψ S optymalny zbiór ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 167 / 297

Przykªad Ciecia kandyduj ce (a, 0.9); (a, 1.15); (a, 1.35); (a, 1.5); (b, 0.75); (b, 1.5); (b, 2.5). Oznaczmy przez p1 a, pa 2, pa 3, pa 4, pb 1, pb 2, pb 3 odpowiadaj ce ci ciom. Wówczas zmienne Boolowskie ψ (2, 1) = p1 a + pb 1 + pb 2 ; ψ (2, 4) = pa 2 + pa 3 + pb 1 ; ψ (2, 6) = p2 a + pa 3 + pa 4 + pb 1 + pb 2 + pb 3 ; ψ (2, 7) = pa 2 + pb 1 ; ψ (3, 1) = p1 a + pa 2 + pb 3 ; ψ (3, 4) = pa 2 + pb 2 + pb 3 ; ψ (3, 6) = p3 a + pa 4 ; ψ (3, 7) = pb 2 + pb 3 ; ψ (5, 1) = p1 a + pa 2 + pa 3 ; ψ (5, 4) = pb 2 ; ψ (5, 6) = p4 a + pb 3 ; ψ (5, 7) = pa 3 + pb 2. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 168 / 297

Przykªad Funkcja koduj ca problem dyskretyzacji Φ S = ( p a + 1 pb + ( 1 2) pb p a + 1 pa + ) 2 pb 3 (p a + 1 pa + 2 pa) ( 3 p a + 2 pa + ) ( 3 pb 1 p b 2 p a + 2 pb + ) ( 2 pb 3 p a + 2 pa + 3 pa + 4 pb + 1 pb + ) 2 pb 3 (p a ( + 3 pa) 4 p a + ) ( 4 pb 3 p a + ) ( 2 pb 1 p b + ) ( 2 pb 3 p a + 3 2) pb. Po sprowadzeniu do postaci DNF mamy: Φ S = p a 2p a 4p b 2 + p a 2p a 3p b 2p b 3 + p a 3p b 1p b 2p b 3 + p a 1p a 4p b 1p b 2. Czyli optymalnym zbiorem ci jest {(a, 1.15), (a, 1.5), (b, 1.5)} H.S. Nguyen (MIM UW) SYD 30 listopada 2017 169 / 297

Optymalny zbiór ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 170 / 297

Heurystyka W algorytmie zachªannym, preferujemy ci cia rozró»niaj ce najwi ksz liczb par obiektów. Miara rozró»nialno±ci dla danego ci cia wzgl dem zbioru obiektów X : disc(c, X ) = conflict(x ) conflict(x L ) conflict(x R ) gdzie conflict(x ) = liczba par obiektów ró»nych decyzji w zbiorze X. Mo»na realizowa zachªann heurystyk w czasie O(nk log n P ), gdzie n jest liczb obiektów, k jest liczb atrybutów, P jest zbiorem ci znalezionych przez algorytm H.S. Nguyen (MIM UW) SYD 30 listopada 2017 171 / 297

Heurystyka S p a 1 p a 2 p a 3 p a 4 p b 1 p b 2 p b 3 d (u 1, u 2 ) 1 0 0 0 1 1 0 1 (u 1, u 3 ) 1 1 0 0 0 0 1 1 (u 1, u 5 ) 1 1 1 0 0 0 0 1 (u 4, u 2 ) 0 1 1 0 1 0 0 1 (u 4, u 3 ) 0 0 1 0 0 1 1 1 (u 4, u 5 ) 0 0 0 0 0 1 0 1 (u 6, u 2 ) 0 1 1 1 1 1 1 1 (u 6, u 3 ) 0 0 1 1 0 0 0 1 (u 6, u 5 ) 0 0 0 1 0 0 1 1 (u 7, u 2 ) 0 1 0 0 1 0 0 1 (u 7, u 3 ) 0 0 0 0 0 1 1 1 (u 7, u 5 ) 0 0 1 0 0 1 0 1 new 0 0 0 0 0 0 0 0 H.S. Nguyen (MIM UW) SYD 30 listopada 2017 172 / 297

Uogólnienia Hiperpªaszczyzny jako ci cia; Krzywe wy»szego rz du; Grupowanie warto±ci nominalnych; Inne kryteria optymalizacji. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 173 / 297

Zastosowania Dyskretyzacja jako proces wst pnego przetwarzania Miar rozró»nialno±ci mo»na stosowa do konstrukcji drzew decyzyjnych. Drzewa generowane t miar maj du»o ciekawych wªasno±ci i du» skuteczno± w procesie klasykacji. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 174 / 297

Konkluzje Rozumowanie Boolowskie jest prostym, ale mocnym narz dziem w dziedzinie rozpoznawania wzorców, eksploracji danych (ang. Data Mining), sztucznej inteligencji... Zªo»ono± funkcji Boolowskiej koduj cej dany problem mo»e by miar trudno±ci tego problemu. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 175 / 297