Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów i reguª decyzyjnych Metody wnioskowa«boolowskich w szukaniu reduktów Systemy decyzyjne oparte o zbiory przybli»one 6 Metoda drzew decyzyjnych Wprowadzenie Konstrukcja drzew decyzyjnych 7 Problem dyskretyzacji Przypomnienia podstawowych poj Problem dyskretyzacji Dyskretyzacja metod wnioskowania Boolowskiego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 71 / 297
Teoria zbiorów przybli»onych Teoria zbiorów przybli»onych zostaªa wprowadzona w latach 80-tych przez prof. Zdzisªawa Pawlaka. Gªównym celem jest dostarczanie narz dzi dla problemu aproksymacji poj (zbiorów). Zastosowania w systemach decyzyjnych: Redukcja danych, selekcja wa»nych atrybutów; Generowanie reguª decyzyjnych; Odkrywanie wzorców z danych: szablony, reguªy asocjacyjne; Odkrywanie zale»no±ci w danych. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 72 / 297
Systemy informacyjne Denicja Jest to para S = (U, A), gdzie U sko«czony niepusty zbiór obiektów (ang. cases, states, patients, observations...); A sko«czony, niepusty zbiór atrybutów. Ka»dy a A odpowiada pewnej funkcji a : U V a zwanej warto±ciowaniem, gdzie V a jest nazwana dziedzin atrybutu a. Dla B A, deniujemy B-sygnatura obiektu x U (ang. B-information vector) jako inf B (x) = {(a, a(x)) : a B} Zbiór sygnatur wzgl dem B o obiektach z U (ang. B-information set): INF (S) = {inf B (x) : x U} H.S. Nguyen (MIM UW) SYD 30 listopada 2017 73 / 297
Tablica decyzyjna Tablica decyzyjna powstaje ze zwykªych tablic danych poprzez sprecyzowanie: Atrybutów (nazwanych warunkowymi): cechy, których warto±ci na obiektach s dost pne, np. pomiary, parametry, dane osobowe,... Decyzji (atrybut decyzyjny):, t.j. cecha ukryta zwi zana z pewn znan cz ±ciowo wiedz o pewnym poj ciu: Decyzja jest znana tylko dla obiektów z (treningowej) tablicy decyzyjnej; Jest podana przez eksperta (np. lekarza) lub na podstawie pó¹niejszych obserwacji (np. ocena gieªdy); Chcemy poda metod jej wyznaczania dla dowolnych obiektów na podstawie warto±ci atrybutów warunkowych na tych obiektach. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 74 / 297
Przykªad Przedstawiona tablica decyzyjna zawiera: 8 obiektów b d cych opisami pacjentów 3 atrybuty: Headache Muscle pain, Temp. Decyzj stwierdz c czy pacjent jest przezi biony czy te» nie. lub nie Example U Ból gªowy Ból mi ±ni Temp. Grypa p1 Tak Tak N Nie p2 Tak Tak H Tak p3 Tak Tak VH Tak p4 Nie Tak N Nie p5 Nie Nie H Nie p6 Nie Tak VH Tak p7 Nie Tak H Tak p8 Nie Nie VH Nie H.S. Nguyen (MIM UW) SYD 30 listopada 2017 75 / 297
Relacja rozró»nialno±ci Dane s obiekty x, y U i zbiór atrybutów B A, mówimy,»e x, y s rozró»nialne przez B wtw, gdy istnieje a B taki,»e a(x) a(y); x, y s nierozró»nialne przez B, je±li one s identyczne na B, tzn. a(x) = a(y) dla ka»dego a B; [x] B = zbiór obiektów nierozró»nialnych z x przez B. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 76 / 297
Relacja rozró»nialno±ci Dla ka»dych obiektów x, y: albo [x] B = [y] B ; albo [x] B [y] B =. Relacja x IND B y := x, y s nierozró»nialne przez B jest relacj równowa»no±ci. Ka»dy zbiór atrybutów B A wyznacza podziaª zbioru obiektów na klasy nierozró»nialno±ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 77 / 297
Przykªad Dla B = {Blgowy, Blmini} obiekty p1, p2, p3 s nierozró»nialne; s 3 klasy nierozró»nialno±ci relacji IND B : [p1] B = {p1, p2, p3} [p4] B = {p4, p6, p7} [p5] B = {p5, p8} Example U Ból gªowy Ból mi ±ni Temp. Grypa p1 Tak Tak N Nie p2 Tak Tak H Tak p3 Tak Tak VH Tak p4 Nie Tak N Nie p5 Nie Nie H Nie p6 Nie Tak VH Tak p7 Nie Tak H Tak p8 Nie Nie VH Nie H.S. Nguyen (MIM UW) SYD 30 listopada 2017 78 / 297
Relacja rozró»nialno±ci i aproksymacja poj Ka»dy zbiór obiektów X (np. klasa decyzyjna, poj cie) mo»e by opisany za pomoc atrybutów ze zbioru B dokªadnie lub w przybli»eniu dokªadny opis: je±li X jest sum pewnych klas nierozróznialno±ci deniowanych przez B (ZBIORY DOKŠADNE) przybli»ony opis: w przeciwnym przypadku (ZBIORY PRZYBLI ONE) W obu przypadkach X mo»e by opisany przez 2 dokªadne zbiory zwane doln i górn aproksymacj zbioru X B(X ) = {x : [x] B X } B(X ) = {x : [x] B X } H.S. Nguyen (MIM UW) SYD 30 listopada 2017 79 / 297
Aproksymacja poj Obszar brzegowy (ang. B-boundary region) poj cia X zawiera obiekty, dla których nie mo»emy jednoznacznie zdecydowa czy nale» one do X czy nie na podstawie atrybutów z B Obszar wewn trzny (ang. B-inside region of X) zawiera obiekty, które mo»emy pewnie klasykowa jako elementy poj cia X maj c do dyspozycji atrybuty z B. Zbiór jest przybli»ony (ang. rough set) je±li obszar brzegowy jest niepusty, w przeciwnym przypadku zbiór jest nazwany dokªadny (ang. crisp set). H.S. Nguyen (MIM UW) SYD 30 listopada 2017 80 / 297
Przykªad Niech B = {a 1, a 2 } IND(B) = {{1, 2}, (sunny, hot) {3, 13}, (overcast, hot) {4, 10, 14}, (rainy, mild) {5, 6}, (rainy, cool) {8, 11}, (sunny, mild) {7}, {9}, {12}} Chcemy aproksymowa poj cie deniowane przez klas decyzyjn (play=no) X = CLASS no = {1, 2, 6, 8, 14} Aproksymacje poj cia X : L B (X ) = {1, 2} U B (X ) = {1, 2, 5, 6, 8, 11, 4, 10, 14} Reguªa pewna: If B(x) = (sunny, hot) then d(x) = no A a 1 a 2 a 3 a 4 d ID outlook temp. hum. windy play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast cool normal TRUE yes 8 sunny mild high FALSE no 9 sunny cool normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no Reguªy przybli»one: If B(x) = (rainy, cool) then d(x) = no If B(x) = (rainy, mild) then d(x) = no If B(x) = (sunny, mild) then d(x) = no H.S. Nguyen (MIM UW) SYD 30 listopada 2017 81 / 297
P czek U AX X AX H.S. Nguyen (MIM UW) SYD 30 listopada 2017 82 / 297
Jako± aproksymacji Jako± aproksymacji (ang. accuracy of approximation) α B (X ) = B(X ) B(X ) 0 α B (X ) 1 Je±li α B (X ) = 1, to zbiór X jest dokªadnie deniowany przez B; Je±li α B (X ) < 1, to zbiór X jest aproksymacyjnie deniowany przez B; H.S. Nguyen (MIM UW) SYD 30 listopada 2017 83 / 297
Motywacje W systemach decyzyjnych, nie wszystkie atrybuty s potrzebne do procesie podejmowania decyzji; Chcemy wybra pewne podzbiory atrybutów niezb dnych do tego celu; Redukty to minimalne podzbiory atrybutów zachowuj cych charakterystyk caªego zbioru atrybutów. W teorii zbiorów przybli»onych, istniej co najmniej 2 poj cia reduktów: informacyjne i decyzyjne. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 84 / 297
Denicja Denicja reduktu informacyjnego Zbiór atrybutów B A nazywamy reduktem tablicy decyzyjnej A wtw, gdy B zachowuje rozró»nialno± zbioru A: t.j. dla dowolnych obiektów x, y U, je±li x, y s rozró»nialne przez A, to s równie» rozró»nialne przez B B jest niezredukowalny: tzn.»aden wªa±ciwy podzbiór B nie zachowuje rozró»nialno±ci zbioru A (t.j., B jest minimalny pod wzgl dem rozró»nialno±ci) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 85 / 297
Denicja Denicja reduktu decyzyjnego Zbiór atrybutów B A nazywamy reduktem tablicy A wtw, gdy B zachowuje rozró»nialno± zbioru A wzgl dem decyzji dec: t.j. dla dowolnych obiektów x, y U, je±li dec(x) dec(y) i x, y s rozró»nialne przez A, to s równie» rozró»nialne przez B B jest niezredukowalny: tzn.»aden wªa±ciwy podzbiór B nie zachowuje rozró»nialno±ci zbioru A (B jest minimalny pod wzgl dem rozró»nialno±ci) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 86 / 297
Zbiór reduktów RED(S) = zbiór wszystkich reduktów tablicy decyzyjnej S; Je±li S = (U, A {dec}) i A = n to RED(S) ( ) n n/2 rdze«: zbiór atrybutów b d cych we wszystkich reduktach K = B. B RED(S) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 87 / 297
Problemy obliczeniowe zwi zane z reduktami Znale¹ rdze«danej tablicy decyzyjnej; Znale¹ jaki± redukt; Znale¹ krótkie redukty; Znale¹ dªugie redukty. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 88 / 297
Sformuªowanie problemu Problem najkrótszego reduktu Dane: Tablica decyzyjna S = (U, A {dec}); Szukane: najkrótszy redukt tablicy decyzyjnej S, tzn. taki redukt decyzyjny B RED(S, dec),»e X RED(S,dec) B X Twierdzenie Problem szukania najkrótszego reduktu jest NP-zupeªny. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 89 / 297
Idea dowodu Ogólnie musimy pokaza,»e jaki± znany NP-zupeªny problem jest ªatwiejszy od problemu najkrótszego reduktu; Wybierzmy problem minimalnego pokrycia wierzchoªkami: Dany jest graf G = (V, E). Znale¹ minimalny zbiór wierzchoªków X V o takiej wªasno±ci,»e ka»da kraw d¹ z E posiada co najmniej jeden z ko«ców w X. Wielomianowa transformacja: = S(G) a v1 a v2 a v3 a v4 a v5 a x 0 0 0 0 0 0 u e1 1 1 0 0 0 1 u e2 1 0 0 1 0 1 u e3 0 1 0 0 1 1 u e4 0 1 0 1 0 1 u e5 1 0 1 0 0 1 u e6 0 0 1 0 1 1 H.S. Nguyen (MIM UW) SYD 30 listopada 2017 90 / 297