WSOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY RZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH 1. Definicje Zbiory, które nie są zbiorami definiowalnymi, są nazywane zbiorami przybliżonymi. Zbiory definiowalne można jednoznacznie scharakteryzować przez własności ich elementów, natomiast zbiorów przybliżonych nie można scharakteryzować w ten sposób. Dlatego w teorii zbiorów przybliżonych zostały wprowadzone pojęcia dolnego i górnego przybliżenia zbioru, które pozwalają każdy zbiór niedefiniowalny (przybliżony) scharakteryzować za pomocą dwóch zbiorów definiowalnych jego dolnego i górnego przybliżenia. ojęcia: Zbiór nierozróżnialny; klasa nierozróżnialności z x, granula, atom I (x) - warianty opisane tak samo jak wariant x na wszystkich atrybutach warunkowych. Dolne przybliżenie: X ) { x U : I ( x) X} Wszystkie te elementy, które w świetle posiadanej wiedzy mogą być zaklasyfikowane jednoznacznie do rozważanego zbioru (intuicja: na pewno należą do zbioru) Górne przybliżenie: X ) I ( x) xx Wszystkie te elementy, których nie można wykluczyć, w świetle posiadanej wiedzy, z danego zbioru (intuicja: być może należą do zbioru) Brzeg przybliżenia: ( X ) X ) X ) Bn Różnica między górnym a dolnym przybliżeniem (intuicja: mamy wątpliwość, do którego zbioru należą) X ) X X ) Dokładności przybliżenia klasy X: Jakość przybliżenia klasy X: ( X ) X ) ( X ) X ) X ) X Zbiór jest przybliżony iff gdy jego obszar brzegowy jest niepusty. Jakość klasyfikacji: ( Cl) n t1 Cl ) U t (intuicja: jaki odsetek przykładów można jednoznacznie zaklasyfikować do jednej z klas) rzybliżone członkostwo (ang. rough membership) przykładu xu do klasy XU, biorąc pod uwagę zbiór parametrów C X I x ) X ( x ) = procent przykładów z klasy nierozróżnialności x, które należą do klasy X I ( x ) Redukt minimalny podzbiór atrybutów (nie oznacza to zawsze podzbioru o minimalnej liczności), który utrzymuje niezmienioną jakość klasyfikacji. Rdzeń (jądro, ang. core) część wspólna (przecięcie) wszystkich reduktów. - 1 -
Reguła: jeżeli, to Wsparcie (ang. support) reguły Siła (ang. strength) reguły : sups (, ) card ( ) : (, ) Współczynnik pewności (ang. certainty) reguły Współczynnik pokrycia (ang. coverage) reguły S sups (, ) card( U) : : S sups (, ) cers (, ) card( ) sups (, ) covs (, ) card( ) s s Atrybuty warunkowe X1, X2. Atrybut decyzyjny K. Tabela decyzyjna. Obiekt X1 X2 K A1 8 4 A2 5 7 A3 2 3 A4 5 7 R A5 2 5 S A6 8 5 S ) { A1, A3}, ) { A1, A2, A3, A4} R) 0, R) { A2, A4} S) { A5, A6}, S) { A5, A6} jeżeli X1=5 to sup 1, 1/ 6, cer 1/ 2,cov 1/ 3 jeżeli X2=5 to S sup 2, 2 / 6, cer 2 / 2,cov 2 / 2 jeżeli X1=2 i X2=5 to S sup 1, 1/ 6, cer 1/1, cov 1/ 2-2 -
Decision: D (atrybut decyzyjny) C1: [a,b] (atrybut warunkowy) C2: [1,2,3] (atrybut warunkowy) C3: [+,-] (atrybut warunkowy) D: [A,B] Obiekt C1 C2 C3 D O1 a 1 + B O2 a 3 - A O3 a 2 + A O4 b 1 - B O5 a 2 + A O6 b 3 + B O7 a 1 + A A ) A ) Bn ( A) accuracy_ of _ approximation( A) ( A) A ) A ) Bn ( accuracy_ of _ approximation ( ( Dla dwóch klas A i B: B ( A) B ( n n quality_ of A) _ approximation( Cl) ( Cl) U Redukty : Core (rdzeń): - 3 -
rzykład (obiekt) Atrybuty warunkowe Decyzja Temperatura Hemoglobina Ciśnienie Samopoczucie A Niska Dobra Niskie Słabe B Niska Dobra Normalne Słabe C Normalna B. dobra Niskie Słabe D Normalna B. dobra Niskie Dobre E Niska B. dobra Normalne Dobre F Niska B. dobra Normalne Dobre G Normalna Dobra Normalne Dobre H Normalna Niska Wysokie Złe I Wysoka B. dobra Wysokie Złe slabe) dobre) zle) slabe) dobre) zle) Algorytm LEM2 Minimalny zbiór reguł Reguły pewne dla dolnych przybliżeń klas (deterministyczne) Reguły możliwe dla górnych przybliżeń klas (niedeterministyczne) Reguły przybliżone dla brzegów klas Reguły pewne (deterministyczne) wyznaczamy, dając na wejście LEM2 dolne przybliżenie zbioru. Reguły możliwe wyznaczamy, dając na wejście LEM2 górne przybliżenie zbioru. Reguły przybliżone wyznaczamy, dając na wejście LEM2 brzeg klas. W każdym z trzech powyższych przypadków LEM2 działa tak samo. Różnica pojawia się w interpretacji reguł. Reguły deterministyczne mają charakter na pewno należy do klasy X, reguły możliwe (niedeterministyczne) mają charakter być może należy do klasy X, a reguły przybliżone mają charakter należy do klasy X lub Y lub ) - 4 -
Reguły dla (slabe) 1. Wypisujemy warunki, które występują dla przykładów wchodzących w jego skład: temperatura = niska, hemoglobina = dobra, ciśnienie = niskie, ciśnienie = normalne 2. Wybieramy warunek, który maksymalizuje: liczba pokrytych przykładów z rozważanego przybliżenia Jeśli jest więcej niż jeden to wybieramy warunek, który minimalizuje: liczba pokrytych przykładów ogółem Jeśli wciąż jest więcej niż jeden, to bierzemy pierwszy z brzegu. Najlepszy jest (hemoglobina = dobra) pokrywa 2 z rozważanego zbioru, ogółem pokrywa 3. 3. Warunek ten pokrywa wszystkie przykłady z rozważanego przybliżenia (A, i jeszcze jakiś nadmiarowy (G). Trzeba kontynuować dalej tworzenie reguły tak, by reguła nie pokrywała nadmiarowych przykładów, a ostatecznie pokrywała podzbiór rozważanego przybliżenia (w idealnym przypadku cały zbiór). 4. Rozważamy pozostałe warunki. Najlepsza jest (temperatura = niska) pokrywa 2 z rozważanego zbioru, ogółem pokrywa 4. 5. Warunki (hemoglobina = dobra) oraz (temperatura = niska) pokrywają tylko przykłady z (slabe). Znaleźliśmy regułę: jeżeli (hemoglobina = dobra) i (temperatura = niska) to samopoczucie = słabe 6. Sprawdzamy, czy reguła nie ma warunków nadmiarowych. Obydwa warunki są potrzebne. Zostawiamy regułę bez zmian. 7. Sprawdzamy, czy nie ma nadmiarowych reguł. Jest tylko jedna reguła, więc na pewno nie jest nadmiarowa. - 5 -
Reguły dla (dobre) 1. Wypisujemy warunki, które występują dla przykładów wchodzących w jego skład: temperatura = niska, temperatura = normalna, hemoglobina = b. dobra, hemoglobina = dobra, ciśnienie = normalne 2. Wybieramy warunek, który maksymalizuje: liczba pokrytych przykładów z rozważanego przybliżenia Jeśli jest więcej niż jeden to wybieramy warunek, który minimalizuje: liczba pokrytych przykładów ogółem Jeśli wciąż jest więcej niż jeden, to bierzemy pierwszy z brzegu. Najlepszy jest (ciśnienie = normalne) pokrywa 3 z rozważanego zbioru, ogółem pokrywa 4. 3. Warunek ten pokrywa wszystkie przykłady z rozważanego przybliżenia (E,F,G) i jeszcze jakiś nadmiarowy (. Trzeba kontynuować dalej tworzenie reguły. 4. Rozważamy pozostałe warunki. Najlepsza jest (temperatura = niska) - pokrywa 2 z rozważanego zbioru, ogółem pokrywa 4. 5. Warunki (ciśnienie = normalne) oraz (temperatura = niska) pokrywają przykłady B, E i F. 6. Rozważamy warunki na pozostałych kryteriach dla przykładów E oraz F. Zostało nam: hemoglobina = b.dobra. Wybieramy go. 7. Znaleźliśmy regułę: jeżeli (ciśnienie = normalne) i (temperatura = niska) i (hemoglobina = b.dobra) to samopoczucie = dobre 8. Sprawdzamy, czy nie ma w niej warunków nadmiarowych. Jeśli usuniemy (temperatura = dobra) to reguła wciąż będzie poprawna, a więc usuwamy go. Zostało nam: jeżeli (ciśnienie = normalne) i (hemoglobina = b.dobra) to samopoczucie = dobre 9. Został jednak jeden niepokryty przykład z (dobre), mianowicie G. Trzeba znaleźć dla niego nową regułę, która go będzie pokrywała. 10. Wypisujemy warunki, które go pokrywają: temperatura = normalna, hemoglobina = dobra, ciśnienie = normalne 11. Wybieramy warunek, który maksymalizuje: liczba pokrytych przykładów z rozważanego przybliżenia Jeśli jest więcej niż jeden to wybieramy warunek, który minimalizuje: liczba pokrytych przykładów ogółem Jeśli wciąż jest więcej niż jeden, to bierzemy pierwszy z brzegu. Najlepszy jest (hemoglobina = dobra) pokrywa 1 z rozważanego zbioru, ogółem pokrywa 3. 12. okrywane są też inne przykłady (A,. Trzeba kontynuować dalej. 13. Rozważamy pozostałe warunki. Wybieramy (temperatura = normalna) jako pierwszy z brzegu. 14. Warunki (hemoglobina = dobra) oraz (temperatura = normalna) pokrywają tylko przykład G. Znaleźliśmy regułę: jeżeli (hemoglobina = dobra) i (temperatura = normalna) to samopoczucie = dobre. 15. Sprawdzamy, czy reguła nie ma warunków nadmiarowych. Obydwa warunki są potrzebne. Zostawiamy regułę bez zmian. 16. Na końcu przeglądamy zbiór reguł, by znaleźć i odrzucić reguły nadmiarowe. Obydwie reguły są potrzebne. - 6 -
Wyznacz dolne i górne przybliżenia klas M, N, R. Oblicz jakość klasyfikacji. Wyindukuj minimalne reguły indukcyjne dla dolnych przybliżeń (reguły pewne). Dla otrzymanych reguł podaj siłę, współczynnik pewności i pokrycia. Znajdź redukty i rdzeń. Obiekt X1 X2 X3 Klasa I 2 J a M II 1 J b M III 3 H a M IV 3 H a N V 3 H a R VI 3 H b N VII 3 K c R VIII 2 H b N IX 2 H c R M ) { I, II}, M ) { I, II, III, IV, V} N) { VI, VIII}, N) { III, IV, V, VI, VIII} R) { VII, IX}, R) { III, IV, V, VII, IX} Jakość klasyfikacji=(2+2+2)/9=2/3 Jeżeli X2=J to Dec=M, pokrywane obiekty: I, II, siła = 2/9, pokrycie = 2/3, pewność 2/2 Jeżeli X3=b i X2=H to Dec=N, pokrywane obiekty: VI, VIII, siła = 2/9, pokrycie = 2/3, pewność 2/2 Jeżeli X3=c to Dec=R, pokrywane obiekty: VII, IX, siła = 2/9, pokrycie = 2/3, pewność 2/2 Redukty: {X1,X3}, {X2,X3} Rdzeń: {X3} Wyznacz dolne i górne przybliżenia klas,,. Oblicz jakość klasyfikacji. Wyindukuj minimalne reguły indukcyjne dla dolnych przybliżeń (reguły pewne) i dla brzegów klas (reguły przybliżone). Dla otrzymanych reguł podaj wsparcie, siłę, współczynnik pewności i pokrycia. Obiekt X1 X2 X3 Klasa I C B B II A A B III A A A IV A A A V A A B VI C C B VII C A A - 7 -
Co należy potrafić przed "zajęciami raportowymi"? Zbiory przybliżone + generowanie reguł decyzyjnych: Zapoznaj się z przykładowym zbiorem danych, który każdy będzie rozwiązywał sam na następnych zajęciach: example1.isf, example2.isf, example3.isf. Biorąc pod uwagę wszystkie 5 atrybutów warunkowych: Wygenerować klasy: Generując klasy, zastosuj notację: X={przykłady_należące_do_X} D, Y={przykłady_należące_do_Y} D, gdzie X oraz Y to Twoje symbole klas. odaj też, ile przykładów jest w każdej klasie. Dolny indeks D oznacza, że jest to granula wiedzy ze względu na atrybut decyzyjny. Wygenerować atomy (klasy nierozróżnialności): Generując atomy, zastosuj notację I (II)={II}, I (IV)= I (X)={IV, X}. Dolny indeks ={C1,C2,C3,C4,C5} oznacza, że jest to granula wiedzy ze względu na zbiór atrybutów warunkowych. Zaznacz, ze względu na który zbiór prezentujesz granule. Wygenerować dolne i górne przybliżenia oraz brzegi klas Obliczyć dokładność przybliżenia każdej klasy i jakość klasyfikacji Wygenerować redukty i rdzeń Biorąc pod uwagę 2 wskazane atrybuty warunkowe: To, co dla 5 atrybutów warunkowych Wygenerować minimalne deterministyczne i niedeterministyczne reguły: Rozpatrywana składnia reguły decyzyjnej to: jeżeli (koniunkcja warunków elementarnych) to (decyzja) i w takiej postaci powinny zostać zapisane wszystkie wygenerowane reguły Obliczyć dla tych reguł wsparcie, siłę, współczynnik pewności i pokrycia rzydatne symbole: (X ), (X ), Bn (X), (X ), (Cl) należy stosować prezentacji wyników., RED Cl (), CORE Cl(), które rogramowanie liniowe, celowe i ilorazowe: Raport będzie dotyczył rozwiązania zadania Lab3-zadanie_pc_pi.xls odać interpretację zmiennych decyzyjnych Zapisać funkcję celu rozważanych problemów (w przypadku problemów nielinowych, zapisać także zlinearyzowaną postać funkcji celu) Wskazać kierunek optymalizacji Zapisać ograniczenia, przy których rozwiązywany jest problem Zapisać wzory na ewentualne nowe zmienne odać rozwiązanie uzyskane za pomocą Solvera (wartości zmiennych decyzyjnych, funkcji celu, wartości rozwiązań oryginalnego problemu) - 8 -