Synteza logiczna w eksploracji danych

Podobne dokumenty
Eksploracja danych (Data mining)

Synteza logiczna w eksploracji danych

Synteza logiczna w eksploracji danych

Minimalizacja funkcji boolowskich c.d.

PRACA DYPLOMOWA. Andrzej Kisiel DISCOVERING DECISION RULES OF BINARY DATA TABLES USING COMPLEMENT OF BOOLEAN FUNCTIONS

Minimalizacja form boolowskich UC1, 2009

Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł

PRACA DYPLOMOWA INŻYNIERSKA

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

10. Redukcja wymiaru - metoda PCA

Sztuczna inteligencja

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny

Klasyfikacja i regresja Wstęp do środowiska Weka

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

T. Łuba, B. Zbierzchowski Układy logiczne Podręcznik WSISiZ, Warszawa 2002.

b) bc a Rys. 1. Tablice Karnaugha dla funkcji o: a) n=2, b) n=3 i c) n=4 zmiennych.

Koszt literału (literal cost) jest określony liczbą wystąpień literału w wyrażeniu boolowskim realizowanym przez układ.

Algorytmy klasyfikacji

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Optymalizacja reguł decyzyjnych względem pokrycia

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Maciej Piotr Jankowski

Lekcja na Pracowni Podstaw Techniki Komputerowej z wykorzystaniem komputera

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wyk lad 8: Leniwe metody klasyfikacji

ALGORYTM RANDOM FOREST

Systemy ekspertowe : Tablice decyzyjne

WYKŁAD 6. Reguły decyzyjne

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Data Mining Wykład 4. Plan wykładu

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska


Krótki opis programu pandor.exe

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Wstęp do Techniki Cyfrowej... Teoria automatów

Baza danych. Modele danych

Dyskretyzacja danych numerycznych metodami przekształceń boolowskich

Minimalizacja formuł Boolowskich

CLUSTERING. Metody grupowania danych

Analiza danych i data mining.

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30

A Zadanie

dr inż. Małgorzata Langer Architektura komputerów

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Technologia informacyjna

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wstęp do Techniki Cyfrowej... Algebra Boole a

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Systemy uczące się wykład 2

Szczegółowy opis przedmiotu zamówienia

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Egzamin / zaliczenie na ocenę* 0,5 0,5

1. Odkrywanie asocjacji

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

PRACA DYPLOMOWA INŻYNIERSKA

Metody numeryczne Wykład 4

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Elementy Modelowania Matematycznego

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Baza dla predykcji medycznej

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Odkrywanie wiedzy w danych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Minimalizacja form boolowskich

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko

Laboratorium 4. Naiwny klasyfikator Bayesa.

Podsumowanie wyników ankiety

SCENARIUSZ LEKCJI. Dzielenie wielomianów z wykorzystaniem schematu Hornera

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Sprzętowo wspomagane metody klasyfikacji danych

Wykład I. Wprowadzenie do baz danych

Faza Określania Wymagań

Analiza danych. TEMATYKA PRZEDMIOTU

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Informacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia

Baza danych. Baza danych to:

Agnieszka Nowak Brzezińska Wykład III

Teoretyczne podstawy informatyki

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Elementy modelowania matematycznego

Informatyka I. Typy danych. Operacje arytmetyczne. Konwersje typów. Zmienne. Wczytywanie danych z klawiatury. dr hab. inż. Andrzej Czerepicki

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Ewelina Dziura Krzysztof Maryański

Transkrypt:

Synteza logiczna w eksploracji danych Metody syntezy logicznej są wykorzystywane głównie do optymalizacji systemów cyfrowych przetwarzających sygnały binarne. Ich podstawowym zadaniem jest poprawa implementacji oraz możliwości odwzorowania systemów w różnych technologiach. Można jednak wykazać, że wiele metod syntezy logicznej, a w szczególności te wykorzystywane do optymalizacji kombinacyjnych układów logicznych, może być z powodzeniem zastosowanych w typowych zadaniach przetwarzania i wyszukiwania informacji, a nawet w Eksploracji danych

Eksploracja danych (Data Mining) jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach w nauce i technice niemal w każdej dziedzinie życia

Eksploracja danych. Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. Potrafi przeprowadzić sondaż Potrafi wykryć anomalie w sieci Eksploracja danych Potrafi zdiagnozować pacjenta Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). 3

Pozyskiwanie wiedzy z baz danych na abstrakcyjnym poziomie algorytmów polega na Redukcji atrybutów Uogólnianiu reguł decyzyjnych i wielu innych procedurach Jaki jest związek tych algorytmów z algorytmami syntezy logicznej? 4

Eksploracja danych a synteza logiczna Eksploracja danych Synteza logiczna Redukcja atrybutów Redukcja argumentów Indukcja reguł decyzyjnych Minimalizacja funkcji boolowskich Hierarchiczne podejmowanie decyzji Dekompozycja funkcjonalna Są to algorytmy przetwarzające ogromne bazy danych 5

Komputerowe systemy eksploracji danych ROSETTA BiomedicalCentre (BMC), Uppsala, Sweden. http://logic.mimuw.edu.pl/~rses/ http://www.lcb.uu.se/tools/rosetta/ Politechnika Poznańska 6

Znaczenie eksploracji danych Wiele rzeczywistych zjawisk opisuje się tablicami danych O b i e k t y a b c d Atrybuty 3 Klasyfikacja (Decyzja) 4 5 6 W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, c. Jednocześnie obiekty są klasyfikowane, kolumna d. 7

Tablice i reguły decyzyjne Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: U: (a,) (b,) (c,) (d,) U5: (a,) (b,) (c,) (d,) a b c d 3 4 5 6 redukcja atrybutów Indukcja (generacja) reguł decyzyjnych 8

Uogólnianie reguł Wyrażenia takie można upraszczać za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. 9

Przykład indukcji reguł Tablica decyzyjna U a b c d e 3 4 5 6 7 Tablica reguł minimalnych a b c d e

Przykład: uogólniamy U U a b c d e a b c d 3 4 5 6 7 M = Macierz M powstaje przez porównanie obiektów: (u, u 3 ), (u, u 4 ),...,(u, u 7 ). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=, dla różnych m=.

Przykład: uogólniamy U a M = b c d a, d b b, d a, b, d Minimalne pokrycia są: {a,b} oraz {b,d}, U a b c d e a, b, c, d Wyznaczone na ich podstawie minimalne reguły: (a,)&(b,) (e,) (b,)&(d,) (e,) U a b c d e - -

Przykład uogólniania reguł cd. Pouogólnieniuobiektuu u. U a b c d e - - u można usunąć U a b c d e - - 3 4 5 6 7 3

Przykład uogólniania reguł c.d. U a b c d e Dla obiektu u3 Dla obiektu u4 a b c d a b c d 3 4 5 6 7 (a,) (e,) (b,) & (d,) (e,) Niestety po uogólnieniu ani u 3 nie pokrywa u 4, ani u 4 nie pokrywa u 3 4

Przykład uogólniania reguł c.d. U a b c d e 3 4 5 6 7 Dla obiektu u5 a b c d (d,) (e,) u 6, u 7 5

Reguły minimalne Uogólnione reguły decyzyjne: (a,)&(b,) (e,) a b c d e (a,) (e,) (b,)&(d,) (e,) (d,) (e,) w innym zapisie: (a,)&(b,) (e,) (a,) (b,) &(d,) (e,) (d,) (e,) 6

Interpretacja reguł uogólnionych Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane Ale pojawia się nowy zestaw danych są w niej dane zebrane do tej pory i już sklasyfikowane a=,b=, c=, d= U a b c d e 3 4 5 Na uogólnionych 6 regułach jest to 7 oczywiste! Jaka decyzja? a b c d e e = 7

Zastosowania Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: Przykładowo: - Sytuacja zawodowa: B (bezrobotny), P (pracujący) -przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B) -wiek w latach -stan konta 8

Przykładowa tablica danych... Sytuacja Przeznaczenie: zawodowa Komp., sam. wiek Stan konta Staż pracy w danym zakładzie pracy C C C3 C4 C5 C6 C7 C8 C9 C Klasa P K K S nie 8 5 tak P K K S nie tak B K K R tak 5 5 4 nie P S M R nie 5 3 3 tak P S M S nie 5 5 tak P S M R nie 38 5 tak 9

Zastosowania Po uogólnieniu reguł decyzyjnych [wiek > 5] & [stan konta > 7] & [staż pracy > ] tak. [płeć = kobieta] & [wiek < 5] nie Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należą: RSES, JMAF, WEKA, ROSETTA, LERS LERS

Redukcja atrybutów Poszukuje się takich podzbiorów atrybutów, które zachowują podział obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty a a a 3 a 4 a 5 a 6 d 3 4 5 3 6 3 7 8 3 9 3 4 3 4 a a 4 a 6 d 3 4 5 3 6 3 7 8 3 9 3 4 3 4 {a, a 4, a 6 },{a, a, a 3, a 5, a 6 }

Redukcja atrybutów Jak obliczać minimalne zbiory atrybutów? Tak samo jak minimalne zbiory argumentów Metoda obliczania reduktów: Obliczyć: atrybuty niezbędne, iloczyn podziałów indukowanych atrybutami niezbędnymi (P N), podział ilorazowy P N P D (podział ilorazowy wskazuje na wszystkie pary obiektów, których porównanie utworzy tablicę porównań) z tablicy porównań utworzyć funkcje wyróżniającą (typu CNF) przekształcić CNF na DNF DNF reprezentuje wszystkie redukty!

Przykład redukcji atrybutów a atrybuty niezbędne: a 6 a 4 a 5 d a 6 a 3 a a ponieważ wiersze 6 i różnią się na pozycji a 3 3 6 3 5 4 skoro wiersze i 8 różnią się na pozycji a 6 3 7 3 8 6 3 3 4 9 4 3

Przykład redukcji atrybutów a 4 a 5 d a 6 a 3 a a ) ; 9;3,6,7 P =(,,4,5,8, 3 = P 6 =(,,6,9,;3,4,5,7,8) 3 5 4 3 6 = P =(,,7;3,4,6;5,8;9,) 3 7 6 P D =(,,7;3,4,6;5,8;9,) 3 3 4 9 3 8 4 3 4 (,)(9);(4)(5,8);(6);(3)(7);() P P P = 4 (,)(9);(4)(5,8);(6);(3)(7);() P P P D 6 =

Przykład redukcji atrybutów 3 4 5 a a a 3 a 4 a 5 a 6 d P P P = 3 6 D = (,)(9);(4)(5,8);(6);(3)(7);() a, a 4, a 5,9,9 4,5 6 3 4,8 7 8 9 Redukty: 3 3 4 3 4 3,7 Wyrażenie CNF a, a 3, a 4, a 5 a 3, a 4 a, a 4 a 4, a 5 DNF (a 4 + a ) (a 4 + a 3 ) (a 4 + a 5 ) = a 4 + a a 3 a 5 {a, a 4, a 6 } {a, a, a 3, a 5, a 6 } 5

Plik danych RSES TABLE EXPLOR ATTRIBUTES 7 x numeric x numeric x3 numeric x4 numeric x5 numeric x6 numeric x7 numeric OBJECTS 3 3 3 3 4 3 4 REDUCTS () { x, x4, x6 } { x, x, x3, x5, x6 } Jaki jest cel stosowania większych zbiorów atrybutów?

Przykładowa baza (tablica) danych Wyniki badań i diagnozy 7 pacjentów Badanie Badanie Badanie Badanie Badanie Badanie Badanie Badanie Pacjenci Diagnoza 3 4 5 6 7 8 P D3 P D3 P3 D3 P4 D P5 D P6 D3 P7 D3 Wyniki badań i symptomy choroby zapisane są symbolicznymi wartościami atrybutów Reguły decyzyjne (Bad_=)&(Bad_=) &(Bad_5=) &(Bad_8=)=>(Diagnoza=D3) 7

Uogólnione reguły decyzyjne Badanie Badanie Badanie Badanie Badanie Badanie Badanie Badanie Pacjenci Diagnoza 3 4 5 6 7 8 P D3 P D3 P3 D3 P4 D P5 D P6 D3 P7 D3 Reguły decyzyjne: (Bad_=)&(Bad_4=)=>(Diagnoza=D3) (Bad_4=)&(Bad_7=)=>(Diagnoza=D3) (Bad_=)&(Bad_3=)&(Bad_6=)=>(Diagnoza=D) ( (Bad_3=)&(Bad_5=)&(Bad_6=)=>(Diagnoza=D) (Bad_=)=>(Diagnoza=D) (Bad_=)&(Bad_4=)&(Bad_6=)&(Bad_8=)=>(Diagnoza=D) Reguły decyzyjne wygenerowane z pierwotnej bazy danych używane są do klasyfikowania nowych obiektów. 8

Uogólnione reguły decyzyjne mogą być zastosowane do zdiagnozowania nowego pacjenta. Bad Bad Bad3 Bad4 Bad5 Bad6 Bad7 Bad8 Diagnoza P D3 P D3 P3 D3 P4 D P5 D P6 D3 P7 D3 Nowy pacjent??? (Bad_=)&(Bad_4=)=>(Diagnoza=D3) Dla nowego pacjenta (Bad_4=)&(Bad_7=)=>(Diagnoza=D3) Diagnoza = D3 (Bad_=)&(Bad_3=)&(Bad_6=)=>(Diagnoza=D) (Bad_3=)&(Bad_5=)&(Bad_6=)=>(Diagnoza=D) (Bad_=)=>(Diagnoza=D) (Bad_=)&(Bad_4=)&(Bad_6=)&(Bad_8=)=>(Diagnoza=D) 9

Redukcja atrybutów Poszukiwanie takich podzbiorów atrybutów, które zachowują podział obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty Bad Bad Bad3 Bad4 Bad5 Bad6 Bad7 Bad8 Diagnoza P D3 P D3 P3 D3 P4 D P5 D P6 D3 P7 D3 { Bad_ Bad_4 Bad_6 Bad_8 } { Bad_ Bad_6 Bad_7 Bad_8 } { Bad_ Bad_3 Bad_6 } { Bad_ Bad_ Bad_6 Bad_8 } (Tomograf) Bad Bad6 Bad7 Bad8 Diagnoza P D3 P D3 P3 D3 P4 D P5 D P6 D3 P7 D3 3

Rosnące wymagania Wymagania na przetwarzanie coraz większych baz danych rosną, natomiast metody i narzędzia eksploracji danych stają się coraz mniej skuteczne UC Irvine Machine Learning Repository Breast Cancer Database Audiology Database Dermatology Database 3

Diagnostyka raka piersi Breast Cancer Database: Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: Klasyfikacja( klasy). Ocena spoistości masy nowotworowej. Ocena jednolitości rozmiaru komórek 3. Ocena jednolitości kształtu komórek. Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA 9. Występowanie podziałów komórkowych (mitoza) 3

REDUCTS (7) { x, x, x3, x4, x6 } { x, x, x3, x5, x6 } { x, x3, x4, x6, x7 } { x, x3, x4, x6, x7 } { x, x, x4, x6, x7 }. { x3, x4, x5, x6, x7, x8 } { x3, x4, x6, x7, x8, x9 } { x4, x5, x6, x7, x8, x9 } RULE_SET breast_cancer RULES 35 (x9=)&(x8=)&(x=)&(x6=)=>(x=) (x9=)&(x=)&(x3=)&(x6=)=>(x=) (x9=)&(x8=)&(x4=)&(x3=)=>(x=) (x9=)&(x4=)&(x6=)&(x5=)=>(x=).. (x9=)&(x6=)&(x=)=>(x=4) (x9=)&(x6=)&(x5=4)=>(x=4) (x9=)&(x6=)&(x=8)=>(x=4)

Inne bazy danych z zakresu medycyny Audiology Database Dermatology Database Number of instances: Number of Instances: 366 training cases Number of attributes: 34 Number of attributes: 7 Classification(6 classes) Classification(4 classes) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter (porter@fall.cs.utexas.edu) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 65 Ankara, Turkey Phone: +9 (3) 48 34

UC Irvine Machine Learning Repository Breast Cancer Database Audiology Database Dermatology Database Co jest przyczyną takiej sytuacji? 35

Klasyczna metoda redukcji atrybutów polega na transformacji wyrażenia boolowskiego CNF na DNF (Dysjunkcyjna Postać Normalna). Transformacja taka tradycyjnie jest obliczana metodami przekształceń boolowskich. Jak zwiększyć skuteczność obliczania reduktów? Można zastosować ten sam pomysł, jaki jest stosowany w redukcji argumentów, gdyż cały proces polega na: Transformacja CNF DNF Procedurę transformacji można zastąpić dużo szybszą procedurą uzupełniania funkcji boolowskiej. 36

Przykład redukcji atrybutów z pl. 7 3 4 5 a a a 3 a 4 a 5 a 6 d 3 Tablica rozróżnialności,9,9 4,5 6 3 4,8 7 8 9 Redukty: 3 3 4 3 4 3,7 Wyrażenie CNF a, a 4, a 5 a, a 3, a 4, a 5 a 3, a 4 a, a 4 a 4, a 5 DNF (a 4 + a ) (a 4 + a 3 ) (a 4 + a 5 ) = a 4 + a a 3 a 5 {a, a 4, a 6 } {a, a, a 3, a 5, a 6 } 37

Przykład z pl. 8 Transformacja CNF DNF (a 4 + a ) (a 4 + a 3 ) (a 4 + a 5 )= a 4 + a a 3 a 5 Zapisujemy tablicę rozróżnialności w postaci funkcji boolowskiej: a a 3 a 4 a 5 F - - - - nanosimy na tablicę K. a 4 a 5 a a 3 - -

Algorytm obliczania reduktów Oczywiście w praktyce nikt nie liczy uzupełnienia posługując się tablica Karnaugha Uzupełnienie oblicza się dla zero-jedynkowej macierzy M. Sprytna procedura uzupełniania polega na iteracyjnym rozkładzie zbioru kostek macierzy M na kofaktory. Kofaktory te są obliczane tak długo, aż odpowiadające im zbiory kostek staną się łatwe do obliczenia ich uzupełnienia. Proces kończy scalanie wyników cząstkowych. 39

Metoda Complement Pierwotnie była stosowana w systemie Espresso, ale wyłącznie do obliczania zbioru D (lub R) F,D Espresso Complement Expand Essential primes Irredundant-Cover Reduce Last-gasp F M (Rozdział 5.5 ) 4

Błyskawica vs RSES Nie potrafi policzyć reduktów dla Błyskawica liczy wszystkie Audiology Database 37367 reduktów: 9,57 s. Dermatology Database 4389 reduktów: 686,89 s. 4

Eksperymenty database breast-cancer -wisconsin attr. inst. RSES/ ROSETTA compl. method Number of reducts compl. method (least) Minimal reducts 699 s 83ms 7 86ms 4 (5 attr) urology out of memory 36 5 4s 74ms 3437 (h) s 499ms ( attr) audiology out of memory 7 4s 58ms 37367 (h 7min) 9ms (attr) dermatology out of memory 35 366 3m 3s 4393 (3h 7min) s 474ms 7 (6 attr) trains out of memory 33 (5h 38min) 6ms 689 ms ( attr) kaz 3 6min 34ms 5574 5ms 35(5attr) 5 timesfaster! 4

Complementation method x j Matrix M xj cofactor cofactor complement cofactor.. complement complement Kilka tysięcy razy! Borowik G., Łuba T., Fast Algorithm of Attribute Reduction Based on the Complementation of Boolean Function, Ch., pp. 5-4, Springer International Publishing, 4, Cytowania Guilong Liu et al.: Attribute reduction approaches for general relation decision systems, pp. 8-87, Pattern Recognition Letters, Vol. 65, Nov. 5. Note that we use fast algorithm based on the complementation of Boolean function, proposed by Borowik and Luba (Borowik and Luba, 4), in calculation process of transforming CNF into DNF and finding a minimum set implicants. 43

Podsumowanie Metody syntezy logicznej wypracowane dla potrzeb projektowania układów cyfrowych są skuteczne również w eksploracji danych Dają rewelacyjne wyniki Są proste w implementacji Są źródłem ciekawych prac dyplomowych 44

Są źródłem ciekawych prac dyplomowych Konrad Królikowski Implementacja algorytmu obliczania reduktów metodą uzupełniania funkcji boolowskich, Cezary Jankowski Dyskretyzacja danych numerycznych metodami przekształceń boolowskich, WEiTI 4 Michał Andrzej Mańkowski Uogólnianie reguł decyzyjnych metodą uzupełniania funkcji boolowskich, WEiTI 4 45

Predykcja decyzji a a a 3 a 4 a 5 a 6 d Tak Tak 3 3 3 Tak 4 Tak 5 3 Tak 6 3 3 4 3 Tak 7 3 3 3 Nie 8 Nie 9 4 3 Nie 3 4 3 Nie 3? Reguły (a=)&(a3=)&(a5=)&(a=)&(a6=)=>(d=tak) (a6=)&(a=)&(a=)=>(d=tak) (a=3)&(a=3)&(a3=)&(a4=)=>(d=tak) (a=)&(a3=)&(a=)&(a4=)&(a5=)&(a6=)=>(d=nie) (a=3)&(a3=)&(a=3)&(a4=3)=>(d=nie) (a4=4)&(a5=3)&(a6=)&(a=)=>(d=nie) Nieznana wartość decyzji (a=)&(a=)&(a3=)&(a4=3)&(a5=)&(a6=) Potrafimy sklasyfikować nowe dane 46

System z dwustopniowym procesem selekcji reguł 47

Bazy danych do eksperymentów UC Irvine Machine Learning Repository Pełna nazwa bazy Nazwa skrócona Liczba instancj i Liczba atrybutów warunkowych Liczba klas decyzyjnych Dermatology Data Set Dermatology 366 33 6 Breast Cancer Wisconsin (Original) Data Set Indian Liver Patient Dataset Breast Cancer 699 9 ILPD 583 House Data Set House ) 3 6 ) Głosy kongresmenów w sprawie 6 kluczowych problemów zebrane w roku 984 (tak lub nie). 48

Eksperymenty Program Baza Dokładność Pokrycie Algorytm RSES House 84,9% 89,6% LEM Reguły House 9,% % Complement+MinRow RSES Breast cancer 87,% 87,% LEM Reguły Breast cancer 87,9% 93,% Complement+MinRow Indian Liver RSES 8,84% 48,3% LEM Patient Dataset Indian Liver Reguły 66% 97% Complement+MinRow Patient Dataset Dermatology RSES 87,77% 9,% LEM Data Set Dermatology Reguły 78,% 99,8% Complement+MinRow Data Set

Indukcja reguł dla Bazy House Fragment bazy!, Decision table for house of reps.!, < D A A A A A A A A A A A A A A A A >!, [ CLASS-NAME HANDICAPPED-INFANTS WATER-PROJECT- COST-SHARING ADOPTION-OF-THE-BUDGET-RESOLUTION PHYSICIAN-FEE- FREEZE EL-SALVADOR-AID RELIGIOUS-GROUPS-IN-SCHOOLS ANTI-SATELLITE-TEST-BAN AID-TO-NICARAGUAN-CONTRAS MX-MISSILE IMMIGRATION SYNFUELS-CORPORATION-CUTBACK EDUCATION-SPENDING SUPERFUND-RIGHT-TO-SUE CRIME DUTY-FREE-EXPORTS EXPORT-ADMINISTRATION-ACT- SOUTH-AFRICA ]!, Now the data!, democrat n y y n y y n n n n n n y y y y republican n y n y y y n n n n n y y y n y democrat y y y n n n y y y n y n n n y y democrat y y y n n n y y y n n n n n y y democrat y n y n n n y y y y n n n n y y democrat y n y n n n y y y n y n n n y y democrat y y y n n n y y y n y n n n y y republican y n n y y n y y y n n y y y n y Zapis w standardzie RSES TABLE House ATTRIBUTES 7 x numeric x numeric x3 numeric... x7 numeric OBJECTS 3... democrat y y y n n n y y y n y n n n y y republican n y n y y y n n n n n y y y n n democrat y y y n n n y y y y n n y n y y 5

Wynik RSES RULES (x3=)&(x=)&(x5=)&(x4=)=>(x7=[98]) 98 (x3=)&(x3=)&(x=)&(x=)&(x6=)=>(x7=[56]) 56 (x3=)&(x3=)&(x=)&(x=)&(x8=)&(x9=)&(x4=)&(x=)&(x5=)&(x4=)&(x=)&(x6=)&(x6=)=>(x7=[45]) 45 (x3=)&(x3=)&(x=)&(x=)&(x8=)&(x9=)&(x4=)&(x=)&(x5=)&(x4=)&(x5=)=>(x7=[37]) 37 (x=)&(x3=)&(x=)&(x=)=>(x7=[3]) 3 (x3=)&(x3=)&(x5=)&(x5=)&(x8=)&(x=)&(x9=)&(x=)&(x4=)&(x=)&(x4=)&(x6=)=>(x7=[7]) 7 (x3=)&(x3=)&(x=)&(x5=)&(x7=)=>(x7=[]) (x4=)&(x=)&(x8=)&(x9=)&(x=)&(x=)&(x3=)&(x4=)&(x6=)&(x=)&(x5=)=>(x7=[9]) 9 (x4=)&(x=)&(x3=)&(x=)=>(x7=[7]) 7 (x3=)&(x3=)&(x=)&(x6=)&(x8=)&(x=)&(x=)&(x5=)&(x5=)=>(x7=[4]) 4 (x3=)&(x4=)&(x5=)&(x6=)&(x7=)&(x8=)&(x=)&(x=)&(x3=)&(x4=)&(x=)=>(x7=[4]) 4 (x=)&(x3=)&(x6=)&(x=)&(x=)&(x8=)&(x9=)&(x=)&(x4=)&(x6=)&(x7=)&(x3=)=>(x7=[3]) 3 (x=)&(x6=)&(x7=)&(x=)&(x4=)&(x=)=>(x7=[3]) 3 (x3=)&(x4=)&(x5=)&(x=)&(x=)&(x6=)&(x7=)&(x=)&(x4=)&(x=)=>(x7=[]) (x=)&(x3=)&(x5=)&(x4=)&(x=)&(x=)&(x=)&(x5=)&(x=)&(x6=)&(x3=)&(x4=)=>(x7=[]) (x6=)&(x=)&(x3=)&(x7=)&(x4=)&(x=)&(x4=)=>(x7=[]) (x=)&(x3=)&(x6=)&(x=)&(x=)&(x8=)&(x9=)&(x5=)&(x7=)&(x=)&(x3=)&(x=)&(x4=)&(x6=)&(x4=)=>(x7=[]) (x=)&(x6=)&(x=)&(x=)&(x3=)&(x4=)&(x8=)&(x9=)&(x=)&(x=)&(x3=)&(x6=)&(x5=)=>(x7=[]) (x=)&(x=)&(x3=)&(x4=)&(x5=)&(x6=)&(x7=)&(x8=)&(x9=)&(x=)&(x=)&(x=)&(x3=)&(x4=)&(x5=)&(x6=)=>(x7=[] ) (x3=)&(x4=)&(x=)&(x5=)&(x=)&(x5=)&(x7=)&(x8=)&(x9=)&(x=)&(x=)&(x3=)&(x4=)=>(x7=[]) (x3=)&(x4=)&(x=)&(x9=)&(x=)&(x=)&(x4=)&(x5=)&(x6=)=>(x7=[]) (x=)&(x=)&(x3=)&(x4=)&(x5=)&(x6=)&(x7=)&(x8=)&(x9=)&(x=)&(x=)&(x=)&(x3=)&(x4=)&(x5=)&(x6=)=> (x7=[]) 5

Porównanie Wynik RSES ------------ ----------- --- ----- ------------ ---- ----------- ----- ------------ ------- ----- ---- ---------- ------ ---- --------- - --- --- ------- Wynik systemu Reguły -------------- ------------- ------------- -------------- -------------- -------------- ------------- ------------- ------------ -------------- ------------- ------------- ------------- ------------ ----------- ------------- ------------ Reguły systemu Reguły są ogólniejsze 5

Dyskretyzacja danych na przykładzie bazy danych do klasyfikacji poczty elektronicznej. On the testing of network cyber threat detection methodson spam example, R. Filasiak M. Grzenda M. Luckner, P. Zawistowski. Annals of Telecommunications. (4) 69:363 377. Baza zawiera 584 rekordy, Rekordy są reprezentowane 64 atrybutami, Klasyfikacja: y_spam, n_spam, rejected, outgoing, other 53

Fragment SpamBase z danymi numerycznymi,, 64,, 64, 64, 39, 46, 584,,,.75755785e-5, 9.98963793, 3.5378446, 899.866965955, 6949.64337846949, 39994.35949999998, 45.898, 5, 4849, 4887335, 685398965, 5, 5,, 6, 5, 356,, 89,,, 9, 633,,, 93, 5766, 6, 6, 649, 46, 579,, relay,.399999836884, 5.4356889999989,.7763749998653, 3.34898539, 6.6876789878, 457.8345, 5.649899999853, 8, 53, 7, 39, 4, 7,, 44, 4, 4,,,, 4,, 9,,,,,,, 4, 4, 4,,,.854999998497667, 5.3758999998446, 5.5936399999495, 8.997377375459, 55.36565539665, 457.83783, 463.4688999998, 6, 7, 779, 874673, 4, 78,, 44,, 8,,,,, 3, 576,,, 384, 4576, 64, 64, 354, 584, 584,, dnsbl,.9999964479357e-5,.538399999943795,.6686956546,.3833798685,.68647986344486, 39836.34987999999,.59849699999946, 3, 46, 3485, 76694855, 5, 5,, 6,, 655,, 5,,, 9, 79,,, 53,, 53, 53, 5753, 53679, 579,,,.9999964479357e-5,.566999998745,.598469999997789,.568836888556,.55659468967, 39836.3499, 39836.948389999998, 6, 39, 6555, 39998357, 5, 5,, 6, 4, 864,, 89,,,, 67,,, 664, 6496, 64, 64, 756, 448, 579,, y_spam,.599767536, 5.434788,.7755555578,.3776393365397, 8.446453894, 3994.59954999998, 6.348468, 9, 47,, 353, 4, 8,, 48, 3, 4,, 4,, 8,, 69,,, 7,, 7, 7, 5887,, 65535,,,.55999997358335, 4.99679399999877, 6.7899999885, 5.68573977885, 5.4536593844, 3994.59953, 39946.86548999998, 7, 55, 578, 6887796, 4, 48,, 48,, 8,, 4,,, 3, 384,,, 448, 867, 64, 64, 488, 584, 584,, dnsbl,.49958375, 5.33899999998336,.7983655653,.9889565448766, 5.439936499, 4359.345999999, 6.3869484, 8, 5, 73, 53595, 4, 8,, 44, 4, 4,,,, 4,, 88,,,,,,, 4, 4, 4,,,.956999996566573,

Fragment SpamBase z danymi dyskretnymi, 4, 5, 4, 4, 4, 4, 39,, 4, 3,,,,,,,,,,,,,,,, 3,, 5,,, 6,,,,, 5, 7, 3, 5, 5,, 5,, 3, 37, 3, 37,,,,,, 6,,, 4, 9,,,,,,, 6,,,, relay, 43, 4, 4, 3, 4, 4, 5,,, 8, 5,, 6,,,,,,,,,, 6,,, 6,, 5, 9, 5,,,,, 6, 37,,, 5, 5,,, 9,,,,,,,,,,,,,, 5,,,,,,, 36, 5,,, dnsbl,,,,,, 4,, 5, 5, 8, 6,,,,, 7, 9,,,,,, 6,,,,,,, 4, 7, 8,,,, 3,,,, 5,, 6,, 3, 38, 3, 37,,,,,, 6,,, 4, 9,,,,,,, 7,,,, y_spam, 5, 33, 4, 7, 3, 4, 7,,,,,,,,,,,,,,,,,,, 5,, 6,, 3,, 3,,, 4, 4, 4, 8, 3, 5,,, 9, 5, 5,,,,,,,,,,,,,,,,,,, 45, 5,,, dnsbl, 5, 39, 5, 9, 4, 4, 7,,, 8, 3,, 7,,,,,,,,,, 5,,,,,, 6, 5,,,,, 7, 5, 4, 8, 4, 6,,, 9, 7,,, 6,,,,,,,,,, 3,,,,,,, 36, 5,,, dnsbl,, 3, 4, 7, 3, 4, 3,,,,,,,,,,,,,,,,,,, 5,, 6,, 3,, 3,,,, 9, 5, 7,, 5,, 4, 4, 5, 9,,,,,,,,,,,,,,,,,,, 65, 5,,, dnsbl, 5, 8, 4, 5,, 4,,, 5, 4,,,,,,,,,,,,,,,, 7,, 8, 3,, 7,,,, 7, 8,,,, 6,, 6,,,,, 7,,,,,,,,, 4, 8,,,,,,, 7, 5, 9,, y_spam, 7, 38, 4, 9, 4, 4, 5,,, 8, 6,,,,,,,,,,,, 7,,,,,, 7, 5,,,,, 6, 6,, 8, 4, 4,,,, 6, 3,, 37,,,,,,,,,,,,,,,,, 36, 5,,, dnsbl, 64, 5,, 38, 4, 4, 34,,,,,, 4,,,,,,,,,, 5,,, 4,, 5,, 6,, 3,,, 3, 5, 6,, 5, 5,,,,, 4,, 7,,,,,,,,,, 3,,,,,,, 45, 5,,, dnsbl, 7, 3, 4, 7, 3, 4, 38, 5, 8, 4,,,,,, 6,,,,,,, 8,,, 4,, 4, 9, 5,,,,, 67, 9, 6, 8,, 5,, 5,, 3, 37,, 9,,,,,,,,,, 8,,,,,,, 7, 5, 6,, y_spam, 43, 4, 5, 3, 4, 4,,,,,,,,,,,,,,,,,,,, 5,, 6,, 4,, 3,,, 4, 36, 5,, 5, 5,,, 9, 5, 5,,,,,,,,,,,,,,,,,,, 36, 5,,, dnsbl, 99, 3, 9, 9,, 4,,,, 3,,,,,,,,,,,,, 7,,,,,, 7, 5,,,,, 7,,,,, 4,