Eksploracja danych (Data mining)

Transkrypt

1 Eksploracja danych (Data mining) jest dynamicznie rozwijającą się o szerokich zastosowaniach: dziedziną informatyki medycynie farmakologii bankowości lingwistyce rozpoznawaniu mowy ochrona środowiska Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. ZPT

2 Eksploracja danych. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). Potrafi Potrafi przeprowadzić sondaż? Potrafi Potrafi zdiagnozować pacjenta Potrafi Potrafi klasyfikować dane? dane? Potrafi Potrafi podjąć podjąćdecyzję decyzję o przyznaniu kredytu kredytu klientowi banku banku ZPT

3 Pozyskiwanie wiedzy z baz danych na abstrakcyjnym poziomie algorytmów polega na Redukcji atrybutów Generacji reguł decyzyjnych Hierarchicznym podejmowanie decyzji Są to algorytmy analogiczne do algorytmów stosowanych w syntezie logicznej! ZPT

4 Eksploracja danych a synteza logiczna Eksploracja danych Synteza logiczna! Generacja reguł decyzyjnych! Redukcja atrybutów! Minimalizacja funkcji boolowskich! Redukcja argumentów! Hierarchiczne podejmowanie decyzji! Dekompozycja funkcjonalna ZPT 4

5 Tablice i reguły decyzyjne Wiele rzeczywistych zjawisk opisuje się tablicami danych O b i e k t y a b d e Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e. ZPT 5

6 Tablice i reguły decyzyjne Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: U: (a,) (b,) (d,) (e,) U5: (a,) (b,) (d,) (e,) a b d e redukcja atrybutów redukcja (generacja) reguł decyzyjnych ZPT 6

7 Generacja reguł Wyrażenia takie można upraszczać za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. ZPT 7

8 Przykład generacji reguł Tablica decyzyjna U a b c d e Tablica reguł minimalnych a b c d e ZPT 8

9 Przykład: uogólniamy U U a b c d e a b c d M = 7 Macierz M powstaje przez porównanie obiektów: (u, u ), (u, u 4 ),..., (u, u 7 ). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=, dla różnych m=. ZPT 9

10 Przykład: uogólniamy U a b c d a, d U a b c d e M = b b, d a, b, d Minimalne pokrycia są: {a,b} oraz {b,d}, a, b, c, d Wyznaczone na ich podstawie minimalne reguły: (a,) & (b,) (e,) (b,) & (d,) (e,) U a b c d e - - ZPT

11 Przykład generacji reguł cd. Po uogólnieniu obiektu u u. U a b c d e - - u mo na U a b c d e ZPT

12 Przykład generacji reguł c.d. U a b c d e (a,) (e,) (b,) & (d,) (e,) Dla obiektu u a b c d Dla obiektu u4 / / a b c d Niestety po uogólnieniu ani u nie pokrywa u 4, ani u 4 nie pokrywa u ZPT

13 Przykład generacji reguł c.d. U a b c d e Dla obiektu u5 a b c d (d,) (e,) u 6, u 7 ZPT

14 Reguły minimalne Uogólnione reguły decyzyjne: (a,) & (b,) (e,) (a,) (e,) (b,) & (d,) (e,) (d,) (e,) a b c d e w innym zapisie: (a,) & (b,) (e,) (a,) (b,) & (d,) (e,) (d,) (e,) ZPT 4

15 Interpretacja reguł uogólnionych Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane U a b c d e Ale pojawia się nowy zestaw danych a=,b=, c=, d= Jaka decyzja? Na uogólnionych regułach jest to oczywiste! a b c d e e = ZPT 5

16 Zastosowania Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: Przykładowo: - Sytuacja zawodowa: B (bezrobotny), P (pracujący) - przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B) - wiek w latach - stan konta ZPT 6

17 Przykładowa tablica danych... Sytuacja zawodowa Przeznaczenie: Komp., sam. wiek Stan konta Staż pracy w danym zakładzie pracy C C C C4 C5 C6 C7 C8 C9 C Klasa P K K S nie 8 5 tak P K K S nie tak B K K R tak nie P S M R nie 5 tak P S M S nie 5 5 tak P S M R nie 8 5 tak ZPT 7

18 Zastosowania Po uogólnieniu reguł decyzyjnych [wiek > 5] & [stan konta > 7] & [staż pracy > ] tak. [płeć = kobieta] & [wiek < 5] nie Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należy ZPT LERS 8

19 Diagnostyka raka piersi Breast Cancer Database: " Instancje (obiekty): 699 (dane poszczególnych pacjentów) " Liczba atrybutów: " Klasyfikacja ( klasy). Ocena spoistości masy nowotworowej. Ocena jednolitości rozmiaru komórek. Ocena jednolitości kształtu komórek. ZPT Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA 9. Występowanie podziałów komórkowych (mitoza) 9

20 Breast Cancer Database (fragment) ZPT ID a a a a4 a5 a6 a7 a8 a9 a

21 Pozyskiwanie wiedzy z baz danych LERS był wykorzystany do obliczenia reguł decyzyjnych wspomagających diagnostykę raka piersi. R. K. Nowicki Rozmyte systemy decyzyjne w zadaniach z ograniczoną wiedzą, Akademicka Oficyna Wydawnicza EXIT, Warszawa 9. (Reguły decyzyjne dla Breast Cancer Database ) ZPT

22 Komputerowe systemy klasyfikacji danych ROSETTA Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. ale skoro wiemy, że można do tych obliczeń stosować metody syntezy logicznej ZPT

23 Porównanie ESPRESSO.i 7.o.type fr.p 9.e f = x + 4x7 xx6 RSES TABLE extlbis ATTRIBUTES 8 x numeric x numeric x numeric x4 numeric x5 numeric x6 numeric x7 numeric x8 numeric OBJECTS 9 (x=)&(x5=)&(x6=)&(x=)=>(x8=) (x=)&(x=)&(x5=)&(x=)&(x4=)&(x6=)=>(x8=) (x4=)&(x=)&(x=)&(x7=)=>(x8=) (x=)&(x4=)&(x5=)&(x6=)=>(x8=) f = x + 4xxx7 xx4x5x6 ZPT

24 Porównanie Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, którą najpierw omówimy w ujęciu redukcji argumentów. ZPT

25 Redukcja atrybutów a a a a 4 a 5 a 6 d a a a 5 a 6 d Redukty: {a, a, a 5, a 6 } {a, a, a 5, a 6 } ZPT 5

26 ZPT 6 Przykład redukcji atrybutów a 4 a d a 6 a a a ponieważ wiersze 6 i różnią się na pozycji a a a 6 a wiersze i 8 różnią się na pozycji a 6

27 ZPT 7 Przykład redukcji atrybutów a 4 a d a 6 a a a ),9;,6,7 ; P = (,,4,5,8 P 6 = (,,6,9,;,4,5,7,8) P D = (,,7;,4,6;5,8;9,) (,)(9);(4)(5,8);(6);()(7);() P P P D 6 =

28 Przykład redukcji atrybutów 4 5 a a a a 4 a 5 a 6 d () P P6 PD = (,)(9);(4)(5,8);(6);()(7);,9,9 4,5 a, a 4, a 5 a, a, a 4, a 5 a, a ,8,7 a, a 4 a 4, a (a 4 + a ) (a 4 + a ) (a 4 + a 5 ) = a 4 + a a a 5 {a, a 4, a 6 } {a, a, a, a 5, a 6 } ZPT 8

29 ZPT TABLE EXPLOR ATTRIBUTES 7 x numeric x numeric x numeric x4 numeric x5 numeric x6 numeric x7 numeric OBJECTS 4 4 Plik danych RSES REDUCTS () { x, x4, x6 } { x, x, x, x5, x6 }

30 Inna metoda obliczania reduktów Omówioną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej. Twierdzenie: Każdy wiersz i macierzy, stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j M wtedy i tylko wtedy, gdy = M ij Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso. ZPT

31 Przykład metoda klasyczna M: x x x 4 x x 4 x x x x 4 (x + x + x 4 ) (x + x 4 ) (x + x )(x + x 4 ) = = x x + x x 4 +x x 4 To są wszystkie minimalne pokrycia kolumnowe macierzy M ZPT

32 Przykład metoda uzupełniania M: f = M x = x x 4 x + x x 4 x + 4 x + x x 4 x + x x + x x 4 = x x 4 x x x x + x x 4 +x x 4 f M = x x + x 4 + x x x4 ZPT To samo co poprzednio!

33 ZPT Obliczanie reduktów metodą uzupełniania jest bardzo skuteczne Przykład TL7.i 7.o.type fr.p 9.e Tablica porównań Tablica porównań nie jest funkcją boolowską

34 Redukcja (usuwanie) wierszy tabl. porównań.i 7.o.type fr.p 9.e ZPT Zredukowana tablica porównań.i 7.o.p end reprezentuje funkcję boolowską 4

35 Do obliczenia uzupełnienia zastosujmy Espresso {x,x,x 4,x 6,x 7 } F,D Complement {x,x,x 4,x 6 }.i 7.o.p end Expand Essential primes Irredundant-Cover ESPRESSO Reduce Last-gasp F M {x,x 4,x 5,x 6 } {x,x 4,x 6,x 7 }.i 7.o.p end ZPT 5

36 Skuteczność metody uzupełniania w zastosowaniu do rzeczywistych baz danych ZPT Audiology Database " Number of instances: training cases " Number of attributes: 7 " Classification (4 classes) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter (porter@fall.cs.utexas.edu) Dermatology Database Number of Instances: 66 Number of attributes: 4 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 65 Ankara, Turkey Phone: +9 () 4 8 6

37 Trains.type fdr.i.o.p end ZPT RSES nie może policzyć, znajduje tylko rozwiązanie heurystyczne redukty

38 ZPT.type fr.i.o.p.end Funkcja KAZ 5574 redukty 8

39 Eksperymenty attributes objects RSES/ROSETTA prop. method reducts trains >5 h out of memory < sec. 689 KAZ 7 min. < sec house sec. sec. audiology 7 >5 h out of memory min. 767 dermatology 5 66 >5 h out of memory 9 min ZPT Bezwzględna przewaga metody uzupełniania! 9

40 Wnioski " Metody syntezy logicznej są skuteczne " Dają rewelacyjne wyniki " Proste do implementacji " Mogą być źródłem ciekawych prac dyplomowych ZPT 4

41 Dekompozycja tablic decyzyjnych Atrybuty A B G Tablica decyzyjna H Decyzja pośrednia Decyzja końcowa Atrybuty ZPT 4

42 Dekompozycja tablic decyzyjnych F = H(A,G(B)) A B G Π G P(A) Π G P(B): P D H Decyzja pośrednia Decyzja końcowa ZPT 4

43 Przykład dekompozycji TD a 4 a 5 a a a a 6 d A = {a4, a 5, a 6 } B = {a, a, a } 4 4 P(A) = (; ; ; 4; 5,7; 6,9,; 8) P(B) P D = (;,8;,6,7; 4; 5,9;) PU P = (,)(9);(4)(5,8);(6);()(7);() Π G = D (,,7; = (,,,4,6,7,8;,4,6; 5,8; 9,) 5,9,) ZPT 4

44 Przykład c.d. F ZPT 44 G: H: a a a g a 4 a 5 a 6 g d

45 Kompresja danych S = pσq i S G = 4 jednostki S F = jednostek Dekompozycja S H = 7 jednostki S G + S H = 87% S F ZPT 4

46 Przykład!, Decision table for house of reps.!, < D A A A A A A A A A A A A A A A A >!, [ CLASS-NAME HANDICAPPED-INFANTS WATER-PROJECT-COST-SHARING ADOPTION-OF-THE-BUDGET-RESOLUTION PHYSICIAN-FEE-FREEZE EL- SALVADOR-AID RELIGIOUS-GROUPS-IN-SCHOOLS ANTI-SATELLITE-TEST-BAN AID-TO-NICARAGUAN-CONTRAS MX-MISSILE IMMIGRATION SYNFUELS-CORPORATION-CUTBACK EDUCATION-SPENDING SUPERFUND- RIGHT-TO-SUE CRIME DUTY-FREE-EXPORTS EXPORT-ADMINISTRATION-ACT- SOUTH-AFRICA ]!,!, Now the data!, democrat n y y n y y n n n n n n y y y y republican n y n y y y n n n n n y y y n y republican n n y y y y n n y y n y y y n y democrat n n y n n n y y y y n n n n n y 68% kompresji danych ZPT 4