Eksploracja danych (Data mining)

Podobne dokumenty
Synteza logiczna w eksploracji danych

Synteza logiczna w eksploracji danych

Synteza logiczna w eksploracji danych

Minimalizacja funkcji boolowskich c.d.

Minimalizacja form boolowskich UC1, 2009

PRACA DYPLOMOWA. Andrzej Kisiel DISCOVERING DECISION RULES OF BINARY DATA TABLES USING COMPLEMENT OF BOOLEAN FUNCTIONS

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3

PRACA DYPLOMOWA INŻYNIERSKA

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Krótki opis programu pandor.exe

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Metody systemowe i decyzyjne w informatyce

Systemy ekspertowe : Tablice decyzyjne

Koszt literału (literal cost) jest określony liczbą wystąpień literału w wyrażeniu boolowskim realizowanym przez układ.

Algorytmy klasyfikacji

Klasyfikacja metodą Bayesa

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

JAKOŚĆ DANYCH Z PERSPEKTYWY SYSTEMÓW WSPOMAGANIA DECYZJI KLINICZNYCH. Dr hab. inż. Szymon Wilk Politechnika Poznańska Instytut Informatyki

Sztuczna inteligencja

Wykład I. Wprowadzenie do baz danych

Minimalizacja formuł Boolowskich

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Analiza i wizualizacja danych Data analysis and visualization

T. Łuba, B. Zbierzchowski Układy logiczne Podręcznik WSISiZ, Warszawa 2002.

Adrian Horzyk

PRZEWODNIK PO PRZEDMIOCIE

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wstęp do Techniki Cyfrowej... Teoria automatów

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Newton vs. Lagrange - kto lepszy?

Agnieszka Nowak Brzezińska Wykład III

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Optymalizacja reguł decyzyjnych względem pokrycia

Minimalizacja funkcji boolowskich

Paweł Kurzawa, Delfina Kongo

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

WYKŁAD 6. Reguły decyzyjne

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

PRACA DYPLOMOWA INŻYNIERSKA

Wprowadzenie do złożoności obliczeniowej

METODY INŻYNIERII WIEDZY

Prawdopodobieństwo czerwonych = = 0.33

Informatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS

Wyk lad 8: Leniwe metody klasyfikacji

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Informatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

METODY INŻYNIERII WIEDZY

Zarządzanie danymi na cytometrach BD

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H


Baza danych. Modele danych

Elementy modelowania matematycznego

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

ALGORYTM RANDOM FOREST

Skalowanie wielowymiarowe idea

Analiza korespondencji

Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł

Eksploracja logów procesów. Process mining

Document: Exercise*02*-*manual /11/ :31---page1of8 INSTRUKCJA DO ĆWICZENIA NR 2

Systemy ekspertowe. Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych. Część trzecia

Agnieszka Nowak Brzezińska Wykład III

10. Redukcja wymiaru - metoda PCA

Wymagania na poszczególne oceny szkolne dla klasy VI. (na podstawie Grażyny Koba, Teraz bajty. Informatyka dla szkoły podstawowej.

Rozpoznawanie obrazów

Statystyka i eksploracja danych

CLUSTERING. Metody grupowania danych

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Optymalizacja systemów

Wprowadzenie do technologii informacyjnej.

Klasyfikacja i regresja Wstęp do środowiska Weka

3-letnie (6-semestralne) stacjonarne studia licencjackie kier. matematyka stosowana profil: ogólnoakademicki. Semestr 1. Przedmioty wspólne

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Diagnostyka procesów przemysłowych Kod przedmiotu

SZTUCZNA INTELIGENCJA

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

KIERUNKOWE EFEKTY KSZTAŁCENIA

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska

Wprowadzenie do Hurtowni Danych

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Sprzętowo wspomagane metody klasyfikacji danych

Optymalizacja systemów

Transkrypt:

Eksploracja danych (Data mining) jest dynamicznie rozwijającą się o szerokich zastosowaniach: dziedziną informatyki medycynie farmakologii bankowości lingwistyce rozpoznawaniu mowy ochrona środowiska Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. ZPT

Eksploracja danych. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). Potrafi Potrafi przeprowadzić sondaż? Potrafi Potrafi zdiagnozować pacjenta Potrafi Potrafi klasyfikować dane? dane? Potrafi Potrafi podjąć podjąćdecyzję decyzję o przyznaniu kredytu kredytu klientowi banku banku ZPT

Pozyskiwanie wiedzy z baz danych na abstrakcyjnym poziomie algorytmów polega na Redukcji atrybutów Generacji reguł decyzyjnych Hierarchicznym podejmowanie decyzji Są to algorytmy analogiczne do algorytmów stosowanych w syntezie logicznej! ZPT

Eksploracja danych a synteza logiczna Eksploracja danych Synteza logiczna! Generacja reguł decyzyjnych! Redukcja atrybutów! Minimalizacja funkcji boolowskich! Redukcja argumentów! Hierarchiczne podejmowanie decyzji! Dekompozycja funkcjonalna ZPT 4

Tablice i reguły decyzyjne Wiele rzeczywistych zjawisk opisuje się tablicami danych O b i e k t y a b d e 4 5 6 Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e. ZPT 5

Tablice i reguły decyzyjne Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: U: (a,) (b,) (d,) (e,) U5: (a,) (b,) (d,) (e,) a b d e 4 5 6 redukcja atrybutów redukcja (generacja) reguł decyzyjnych ZPT 6

Generacja reguł Wyrażenia takie można upraszczać za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. ZPT 7

Przykład generacji reguł Tablica decyzyjna U a b c d e 4 5 6 7 Tablica reguł minimalnych a b c d e ZPT 8

Przykład: uogólniamy U U a b c d e a b c d 4 5 6 M = 7 Macierz M powstaje przez porównanie obiektów: (u, u ), (u, u 4 ),..., (u, u 7 ). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=, dla różnych m=. ZPT 9

Przykład: uogólniamy U a b c d a, d U a b c d e M = b b, d a, b, d Minimalne pokrycia są: {a,b} oraz {b,d}, a, b, c, d Wyznaczone na ich podstawie minimalne reguły: (a,) & (b,) (e,) (b,) & (d,) (e,) U a b c d e - - ZPT

Przykład generacji reguł cd. Po uogólnieniu obiektu u u. U a b c d e - - u mo na U a b c d e - - 4 5 6 7 ZPT

Przykład generacji reguł c.d. U a b c d e 4 5 6 7 (a,) (e,) (b,) & (d,) (e,) Dla obiektu u a b c d Dla obiektu u4 / / a b c d Niestety po uogólnieniu ani u nie pokrywa u 4, ani u 4 nie pokrywa u ZPT

Przykład generacji reguł c.d. U a b c d e 4 5 6 7 Dla obiektu u5 a b c d (d,) (e,) u 6, u 7 ZPT

Reguły minimalne Uogólnione reguły decyzyjne: (a,) & (b,) (e,) (a,) (e,) (b,) & (d,) (e,) (d,) (e,) a b c d e w innym zapisie: (a,) & (b,) (e,) (a,) (b,) & (d,) (e,) (d,) (e,) ZPT 4

Interpretacja reguł uogólnionych Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane U a b c d e Ale pojawia się nowy zestaw danych a=,b=, c=, d= Jaka decyzja? 4 5 6 7 Na uogólnionych regułach jest to oczywiste! a b c d e e = ZPT 5

Zastosowania Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: Przykładowo: - Sytuacja zawodowa: B (bezrobotny), P (pracujący) - przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B) - wiek w latach - stan konta ZPT 6

Przykładowa tablica danych... Sytuacja zawodowa Przeznaczenie: Komp., sam. wiek Stan konta Staż pracy w danym zakładzie pracy C C C C4 C5 C6 C7 C8 C9 C Klasa P K K S nie 8 5 tak P K K S nie tak B K K R tak 5 5 4 nie P S M R nie 5 tak P S M S nie 5 5 tak P S M R nie 8 5 tak ZPT 7

Zastosowania Po uogólnieniu reguł decyzyjnych [wiek > 5] & [stan konta > 7] & [staż pracy > ] tak. [płeć = kobieta] & [wiek < 5] nie Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należy ZPT LERS 8

Diagnostyka raka piersi Breast Cancer Database: " Instancje (obiekty): 699 (dane poszczególnych pacjentów) " Liczba atrybutów: " Klasyfikacja ( klasy). Ocena spoistości masy nowotworowej. Ocena jednolitości rozmiaru komórek. Ocena jednolitości kształtu komórek. ZPT Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA 9. Występowanie podziałów komórkowych (mitoza) 9

Breast Cancer Database (fragment) ZPT ID a a a a4 a5 a6 a7 a8 a9 a 5 5 945 5 4 4 5 7 545 677 6 8 8 4 7 7 4 7 8 8 7 9 7 4 899 856 78 5 78 4 58 67 48 5 4 4 4 4999 4457 8 7 5 7 9 5 5 4 4 476 7 4 6 4 6 4 4 4867 4 4985 4 567 7 7 6 4 4 4 578 6 5459 7 5 5 4 4 4

Pozyskiwanie wiedzy z baz danych LERS był wykorzystany do obliczenia reguł decyzyjnych wspomagających diagnostykę raka piersi. R. K. Nowicki Rozmyte systemy decyzyjne w zadaniach z ograniczoną wiedzą, Akademicka Oficyna Wydawnicza EXIT, Warszawa 9. (Reguły decyzyjne dla Breast Cancer Database ) ZPT

Komputerowe systemy klasyfikacji danych ROSETTA http://logic.mimuw.edu.pl/~rses/ http://www.lcb.uu.se/tools/rosetta/ Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. ale skoro wiemy, że można do tych obliczeń stosować metody syntezy logicznej ZPT

Porównanie ESPRESSO.i 7.o.type fr.p 9.e f = x + 4x7 xx6 RSES TABLE extlbis ATTRIBUTES 8 x numeric x numeric x numeric x4 numeric x5 numeric x6 numeric x7 numeric x8 numeric OBJECTS 9 (x=)&(x5=)&(x6=)&(x=)=>(x8=) (x=)&(x=)&(x5=)&(x=)&(x4=)&(x6=)=>(x8=) (x4=)&(x=)&(x=)&(x7=)=>(x8=) (x=)&(x4=)&(x5=)&(x6=)=>(x8=) f = x + 4xxx7 xx4x5x6 ZPT

Porównanie Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, którą najpierw omówimy w ujęciu redukcji argumentów. ZPT

Redukcja atrybutów a a a a 4 a 5 a 6 d 4 5 4 6 7 5 8 6 9 6 7 a a a 5 a 6 d 4 5 4 6 7 5 8 6 9 6 7 Redukty: {a, a, a 5, a 6 } {a, a, a 5, a 6 } ZPT 5

ZPT 6 Przykład redukcji atrybutów a 4 a 5 7 4 9 8 4 6 5 4 d a 6 a a a ponieważ wiersze 6 i różnią się na pozycji a a a 6 a wiersze i 8 różnią się na pozycji a 6

ZPT 7 Przykład redukcji atrybutów a 4 a 5 7 4 9 8 4 6 5 4 d a 6 a a a ),9;,6,7 ; P = (,,4,5,8 P 6 = (,,6,9,;,4,5,7,8) P D = (,,7;,4,6;5,8;9,) (,)(9);(4)(5,8);(6);()(7);() P P P D 6 =

Przykład redukcji atrybutów 4 5 a a a a 4 a 5 a 6 d () P P6 PD = (,)(9);(4)(5,8);(6);()(7);,9,9 4,5 a, a 4, a 5 a, a, a 4, a 5 a, a 4 6 7 8 4,8,7 a, a 4 a 4, a 5 9 4 4 (a 4 + a ) (a 4 + a ) (a 4 + a 5 ) = a 4 + a a a 5 {a, a 4, a 6 } {a, a, a, a 5, a 6 } ZPT 8

ZPT TABLE EXPLOR ATTRIBUTES 7 x numeric x numeric x numeric x4 numeric x5 numeric x6 numeric x7 numeric OBJECTS 4 4 Plik danych RSES REDUCTS () { x, x4, x6 } { x, x, x, x5, x6 }

Inna metoda obliczania reduktów Omówioną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej. Twierdzenie: Każdy wiersz i macierzy, stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j M wtedy i tylko wtedy, gdy = M ij Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso. ZPT

Przykład metoda klasyczna M: x x x 4 x x 4 x x x x 4 (x + x + x 4 ) (x + x 4 ) (x + x )(x + x 4 ) = = x x + x x 4 +x x 4 To są wszystkie minimalne pokrycia kolumnowe macierzy M ZPT

Przykład metoda uzupełniania M: f = M x = x x 4 x + x x 4 x + 4 x + x x 4 x + x x + x x 4 = x x 4 x x x x + x x 4 +x x 4 f M = x x + x 4 + x x x4 ZPT To samo co poprzednio!

ZPT Obliczanie reduktów metodą uzupełniania jest bardzo skuteczne Przykład TL7.i 7.o.type fr.p 9.e Tablica porównań Tablica porównań nie jest funkcją boolowską

Redukcja (usuwanie) wierszy tabl. porównań.i 7.o.type fr.p 9.e ZPT Zredukowana tablica porównań.i 7.o.p 6 ----- ---- ----- ----- ------ ------.end reprezentuje funkcję boolowską 4

Do obliczenia uzupełnienia zastosujmy Espresso {x,x,x 4,x 6,x 7 } F,D Complement {x,x,x 4,x 6 }.i 7.o.p 6 ----- ---- ----- ----- ------ ------.end Expand Essential primes Irredundant-Cover ESPRESSO Reduce Last-gasp F M {x,x 4,x 5,x 6 } {x,x 4,x 6,x 7 }.i 7.o.p 4 -- --- --- ---.end ZPT 5

Skuteczność metody uzupełniania w zastosowaniu do rzeczywistych baz danych ZPT Audiology Database " Number of instances: training cases " Number of attributes: 7 " Classification (4 classes) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter (porter@fall.cs.utexas.edu) Dermatology Database Number of Instances: 66 Number of attributes: 4 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 65 Ankara, Turkey Phone: +9 () 4 8 6

Trains.type fdr.i.o.p 6866 97----- 64----- 76 ----- 6---------- 95------ 9---------- 7567 96----------.end ZPT RSES nie może policzyć, znajduje tylko rozwiązanie heurystyczne redukty

ZPT.type fr.i.o.p.end Funkcja KAZ 5574 redukty 8

Eksperymenty attributes objects RSES/ROSETTA prop. method reducts trains >5 h out of memory < sec. 689 KAZ 7 min. < sec. 5574 house 7 45 4 sec. sec. audiology 7 >5 h out of memory min. 767 dermatology 5 66 >5 h out of memory 9 min. 5556 ZPT Bezwzględna przewaga metody uzupełniania! 9

Wnioski " Metody syntezy logicznej są skuteczne " Dają rewelacyjne wyniki " Proste do implementacji " Mogą być źródłem ciekawych prac dyplomowych ZPT 4

Dekompozycja tablic decyzyjnych Atrybuty A B G Tablica decyzyjna H Decyzja pośrednia Decyzja końcowa Atrybuty ZPT 4

Dekompozycja tablic decyzyjnych F = H(A,G(B)) A B G Π G P(A) Π G P(B): P D H Decyzja pośrednia Decyzja końcowa ZPT 4

Przykład dekompozycji TD 4 5 6 7 8 9 a 4 a 5 a a a a 6 d A = {a4, a 5, a 6 } B = {a, a, a } 4 4 P(A) = (; ; ; 4; 5,7; 6,9,; 8) P(B) P D = (;,8;,6,7; 4; 5,9;) PU P = (,)(9);(4)(5,8);(6);()(7);() Π G = D (,,7; = (,,,4,6,7,8;,4,6; 5,8; 9,) 5,9,) ZPT 4

Przykład c.d. F ZPT 44 G: H: a a a g 4 5 6 a 4 a 5 a 6 g d 4 5 6 7 8 9 4

Kompresja danych S = pσq i S G = 4 jednostki S F = jednostek Dekompozycja S H = 7 jednostki S G + S H = 87% S F ZPT 4

Przykład!, Decision table for house of reps.!, < D A A A A A A A A A A A A A A A A >!, [ CLASS-NAME HANDICAPPED-INFANTS WATER-PROJECT-COST-SHARING ADOPTION-OF-THE-BUDGET-RESOLUTION PHYSICIAN-FEE-FREEZE EL- SALVADOR-AID RELIGIOUS-GROUPS-IN-SCHOOLS ANTI-SATELLITE-TEST-BAN AID-TO-NICARAGUAN-CONTRAS MX-MISSILE IMMIGRATION SYNFUELS-CORPORATION-CUTBACK EDUCATION-SPENDING SUPERFUND- RIGHT-TO-SUE CRIME DUTY-FREE-EXPORTS EXPORT-ADMINISTRATION-ACT- SOUTH-AFRICA ]!,!, Now the data!, democrat n y y n y y n n n n n n y y y y republican n y n y y y n n n n n y y y n y........................ republican n n y y y y n n y y n y y y n y democrat n n y n n n y y y y n n n n n y 68% kompresji danych ZPT 4