Odkrywanie wiedzy w danych

Inżynieria Wiedzy i Systemy Ekspertowe Odkrywanie wiedzy w danych dr inż. Michał Bereta Politechnika Krakowska http://torus.uck.pk.edu.pl/~beretam/ beretam@torus.uck.pk.edu.pl 1

Data Mining W pewnym teleturnieju główną nagrodą jest samochód. Jest on ukryty za jedną z trzech bramek. Pozostałe dwie bramki są puste. Uczestnik obstawia jedną z bramek. Następnie prowadzący teleturniej otwiera jedna z pozostałych dwóch ujawniając, że jest ona pusta. Proponuje uczestnikowi zmianę wyboru bramki. Co powinien uczynić uczestnik teleturnieju, by prawdopodobieństwo wygranej było jak największe? Pozostać przy swoim poprzednim wyborze? Zamienić bramkę? Czy ma to jakiekolwiek znaczenie? A =? B =? C =? 2

Data Mining Co powinien uczynić uczestnik teleturnieju, by prawdopodobieństwo wygranej było jak największe? Pozostać przy swoim poprzednim wyborze? Zamienić bramkę? Czy ma to jakiekolwiek znaczenie? Bramka C okazuje się być pusta. A =? B =? C = puste Uczestnik wybiera bramkę A 3

Data Mining Rozwiązanie: Uczestnik powinien zmienić swój wybór na bramkę B. A =? B =? C =? Prawdopodobieństwo wygranej = 1/3 Prawdopodobieństwo wygranej = 2/3 4

Data Mining Rozwiązanie: Uczestnik powinien zmienić swój wybór na bramkę B. A =? B =? C = pusta Prawdopodobieństwo wygranej = 1/3 Prawdopodobieństwo wygranej = 2/3 5

Data Mining Rozwiązanie: Uczestnik powinien zmienić swój wybór na bramkę B. A =? B =? Prawdopodobieńśtwo wygranej = 1/3 Prawdopodobieńśtwo wygranej = 2/3 Wybór większego prawdopodobieństwa wygranej. 6

Data Mining A B Starsi 2/10 30/90 Młodsi 48/90 10/10 Dwie metody leczenia: A i B Dwie grupy wiekowe: Starsi i Młodsi Ułamki pokazują jaka część pacjentów z danej grupy wiekowej leczonych daną metodą powróciła do zdrowia. Widać, że metoda B góruje na metodą A w każdej grupie wiekowej. 7

Data Mining A B Ogółem 50/100 40/100 Rezultat całościowy wskazuje na to, iż leczenie metodą A jest lepsze. Jest to tzw. paradoks Simpsona (1951). 8

Data Mining Bardzo łatwo nabrać błędnego przekonania o zależności przyczynowej między zmiennymi. Przykład: Wśród chorujących na raka płuc u 95% pacjentów zobserwowano żółtą skórę na palcach dłoni. Czy jest to przyczyna choroby? Czy jest to raczej współwystępowanie, a prawdziwą przyczyną jest inny, nieuwzględniony jeszcze czynnik? (Palenie papierosów). 9

Data Mining Duża korelacja między zmiennymi nie oznacza występowania między nimi związku przyczynowego. 10

Data Mining Duża korelacja 11

Data Mining Słaba korelacja 12

Data Mining Brak korelacji 13

Data mining Data mining Drążenie danych Eksploracja danych Odkrywanie wiedzy w danych 14

Data mining Odkrywanie zależności w danych głównie w olbrzymich zbiorach danych, które to zależności charakteryzują się: Dużym zakresem, czyli zachodzą dla wielu rekordów Dużą dokładnością, czyli występują od nich co najwyżej niewielkie odchylenia dla rekordów, dla których zachodzą Dużym poziomem statystycznej istotności, czyli nie są przypadkowe 15

Data mining Problemy Duże zbiory danych Liczne atrybuty Liczne kategorie Nierównomierny rozkład kategorii Inkrementacyjna aktualizacja (wciąż uaktualniane bazy dancyh) Niekompletne dane Niepoprawne dane 16

Indukcja reguł Zadnie polega na indukcji reguł klasyfikacyjnych dla obiektów reprezentujących zadaną liczbę pojęć (klas). Części warunkowe reguł są reprezentowane przez kompleksy. Części decyzyjne określają etykiety kategorii dla przykładów pokrywanych przez te kompleksy. 17

Indukcja reguł Indukcja reguł odbywa się na podstawie przykładów Ogólny algorytm indukcji reguł nazywa się schematem sekwencyjnego pokrywania, w którym dąży się do generowania kolejno reguł pokrywających pewną liczbę przykładów aż do uzyskania pokrycia całego zbioru trenującego. Podstawowe znaczenie ma sposób konstruowania części warunkowej tworzonej reguły, której kompleks powinien pokrywać możliwie wiele przykładów o możliwie mało zróżnicowanych kategoriach. Konkretyzacje schematu sekwencyjnego pokrywania to np. algorytmy AQ oraz CN2. 18

Indukcja reguł AQ oraz CN2 przeszukują przestrzeń możliwych kompleksów od maksymalnie ogólnych do maksymalnie szczegółowych. Różnią się mechanizmami specjalizacji kompleksów oraz funkcjami heurystycznymi stosowanymi do oceny ich jakości. Postać reguł: JEŚLI warunki TO kategoria 19

Postać reguł: Indukcja reguł JEŚLI warunki TO kategoria Warunki nakładane przez regułę na wartości atrybutów przykładu x można przedstawić jako pewną zawierającą te wartości formułę logiczną. Część decyzyjna określająca kategorię przykładu x może być zapisana jako prosta formuła gdzie C jest zbiorem kategorii rozważanej klasy pojęć, h oznacza hipotezę reprezentowaną przez regułę. 20

Postać reguł: Indukcja reguł JEŚLI warunki TO kategoria Jeśli reguła jest stosowana do wszystkich przykładów dziedziny, to jej zapis w logicznej notacji może przyjąć postać: Regułę w danej postaci można traktować jako formułę logiki predykatów pierwszego rzędu. Ponieważ każdy przykład jest opisywany wyłącznie przez wartości atrybutów, taką samą wiedzę można wyrazić przez traktując przykłady jako domniemane i odwołując się jedynie do wektorów wartości atrybutów. 21

Reprezentacja warunków W dalszym ciągu logiczna interpretacja reguł nie będzie nam potrzebna. 22

Reprezentacja warunków X dziedzina obiektów (przykładów) Każdy x należący do X jest opisany zbiorem nominalnych atrybutów a i = 1,...,n gdzie n to liczba atrybutów. 23

Kompleksy Reprezentacja warunków Hipotezy mogą być reprezentowane przez kompleksy. Kompleks opisuje warunki, jakie muszą spełnić wartości atrybutów przykładu, aby został on przez niego pokryty, a tym samym klasyfikowany jako pozytywny przez odpowiednią hipotezę. Kompleks jest wektorem interpretowanym jako koniunkcja warunków nakładanych na pojedyncze atrybuty. Warunki te nazywane są selektorami. Selektor umieszczony na i-tym miejscu w kompleksie reprezentuje warunek nakładany na wartość i-tego atrybutu. 24

Reprezentacja warunków Z każdym selektorem związany jest zbiór dozwolonych wartości odpowiadającego mu atrybutu. Zakładamy, że z dowolnym selektorem s odpowiadającym atrybutowi związany jest zbiór wartości 25

Reprezentacja warunków Weźmiemy pod uwagę cztery rodzaje selektorów Pojedynczy Dysjunkcyjny Uniwersalny Pusty 26

Reprezentacja warunków Między selektorem s a związanym z nim zbiorem dozwolonych wartości istnieje jednoznaczna odpowiedniość, możemy ich zatem używać wymiennie. Selektor s odpowiadający atrybutowi a pokrywa przykład x jeśli przy czym Vs oznacza zbiór wartości dozwolonych dla selektora s. Piszemy wówczas 27

Reprezentacja warunków Kompleks będziemy zapisywać jako listę selektorów odpowiadających kolejnym atrybutom. Kompleks pokrywa przykład x jeśli każdy selektor si dla i=1,2,...,n pokrywa przykład x. Piszemy wówczas 28

Reprezentacja warunków Każdy kompleks zawierający przynajmniej jeden selektor pusty będzie utożsamiany z zawierającym wyłącznie selektory puste kompleksem < 0, 0,..., 0> i nazywany kompleksem sprzecznym lub pustym oraz oznaczanym przez <0>. 29

Reprezentacja warunków Każdy kompleks zawierający wyłącznie selektory uniwersalne?będzie nazywany uniwersalnym i oznaczany przez <?> 30

Reprezentacja warunków Każdy kompleks zawierający dokładnie jeden selektor pojedynczy lub dysjunkcyjny i oprócz niego wyłącznie selektory uniwersalne, będziemy nazywać kompleksem atomowym. 31

Reprezentacja warunków Dla dziedziny X i danych dwóch kompleksów k1 oraz k2 mówimy, że k1 jest bardziej ogólny od k2 (i równoważnie k2 jest mniej ogólny niż k1, k2 jest bardziej szczegółowy niż k1, k1 jest mniej szczegółowy niż k2) wtedy i tylko wtedy, gdy Piszemy wtedy 32

Reprezentacja warunków Dla dowolnego zbioru przykładów i kompleksu k określamy zbiór złożony z przykładów pokrywanych przez k oraz zbiór przykładów pokrywanych przez k, które należą do kategorii d 33

Reprezentacja warunków Koniunkcją kompleksów k oraz l jest kompleks, którego każdy selektor jest koniunkcją pary odpowiednich selektorów z tych kompleksów. Jeśli oraz to 34

Reprezentacja warunków Koniunkcją selektorów s1 oraz s2 odpowiadających atrybutowi a jest odpowiadający temu atrybutowi selektor s o zbiorze wartości dozwolonych Koniunkcja kompleksów będzie wykorzystywana jako mechanizm ich specjalizacji przez dodawanie dodatkowych warunków. 35

Reprezentacja warunków Specjalizacja ta będzie przeprowadzana w ogólnym przypadku dla zbiorów kompleksów za pomocą zdefiniowanej poniżej operacji przecięcia takich zbiorów. Polega ona na utworzeniu nowego zbioru kompleksów, z których każdy jest wynikiem koniunkcji pary kompleksów z jednego i drugiego zbioru. 36

Reprezentacja warunków Przecięciem zbiorów kompleksów K oraz L jest zbiór wszystkich koniunkcji dwóch kompleksów odpowiednio z tych dwóch zbiorów: 37

Reprezentacja warunków Regułą nazywamy wyrażenie gdzie k1,...,km to kompleksy a d to etykieta klasy. Reguła taka pokrywa wszystkie te i tylko te przykłady, które pokrywa przynajmniej jeden z kompleksów wchodzących w skład jej części warunkowej. 38

Reprezentacja warunków Wygodniej jest posługiwać się regułami, które posiadają w części warunkowej jedynie jeden kompleks. 39

Reprezentacja warunków Celem jest stworzenie zbioru reguł, w którym będzie co najmniej jedna dla każdego pojęcia. Należy również zdecydować, jak używać zbioru reguł w trakcie klasyfikacji. Komplikacja polega a tym, że w ogólnym przypadku dla danego przykładu w zbiorze reguł może się znaleźć więcej niż jedna reguła pokrywająca ten przykład, a kategorie tych reguł mogą się ze sobą nie zgadzać. Innym problemem jest sytuacja, gdy zbiorze reguł nie ma żadnej reguły, która pokrywa przykład. Sposób postępowania zależy od tego, czy zbiór reguł jest traktowany jako nieuporządkowany, czy jako uporządkowany. 40

Reprezentacja warunków Nieuporządkowane zbiory reguł. Każda reguła jest traktowana tak samo, żadna nie ma pierwszeństwa przed innymi. Jeśli w zbiorze znajduje się dokładnie jedna reguła pokrywająca przykład, to jest on zaklasyfikowany do klasy wskazanej przez etykietę tej reguły. 41

Reprezentacja warunków Nieuporządkowane zbiory reguł. Jeśli dany przykład jest pokrywany przez więcej niż jedną regułę, wtedy z każdą regułą możemy związać liczbę pokrywanych przez tę regułę przykładów trenujących. Proces klasyfikacji można wtedy potraktować jako głosowanie pomiędzy tymi regułami, z liczbą głosów dla każdej z nich równą liczbie pokrywanych przykładów trenujących przez daną regułę. gdzie oznacza zbiór reguł dla kategorii d pokrywających x. 42

Inne podejście: Nieuporządkowane zbiory reguł. Jeśli dla każdej reguły r jest przechowywany rozkład częstości poszczególnych kategorii wśród pokrywanych przez nią przykłądów trenujących reprezentowanych przez dla poszczególnych d, krok głosowania może wyglądać następująco: 43

Można również: Nieuporządkowane zbiory reguł. losowo wybrać jedną z reguł pokrywających przykład wybrać regułę najbardziej szczegółową lub regułę o najmniejszej liczbie selektorów uniwersalnych losowo wybrać kategorię według rozkładu prawdopodobieństwa wyznaczonego przez rozkład częstości kategorii wśród reguł pokrywających przykład 44

Nieuporządkowane zbiory reguł. W przypadku gdy żadna reguła nie pokrywa przykładu a klasyfikacja musi być dokonana (nie zawsze jest to wskazane czy też konieczne) można przypisać przykładowi kategorię domyślną, np. najczęściej występującą w zbiorze trenującym: 45

Nieuporządkowane zbiory reguł. Inne, bardziej wyrafinowane podejście polega na określeniu pewnej miary częściowego pokrywania przykładów przez reguły. Dla reguły r oraz przykładu x: równą 1 gdy reguła pokrywa całkowicie przykład, a mniejszą od 1 w pozostałych przypadkach. Miara częściowego pokrywania dla kompleksu k określimy jako: 46

Nieuporządkowane zbiory reguł. Miara częściowego pokrywania dla kompleksu k określimy jako: Natomiast miara pokrywania przez selektor s przykładu x 47

Nieuporządkowane zbiory reguł. Ostatecznie 48

Uporządkowane zbiory reguł. Uporządkowane zbiory reguł posiadają jednoznacznie określoną kolejność, w jakiej reguły powinny być wykorzystywane do klasyfikacji. Taki zbiór reguł przyporządkowuje przykładowi kategorię związaną z pierwszą w kolejności regułą, która ten przykład pokrywa. Taki uporządkowany zbiór reguł jest niekiedy nazywany listą decyzyjną. 49

Sekwencyjne pokrywanie Zadanie indukcji reguł to zadanie znalezienia zbioru reguł (uporządkowanego lub nie), który klasyfikuje przykłady trenujące z dużą dokładnością ma możliwie mały rozmiar wchodzące w jego skład reguły są możliwie proste 50

Sekwencyjne pokrywanie Podejście, które omówimy polega na konstruowaniu pojedynczo kolejnych reguł, z których każda pokrywa część zbioru trenującego. Proces ten jest kontynuowany aż do pokrycia wszystkich danych trenujących. Podzbiór zbiór trenującego pokrywany przez daną regułę powinien zawierać przykłady tej samej kategorii lub przynajmniej z wyraźnie dominującą kategorią większościową. 51

Sekwencyjne pokrywanie 52

Sekwencyjne pokrywanie Zadanie znalezienia kompleksu o pożądanych właściwościach można traktować jako zadanie przeszukiwania przestrzeni kompleksów, ukierunkowane przez pewną miarę ich jakości reprezentującą cel tego przeszukiwania. Proces generowania (znajdowania) kompleksu odróżnia od siebie różne konkretyzacje schematu sekwencyjnego pokrywania ( np. AQ, CN2). 53

Algorytm AQ Algorytm AQ generuje kompleksy w pełni dokładne pokrywane przez nie przykłady trenujące należą do jednej kategorii AQ zapewnia, że każda kolejna reguła będzie pokrywać pewne przykłady, które nie były pokryte przez wcześniejsze reguły Tworzony zbór reguł jest nieuporządkowany Każda kolejna reguła jest oceniana na podstawie całego zbioru trenującego a nie tylko na podstawie wcześniej nie pokrytych przykładów 54

Algorytm AQ AQ ogniskuje proces przeszukiwania przestrzeni kompleksów na jednym, wybranym przykładzie trenującym, który nie został pokryty przez żadną wygenerowaną do tej pory regułę. Oznacza to ograniczenie się tylko do tych kompleksów, które pokrywają wybrany przykład są maksymalnie ogólne nie pokrywają żadnego przykładu z innej kategorii Prowadzi do tego operacja specjalizacji, która każdorazowo wyklucza ze zbioru przykładów pokrywanych przez rozważane kompleksy przynajmniej jeden przykład o niewłaściwej kategorii. 55

Algorytm AQ 56

Algorytm AQ Docelowo zbiór S (star - gwiazda) ma zawierać takie maksymalnie ogólne kompleksy, które pokrywają ziarno, lecz nie pokrywają żadnego przykładu o kategorii różnej od kategorii ziarna. S jest inicjowana na najbardziej ogólny kompleks a następnie specjalizowana, aż do pokrywania przykładów jedynie z kategorii ziarna Specjalizacja polega na wyborze ziarna negatywnego (pokrywane lecz z inna kategorią niż ziarno pozytywne) S' to częściowa gwiazda, czyli zbiór kompleksów maksymalnie ogólnych pokrywających ziarno pozytywne i nie pokrywających ziarna negatywnego 57

Algorytm AQ S' jest przecinana z S (dotychczasową gwiazdą) za pomocą wcześniej zdefiniowanej operacji przecinania zbiorów kompleksów (krok 9) Usuwane są z S wszystkie kompleksy, które nie są maksymalnie ogólne (krok 10) W celu ograniczenia zakresu przeszukiwania, w S pozostaje jedynie m najlepszych kompleksów. Stosowana jest pewna heurystyczna funkcja oceny v. (krok 11) 58

Algorytm AQ 59

Algorytm AQ Ocena kompleksów może polegać na preferowaniu tych kompleksów, które pokrywają możliwie niewiele przykładów o niewłaściwej kategorii. Może to przyspieszyć algorytm, który dąży do takiego zbioru reguł, które w ogóle nie pokrywają przykładów innej kategorii niż ziarno pozytywne. Preferowane mogą być kompleksy prostsze przed kompleksami złożonymi. 60

Algorytm AQ Premiować można kompleksy, które prawidłowo pokrywają przykłady dotychczas nie pokryte. Premiować można te kompleksy, które pokrywają jak najwięcej przykładów o kategorii równej kategorii ziarna pozytywnego. 61

Algorytm AQ Wybór ziarna pozytywnego może być losowy lub taki, by ziarno pozytywne jak najbardziej różniło się od dotychczasowych pokrytych przykładów. Wybór ziarna negatywnego może być losowy bądź taki, że ziarno negatywne jest jak najbardziej podobne do ziarna pozytywnego. 62

Algorytm CN2 Generuje kompleksy, które nie zawsze muszą być w pełni dokładne. Przy generowaniu każdego nowego kompleksu pomijane są te przykłady, które zostały pokryte przez kompleksy wygenerowane wcześniej. Dążenie do dokładności jest ograniczone do przykładów dotychczas niepokrytych (wyłącznie zbiór P) Zbiór reguł jest uporządkowany kolejnością ich generowania. 63