Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Podobne dokumenty
Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

EKSPLORACJA DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Elementy modelowania matematycznego

Metody indukcji reguł

Odkrywanie wiedzy w danych

Zastosowania sieci neuronowych oraz modeli alternatywnych. PLAN WYKŁADU

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

SID Wykład 10 Systemy uczace się

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Indukowane Reguły Decyzyjne I. Wykład 3

Metody eksploracji danych. Reguły asocjacyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wyk lad 8: Leniwe metody klasyfikacji

Co to są drzewa decyzji

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Sztuczna inteligencja

Sztuczna Inteligencja Projekt

Reguły asocjacyjne, wykł. 11

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metoda Tablic Semantycznych

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Systemy decyzyjne. Wykład 3: Wnioskowanie Boolowskie w obliczeniu Redutów i reguł decyzyjnych. Nguyen Hung Son. Nguyen Hung Son () 1 / 61

WYKŁAD 6. Reguły decyzyjne

Systemy Wspomagania Decyzji

Wprowadzenie. Data Science Uczenie się pod nadzorem

Systemy ekspertowe. Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych. Część trzecia

Algorytmy klasyfikacji

Zastosowania sieci neuronowych oraz modeli alternatywnych. PLAN WYKŁADU

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Automatyczne wyodrębnianie reguł

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

SID Wykład 7 Zbiory rozmyte

Wprowadzenie i pojęcia wstępne.

Podstawy Sztucznej Inteligencji (PSZT)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Baza danych dla potrzeb zgłębiania DMX

Paradygmaty dowodzenia

Adam Meissner.

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Nowe narzędzia zarządzania jakością

Elementy modelowania matematycznego

Metody probabilistyczne klasyfikatory bayesowskie

Metody Optymalizacji: Przeszukiwanie z listą tabu

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Optymalizacja ciągła

Metoda List Łańcuchowych

Uwagi wprowadzajace do reguł wnioskowania w systemie tabel analitycznych logiki pierwszego rzędu

2 Arytmetyka. d r 2 r + d r 1 2 r 1...d d 0 2 0,

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Sztuczna Inteligencja Projekt

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko

Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych. Podstawowe pojęcia

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Inżynieria biomedyczna

Metody klasyfikacji danych - część 1 p.1/24


Aproksymacja funkcji a regresja symboliczna

Minimalizacja form boolowskich

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych


Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Teoria liczb. Wykład nr 9: Przybliżanie liczb rzeczywistych. Ułamki łańcuchowe (cz.1) Semestr letni 2018/2019

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

1 Podstawowe oznaczenia

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Podstawy Informatyki. Algorytmy i ich poprawność

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Systemy ekspertowe. Generowanie reguł minimalnych. Część czwarta. Autor Roman Simiński.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wykład 6. Reguły inferencyjne systemu aksjomatycznego Klasycznego Rachunku Zdań

Systemy ekspertowe : Tablice decyzyjne

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Wykład z modelowania matematycznego. Zagadnienie transportowe.

Aproksymacja diofantyczna

b) bc a Rys. 1. Tablice Karnaugha dla funkcji o: a) n=2, b) n=3 i c) n=4 zmiennych.

Wstęp do Techniki Cyfrowej... Algebra Boole a

Znajdowanie wyjścia z labiryntu

System informacyjny a system decyzyjny Relacja nierozróżnialności Klasy abstrakcji Teoria zbiorów przybliżonych Usuwanie niespójności z tablicy

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wielokryteriowa optymalizacja liniowa

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Testowanie hipotez statystycznych

Matematyczne Podstawy Informatyki

TEMP BÓL WYSYPKA GARDŁO DIAGNOZA

METODY INŻYNIERII WIEDZY

Transkrypt:

Analiza danych Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ REGUŁY DECYZYJNE Metoda reprezentacji wiedzy (modelowania tablic decyzyjnych). Łatwy do interpretacji opis regularności zawartych w danych (najczęściej dyskretnych), a także narzędzie automatycznej klasyfikacji. a 4 =v 4... a 9 Dec=1 warunki decyzja Reguły decyzyjne mają postać implikacji. Po lewej stronie znajdują się warunki wyrażone pewną formułą logiczną, po prawej - wartość atrybutu decyzyjnego. Systemy oparte na regułach zawierają zwykle wiele (np. tysiące) reguł. Najpopularniejsza postać: koniunkcja deskryptorów (selektorów pojedynczych postaci a i =v j ) opartych na wybranych pojedynczych atrybutach. 1

PARAMETRY REGUŁ Oznaczmy symbolicznie rozpatrywaną regułę jako α β. Przez n αβ oznaczmy liczbę obiektów spełniających obie strony reguły, przez n liczbę wszystkich obiektów treningowych, przez n α - liczbę obiektów spełniających lewą stronę itd. kontrprzykłady n α dec=1 nαβ αβ dec=0 Regułę można opisać następującymi parametrami: - wsparcie: - dokładność: n supp= n acc = n n αβ β αβ α Obie wielkości chcemy maksymalizować. RODZAJE WARUNKÓW (DESKRYPTORÓW) W zależności od rodzaju danych, najczęstsze rodzaje deskryptorów (selektorów) to: - równościowy (pojedynczy) i podzbiorowy (dysjunkcyjny): {0,1,2,4,8} a 5 =3 a 7 =Red Dec=0 stosowany w przypadku danych dyskretnych (np. symbolicznych), - większościowy i przedziałowy: [2, 4] a 5 [0.1, 0.9] a 7 6 Dec=0 stosowany rzadziej, w przypadku danych ciągłych. 2

PRZYKŁAD Outlook Temp. Humid. Wind Sport? 1 Sunny Hot High Weak No 2 Sunny Hot High Strong No 3 Overcast Hot High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cold Normal Weak Yes 6 Rain Cold Normal Strong No 7 Overcast Cold Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cold Normal Weak Yes 10 Rain Mild Normal Weak Yes 11 Sunny Mild Normal Strong Yes 12 Overcast Mild High Strong Yes 13 Overcast Hot Normal Weak Yes 14 Rain Mild High Strong No Temp=Mild Humid=Normal Sport=Yes Wsparcie reguły: 0,22 (2 obiekty pasujące, 9 obiektów w klasie Sport=Yes) Dokładność reguły: 1 Wind=Weak Sport=Yes Wsparcie reguły: 0,66 (6 obiektów pasujących do obu stron, 9 obiektów w klasie Sport=Yes) Dokładność reguły: 0,75 (6 obiektów pasujących do obu stron, 8 obiektów mających Wind=Weak) PRZYKŁAD =2 a 2 =7 Dec=Red [4,6] a 2 [8,10] Dec=Red =8 Dec=Green Zbiór reguł zwykle konstruujemy tak, żeby pokrywał wszystkie przypadki treningowe. To nie znaczy, że pokryje również wszystkie przypadki testowe! Krótka reguła zwykle pokrywa więcej obiektów, ale bywa niedokładna (ma wyjątki na zbiorze treningowym). a 2 3

KLASYFIKACJA Obiekt testowy ( 2, 7, 8, 1, 3, 10, 7 ) Zbiór reguł =2 a 2 =7 Dec=Red [4,6] a 2 [8,10] Dec=Red............ a 2 =7 a 6 [9,14] Dec=Green Pasujące reguły Głosowanie Dec=Red Dec=Red Dec=Green Odpowiedź Dec=Red Jeżeli obiekt nie pasuje do żadnej reguły, wówczas jest nierozpoznany. Jeżeli pasuje do kilku, wykonujemy głosowanie, np. większościowe lub ważone (wsparciem reguły). OPTYMALIZACJA PARAMETRÓW 1200 Wyniki na zbiorze testowym 1000 800 Prawidłowe odpowiedzi 600 400 200 0 0 3 6 9 12 15 18 21 24 27 30 33 36 wysoka poprawność Nierozpoznane Dopuszczalny błąd reguł [%] Dążymy do znalezienia zbioru reguł najlepiej klasyfikujących zbiór testowy. Powinniśmy dbać z jednej strony o poprawność reguł (prawdziwość na zbiorze treningowym), a z drugiej o ich ogólność (stosowalność w przyszłych, nieznanych sytuacjach). 39 42 45 48 51 54 57 60 63 66 wysoka ogólność 4

ALGORYTM AQ Algorytm oparty na pokrywaniu sekwencyjnym, według schematu: - wybieramy obiekt niepasujący do żadnej dotychczas znalezionej reguły, - znajdujemy najlepszą regułę, do której pasuje, - itd., aż pokryjemy wszystkie reguły. Kryterium oceny reguły decyzyjnej jest jej wysokie wsparcie (liczba pasujących obiektów) przy założonym progu dokładności reguły (np. nie więcej, niż 1% kontrprzykładów). W przypadku, gdy algorytm daje kilka alternatywnych (zbliżonych pod względem jakości) ścieżek stosujemy przeszukiwanie wiązkowe. ALGORYTM AQ Czasem wygodnie jest przedstawiać lewe strony reguł w postaci wzorców. Jeśli mamy 5 atrybutów...a 5, to regułę: =2 a 2 =7 zapisujemy jako (2, 7, *, *, *) Wejście: cały zbiór danych. 1. Znajdź niepokryty obiekt x*. 2. Niech reguła r=(*,*,...,*). 3. Znajdź obiekt y z innej klasy decyzyjnej, niż x*, pasujący do r. 4. Jeśli y nie istnieje idź do 7. 5. Znajdź taką najlepszą (ze względu na wsparcie) specjalizację r, aby y nie był pokrywany przez r. (Specjalizacja polega na zamianie pewnej * na wartość pochodzącą z obiektu x*.) 6. Jeśli reguła r ma nadal zbyt dużo kontrprzykładów, wróć do 3. 7. Zapamiętaj r, oznacz pokryte obiekty, wróć do 1. 5

ALGORYTM CN2 Ten algorytm podchodzi do problemu szukania reguł od strony najkrótszych z nich: - na początku bierzemy regułę pustą, czyli wzorzec (*,*,...,*), - dokonujemy wszystkich możliwych uszczegółowień, - dla każdego z nich liczymy wartość przeważającej decyzji i jakość reguły (według przyjętej miary jakości), - te wzorce, które jeszcze mogą być uszczegółowiane, uszczegółowiamy dalej. Przykładowe kryteria jakości reguł: - entropia ze względu na rozkład klas decyzyjnych, - dokładność reguły. ALGORYTM CN2 Wejście: cały zbiór danych, minimalny próg wsparcia t, zbiór wzorców atomowych (jednodeskryptorowych) S. 1. Niech zbiór wzorców R={(*,*,...,*)}, r*=(*,*,...,*). 2. Rozszerz każdy wzorzec z R na wszystkie możliwe sposoby, tzn. R=R S, usuwając powtórzenia. 3. Dla każdego r R policz wsparcie. Jeśli supp(r)<t, to R=R-{r}. 4. Oceń każdy r R wybraną miarą jakości (zamień r na regułę wyliczając dominującą decyzję w r). Jeśli r jest lepszy od r*, to r*=r. 5. Usuń z R wszystkie wzorce, z wyjątkiem m najlepszych. 6. Jeśli R niepuste, idź do 2. 7. Zwróć r* jako najlepszy wzorzec. Znajdź dominującą decyzję i zbuduj z r* regułę decyzyjną. 6

REDUKTY Inny sposób generowania reguł decyzyjnych wskazuje teoria zbiorów przybliżonych. Operuje ona pojęciem reduktu, czyli takiego (minimalnego) podzbioru atrybutów, który z punktu widzenia decyzji pozwala równie dobrze rozróżniać obiekty, co cały zbiór atrybutów. Algorytm: - Znajdź jeden lub kilka reduktów. - Dla każdego reduktu znajdź odpowiadające mu reguły decyzyjne. - Dokonaj ich skrócenia (usunięcia zbędnych deskryptorów). Zalety: znalezienie reduktu daje nam w prosty sposób zbiór poprawnych reguł decyzyjnych pokrywających wszystkie obiekty treningowe. Wady: konieczność kosztownego skracania reguł lub stosowania reduktów przybliżonych. Szukanie krótkich reduktów jest kosztowne. REGUŁY ASOCJACYJNE Rodzaj reguł, dla których decyzja nie jest z góry określona. Opisują wewnętrzne zależności między atrybutami, np: a 9 a 4 =v 4 Przykład zastosowania: analiza koszykowa. Jakie towary najczęściej kupowane są w supermarkecie wspólnie? 7

ALGORYTM APRIORI Ten algorytm podchodzi do problemu szukania reguł od strony najkrótszych z nich: - szukamy wszystkich możliwych wzorców o małej liczbie deskryptorów, - staramy się najsilniejsze z nich łączyć w bardziej złożone wzorce (im opis dłuższy, tym mniej obiektów będzie pasowało), - reguły asocjacyjne powstają, gdy z wzorców krótszych przechodzimy do dłuższych o tym samym wsparciu: a 9 (supp=15) a 4 =v 4 a 9 (supp=15) stąd: a 9 a 4 =v 4 ALGORYTM APRIORI Wejście: cały zbiór danych, minimalny próg wsparcia t, zbiór wzorców atomowych (jednodeskryptorowych) S. 1. Niech zbiór wzorców R=S. 2. Znajdź wszystkie pary wzorców r,s R takich, że różnią się na dokładnie dwóch pozycjach. Umieść r s w zbiorze R. 3. Sprawdź, czy dla każdego r R dowolny jego podzbiór różniący się na jednej pozycji był obecny w zbiorze R. Jeśli nie usuń r z R. 4. Dla każdego r R policz wsparcie. Jeśli supp(r)<t, to R=R-{r}. 5. Jeśli r R oraz s R oraz r s oraz supp(r)=supp(s), wówczas wykorzystaj r i s do utworzenia reguły asocjacyjnej. 6. R=R. 7. Jeśli R niepuste, idź do 2. 8