WYKŁAD 6. Reguły decyzyjne

Podobne dokumenty

WYKŁAD 1. Wprowadzenie w tematykę kursu

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Wprowadzenie do klasyfikacji

Sztuczna Inteligencja Projekt

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

WYKŁAD 2. Problem regresji - modele liniowe

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

2. Empiryczna wersja klasyfikatora bayesowskiego

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Klasyfikacja LDA + walidacja

Odkrywanie wiedzy w danych

Sztuczna Inteligencja Projekt

Analiza danych. TEMATYKA PRZEDMIOTU

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Projekt Sieci neuronowe

ALGORYTM RANDOM FOREST

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Automatyczne wyodrębnianie reguł

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Systemy uczące się wykład 1

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Modelowanie interakcji helis transmembranowych

Wydawnictwo Politechniki Poznanskiej

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Indukowane Reguły Decyzyjne I. Wykład 3

Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.

Systemy uczące się wykład 2

Systemy Wspomagania Decyzji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Sprawozdanie z zadania Modele predykcyjne (2)

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Scoring kredytowy w pigułce

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Metody eksploracji danych. Reguły asocjacyjne

METODY INŻYNIERII WIEDZY

ZESPOŁY KLASYFIKATORÓW SVM DLA DANYCH NIEZBALAN-

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Algorytmy klasyfikacji

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Metody probabilistyczne klasyfikatory bayesowskie

Elementy inteligencji obliczeniowej

Zadania laboratoryjne i projektowe - wersja β

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

TEMP BÓL WYSYPKA GARDŁO DIAGNOZA

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Systemy uczące się Lab 4

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Metody Sztucznej Inteligencji II

Drzewa decyzyjne. 1. Wprowadzenie.

Metody klasyfikacji danych - część 1 p.1/24

SPOTKANIE 2: Wprowadzenie cz. I

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Indukcja drzew decyzyjnych

Systemy ekspertowe. Generowanie reguł minimalnych. Część czwarta. Autor Roman Simiński.

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Meta-uczenie co to jest?

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

CLUSTERING. Metody grupowania danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Elementy modelowania matematycznego

Metody systemowe i decyzyjne w informatyce

Logiczna reprezentacja wiedzy i metoda logiczno-algebraiczna

Sztuczna inteligencja

Systemy ekspertowe. Krzysztof Patan

Znajdowanie wyjścia z labiryntu

dr inż. Jarosław Forenc

Metody indukcji reguł

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Dr inż. Robert Wójcik, p. 313, C-3, tel Katedra Informatyki Technicznej (K-9) Wydział Elektroniki (W-4) Politechnika Wrocławska

Transkrypt:

Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska

Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł decyzyjnych. Każda reguła opisana jest w formie implikacji, na którą składa się koniunkcja wartości atrybutów (lewa strona implikacji), oraz jeden z możliwych wariantów decyzyjnych (prawa strona implikacji). Proces podejmowania decyzji odbywa się poprzez wybór odpowiedniej reguły (bądź reguł) decyzyjnych, która dotyczy (pokrywa) danego zagadnienia i na jej podstawie przeprowadzenie procesu wnioskowania. Uczenie polega na znalezieniu zestawu reguł najlepiej opisujących rzeczywistość. Interpretowalna reprezentacja wiedzy. Przykładowa reguła: (Kwota kredytu > 700) (Dochod < 1100) (status = odmowa)) 2/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 Czy klient który ma 100$, chce 300$ kredytu na 12 miesięcy, jest bezrobotny i rozwiedziony? 3/7

Reguły decyzyjne Przykład reguł Nazwa Wartości Status of A 1,1 : x < 0$ existing A 1,2 : 0 x < 200$ checking A 1,3 : x 200$ account A 1,4 : no checking account Credit A 2,1 : x < 4000$ amount A 2,2 : 4000$ x < 13000$ A 2,3 : x 13000$ Duration A 3,1 : x < 18 months of credit A 3,2 : x 18 months Employment A 4,1 : unemployment status A 4,2 : part-time job A 4,3 : full-time job Personal A 5,1 : single status A 5,2 : married A 5,3 : divorced or widowed Credit B 1,1 :good credit status status (class) B 1,2 : bad credit status Struktura reguł decyzyjnych jest następująca: α 1 α M α out Przykładowe reguły: R 1 : α A4,1 α B1,2 R 2 : α A2,3 α A3,2 α A4,2 α A5,1 α B1,2 R 3 : α A1,1 α A2,3 α B1,2 R 4 : otherwise α B1,1 Czy klient który ma 100$, chce 300$ kredytu na 12 miesięcy, jest bezrobotny i rozwiedziony? Nie dostanie kredytu. 3/7

Indukcja reguł decyzyjnych Algorytm PRISM 1. Dla każdej klasy y Y generowany jest zestaw reguł. 2. Każda reguła generowana jest na bazie danych uczących zawierających obserwacje dotychczas niepokryte przez żadną z utworzonych dotychczas reguł. 3. Dla danej klasy y i aktualnego zbioru danych D regułę konstruujemy następująco: 3.1 Budujemy regułę początkową: R : α y. 3.2 Znajdujemy taki atrybut m i jego wartość k, o najwyższej wartości prawdopodobieństwa: p(y x m = k) prawdopodobieństwa estymujemy na bazie danych D. 3.3 Uzupełniamy regułę o własność α m,k : R : α m,k α y. 3.4 Usuwamy ze zbioru danych obserwacje pokryte przez regułę R oraz atrybut m. 3.5 Procedurę uzupełniania reguły R powtarzamy do momentu aż p(y x m = k) = 1 lub wszystkie atrybuty zostaną wykorzystane. 4/7

Algorytm PRISM Przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 2,1 : x < 4000$ A 4,1 : unemployment A 5,2 : married B 1,1 : good A 2,1 : x < 4000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,1 : single B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,1 : unemployment A 5,1 : single B 1,2 : bad A 2,1 : x < 4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,2 : married B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 : good P(class= bad Credit amount= A 2,1 ) = 0 3 P(class= bad Credit amount= A 2,2 ) = 2 5 P(class= bad Credit amount= A 2,3 ) = 3 4 P(class= bad Employment status= A 4,1 ) = 1 2 P(class= bad Employment status= A 4,2 ) = 1 3 P(class= bad Employment status= A 4,3 ) = 3 7 P(class= bad Personal status= A 5,1 ) = 2 5 P(class= bad Personal status= A 5,2 ) = 1 3 P(class= bad Personal status= A 5,3 ) = 2 4 5/7

Algorytm PRISM Przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 2,1 : x < 4000$ A 4,1 : unemployment A 5,2 : married B 1,1 : good A 2,1 : x < 4000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,1 : single B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,1 : unemployment A 5,1 : single B 1,2 : bad A 2,1 : x < 4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,2 : married B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 : good P(class= bad Credit amount= A 2,1 ) = 0 3 P(class= bad Credit amount= A 2,2 ) = 2 5 P(class= bad Credit amount= A 2,3 ) = 3 4 P(class= bad Employment status= A 4,1 ) = 1 2 P(class= bad Employment status= A 4,2 ) = 1 3 P(class= bad Employment status= A 4,3 ) = 3 7 P(class= bad Personal status= A 5,1 ) = 2 5 P(class= bad Personal status= A 5,2 ) = 1 3 P(class= bad Personal status= A 5,3 ) = 2 4 5/7

Algorytm PRISM Przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 2,1 : x < 4000$ A 4,1 : unemployment A 5,2 : married B 1,1 : good A 2,1 : x < 4000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,1 : single B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,1 : unemployment A 5,1 : single B 1,2 : bad A 2,1 : x < 4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,2 : married B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 : good P(class= bad Credit amount= A 2,1 ) = 0 3 P(class= bad Credit amount= A 2,2 ) = 2 5 P(class= bad Credit amount= A 2,3 ) = 3 4 P(class= bad Employment status= A 4,1 ) = 1 2 P(class= bad Employment status= A 4,2 ) = 1 3 P(class= bad Employment status= A 4,3 ) = 3 7 P(class= bad Personal status= A 5,1 ) = 2 5 P(class= bad Personal status= A 5,2 ) = 1 3 P(class= bad Personal status= A 5,3 ) = 2 4 5/7

Algorytm PRISM Przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 2,1 : x < 4000$ A 4,1 : unemployment A 5,2 : married B 1,1 : good A 2,1 : x < 4000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,1 : single B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,1 : unemployment A 5,1 : single B 1,2 : bad A 2,1 : x < 4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,2 : married B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 : good P(class= bad Credit amount= A 2,1 ) = 0 3 P(class= bad Credit amount= A 2,2 ) = 2 5 P(class= bad Credit amount= A 2,3 ) = 3 4 P(class= bad Employment status= A 4,1 ) = 1 2 P(class= bad Employment status= A 4,2 ) = 1 3 P(class= bad Employment status= A 4,3 ) = 3 7 P(class= bad Personal status= A 5,1 ) = 2 5 P(class= bad Personal status= A 5,2 ) = 1 3 P(class= bad Personal status= A 5,3 ) = 2 4 5/7

Algorytm PRISM Przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 2,1 : x < 4000$ A 4,1 : unemployment A 5,2 : married B 1,1 : good A 2,1 : x < 4000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,1 : single B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,1 : unemployment A 5,1 : single B 1,2 : bad A 2,1 : x < 4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,2 : married B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 : good P(class= bad Credit amount= A 2,1 ) = 0 3 P(class= bad Credit amount= A 2,2 ) = 2 5 P(class= bad Credit amount= A 2,3 ) = 3 4 P(class= bad Employment status= A 4,1 ) = 1 2 P(class= bad Employment status= A 4,2 ) = 1 3 P(class= bad Employment status= A 4,3 ) = 3 7 P(class= bad Personal status= A 5,1 ) = 2 5 P(class= bad Personal status= A 5,2 ) = 1 3 P(class= bad Personal status= A 5,3 ) = 2 4 5/7

Algorytm PRISM Przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 2,1 : x < 4000$ A 4,1 : unemployment A 5,2 : married B 1,1 : good A 2,1 : x < 4000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,1 : single B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 : bad A 2,2 : 4000$ x < 13000$ A 4,1 : unemployment A 5,1 : single B 1,2 : bad A 2,1 : x < 4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 : good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,2 : married B 1,1 : good A 2,2 : 4000$ x < 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 : good P(class= bad Credit amount= A 2,1 ) = 0 3 P(class= bad Credit amount= A 2,2 ) = 2 5 P(class= bad Credit amount= A 2,3 ) = 3 4 P(class= bad Employment status= A 4,1 ) = 1 2 P(class= bad Employment status= A 4,2 ) = 1 3 P(class= bad Employment status= A 4,3 ) = 3 7 P(class= bad Personal status= A 5,1 ) = 2 5 P(class= bad Personal status= A 5,2 ) = 1 3 P(class= bad Personal status= A 5,3 ) = 2 4 5/7

Algorytm PRISM Przykład Wybieramytrzecią wartość atrybutu Credit amount i modyfikujemy regułę: α A2,3? α B1,2 Employment status Personal status Credit status (class) A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 4,3 : full-time job A 5,1 : single B 1,1 : good P(class= bad Credit amount= A 2,3,Employment status= A 4,3 ) = 3 4 P(class= bad Credit amount= A 2,3,Personal status= A 5,1 ) = 1 2 P(class= bad Credit amount= A 2,3,Personal status= A 5,2 ) = 1 1 P(class= bad Credit amount= A 2,3,Personal status= A 5,3 ) = 1 1 Wybieramy drugą lub trzecią wartość personal status i mamy: α A2,3 α A5,3 α B1,2 Osiągnięto wartość prawdopodobieństwa równą 1 - reguła kompletna. 6/7

Algorytm PRISM Przykład Wybieramytrzecią wartość atrybutu Credit amount i modyfikujemy regułę: α A2,3? α B1,2 Employment status Personal status Credit status (class) A 4,3 : full-time job A 5,2 : married B 1,2 : bad A 4,3 : full-time job A 5,3 : divorced B 1,2 : bad A 4,3 : full-time job A 5,1 : single B 1,2 : bad A 4,3 : full-time job A 5,1 : single B 1,1 : good P(class= bad Credit amount= A 2,3,Employment status= A 4,3 ) = 3 4 P(class= bad Credit amount= A 2,3,Personal status= A 5,1 ) = 1 2 P(class= bad Credit amount= A 2,3,Personal status= A 5,2 ) = 1 1 P(class= bad Credit amount= A 2,3,Personal status= A 5,3 ) = 1 1 Wybieramy drugą lub trzecią wartość personal status i mamy: α A2,3 α A5,3 α B1,2 Osiągnięto wartość prawdopodobieństwa równą 1 - reguła kompletna. 6/7

Klasyfikatory regułowe Podsumowanie Algorytm PRISM generuje dokładne reguły. W rezultacie, zestaw wygenerowanych reguł jest ogromny, i niektóre dotyczą tylko jednej obserwacji. Reguły stworzone poprzez zastosowanie PRISM są zbytnio dopasowane do zbioru uczącego - problem overfittingu. Modyfikację metody PRISM stanowi klasyfikator RIPPER. Wejściowy zbiór danych dzielony jest na dwa podzbiory: rosnący i ucinający. Na zbiorze rosnącym generowana jest pojedyncza reguła z wykorzystaniem podejścia PRISM. Ucinany jest ostatnio dodany atrybut. Jeżeli jakość reguły badana zbiorze ucinającym pogorszyła się, to wówczas ucinanie jest kontynuowane. W przeciwnym wypadku zapamiętywana jest reguła przed ostatnim ucięciem. 7/7