SID Wykład 10 Systemy uczace się



Podobne dokumenty
Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Indukowane Reguły Decyzyjne I. Wykład 3

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody indukcji reguł

Wyk lad 8: Leniwe metody klasyfikacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Baza danych dla potrzeb zgłębiania DMX

Metody klasyfikacji danych - część 1 p.1/24

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Co to są drzewa decyzji

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Sztuczna Inteligencja Projekt

Przykładowe B+ drzewo

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Indukcja drzew decyzyjnych

Wprowadzenie. Data Science Uczenie się pod nadzorem

Elementy modelowania matematycznego

A Zadanie

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Algorytmy klasyfikacji

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Sztuczna Inteligencja i Systemy Doradcze

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Matematyczne Podstawy Informatyki

Odkrywanie wiedzy w danych

Indukowane Reguły Decyzyjne I. Wykład 8

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

SZTUCZNA INTELIGENCJA

Wybrane zagadnienia uczenia maszynowego

Systemy decyzyjne. Wykład 3: Wnioskowanie Boolowskie w obliczeniu Redutów i reguł decyzyjnych. Nguyen Hung Son. Nguyen Hung Son () 1 / 61

Wprowadzenie do uczenia maszynowego

Sztuczna Inteligencja i Systemy Doradcze

Data Mining Wykład 4. Plan wykładu

SID Wykład 3 Przeszukiwanie iteracyjne

Reguły asocjacyjne, wykł. 11

Laboratorium 6. Indukcja drzew decyzyjnych.

ALGORYTM RANDOM FOREST

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

CLUSTERING. Metody grupowania danych

Systemy uczące się wykład 2

Zastosowania sieci neuronowych oraz modeli alternatywnych. PLAN WYKŁADU

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Drzewa decyzyjne i lasy losowe

Wstęp do programowania. Drzewa. Piotr Chrząstowski-Wachtel

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Automatyczne wyodrębnianie reguł

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

WYKŁAD 6. Reguły decyzyjne

Sztuczna Inteligencja Projekt

Przykłady problemów optymalizacyjnych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Wysokość drzewa Głębokość węzła

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Projekt Sieci neuronowe

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Metody probabilistyczne klasyfikatory bayesowskie

Drzewa decyzyjne. 1. Wprowadzenie.

EGZAMIN - Wersja A. ALGORYTMY I STRUKTURY DANYCH Lisek89 opracowanie kartki od Pani dr E. Koszelew

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Optymalizacja ciągła

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Logika Stosowana. Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie. Marcin Szczuka. Instytut Matematyki UW

Agnieszka Nowak Brzezińska Wykład III

Metody przeszukiwania

ALGORYTMY I STRUKTURY DANYCH

Drzewa klasyfikacyjne algorytm podstawowy

Wykład X. Programowanie. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2016 Janusz Słupik

Wstęp. Cechy: Spis treści

System ALVINN. 30 Output. Units. 4 Hidden. Units. 30x32 Sensor Input Retina. Straight Ahead. Sharp Right. Sharp Left

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Wprowadzenie do klasyfikacji

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Wstęp do programowania

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Reguly. Wind = Weak Temp > 20 Outlook Rain PlayTennis = Y es

Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.

Klasyfikacja LDA + walidacja

3.2 Wykorzystanie drzew do generowania pytań

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Porządek symetryczny: right(x)

Transkrypt:

SID Wykład 10 Systemy uczace się Wydział Matematyki, Informatyki i Mechaniki UW slezak@mimuw.edu.pl

Uczenie indukcyjne Obiekty: Decyzja: dane reprezentujace rzeczywisty stan lub obiekt, tworza przestrzeń obiektów X Funkcja dec : X V dec przypisujaca obiektom wartość decyzji z ustalonego zbioru V dec Zbiór przykładów: Problem: ustalony zbiór obiektów z X z przypisanymi wartościami decyzji: (x 1,dec(x 1 )),...,(x m,dec(x m )) Z danego zbioru przykładów nauczyć się funkcji (hipotezy) h : X V dec aproksymujcej decyzję dec tak, żeby możliwie najbardziej poprawnie przypisywała ja obiektom z przestrzeni X, dla których nieznana jest wartość decyzji dec

Uczenie indukcyjne: uprawianie sportu Obiekty to wektory wartości opisujace bieżace warunki pogodowe Przykład Atrybuty Decyzja Niebo Temp Wilgotn Wiatr Woda Prognoza Sport Dzień 1 Słońce Ciepło Normalna Silny Ciepła Bez zmian Tak Dzień 2 Słońce Ciepło Wysoka Silny Ciepła Bez zmian Tak Dzień 3 Deszcz Zimno Normalna Silny Ciepła Zmiana Nie Dzień 4 Słońce Ciepło Wysoka Silny Chłodna Zmiana Tak Problem polega na nauczeniu się podejmowania właściwego wyboru na podstawie bieżacych warunków pogodowych.

Rodzaje decyzji i atrybuty Decyzja może przyjmować wartości: rzeczywiste (decyzja ciagła) dyskretne binarne (TRUE lub FALSE) złożone Atrybuty: zbiór atrybutów A = {a 1,a 2,...,a n } Obiekty: Wektory wartości atrybutów x = < x 1,x 2,...,x n > Wartości atrybutów moga być: ciagłe dyskretne binarne (TRUE lub FALSE)

Przestrzeń hipotez Ile jest różnych hipotez (funkcji) binarnych dla n atrybutów binarnych? = liczba funkcji binarnych dla dziedziny z 2 n obiektami = 2 2n np. dla 6 atrybutów binarnych jest 18.446.744.073.709.551.616 hipotez Ograniczanie przestrzeni hipotez: Przestrzeń hipotez można ograniczyć do ustalonej klasy hipotez Ile jest czysto koniunkcyjnych funkcji (np. Hungry Rain? Każdy atrybut może wystapić jako literał pozytywny, jako literał negatywny lub wcale 3 n różnych funkcji koniunkcyjnych Zwiekszanie przestrzeni hipotez Co daje zwiększenie klasy dopuszczalnych hipotez? zwiększa szansę, że funkcja docelowa może być wyrażona zwiększa liczbę hipotez zgodnych ze zbiorem treningowym może spowodować gorsza skuteczność predykcji

Empiryczna miara jakości hipotezy Dane dzielone sa na zbiór treningowy U trn i zbiór testowy U tst Hipoteza h : X V dec jest indukowana na podstawie zbioru treningowego U trn Skuteczność hipotezy Accuracy(h) jest mierzona proporcja poprawnie sklasyfikowanych obiektów ze zbioru testowego Accuracy(h) = {x U tst : h(x) = dec(x)} U tst

Regresja (decyzja ciagła) Regresja to aproksymacja decyzji o wartości ciagłej Regresja liniowa Regresja kwadratowa

Regresja (decyzja ciagła) Regresja to aproksymacja decyzji o wartości ciagłej Regresja wyższego stopnia (spójna) Regresja kawałkami liniowa (spójna)

Modele decyzyjne Metody wnioskowania dla danych opisanych przez zbiór atrybutów z decyzja dyskretna: Drzewa decyzyjne Systemy regułowe Sieci neuronowe Sieci bayessowskie

Drzewa decyzyjne: reprezentacja Węzły wewnętrzne Gałęzie Liście Każdy zwiazany z jednym atrybutem, reprezentuje test wartości tego atrybutu Każda zwiazana z jedna wartościa lub z podzbiorem wartości atrybutu węzła, z którego wychodzi gałaź, odpowiada obiektom danych z pasujacymi wartościami atrybutu Każdy zwiazany z decyzja lub rozkładem decyzji, odpowiada obiektom danych pasujacym do ścieżki prowadzacej do danego liścia

Drzewa decyzyjne: przykład Reprezentacja danych Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No

Drzewa decyzyjne: przykład Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak Yes No No Yes

Drzewa decyzyjne: moc wyrazania Fakt 1: Dla każdego zbioru treningowego istnieje spójne drzewo decyzyjne Dowód: zaczynamy od pustego drzewa i dla każdego obiektu danych dokładamy ścieżkę prowadzac a przez wszystkie atrybuty z wartościami krawędzi odpowiadajacymi wartościom atrybutów w obiekcie Fakt 2: Dla każdej funkcji istnieje spójne drzewo decyzyjne Dowód: można utworzyś zbiór treningowy zawierajacy obiekty odpowiadajace wszystkim kombinacjom wartości atrybutów o decyzji zgodnej z dana funkcja A B A xor B F F F F T T T F T T T F F F B F T T A T F T B T F

Drzewa decyzyjne: trenowanie Cel: znalezienie drzewa spójnego ze zbiorem treningowym Pomysł: rekurencyjne wybieranie najbardziej znaczacego atrybutu jako korzenia poddrzewa function DTL(examples, attributes, default) returns a decision tree if examples is empty then return default else if all examples have the same classification then return the classification else if attributes is empty then return MODE(examples) else best CHOOSE-ATTRIBUTE(attributes, examples) tree a new decision tree with root test best for each value v i of best do examples i { elements of examples with best = v i } subtree DTL(examples i, attributes best, MODE(examples)) add a branch to tree with label v i and subtree subtree end for return tree end if end function

Drzewa decyzyjne: wybór atrybutu Rożne atrybuty daja różne rozkłady decyzji w gałęziach [29+, 35 ] A 1 =? [29+, 35 ] A 2 =? t f t f [21+, 5 ] [8+, 30 ] [18+, 33 ] [11+, 2 ] Funkcja CHOOSE-ATTRIBUTE wybiera najlepszy z nich

Entropia Dany jest rozkład prawdopodobieństwa p 1,...,p n Miara entropii wyznacza, ile informacji niesie z soba ten rozkład Entropy( p 1,...,p n ) = S zbiór obiektów danych S d zbiór obiektów w S z decyzja d n p i log 2 p i i=1 Entropy(S) = S d d V dec S log 2 S d S Entropia = średnia liczba bitów potrzebna do zakodowania decyzji d dla losowo wybranego obiektu ze zbioru S (przy optymalnym kodowaniu decyzji) Dlaczego? Optymalne kodowanie przydziela log 2 p bitów do decyzji występujacej z prawdopodobieństwem p

Entropia: dwie decyzje Dane sa dwie decyzje: pozytywna ( ) i negatywna ( ) p = S S p = S S proporcja obiektów z decyzja pozytywna w zbiorze S proporcja obiektów z decyzja negatywna w zbiorze S Entropy(S) = p log 2 p p log 2 p 1 Entropy(S) 0.5 0 0 0.5 1 p

Zysk informacji dla atrybutu symbolicznego Zysk informacji Gain(S, a) = redukcja entropii przy podziale zbioru względem atrybutu a S v zbiór obiektów w S z wartościa atrybutu a = v Gain(S, a) = Entropy(S) v Values(a) S v S Entropy(S v ) S : [9+,5 ] E = 0.940 Humidity Which attribute is the best classifier? S : [9+,5 ] E = 0.940 Wind High Normal High Normal [3+,4 ] E = 0.985 [6+,1 ] E = 0.592 Gain(S,Humidity) = 0.940 (7/14) 0.985 (7/14) 0.592 = 0.151 [6+,2 ] E = 0.811 [3+,3 ] E = 1.00 Gain(S,Wind) = 0.940 (8/14) 0.811 (6/14) 1.00 = 0.048 Drzewo decyzyjne w każdym węźle wybiera atrybut a z największym zyskiem informacji, tzn. z największa wartościa Gain(S,a).

Reguły Warunek Koniunkcja selektorów, każdy selektor reprezentuje test wartości pojedynczego atrybutu, warunek odpowiada obiektom spełniajacym wszystkie selektory. Decyzja Każda reguła zwiazana jest z jedna decyzja, przypisywana obiektom spełniajacym warunek reguły. Przykład Wind = Weak Temp > 20 Outlook Rain PlayTennis = Yes

Reguły: selektory Atrybuty symboliczne: Selektor równościowy X = v Selektor wykluczajacy X v Selektor ogólny X {v 1,...,v k } Atrybuty numeryczne: Selektor przedziałowy X (a, b) Przedział może być jednostronnie nieograniczony, może też być jedno- lub obustronnie domknięty.

Reguły spójne Reguła α = dec = d jest spójna ze zbiorem treningowym U trn jeśli każdy przykład x U trn spełniajacy warunek α ma decyzję dec(x) = d. a 1 a 2

Reguły spójne: przykład Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No Outlook = Overcast PlayTennis = Yes Humidity = Normal PlayTennis = Yes spójna niespójna, bo D6 sprzeczne

Systemy regułowe: uczenie i klasyfikacja Uczenie Generowanie zbioru reguł na podstawie zbioru przykładów treningowych. Klasyfikacja Wyszukiwane sa reguły pasujace do klasyfikowanego obiektu x, tzn. te, których warunek jest spełniany przez obiekt x, możliwe sa dwie strategie podejmowania decyzji: 1. Najlepszy wygrywa: regułom przypisana jest miara ważności Importance, decyzja podejmowana jest na podstawie pasujacej do x reguły r o najwyższej wartości Importance(r) 2. Głosowanie: reguły maja przypisane wagi Weight, obiekt x klasyfikowany jest decyzja o najwyższej sumie wag reguł pasujacych maxarg dj α dj : x spełnia α Weight(α = d j )

Generowanie reguł Bezpośrednio ze zbioru przykładów zupełne sekwencyjne pokrywanie (CN2, AQ) Przy użyciu struktur pośrednich z reduktu (teoria zbiorów przybliżonych) z drzewa decyzyjnego (C4.5rules)

Generowanie reguł zupełne Fakt Dla dowolnej reguły s 1... s m d wszystkie obiekty rozpoznawane przez nia rozpoznawane sa także przez każda regułę zbudowana z podzbioru jej selektorów s i1... s ik d a 1 a 1 [1,3] & a 2 [1,3] a 1 [1,3] a 2

Generowanie reguł zupełne Wniosek: Obszar przestrzeni obiektów pokrywany przez wszystkie maksymalnie ogólne reguły spójne (G 1,...,G m ) jest taki sam jak obszar pokrywany przez wszystkie reguły spójne. This region all inconsistent G 1 G 2 G 3... Gm More general More specific S 1 S 2... Sn this region all inconsistent Wystarczy wyszukać wszystkie reguły spójne o minimalnym zbiorze selektorów, tzn. takim, że usunięcie dowolnego selektora daje regułę niespójna.

Generowanie reguł zupełne Jak to robić? Można przeszukiwać przestrzeń wszystkich reguł zaczynajac od reguł najbardziej ogólnych. Dopóki reguły nie sa spójne ze zbiorem treningowym, sa rozszerzane o selektory wykluczajace przykłady powodujace ich niespójność. { } most general rule G 0 G... 1 G m

Generowanie reguł zupełne algorytm function EXHAUSTIVE-RULES(examples, decisions, selectors) returns a rule set rules {} for each decision d decisions do candidates {} d repeat newcandidates {} for each candidate rule α d candidates do e neg a random example matching α but with a decision d for each selector s selectors excluding e neg do r new α s d if r new covers one or more objects with decision d in examples and is not subsumed by another rule from rules newcandidates then if r new is consistent with examples then rules rules r new else newcandidates newcandidates r new end if end if end for end for candidates newcandidates until candidates is empty end for return rules end function

Generowanie reguł zupełne przykład Reguły z decyzja PlayTennis = Yes candidates: Outlook = Overcast PlayTennis = Yes Kontrprzykład: Overcast, Cool, Normal, Weak, PlayTennis = No Overcast,?,?,? Overcast,Hot,?,? Overcast,Mild,?,? Overcast,?,High,? Overcast,?,?,Strong

Generowanie regul sekwencyjne pokrywanie Generowanie reguł zupełne przeglada zazwyczaj wykładniczo duża podprzestrzeń reguł, w praktyce niewykonalne. Pomysł (heurystyczny): Reguły można generować pojedynczo do momentu pokrycia przez nie wszystkich obiektów treningowych. function SEQUENTIAL-COVERING(examples) returns a rule set rules {} uncovered examples repeat r LEARN-ONE-RULE(examples, uncovered) rules rules r remove all examples covered by r from uncovered until uncovered is empty return rules end function Funkcja LEARN-ONE-RULE wyszukuje heurystycznie jak najlepsza regułę względem pewnej miary jakości reguł.

CN2 Clark, Niblett, 1991 Użrywa atrybutów symbolicznych Traktuje wszystkie atrybuty jako symbolicze, atrybuty numeryczne zamieniane sa na symboliczne w ten sposób, że zakres wartości każdego atrybytu dzielony jest na równe przedziały, wartości z jednego przedziału zamieniane sa na taka sama wartość symboliczna Używa metody sekwencyjnego pokrywania Szukanie kolejnej reguły (procedura LEARN-ONE-RULE) podobnie jak generowanie reguł zupełne rozpoczyna od najbardziej ogólnych reguł (warunków) i uszczegóławia je dodajac kolejne selektory, ale: zbiór reguł-kandydatów ograniczony jest do rozmiaru k określanego przez użytkownika, do rozszerzania brane sa najlepsze kandydujace reguły jako wynik zwracana jest najlepsza reguła spośród wygenerowanych kandydatów

CN2: szukanie najlepszej reguły function LEARN-ONE-RULE-CN2(uncov, k) returns a rule inputs: uncov - the examples not covered by the previous rules k - the width of searching best the most general empty condition candidates {best} repeat newcandidates {} for each candidate α candidates do for each selector s of the form a = v or a v consistent with α do if α s candidates newcandidates then newcandidates newcandidates {α s} if PERFORMANCE(α s, unconv) > PERFORMANCE(best, uncov) then best α s end if end if end for end for retain only k best candidates in newcandidates according to PERFORMANCE candidates newcandidates until candidates is empty return best d (the most frequent decision among objects matching best) end function

CN2: szukanie najlepszej reguły, przykład Rozmiar zbioru kandydatów = 1 przeszukiwanie zachłanne IF THEN PlayTennis = yes IF Wind = weak THEN PlayTennis = yes... IF Wind = strong THEN PlayTennis = no IF Humidity = normal THEN PlayTennis = yes IF Humidity = high THEN PlayTennis = no IF Humidity = normal Wind = weak THEN PlayTennis = yes IF Humidity = normal Wind = strong THEN PlayTennis = yes IF Humidity = normal Outlook = sunny THEN PlayTennis = yes IF Humidity = normal Outlook = rain THEN PlayTennis = yes...

CN2: miara jakości reguły Funkcja PERFORMANCE(α,uncov) szacuje jakość warunku α na podstawie dotychczas niepokrytych przykładów uncov. n liczba przykładów z uncov pasujacych do α n d liczba przykładów z uncov pasujacych do α z najczęstsza decyzja d m-estymata prawdopodobieństwa n d + mp d n + m p d1,...,p dd pierwotny rozkład prawdopodobieństwa w danych m parametr estymacji CN2 używa szczególnego przypadku, estymaty Laplace a: równomierny rozkład pierwotny 1 D,..., 1 D i m = D (D liczba decyzji) n d + D 1 D n + D = n d + 1 n + D

Inne miary jakości reguły Funkcja PERFORMANCE(α,uncov) szacuje jakość warunku α na podstawie dotychczas niepokrytych przykładów uncov n liczba przykładów z uncov pasujacych do α n d liczba przykładów z uncov pasujacych do α z najczęstsza decyzja d Częstość względna n d n Negacja entropii n di n di d n log n di 2 n i liczba przykładów z uncov pasujacych do α z decyzja d i

Miary jakosci reguły: przykład α 1 pokrywa 1000 przykładów z decyzja d 1 i 1 przykład z decyzja d 2 α 2 pokrywa 5 przykładów z decyzja d 1 i 0 przykładów z decyzja d 2 α 3 pokrywa 1 przykład z decyzja d 1 i 0 przykładów z decyzja d 2 α 1 d 1 α 2 d 1 α 3 d 1 Częstość względna 99.9% 100% 100% Negacja entropii <0 0 0 Częstość względna i negacja entropii faworyzuja reguły α 2 d 1 i α 3 d 1 Wartości estymaty Laplace a (D = 2): 99.8% dla α 1 = d 1 85.7% dla α 2 = d 1 66.6% dla α 3 = d 1

CN2: klasyfikacja pierwszy wygrywa Lista decyzyjna to lista reguł utworzona przez algorytm sekwencyjnego pokrywania uporzadkowana w kolejności takiej, w jakiej reguły były generowane, z dodatkowa reguła domyślna na końcu R 0 R 1 R 2... R m Default W CN2: R 0 reguła wygenerowana ze wszystkich przykładów R 1 reguła wygenerowana z przykładów niepokrywanych przez R 0 R 2 reguła wygenerowana z przykładów niepokrywanych przez R 0, R 1, itd. Default reguła bezwarunkowa zwracajaca najczęstsza decyzję w zbiorze treningowym Obiektowi przypisywana jest decyzja d z pierwszej reguły α d na liście decyzyjnej, której warunek α pasuje do obiektu.

CN2: klasyfikacja przez głosowanie reguł rules zbiór warunków wygenerowany przez algorytm sekwencyjnego pokrywania (bez ustalonych decyzji) Rozkład decyzyjny warunku α rules: n 1 (α),...,n D (α) n i liczba przykładów z decyzja d i spełniajacych α w zbiorze uncov, tzn. tylko tych przykładów, które nie spelniaja żadnego z wcześniej wygenerowanych warunków Wybór decyzji dla obiektu x przez sumowanie rozkładów: maxarg di n i (α) α rules:x spelnia α

AQ AQ15, Michalski, 1986 Używa atrybutów symbolicznych i numerycznych Do atrybutów symbolicznych stosuje selektory równościowe i wykluczajace, do atrybutów numerycznych stosuje selektory ograniczajace (<,,>, ). Używa metody sekwencyjnego pokrywania, ale oddzielnie dla każdej decyzji Szukanie kolejnej reguły (procedura LEARN-ONE-RULE) podobnie jak w CN2 przebiega od najbardziej ogólnych do bardziej specyficznych reguł, ale: przeszukiwanie sterowane jest wybranym przykładem reguły-kandydatki poprawiane sa tak długo, dopóki nie osigna warunku spójności ze zbiorem treningowym, reguła najlepsza wybierana jest spośród końcowych reguł spójnych

AQ: szukanie najlepszej reguły function LEARN-ONE-RULE-AQ(examples, uncov, d, k) returns a rule inputs: examples - all training examples uncov - the examples not covered by the previous rules d - decision of a return rule k - the width of searching e pos a random examples from uncov with decision d candidates { the most general empty condition } repeat e neg example with decision d covered by one or more conditions in candidates with the maximum number of values = the corresponding values of e pos selectors all selectors consistent with e pos excluding e neg candidates {x s : x candidates, s selectors} candidates {x candidates : y candidates more general than x} retain only k best candidates in candidates according to PERFORMANCE until candidates cover no examples with decision d best the best condition in candidates according to PERFORMANCE return best d end function

AQ: miara jakości reguły PERFORMANCE(α d, examples) = pos included + neg excluded pos included liczba przykładów w examples z decyzja d pasujacych do warunku α tzw. wsparcie reguły neg excluded liczba przykładów w examples z decyzja d wykluczanych przez warunek α Uwaga Jeśli reguła jest spójna ze zbiorem treningowym, tzn. warunek reguły wyklucza wszystkie przykłady z decyzja d, to miary jakości reguły jest równa wsparciu reguły PERFORMANCE(α d, examples) = pos included

AQ: klasyfikacja Klasyfikacja przez głosowanie reguł Waga pojedynczej reguły: Weight(α d) = pos included(α d) examples Wybór decyzji dla obiektu x: maxarg d α d:x spelnia α pos included (α d) examples

Generowanie reguł: CN2 vs AQ Cechy wspólne metoda sekwencyjnego pokrywania szukanie pojedynczej reguły: metoda pierwszy najlepszy ustalonej szerokości od najbardziej ogólnych w kierunku bardziej specyficznych Różnice Przeszukiwanie sterowane Wymaganie spójności Miara jakości reguł CN2 całym zbiorem NIE estymata Laplace a AQ pojedynczym przykładem TAK wsparcie

Dziękuję za uwagę!