Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz



Podobne dokumenty
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Odkrywanie wiedzy w danych

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Indukowane Reguły Decyzyjne I. Wykład 8


Metody klasyfikacji danych - część 1 p.1/24

Metody indukcji reguł

Sortowanie. Bartman Jacek Algorytmy i struktury

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Indukowane Reguły Decyzyjne I. Wykład 3

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Wprowadzenie do klasyfikacji

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Automatyczne wyodrębnianie reguł

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

ED Laboratorium 3. Drzewa decyzyjne

Algorytmy i struktury danych

Drzewa klasyfikacyjne algorytm podstawowy

Algorytmy klasyfikacji

Temat: Algorytm kompresji plików metodą Huffmana

Uwaga: Funkcja zamień(a[j],a[j+s]) zamienia miejscami wartości A[j] oraz A[j+s].

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

Indukcja drzew decyzyjnych

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Zasada indukcji matematycznej

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Podstawy Informatyki. Metody dostępu do danych

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Klasyfikacja. Wprowadzenie. Klasyfikacja (1)

TEORETYCZNE PODSTAWY INFORMATYKI

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Algorytmy i Struktury Danych

INDUKCJA DRZEW DECYZYJNYCH

Sortowanie przez wstawianie Insertion Sort




Drzewa decyzyjne. 1. Wprowadzenie.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Problem 1 prec f max. Algorytm Lawlera dla problemu 1 prec f max. 1 procesor. n zadań T 1,..., T n (ich zbiór oznaczamy przez T )

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Metody eksploracji danych. Reguły asocjacyjne

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

A Zadanie

ALGORYTMY I STRUKTURY DANYCH

Rozwiązania zadań z kolokwium w dniu r. Zarządzanie Inżynierskie, WDAM, grupy I i II

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Sortowanie Shella Shell Sort

Programowanie w VB Proste algorytmy sortowania

TEORIA GRAFÓW I SIECI

ALGORYTM RANDOM FOREST

SID Wykład 10 Systemy uczace się

ALGORYTMY. 1. Podstawowe definicje Schemat blokowy

Zmienne losowe i ich rozkłady

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Wprowadzenie do uczenia maszynowego

Data Mining z wykorzystaniem programu Rapid Miner

Elementy modelowania matematycznego

Programowanie sieciowe. Tadeusz Trzaskalik

Wykład 4. Określimy teraz pewną ważną klasę pierścieni.

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

W. Guzicki Zadanie 41 z Informatora Maturalnego poziom podstawowy 1

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

SZYBKI ALGORYTM Z MACIERZĄ SHURA DLA MACIERZY TRÓJDIAGONALNYCH

Sprawozdanie z zadania Modele predykcyjne (2)

Lista 4. Kamil Matuszewski 22 marca 2016

Sortowanie - wybrane algorytmy

Zaawansowane algorytmy i struktury danych

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Zdzisław Dzedzej. Politechnika Gdańska. Gdańsk, 2013

10. Translacja sterowana składnią i YACC

Niech x 1,..., x n będzie ciągiem zdarzeń. ---

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1

. Podstawy Programowania 2. Drzewa bst - część druga. Arkadiusz Chrobot. 12 maja 2019

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt

Sortowanie zewnętrzne

Lista 0. Kamil Matuszewski 1 marca 2016

Laboratorium 6. Indukcja drzew decyzyjnych.

Diagnozowanie sieci komputerowej na podstawie opinii diagnostycznych o poszczególnych komputerach sieci

Wykład 8. Drzewo rozpinające (minimum spanning tree)

Transkrypt:

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2 dr Piotr Wąsiewicz. Ze zbioru treningowego podanego w tabeli poniżej wykreować metodą zstępującej konstrukcji drzewo decyzyjne(jak najmniej rozbudowane- minimalizacja entropii). Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0,w 2 :wiek 0 wiek<65,w :wiek 65. Najpierw obliczana jest informacja zawarta w zbiorze i entropie rozkładu wartości kategorii tzw. etykiet między wybrane przez wartości atrybutów podzbiory zbioru trenującego. I(P)= Pmae log P 2 ( Pmae ) Pdue log P P 2 ( Pdue )= P 9 log 2( 9 ) 5 9 log 2( 5 9 )=0.99, E wiek,w (P)= Pmae wiek,w P wiek,w log 2( Pmae wiek,w ) Pdue wiek,w P wiek,w P wiek,w log 2( Pdue wiek,w P wiek,w )= log 2( ) 2 log 2( 2 )= 0.98, E wiek,w2 (P)= Pmae wiek,w 2 P wiek,w2 log 2( Pmae wiek,w 2 ) Pdue wiek,w 2 P wiek,w2 P wiek,w2 log 2( Pdue wiek,w 2 P wiek,w2 )= log 2( ) log 2( )= 0.8, E wiek,w (P)= Pmae wiek,w P wiek,w log 2( Pmae wiek,w ) Pdue wiek,w P wiek,w P wiek,w log 2( Pdue wiek,w P wiek,w )= 0 2 log 2( 0 2 ) 2 2 log 2( 2 2 )= 0, E samochód,maluch (P)= Pmae samochód,maluch P samochód,maluch log 2( Pmae samochód,maluch P samochód,maluch )- P due samochód,maluch samochód,maluch P samochód,maluch log 2( Pdue P samochód,maluch )= 2 log 2( 2 ) log 2( )=0.98, samochód,minivan samochód,minivan E samochód,minivan (P)= Pmae P samochód,minivan log 2( Pmae P samochód,minivan ) P due samochód,minivan samochód,minivan P samochód,minivan log 2( Pdue P samochód,minivan )= 2 log 2( 2 ) log 2( )=0.98, samochód,sportowy samochód,sportowy E samochód,sportowy (P)= Pmae P samochód,sportowy log 2( Pmae P samochód,sportowy ) Psamochód,sportowy due P samochód,sportowy log 2( Pdue samochód,sportowy P samochód,sportowy )= 0 log 2( 0 ) log 2( )=0,

Następnie obliczane są średnie ważone entropie: E wiek (P)= P wiek,w P 9 (0.8)+2 9 0=0,666, E wiek,w (P)+ P wiek,w 2 P E wiek,w2 (P)+ P wiek,w E wiek,w (P)= P 9 (0.98)+ E samochod (P)= P samochod,maluch E samochod,maluch (P)+ P samochod,minivan E samochod,minivan (P)+ P P P samochod,sportowy E samochod,sportowy (P)= P 9 (0.98)+ 9 (0.98)+ 9 0=0,62, I wartości infomacyjne dla poszczególnych atrybutów: IV wiek (P)= P wiek,w P log 2 ( P wiek,w ) P wiek,w 2 P P log 2 ( P wiek,w 2 ) P wiek,w P P 9 log 2( 9 ) 9 log 2( 9 ) 2 9 log 2( 2 9 )=0,528+0,59+0,82=,5, IV samochód (P)= P samochód,maluch P P samochód,minivan P log 2 ( P samochód,maluch ) P log 2 ( P samochód,minivan ) P samochód,sportowy P P 9 log 2( 9 ) 9 log 2( 9 ) 9 log 2( 9 )=0,528+0,528+0,528=,58, Na końcu współczynniki przyrostu informacji wynoszą odpowiednio: ϑ wiek (P)= I(P) E wiek(p) IV wiek (P) ϑ samochód (P)= I(P) E samochód(p) IV samochód (P) = 0,99 0,666,5 =0,22 = 0,99 0,62,58 =0,29 log 2 ( P wiek,w )= P log 2 ( P samochód,sportowy )= P sportowy samochod duze wiek maluch minivan wiek w w duze w 2 w male duze w w 2 male Jak widać atrybut samochód ma większy współczynnik i wygrywa staje się pierwszym węzłem drzewa decyzyjnego, a jego trzy łuki biegnące do następników mają za nazwy jego wartości. Dla wartości sportowy każdy przykład zawierający ją ma etykietę duże atrybutu ryzyko, stądjejłukkończysięliściemowartościduże. 2

Dla wartości maluch jej łuk kończy się z braku jasnego wyboru etykiety tylko na podstawie wartości atrybutu samochód węzłem atrybutu wiek- ostatnim z dostępnych testów na drodze do określenia etykiety przykładu złożonego z testowanych dwóch atrybutów wiek i samochód. Poniżej zamieszczony został opis następników nowego węzła. Przykładyzwartościąw atrybutuwiekiwartościąmaluchmajązawszeetykietęduże stądłukbiegnącyodwęzławiekonazwiew kończysięliściemduże,adlainnychwartości atrybutu wiek przy wartości maluch atrybutu samochód przykłady mają etykiety małe stąd odpowiednie liście. Wracając do trzeciego łuku o nazwie minivan biegnącego od korzenia można zauważyć, żeteżzbrakutakichsamychetykietdlaprzykładówzwartościąminivanizdowolną wartościąatrybutuwiekłuktenkończysięwęzłemonazwiewiekidalejzależnościi liście są takie same jak dla węzła kończącego łuk maluch. 2. Za pomocą algorytmu sekwencyjnego pokrywania CN2 uzyskać nieuporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Dla ułatwienia założyć, że wszystkie kompleksy są istotne statystycznie oraz że kompleks warunkujący z reguły zdaniowej musi pokrywać przykłady tylko z jedną etykietą- jedną wartością kategorii. x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Zbiór S kompleksów atomowych(czyli tylko z jednym selektorem nieuniwersalnym) (S={K, K 2, K, K, K 5, K 6, K 7, K 8, K 9, K 0, K, K 2 })jestnastępujący: S={ K <w,?>, K 2 <w 2,?>, K <w,?>, K <w w 2,?>, K 5 <w 2 w,?>, K 6 <w w,?>, K 7 <?,maluch>, K 8 <?,minivan>, K 9 <?,sportowy>, K 0 <?,maluch minivan>, K <?,minivan sportowy>, K 2 <?,maluch sportowy>}

Kolejne kroki algorytmu CN2 (a)początkowor=φ,p=t={,2,,,5,6,7,8,9}, S (b) Następuje wywołanie znajdź-kompleks(t, P). S={<?>} φ,k =<?> ϑ k (P)= E k (P)= Pmae P log 2 ( Pmae )+ Pdue P P log 2 ( Pdue )= 5 P 9 log 2( 5 9 )+ 9 log 2( 9 )= 0.99, S = S=S S, Ze względu na to, że dąży się do uzyskania nieuporządkowanego zbioru reguł funkcje ocenykompleksówatomowychsąliczonetylkorazwzbiorzetipotemcałyczas wykorzystywane. ϑ K (T)= E K (T)= Tmae K log T K 2 ( Tmae K )+Tdue K T K T K log 2( Tdue K T K )= log 2( )+ 2 log 2( 2 )= 0.98, ϑ K2 (T)= E K2 (T)= Tmae K 2 T K2 log 2( )= 0.8, ϑ K (T)= E K (T)= Tmae K T K log 2( )=0, ϑ K (T)= E K (T)= Tmae K T K 7 log 2( 7 )= 0.985, ϑ K5 (T)= E K5 (T)= Tmae K 5 T K5 6 log 2( 6 )=, ϑ K6 (T)= E K6 (T)= Tmae K 6 T K6 5 log 2( 5 )= 0.72, ϑ K7 (T)= E K7 (T)= Tmae K 7 T K7 log 2( )= 0.98, ϑ K8 (T)= E K8 (T)= Tmae K 8 T K8 log 2( )= 0.98, ϑ K9 (T)= E K9 (T)= Tmae K 9 T K9 log 2( )=0, ϑ K0 (T)= E K0 (T)= Tmae K 0 2 6 log 2( 2 6 )= 0.98, log 2 ( Tmae K 2 )+Tdue K 2 T K2 T K2 log 2( Tdue K 2 T K2 )= log 2( )+ log 2 ( Tmae K )+Tdue K T K T K log 2( Tdue K T K )=0 log 2( 0 )+ log 2 ( Tmae K )+Tdue K T K T K log 2( Tdue K T K )= 7 log 2( 7 )+ log 2 ( Tmae K 5 )+Tdue K 5 T K5 T K5 log 2( Tdue K 5 T K5 )= 6 log 2( 6 )+ log 2 ( Tmae K 6 )+Tdue K 6 T K6 T K6 log 2( Tdue K 6 T K6 )= 5 log 2( 5 )+ log 2 ( Tmae K 7 )+Tdue K 7 T K7 T K7 log 2( Tdue K 7 T K7 )=2 log 2( 2 )+ log 2 ( Tmae K 8 )+Tdue K 8 T K8 T K8 log 2( Tdue K 8 T K8 )=2 log 2( 2 )+ log 2 ( Tmae K 9 )+Tdue K 9 T K9 T K9 log 2( Tdue K 9 T K9 )=0 log 2( 0 )+ T K0 log 2( Tmae K 0 )+Tdue K 0 T K0 T K0 log 2( Tdue K 0 T K0 )= 6 log 2( 6 )+

ϑ K (T)= E K (T)= Tmae K 6 log 2( 6 )= 0.98, T K log 2( Tmae K )+Tdue K T K T K log 2( Tdue K T K )=2 6 log 2( 2 6 )+ ϑ K2 (T)= E K2 (T)= Tmae K 2 T K2 log 2( Tmae K 2 )+Tdue K 2 T K2 T K2 log 2( Tdue K 2 T K2 )=2 6 log 2( 2 6 )+ 6 log 2( 6 )= 0.98 K 9 =<?,sportowy>manajwiększąwartośćϑ=0wzbiorze SrazemzK,ale więcejprzykładówpokrywa;s={k 9 },k = K 9, (c)r={<?,sportowy> duże},p={,2,,6,7,9}, (d)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.99, S = S=S S, zewzględunaużycie K 9 wykluczasięwszystkiekompleksyatomowezwartością atrybutusamochód=sportowyczyli K 9,K,K 2,botakichprzykładówzwartością sportowyjużwzbiorzepniema. W następnym kroku chcąc uzyskać najlepszy kompleks wykorzystuje się funckje oceny liczone jeden raz na początku. K =<w,?>manajwiększąwartośćϑ=0;s={k },k = K, (e)r={<?,sportowy> duże,<w,?> duże},p={,2,6,7,9}, (f)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.99, zewzględunaużycie K wykluczasięwszystkiekompleksyatomowezwartością atrybutuwiek=w czyli K,K 5,K 6,botakichprzykładówzwartościąw jużw zbiorzepniema. K 2 =<w 2,?>mawartośćϑ= 0.8,aleprzyjęto,żedlaułatwieniatworzysię reguły pokrywające przykłady tylko z jedną etykietą czyli dla kompleksów o wartości funkcji oceny 0, dlatego pętla wykonuje się dalej. S={<w2,?>}; ZgodniezalgorytmemCN2:S :=S S;S :=S S {<φ>}; Kompleks{< w2, maluch minivan >} ma wartość funkcji oceny równą 0 i pokrywa najwięcejprzykladówzp,gdyżmimo,żeoceniasięwedługzbiorut(zbiórreguł nieuporządkowany), to trzeba tworzyć reguły pokrywające przykłady ze zbioru P i to jak najwięcej. (g)r={<?,sportowy> duże,<w,?> duże,<w2,maluch minivan małe>}, P={,9}, (h)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.99, Pozostały tylko dwa przykłady o różnych etykietach, aby kompleksy mogły uzyskać ocenę równą 0 muszą mieć identyczne wartości atrybutów, stąd powstają dwie nowe reguły. (i) Ostatecznie R={<?,sportowy> duże, <w,?> duże, <w2,maluch minivan małe> <w,minivan małe> <w,maluch duże> } W uzyskanym zbiorze reguł można reguły zamieniać miejscami, gdyż jest to zbiór nieuporządkowany. 5

. Za pomocą algorytmu sekwencyjnego pokrywania CN2 uzyskać uporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Dla ułatwienia założyć, że wszystkie kompleksy są istotne statystycznie oraz że kompleks warunkujący z reguły zdaniowej musi pokrywać przykłady tylko z jedną etykietą- jedną wartością kategorii. x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Zbiór S kompleksów atomowych(czyli tylko z jednym selektorem nieuniwersalnym) (S={K, K 2, K, K, K 5, K 6, K 7, K 8, K 9, K 0, K, K 2 })jestnastępujący: Kolejne kroki algorytmu CN2 S={ K <w,?>, K 2 <w 2,?>, K <w,?>, K <w w 2,?>, K 5 <w 2 w,?>, K 6 <w w,?>, K 7 <?,maluch>, K 8 <?,minivan>, K 9 <?,sportowy>, K 0 <?,maluch minivan>, K <?,minivan sportowy>, K 2 <?,maluch sportowy>} (a)początkowor=φ,p=t={,2,,,5,6,7,8,9}, S (b) Następuje wywołanie znajdź-kompleks(t, P). S={<?>} φ,k =<?> ϑ k (P)= E k (P)= Pmae P 9 log 2( 9 )= 0.99, S = S=S S, K ϑ K (P)= E K (P)= Pmae P K log 2 ( Pmae )+ Pdue P P log 2 ( Pdue )= 5 P 9 log 2( 5 9 )+ log 2 ( Pmae K )+Pdue K P K P K log 2( Pdue K P K )= log 2( )+ 6

2 log 2( 2 )= 0.98, ϑ K2 (P)= E K2 (P)= Pmae K 2 P K2 log 2( )= 0.8, ϑ K (P)= E K (P)= Pmae K P K log 2( )=0, ϑ K (P)= E K (P)= Pmae K P K 7 log 2( 7 )= 0.985, ϑ K5 (P)= E K5 (P)= Pmae K 5 P K5 6 log 2( 6 )=, ϑ K6 (P)= E K6 (P)= Pmae K 6 P K6 5 log 2( 5 )= 0.72, ϑ K7 (P)= E K7 (P)= Pmae K 7 P K7 log 2( )= 0.98, ϑ K8 (P)= E K8 (P)= Pmae K 8 P K8 log 2( )= 0.98, ϑ K9 (P)= E K9 (P)= Pmae K 9 P K9 log 2( )=0, ϑ K0 (P)= E K0 (P)= Pmae K 0 2 6 log 2( 2 6 )= 0.98, ϑ K (P)= E K (P)= Pmae K 6 log 2( 6 )= 0.98, log 2 ( Pmae K 2 )+Pdue K 2 P K2 P K2 log 2( Pdue K 2 P K2 )= log 2( )+ log 2 ( Pmae K )+Pdue K P K P K log 2( Pdue K P K )=0 log 2( 0 )+ log 2 ( Pmae K )+Pdue K P K P K log 2( Pdue K P K )= 7 log 2( 7 )+ log 2 ( Pmae K 5 )+Pdue K 5 P K5 P K5 log 2( Pdue K 5 P K5 )= 6 log 2( 6 )+ log 2 ( Pmae K 6 )+Pdue K 6 P K6 P K6 log 2( Pdue K 6 P K6 )= 5 log 2( 5 )+ log 2 ( Pmae K 7 )+Pdue K 7 P K7 P K7 log 2( Pdue K 7 P K7 )=2 log 2( 2 )+ log 2 ( Pmae K 8 )+Pdue K 8 P K8 P K8 log 2( Pdue K 8 P K8 )=2 log 2( 2 )+ log 2 ( Pmae K 9 )+Pdue K 9 P K9 P K9 log 2( Pdue K 9 P K9 )=0 log 2( 0 )+ P K0 log 2( Pmae K 0 )+Pdue K 0 P K0 P K0 log 2( Pdue K 0 P K0 )= 6 log 2( 6 )+ P K log 2( Pmae K )+Pdue K P K P K log 2( Pdue K P K )=2 6 log 2( 2 6 )+ ϑ K2 (P)= E K2 (P)= Pmae K 2 P K2 log 2( Pmae K 2 )+Pdue K 2 P K2 P K2 log 2( Pdue K 2 P K2 )=2 6 log 2( 2 6 )+ 6 log 2( 6 )= 0.98 K 9 =<?,sportowy>manajwiększąwartośćϑ=0wzbiorze SrazemzK,ale więcejprzykładówpokrywa;s={k 9 },k = K 9, (c)r={<?,sportowy> duże},p={,2,,6,7,9}, (d)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.98, S = S=S S, zewzględunaużycie K 9 wykluczasięwszystkiekompleksyatomowezwartością atrybutusamochód=sportowyczyli K 9,K,K 2,botakichprzykładówzwartością 7

sportowyjużwzbiorzepniema. Dla zbioru uporządkowanego trzeba wartość funkcji oceny kompleksów atomowych obliczać przed każdym wyborem najlepszego kompleksu. ϑ K (P)=,ϑ K2 (P)=0,ϑ K (P)=0,ϑ K (P)= 0,72,ϑ K5 (P)= 0,8, ϑ K6 (P)= 0.98,ϑ K7 (P)= 0.98,ϑ K8 (P)= 0.98,ϑ K0 (P)= 0.98, K 2 =<w 2,?>manajwiększąwartośćϑ=0razemzK,alewięcejprzykładów pokrywa;s={k 2 },k = K 2, (e)r={<?,sportowy> duże,<w2,?> małe},p={,,9}, (f)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.98, zewzględunaużycie K 2 wykluczasięwszystkiekompleksyatomowezwartością atrybutuwiek=w 2 czyli K 2,K,K 5,botakichprzykładówzwartościąw 2 jużw zbiorzepniema. ϑ K (P)=,ϑ K (P)=0,ϑ K6 (P)= 0.98,ϑ K7 (P)=0,ϑ K8 (P)=, ϑ K0 (P)= 0.98, K =<w,?>manajwiększąwartośćϑ=0razemzk 7 itylesamoprzykładówpokrywa,aletrzebawybraćimożnazauważyć,żewzbiorzetpokrywatylko przykładyojednejetykiecie;s={k },k = K, (g)r={<?,sportowy> duże,<w2,?> małe,<w,?> duże},p={,9}, (h)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)=, K 8 =<?,minivan>manajwiększąwartośćϑ=0razemzk 7 itylesamoprzykładów pokrywa, ale trzeba wybrać go wybrać, aby ostatni przykład miał etykietę duże;s={k 8 },k = K 8, (i)r={<?,sportowy> duże,<w2,?> małe,<w,?> duże,<?,minivan> małe},p={}, (j)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)=0, Kompleksk tymrazemmanajwiększąwartośćfunkcjiocenyizostajeczęścią reguły. (k) Ostatecznie R={<?,sportowy> duże, <w2,?> małe, <w,?> duże, <?, minivan > małe, <?> duże} W uzyskanym zbiorze reguł NIE można reguł zamieniać miejscami, gdyż jest to zbiór uporządkowany. Najpierw nowe przykłady klasyfikuje reguła pierwsza, jak ona zawiedzietodrugaitd.. Za pomocą algorytmu sekwencyjnego pokrywania AQ uzyskać nieuporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Ziarna pozytywne należy wybierać po kolei ze zbioru P przykładów nie pokrytych przez znalezione reguły. Ziarna negatywne po kolei zezbiorutzpozycjipodziarnempozytywnym,ajaksięskończytabelatowybierać proszę ziarna negatywne jak najbardziej podobne do ziaren pozytywnych(jak najwięcej takich samych wartości atrybutów). 8

x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Kolejne kroki algorytmu AQ (a)początkowor=0,p=t={,2,,,5,6,7,8,9} (b) Następuje wywołanie znajdź-kompleks(t, P). x s =,c(x s )=duże,x n =2,c(x n )=małe,s={<?>} powstajeczęściowagwiazdas :S=S S ={<w w,?>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriimałe,wybórnastępnegoziarnanegatywnegox n =6 S ={<w w,?>,<?,maluch sportowy>} S=S S ={<w w,?>,<w w,maluch sportowy>} S={k,k 2 },v k =Tk duże +(T małe Tk małe )=+( )=7,v k2 =+=7 Wartości funkcji oceny dla dwóch uzyskanych kompleksów ze zbioru S są takie same,alek 2 pokrywawyłącznieprzykładyojednejetykiecieduże,stądon wchodzi w skład nowej reguły: (c)r={<w w,maluch sportowy> duże} (d)p={2,,,6,7,9},dlap 0znajdź-kompleks(T,P) x s =2,c(x s )=małe,x n =,c(x n )=duże,s={<?>} powstajeczęściowagwiazdas :S=S S ={<?,maluch minivan>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriiduże,wybórnastępnegoziarnanegatywnegox n = S ={<w w 2,?>,<?,maluch sportowy>} S=S S ={<w w 2,maluch minivan>,<?,maluch>} S={k,k 2 },v k =Tk małe +(T duże Tk duże )=+5=9,v k2 =2+(5 )=6 Kompleksk malepsząwartośćfunkcjioceny,stądpozostajewskładziegwiazdy (jejparametrm=). S={<w w 2,maluch minivan>}. gwiazdawdalszymciągupokrywaprzykładyztokategoriiduże(zezbioru T),wybórnastępnegoziarnanegatywnegox n =5 S ={<w 2 w,?>,<?,maluch minivan>} S=S S ={<w 2,maluch minivan>,<w w 2,maluch minivan>} 9

S={k,k 2 },v k =T małe k +(T duże T duże k )=+5=8,v k2 =+(5 2)=7 Kompleksk niedosyć,żemalepsząwartośćfunkcjioceny,tojeszczepokrywa wyłącznieprzykładyojednejetykieciemałe(zezbiorut),stądonwchodziw skład nowej reguły: (e)r={<w w,maluch sportowy> duże,<w 2,maluch minivan> małe} (f)p={,,9},dlap 0znajdź-kompleks(T,P) x s =,c(x s )=duże,s={<?>},x n =6 S=S S ={<?,maluch sportowy>} gwiazdawdalszymciągupokrywaprzykładyztokategoriimałezezbiorut, wybórnastępnegoziarnanegatywnegox n =7 S ={<?,sportowy minivan>} S=S S ={<?,sportowy>}komplekszspokrywawyłącznieprzykładyo jednejetykiecieduże(zezbiorut),stądonwchodziwskładnowejreguły: (g)r={<w w,maluch sportowy> duże,<w 2,maluch minivan> małe,<?, sportowy > duże} (h)p={,9},dlap 0znajdź-kompleks(T,P) x s =,c(x s )=duże,s={<?>},x n =9 S=S S ={<w2 w,?>} gwiazdawdalszymciągupokrywaprzykładyztokategoriimałezezbiorut, wybórnastępnegoziarnanegatywnegox n =6 S ={<w w,?>} S=S S ={<w,?>} Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie duże(ze zbioru T),stądonwchodziwskładnowejreguły: (i)r={<w w,maluch sportowy> duże,<w 2,maluch minivan> małe,<?,sportowy> duże,<w,?> duże} (j)p={9},dlap 0znajdź-kompleks(T,P) x s =9,c(x s )=duże,s={<?>},x n = S=S S ={<w w2,?>} gwiazdawdalszymciągupokrywaprzykładyztokategoriidużezezbiorut, wybórnastępnegoziarnanegatywnegox n = S ={<?,minivan sportowy>} S=S S ={<w w2,minivan sportowy>} gwiazdawdalszymciągupokrywaprzykładyztokategoriidużezezbiorut, wybórnastępnegoziarnanegatywnegox n =5 S ={<?,minivan maluch>} S=S S ={<w w2,minivan>} Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie małe(ze zbioru T),stądonwchodziwskładnowejreguły: (k) Ostatecznie R={<w w,maluch sportowy> duże, <w 2,maluch minivan> małe, <?, sportowy > duże, <w,?> duże, <w w2,minivan> małe} W uzyskanym zbiorze reguł można reguły zamieniać miejscami, gdyż jest to zbiór nieuporządkowany. 0

5. Za pomocą algorytmu sekwencyjnego pokrywania AQ uzyskać uporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Ziarna pozytywne należy wybierać po kolei ze zbioru P przykładów nie pokrytych przez znalezione reguły. Ziarna negatywne po kolei zezbiorupzpozycjipodziarnempozytywnym,ajaksięskończyzbiórptowybierać proszę ziarna negatywne ze zbioru T jak najbardziej podobne do ziaren pozytywnych (jak najwięcej takich samych wartości atrybutów). x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Kolejne kroki algorytmu AQ (a)początkowor=0,p=t={,2,,,5,6,7,8,9} (b) Następuje wywołanie znajdź-kompleks(t, P). x s =,c(x s )=duże,x n =2,c(x n )=małe,s={<?>} powstajeczęściowagwiazdas :S=S S ={<w w,?>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriimałe,wybórnastępnegoziarnanegatywnegox n =6 S ={<w w,?>,<?,maluch sportowy>} S=S S ={<w w,?>,<w w,maluch sportowy>} S={k,k 2 },v k =Tk duże +(T małe Tk małe )=+( )=7,v k2 =+=7 Wartości funkcji oceny dla dwóch uzyskanych kompleksów ze zbioru S są takie same,alek 2 pokrywawyłącznieprzykładyojednejetykiecieduże,stądon wchodzi w skład nowej reguły: (c)r={<w w,maluch sportowy> duże} (d)p={2,,,6,7,9},dlap 0znajdź-kompleks(P,P) x s =2,c(x s )=małe,x n =,c(x n )=duże,s={<?>} powstajeczęściowagwiazdas :S=S S ={<?,maluch minivan>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriiduże,wybórnastępnegoziarnanegatywnegox n = S ={<w w 2,?>,<?,maluch sportowy>} S=S S ={<w w 2,maluch minivan>,<?,maluch>}

S={k,k 2 },v k =P małe k +(P duże P duże k )=+2=6,v k2 =2+2= Kompleksk niedosyć,żemalepsząwartośćfunkcjioceny,tojeszczepokrywa wyłącznieprzykładyojednejetykieciemałe(zezbiorup),stądonwchodziw skład nowej reguły: (e)r={<w w,maluch sportowy> duże,<w w 2,maluch minivan> małe} (f)p={,},dlap 0znajdź-kompleks(P,P) x s =,c(x s )=duże,s={<?>}gwiazdaspokrywaprzykładyojednej etykieciedużyikompleks<?>wchodziwskładnowejreguły: R={<w w,maluch sportowy> duże,<w w 2,maluch minivan> małe,<?> duże} ewentualnie,gdyx n =9,to S=S S ={<w 2 w,?>,<?,maluch sportowy>} Kompleksk pokrywawszystkieprzykładyzezbiorupiwchodziwskładnowej reguły: (g) Ostatecznie R={<w w,maluch sportowy> duże, <w w 2,maluch minivan> małe, <w 2 w,?> duże} W uzyskanym zbiorze reguł NIE można reguł zamieniać miejscami, gdyż jest to zbiór uporządkowany. Najpierw nowe przykłady klasyfikuje reguła pierwsza, jak ona zawiedzie to druga itd. 2