Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2 dr Piotr Wąsiewicz. Ze zbioru treningowego podanego w tabeli poniżej wykreować metodą zstępującej konstrukcji drzewo decyzyjne(jak najmniej rozbudowane- minimalizacja entropii). Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0,w 2 :wiek 0 wiek<65,w :wiek 65. Najpierw obliczana jest informacja zawarta w zbiorze i entropie rozkładu wartości kategorii tzw. etykiet między wybrane przez wartości atrybutów podzbiory zbioru trenującego. I(P)= Pmae log P 2 ( Pmae ) Pdue log P P 2 ( Pdue )= P 9 log 2( 9 ) 5 9 log 2( 5 9 )=0.99, E wiek,w (P)= Pmae wiek,w P wiek,w log 2( Pmae wiek,w ) Pdue wiek,w P wiek,w P wiek,w log 2( Pdue wiek,w P wiek,w )= log 2( ) 2 log 2( 2 )= 0.98, E wiek,w2 (P)= Pmae wiek,w 2 P wiek,w2 log 2( Pmae wiek,w 2 ) Pdue wiek,w 2 P wiek,w2 P wiek,w2 log 2( Pdue wiek,w 2 P wiek,w2 )= log 2( ) log 2( )= 0.8, E wiek,w (P)= Pmae wiek,w P wiek,w log 2( Pmae wiek,w ) Pdue wiek,w P wiek,w P wiek,w log 2( Pdue wiek,w P wiek,w )= 0 2 log 2( 0 2 ) 2 2 log 2( 2 2 )= 0, E samochód,maluch (P)= Pmae samochód,maluch P samochód,maluch log 2( Pmae samochód,maluch P samochód,maluch )- P due samochód,maluch samochód,maluch P samochód,maluch log 2( Pdue P samochód,maluch )= 2 log 2( 2 ) log 2( )=0.98, samochód,minivan samochód,minivan E samochód,minivan (P)= Pmae P samochód,minivan log 2( Pmae P samochód,minivan ) P due samochód,minivan samochód,minivan P samochód,minivan log 2( Pdue P samochód,minivan )= 2 log 2( 2 ) log 2( )=0.98, samochód,sportowy samochód,sportowy E samochód,sportowy (P)= Pmae P samochód,sportowy log 2( Pmae P samochód,sportowy ) Psamochód,sportowy due P samochód,sportowy log 2( Pdue samochód,sportowy P samochód,sportowy )= 0 log 2( 0 ) log 2( )=0,
Następnie obliczane są średnie ważone entropie: E wiek (P)= P wiek,w P 9 (0.8)+2 9 0=0,666, E wiek,w (P)+ P wiek,w 2 P E wiek,w2 (P)+ P wiek,w E wiek,w (P)= P 9 (0.98)+ E samochod (P)= P samochod,maluch E samochod,maluch (P)+ P samochod,minivan E samochod,minivan (P)+ P P P samochod,sportowy E samochod,sportowy (P)= P 9 (0.98)+ 9 (0.98)+ 9 0=0,62, I wartości infomacyjne dla poszczególnych atrybutów: IV wiek (P)= P wiek,w P log 2 ( P wiek,w ) P wiek,w 2 P P log 2 ( P wiek,w 2 ) P wiek,w P P 9 log 2( 9 ) 9 log 2( 9 ) 2 9 log 2( 2 9 )=0,528+0,59+0,82=,5, IV samochód (P)= P samochód,maluch P P samochód,minivan P log 2 ( P samochód,maluch ) P log 2 ( P samochód,minivan ) P samochód,sportowy P P 9 log 2( 9 ) 9 log 2( 9 ) 9 log 2( 9 )=0,528+0,528+0,528=,58, Na końcu współczynniki przyrostu informacji wynoszą odpowiednio: ϑ wiek (P)= I(P) E wiek(p) IV wiek (P) ϑ samochód (P)= I(P) E samochód(p) IV samochód (P) = 0,99 0,666,5 =0,22 = 0,99 0,62,58 =0,29 log 2 ( P wiek,w )= P log 2 ( P samochód,sportowy )= P sportowy samochod duze wiek maluch minivan wiek w w duze w 2 w male duze w w 2 male Jak widać atrybut samochód ma większy współczynnik i wygrywa staje się pierwszym węzłem drzewa decyzyjnego, a jego trzy łuki biegnące do następników mają za nazwy jego wartości. Dla wartości sportowy każdy przykład zawierający ją ma etykietę duże atrybutu ryzyko, stądjejłukkończysięliściemowartościduże. 2
Dla wartości maluch jej łuk kończy się z braku jasnego wyboru etykiety tylko na podstawie wartości atrybutu samochód węzłem atrybutu wiek- ostatnim z dostępnych testów na drodze do określenia etykiety przykładu złożonego z testowanych dwóch atrybutów wiek i samochód. Poniżej zamieszczony został opis następników nowego węzła. Przykładyzwartościąw atrybutuwiekiwartościąmaluchmajązawszeetykietęduże stądłukbiegnącyodwęzławiekonazwiew kończysięliściemduże,adlainnychwartości atrybutu wiek przy wartości maluch atrybutu samochód przykłady mają etykiety małe stąd odpowiednie liście. Wracając do trzeciego łuku o nazwie minivan biegnącego od korzenia można zauważyć, żeteżzbrakutakichsamychetykietdlaprzykładówzwartościąminivanizdowolną wartościąatrybutuwiekłuktenkończysięwęzłemonazwiewiekidalejzależnościi liście są takie same jak dla węzła kończącego łuk maluch. 2. Za pomocą algorytmu sekwencyjnego pokrywania CN2 uzyskać nieuporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Dla ułatwienia założyć, że wszystkie kompleksy są istotne statystycznie oraz że kompleks warunkujący z reguły zdaniowej musi pokrywać przykłady tylko z jedną etykietą- jedną wartością kategorii. x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Zbiór S kompleksów atomowych(czyli tylko z jednym selektorem nieuniwersalnym) (S={K, K 2, K, K, K 5, K 6, K 7, K 8, K 9, K 0, K, K 2 })jestnastępujący: S={ K <w,?>, K 2 <w 2,?>, K <w,?>, K <w w 2,?>, K 5 <w 2 w,?>, K 6 <w w,?>, K 7 <?,maluch>, K 8 <?,minivan>, K 9 <?,sportowy>, K 0 <?,maluch minivan>, K <?,minivan sportowy>, K 2 <?,maluch sportowy>}
Kolejne kroki algorytmu CN2 (a)początkowor=φ,p=t={,2,,,5,6,7,8,9}, S (b) Następuje wywołanie znajdź-kompleks(t, P). S={<?>} φ,k =<?> ϑ k (P)= E k (P)= Pmae P log 2 ( Pmae )+ Pdue P P log 2 ( Pdue )= 5 P 9 log 2( 5 9 )+ 9 log 2( 9 )= 0.99, S = S=S S, Ze względu na to, że dąży się do uzyskania nieuporządkowanego zbioru reguł funkcje ocenykompleksówatomowychsąliczonetylkorazwzbiorzetipotemcałyczas wykorzystywane. ϑ K (T)= E K (T)= Tmae K log T K 2 ( Tmae K )+Tdue K T K T K log 2( Tdue K T K )= log 2( )+ 2 log 2( 2 )= 0.98, ϑ K2 (T)= E K2 (T)= Tmae K 2 T K2 log 2( )= 0.8, ϑ K (T)= E K (T)= Tmae K T K log 2( )=0, ϑ K (T)= E K (T)= Tmae K T K 7 log 2( 7 )= 0.985, ϑ K5 (T)= E K5 (T)= Tmae K 5 T K5 6 log 2( 6 )=, ϑ K6 (T)= E K6 (T)= Tmae K 6 T K6 5 log 2( 5 )= 0.72, ϑ K7 (T)= E K7 (T)= Tmae K 7 T K7 log 2( )= 0.98, ϑ K8 (T)= E K8 (T)= Tmae K 8 T K8 log 2( )= 0.98, ϑ K9 (T)= E K9 (T)= Tmae K 9 T K9 log 2( )=0, ϑ K0 (T)= E K0 (T)= Tmae K 0 2 6 log 2( 2 6 )= 0.98, log 2 ( Tmae K 2 )+Tdue K 2 T K2 T K2 log 2( Tdue K 2 T K2 )= log 2( )+ log 2 ( Tmae K )+Tdue K T K T K log 2( Tdue K T K )=0 log 2( 0 )+ log 2 ( Tmae K )+Tdue K T K T K log 2( Tdue K T K )= 7 log 2( 7 )+ log 2 ( Tmae K 5 )+Tdue K 5 T K5 T K5 log 2( Tdue K 5 T K5 )= 6 log 2( 6 )+ log 2 ( Tmae K 6 )+Tdue K 6 T K6 T K6 log 2( Tdue K 6 T K6 )= 5 log 2( 5 )+ log 2 ( Tmae K 7 )+Tdue K 7 T K7 T K7 log 2( Tdue K 7 T K7 )=2 log 2( 2 )+ log 2 ( Tmae K 8 )+Tdue K 8 T K8 T K8 log 2( Tdue K 8 T K8 )=2 log 2( 2 )+ log 2 ( Tmae K 9 )+Tdue K 9 T K9 T K9 log 2( Tdue K 9 T K9 )=0 log 2( 0 )+ T K0 log 2( Tmae K 0 )+Tdue K 0 T K0 T K0 log 2( Tdue K 0 T K0 )= 6 log 2( 6 )+
ϑ K (T)= E K (T)= Tmae K 6 log 2( 6 )= 0.98, T K log 2( Tmae K )+Tdue K T K T K log 2( Tdue K T K )=2 6 log 2( 2 6 )+ ϑ K2 (T)= E K2 (T)= Tmae K 2 T K2 log 2( Tmae K 2 )+Tdue K 2 T K2 T K2 log 2( Tdue K 2 T K2 )=2 6 log 2( 2 6 )+ 6 log 2( 6 )= 0.98 K 9 =<?,sportowy>manajwiększąwartośćϑ=0wzbiorze SrazemzK,ale więcejprzykładówpokrywa;s={k 9 },k = K 9, (c)r={<?,sportowy> duże},p={,2,,6,7,9}, (d)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.99, S = S=S S, zewzględunaużycie K 9 wykluczasięwszystkiekompleksyatomowezwartością atrybutusamochód=sportowyczyli K 9,K,K 2,botakichprzykładówzwartością sportowyjużwzbiorzepniema. W następnym kroku chcąc uzyskać najlepszy kompleks wykorzystuje się funckje oceny liczone jeden raz na początku. K =<w,?>manajwiększąwartośćϑ=0;s={k },k = K, (e)r={<?,sportowy> duże,<w,?> duże},p={,2,6,7,9}, (f)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.99, zewzględunaużycie K wykluczasięwszystkiekompleksyatomowezwartością atrybutuwiek=w czyli K,K 5,K 6,botakichprzykładówzwartościąw jużw zbiorzepniema. K 2 =<w 2,?>mawartośćϑ= 0.8,aleprzyjęto,żedlaułatwieniatworzysię reguły pokrywające przykłady tylko z jedną etykietą czyli dla kompleksów o wartości funkcji oceny 0, dlatego pętla wykonuje się dalej. S={<w2,?>}; ZgodniezalgorytmemCN2:S :=S S;S :=S S {<φ>}; Kompleks{< w2, maluch minivan >} ma wartość funkcji oceny równą 0 i pokrywa najwięcejprzykladówzp,gdyżmimo,żeoceniasięwedługzbiorut(zbiórreguł nieuporządkowany), to trzeba tworzyć reguły pokrywające przykłady ze zbioru P i to jak najwięcej. (g)r={<?,sportowy> duże,<w,?> duże,<w2,maluch minivan małe>}, P={,9}, (h)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.99, Pozostały tylko dwa przykłady o różnych etykietach, aby kompleksy mogły uzyskać ocenę równą 0 muszą mieć identyczne wartości atrybutów, stąd powstają dwie nowe reguły. (i) Ostatecznie R={<?,sportowy> duże, <w,?> duże, <w2,maluch minivan małe> <w,minivan małe> <w,maluch duże> } W uzyskanym zbiorze reguł można reguły zamieniać miejscami, gdyż jest to zbiór nieuporządkowany. 5
. Za pomocą algorytmu sekwencyjnego pokrywania CN2 uzyskać uporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Dla ułatwienia założyć, że wszystkie kompleksy są istotne statystycznie oraz że kompleks warunkujący z reguły zdaniowej musi pokrywać przykłady tylko z jedną etykietą- jedną wartością kategorii. x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Zbiór S kompleksów atomowych(czyli tylko z jednym selektorem nieuniwersalnym) (S={K, K 2, K, K, K 5, K 6, K 7, K 8, K 9, K 0, K, K 2 })jestnastępujący: Kolejne kroki algorytmu CN2 S={ K <w,?>, K 2 <w 2,?>, K <w,?>, K <w w 2,?>, K 5 <w 2 w,?>, K 6 <w w,?>, K 7 <?,maluch>, K 8 <?,minivan>, K 9 <?,sportowy>, K 0 <?,maluch minivan>, K <?,minivan sportowy>, K 2 <?,maluch sportowy>} (a)początkowor=φ,p=t={,2,,,5,6,7,8,9}, S (b) Następuje wywołanie znajdź-kompleks(t, P). S={<?>} φ,k =<?> ϑ k (P)= E k (P)= Pmae P 9 log 2( 9 )= 0.99, S = S=S S, K ϑ K (P)= E K (P)= Pmae P K log 2 ( Pmae )+ Pdue P P log 2 ( Pdue )= 5 P 9 log 2( 5 9 )+ log 2 ( Pmae K )+Pdue K P K P K log 2( Pdue K P K )= log 2( )+ 6
2 log 2( 2 )= 0.98, ϑ K2 (P)= E K2 (P)= Pmae K 2 P K2 log 2( )= 0.8, ϑ K (P)= E K (P)= Pmae K P K log 2( )=0, ϑ K (P)= E K (P)= Pmae K P K 7 log 2( 7 )= 0.985, ϑ K5 (P)= E K5 (P)= Pmae K 5 P K5 6 log 2( 6 )=, ϑ K6 (P)= E K6 (P)= Pmae K 6 P K6 5 log 2( 5 )= 0.72, ϑ K7 (P)= E K7 (P)= Pmae K 7 P K7 log 2( )= 0.98, ϑ K8 (P)= E K8 (P)= Pmae K 8 P K8 log 2( )= 0.98, ϑ K9 (P)= E K9 (P)= Pmae K 9 P K9 log 2( )=0, ϑ K0 (P)= E K0 (P)= Pmae K 0 2 6 log 2( 2 6 )= 0.98, ϑ K (P)= E K (P)= Pmae K 6 log 2( 6 )= 0.98, log 2 ( Pmae K 2 )+Pdue K 2 P K2 P K2 log 2( Pdue K 2 P K2 )= log 2( )+ log 2 ( Pmae K )+Pdue K P K P K log 2( Pdue K P K )=0 log 2( 0 )+ log 2 ( Pmae K )+Pdue K P K P K log 2( Pdue K P K )= 7 log 2( 7 )+ log 2 ( Pmae K 5 )+Pdue K 5 P K5 P K5 log 2( Pdue K 5 P K5 )= 6 log 2( 6 )+ log 2 ( Pmae K 6 )+Pdue K 6 P K6 P K6 log 2( Pdue K 6 P K6 )= 5 log 2( 5 )+ log 2 ( Pmae K 7 )+Pdue K 7 P K7 P K7 log 2( Pdue K 7 P K7 )=2 log 2( 2 )+ log 2 ( Pmae K 8 )+Pdue K 8 P K8 P K8 log 2( Pdue K 8 P K8 )=2 log 2( 2 )+ log 2 ( Pmae K 9 )+Pdue K 9 P K9 P K9 log 2( Pdue K 9 P K9 )=0 log 2( 0 )+ P K0 log 2( Pmae K 0 )+Pdue K 0 P K0 P K0 log 2( Pdue K 0 P K0 )= 6 log 2( 6 )+ P K log 2( Pmae K )+Pdue K P K P K log 2( Pdue K P K )=2 6 log 2( 2 6 )+ ϑ K2 (P)= E K2 (P)= Pmae K 2 P K2 log 2( Pmae K 2 )+Pdue K 2 P K2 P K2 log 2( Pdue K 2 P K2 )=2 6 log 2( 2 6 )+ 6 log 2( 6 )= 0.98 K 9 =<?,sportowy>manajwiększąwartośćϑ=0wzbiorze SrazemzK,ale więcejprzykładówpokrywa;s={k 9 },k = K 9, (c)r={<?,sportowy> duże},p={,2,,6,7,9}, (d)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.98, S = S=S S, zewzględunaużycie K 9 wykluczasięwszystkiekompleksyatomowezwartością atrybutusamochód=sportowyczyli K 9,K,K 2,botakichprzykładówzwartością 7
sportowyjużwzbiorzepniema. Dla zbioru uporządkowanego trzeba wartość funkcji oceny kompleksów atomowych obliczać przed każdym wyborem najlepszego kompleksu. ϑ K (P)=,ϑ K2 (P)=0,ϑ K (P)=0,ϑ K (P)= 0,72,ϑ K5 (P)= 0,8, ϑ K6 (P)= 0.98,ϑ K7 (P)= 0.98,ϑ K8 (P)= 0.98,ϑ K0 (P)= 0.98, K 2 =<w 2,?>manajwiększąwartośćϑ=0razemzK,alewięcejprzykładów pokrywa;s={k 2 },k = K 2, (e)r={<?,sportowy> duże,<w2,?> małe},p={,,9}, (f)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)= 0.98, zewzględunaużycie K 2 wykluczasięwszystkiekompleksyatomowezwartością atrybutuwiek=w 2 czyli K 2,K,K 5,botakichprzykładówzwartościąw 2 jużw zbiorzepniema. ϑ K (P)=,ϑ K (P)=0,ϑ K6 (P)= 0.98,ϑ K7 (P)=0,ϑ K8 (P)=, ϑ K0 (P)= 0.98, K =<w,?>manajwiększąwartośćϑ=0razemzk 7 itylesamoprzykładówpokrywa,aletrzebawybraćimożnazauważyć,żewzbiorzetpokrywatylko przykładyojednejetykiecie;s={k },k = K, (g)r={<?,sportowy> duże,<w2,?> małe,<w,?> duże},p={,9}, (h)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)=, K 8 =<?,minivan>manajwiększąwartośćϑ=0razemzk 7 itylesamoprzykładów pokrywa, ale trzeba wybrać go wybrać, aby ostatni przykład miał etykietę duże;s={k 8 },k = K 8, (i)r={<?,sportowy> duże,<w2,?> małe,<w,?> duże,<?,minivan> małe},p={}, (j)p φ znajdź-kompleks(t,p), S={<?>} φ,k =<?>iϑ k (P)=0, Kompleksk tymrazemmanajwiększąwartośćfunkcjiocenyizostajeczęścią reguły. (k) Ostatecznie R={<?,sportowy> duże, <w2,?> małe, <w,?> duże, <?, minivan > małe, <?> duże} W uzyskanym zbiorze reguł NIE można reguł zamieniać miejscami, gdyż jest to zbiór uporządkowany. Najpierw nowe przykłady klasyfikuje reguła pierwsza, jak ona zawiedzietodrugaitd.. Za pomocą algorytmu sekwencyjnego pokrywania AQ uzyskać nieuporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Ziarna pozytywne należy wybierać po kolei ze zbioru P przykładów nie pokrytych przez znalezione reguły. Ziarna negatywne po kolei zezbiorutzpozycjipodziarnempozytywnym,ajaksięskończytabelatowybierać proszę ziarna negatywne jak najbardziej podobne do ziaren pozytywnych(jak najwięcej takich samych wartości atrybutów). 8
x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Kolejne kroki algorytmu AQ (a)początkowor=0,p=t={,2,,,5,6,7,8,9} (b) Następuje wywołanie znajdź-kompleks(t, P). x s =,c(x s )=duże,x n =2,c(x n )=małe,s={<?>} powstajeczęściowagwiazdas :S=S S ={<w w,?>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriimałe,wybórnastępnegoziarnanegatywnegox n =6 S ={<w w,?>,<?,maluch sportowy>} S=S S ={<w w,?>,<w w,maluch sportowy>} S={k,k 2 },v k =Tk duże +(T małe Tk małe )=+( )=7,v k2 =+=7 Wartości funkcji oceny dla dwóch uzyskanych kompleksów ze zbioru S są takie same,alek 2 pokrywawyłącznieprzykładyojednejetykiecieduże,stądon wchodzi w skład nowej reguły: (c)r={<w w,maluch sportowy> duże} (d)p={2,,,6,7,9},dlap 0znajdź-kompleks(T,P) x s =2,c(x s )=małe,x n =,c(x n )=duże,s={<?>} powstajeczęściowagwiazdas :S=S S ={<?,maluch minivan>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriiduże,wybórnastępnegoziarnanegatywnegox n = S ={<w w 2,?>,<?,maluch sportowy>} S=S S ={<w w 2,maluch minivan>,<?,maluch>} S={k,k 2 },v k =Tk małe +(T duże Tk duże )=+5=9,v k2 =2+(5 )=6 Kompleksk malepsząwartośćfunkcjioceny,stądpozostajewskładziegwiazdy (jejparametrm=). S={<w w 2,maluch minivan>}. gwiazdawdalszymciągupokrywaprzykładyztokategoriiduże(zezbioru T),wybórnastępnegoziarnanegatywnegox n =5 S ={<w 2 w,?>,<?,maluch minivan>} S=S S ={<w 2,maluch minivan>,<w w 2,maluch minivan>} 9
S={k,k 2 },v k =T małe k +(T duże T duże k )=+5=8,v k2 =+(5 2)=7 Kompleksk niedosyć,żemalepsząwartośćfunkcjioceny,tojeszczepokrywa wyłącznieprzykładyojednejetykieciemałe(zezbiorut),stądonwchodziw skład nowej reguły: (e)r={<w w,maluch sportowy> duże,<w 2,maluch minivan> małe} (f)p={,,9},dlap 0znajdź-kompleks(T,P) x s =,c(x s )=duże,s={<?>},x n =6 S=S S ={<?,maluch sportowy>} gwiazdawdalszymciągupokrywaprzykładyztokategoriimałezezbiorut, wybórnastępnegoziarnanegatywnegox n =7 S ={<?,sportowy minivan>} S=S S ={<?,sportowy>}komplekszspokrywawyłącznieprzykładyo jednejetykiecieduże(zezbiorut),stądonwchodziwskładnowejreguły: (g)r={<w w,maluch sportowy> duże,<w 2,maluch minivan> małe,<?, sportowy > duże} (h)p={,9},dlap 0znajdź-kompleks(T,P) x s =,c(x s )=duże,s={<?>},x n =9 S=S S ={<w2 w,?>} gwiazdawdalszymciągupokrywaprzykładyztokategoriimałezezbiorut, wybórnastępnegoziarnanegatywnegox n =6 S ={<w w,?>} S=S S ={<w,?>} Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie duże(ze zbioru T),stądonwchodziwskładnowejreguły: (i)r={<w w,maluch sportowy> duże,<w 2,maluch minivan> małe,<?,sportowy> duże,<w,?> duże} (j)p={9},dlap 0znajdź-kompleks(T,P) x s =9,c(x s )=duże,s={<?>},x n = S=S S ={<w w2,?>} gwiazdawdalszymciągupokrywaprzykładyztokategoriidużezezbiorut, wybórnastępnegoziarnanegatywnegox n = S ={<?,minivan sportowy>} S=S S ={<w w2,minivan sportowy>} gwiazdawdalszymciągupokrywaprzykładyztokategoriidużezezbiorut, wybórnastępnegoziarnanegatywnegox n =5 S ={<?,minivan maluch>} S=S S ={<w w2,minivan>} Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie małe(ze zbioru T),stądonwchodziwskładnowejreguły: (k) Ostatecznie R={<w w,maluch sportowy> duże, <w 2,maluch minivan> małe, <?, sportowy > duże, <w,?> duże, <w w2,minivan> małe} W uzyskanym zbiorze reguł można reguły zamieniać miejscami, gdyż jest to zbiór nieuporządkowany. 0
5. Za pomocą algorytmu sekwencyjnego pokrywania AQ uzyskać uporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 0 i 65 lat. Atrybut ryzyko będzie kategorią. Ziarna pozytywne należy wybierać po kolei ze zbioru P przykładów nie pokrytych przez znalezione reguły. Ziarna negatywne po kolei zezbiorupzpozycjipodziarnempozytywnym,ajaksięskończyzbiórptowybierać proszę ziarna negatywne ze zbioru T jak najbardziej podobne do ziaren pozytywnych (jak najwięcej takich samych wartości atrybutów). x wiek samochód ryzyko 8 maluch duże 2 5 maluch małe 50 sportowy duże 66 minivan duże 5 8 sportowy duże 6 5 minivan małe 7 60 maluch małe 8 70 sportowy duże 9 25 minivan małe Rozwiązanie: Atrybut wiek otrzymuje po dyskretyzacji trzy wartości: w :wiek<0, w 2 :wiek 0 wiek<65, w :wiek 65. Kolejne kroki algorytmu AQ (a)początkowor=0,p=t={,2,,,5,6,7,8,9} (b) Następuje wywołanie znajdź-kompleks(t, P). x s =,c(x s )=duże,x n =2,c(x n )=małe,s={<?>} powstajeczęściowagwiazdas :S=S S ={<w w,?>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriimałe,wybórnastępnegoziarnanegatywnegox n =6 S ={<w w,?>,<?,maluch sportowy>} S=S S ={<w w,?>,<w w,maluch sportowy>} S={k,k 2 },v k =Tk duże +(T małe Tk małe )=+( )=7,v k2 =+=7 Wartości funkcji oceny dla dwóch uzyskanych kompleksów ze zbioru S są takie same,alek 2 pokrywawyłącznieprzykładyojednejetykiecieduże,stądon wchodzi w skład nowej reguły: (c)r={<w w,maluch sportowy> duże} (d)p={2,,,6,7,9},dlap 0znajdź-kompleks(P,P) x s =2,c(x s )=małe,x n =,c(x n )=duże,s={<?>} powstajeczęściowagwiazdas :S=S S ={<?,maluch minivan>}; gwiazdawdalszymciągupokrywaprzykładyztokategoriiduże,wybórnastępnegoziarnanegatywnegox n = S ={<w w 2,?>,<?,maluch sportowy>} S=S S ={<w w 2,maluch minivan>,<?,maluch>}
S={k,k 2 },v k =P małe k +(P duże P duże k )=+2=6,v k2 =2+2= Kompleksk niedosyć,żemalepsząwartośćfunkcjioceny,tojeszczepokrywa wyłącznieprzykładyojednejetykieciemałe(zezbiorup),stądonwchodziw skład nowej reguły: (e)r={<w w,maluch sportowy> duże,<w w 2,maluch minivan> małe} (f)p={,},dlap 0znajdź-kompleks(P,P) x s =,c(x s )=duże,s={<?>}gwiazdaspokrywaprzykładyojednej etykieciedużyikompleks<?>wchodziwskładnowejreguły: R={<w w,maluch sportowy> duże,<w w 2,maluch minivan> małe,<?> duże} ewentualnie,gdyx n =9,to S=S S ={<w 2 w,?>,<?,maluch sportowy>} Kompleksk pokrywawszystkieprzykładyzezbiorupiwchodziwskładnowej reguły: (g) Ostatecznie R={<w w,maluch sportowy> duże, <w w 2,maluch minivan> małe, <w 2 w,?> duże} W uzyskanym zbiorze reguł NIE można reguł zamieniać miejscami, gdyż jest to zbiór uporządkowany. Najpierw nowe przykłady klasyfikuje reguła pierwsza, jak ona zawiedzie to druga itd. 2