Ćwiczenie 6. Hurtownie danych

Podobne dokumenty
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Co to są drzewa decyzji

Indukowane Reguły Decyzyjne I. Wykład 3

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Drzewa podstawowe poj

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

INDUKCJA DRZEW DECYZYJNYCH

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Drzewa AVL definicje

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody klasyfikacji danych - część 1 p.1/24

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Algorytmy klasyfikacji

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

INDUKCJA DRZEW DECYZYJNYCH

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Sztuczna Inteligencja Projekt

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Uruchamianie SNNS. Po uruchomieniu. xgui & lub snns & pojawia si e okno. programu. Symulator sztucznych sieci neuronowych SNNS 1

Wyk lad 8: Leniwe metody klasyfikacji

Wprowadzenie do klasyfikacji

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Normy wektorów i macierzy

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

us lugi katalogowe? Czym różni si e serwer katalogowy od serwera bazy danych:

Drzewa decyzyjne, metody budowania, zastosowania

Statystyka w analizie i planowaniu eksperymentu

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Metody indukcji reguł

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Przykładowe B+ drzewo

Statystyka w analizie i planowaniu eksperymentu

Funkcje. Piotr Zierhoffer. 7 października Institute of Computer Science Poznań University of Technology

Drzewa klasyfikacyjne algorytm podstawowy

Pochodne cz ¾astkowe i ich zastosowanie.

Klasyfikacja i regresja Wstęp do środowiska Weka

Jeden przyk lad... czyli dlaczego warto wybrać MIESI.

Wprowadzenie do uczenia maszynowego

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Klasyfikacja metodą Bayesa

Poprawność semantyczna

Indukcja drzew decyzyjnych

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

P. Urzyczyn: Materia ly do wyk ladu z semantyki. Uproszczony 1 j. ezyk PCF

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

3.2 Wykorzystanie drzew do generowania pytań

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Paradygmaty programowania. Paradygmaty programowania

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Wysokość drzewa Głębokość węzła

Reguły asocjacyjne, wykł. 11

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Wstęp do programowania. Drzewa podstawowe techniki. Piotr Chrząstowski-Wachtel

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

Baza danych dla potrzeb zgłębiania DMX

KOLOKWIUM PODSTAWY PROGRAMOWANIA

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

SID Wykład 10 Systemy uczace się

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

Wybrane zagadnienia uczenia maszynowego

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

ED Laboratorium 3. Drzewa decyzyjne

Informatyka I. Wyk lad I. Wprowadzenie. Robert Muszyński Instytut Cybernetyki Technicznej Politechnika Wroc lawska

Automatyczne wyodrębnianie reguł

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Sztuczna Inteligencja Projekt

Wyk lad 3 Wyznaczniki

Drzewa czerwono-czarne.

Porządek symetryczny: right(x)

Wstęp do programowania. Drzewa. Piotr Chrząstowski-Wachtel

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Wykład X. Programowanie. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2016 Janusz Słupik

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

3. MINIMAX. Rysunek 1: Drzewo obrazujące przebieg gry.

MEODY GRUPOWANIA DANYCH

Statystyka w analizie i planowaniu eksperymentu

ALGORYTM RANDOM FOREST

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytm grupowania danych typu kwantyzacji wektorów

Indukowane Reguły Decyzyjne I. Wykład 8

Tematy projektów z Metod Sztucznej Inteligencji

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Algorytmy i Struktury Danych

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 5 Kalkulacja sk ladki netto I

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Kompresja bezstratna. Entropia. Kod Huffmana

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

Dyskretne modele populacji

Temat: Algorytm kompresji plików metodą Huffmana

Architektura systemów komputerowych

Transkrypt:

Ćwiczenie 6. Hurtownie danych Drzewa decyzyjne 1. Reprezentacja drzewa decyzyjnego Metody uczenia si e drzew decyzyjnych to najcz eściej stosowane algorytmy indukcji symbolicznej reprezentacji wiedzy z przyk ladów. Poniżej zostana przedstawione najpopularniejsze algorytmy indukcji drzew, takie jak ID3 oraz C4.5. Drzewo decyzyjne sk lada si e z korzenia, z którego co najmniej dwie ga l ezie (kraw edzie) odchodza do w ez lów leżacych na niższym poziomie. Z każdym w ez lem jest zwiazany test, który sprawdza wartości atrybutu opisujacego przyk lady. Dla każdego z możliwych wyników testu odpowiadajaca mu ga l aź prowadzi do w ez la leżacego na niższym poziomie drzewa. W ez ly, z których nie wychodza żadne ga l ezie, to liście. Przypisuje si e klasy decyzyjne. Tworzenie drzew decyzyjnych ilustruje nast epuj acy przyk lad. Niech b edzie dana pewna grupa klientów sklepu elektronicznego, z których cz eść decyduje si e na zakup komputera typu notebook, podczas gdy pozostali nie sa gotowi do takiego zakupu. Sa oni scharakteryzowani przez 3 atrybuty wyrażajace ocen e poziomu ich dochodów, stwierdzenie faktu, czy sa studentami, oraz ich p leć. Na podstawie wartości tych atrybutów należy przewidzieć wartość atrybutu decyzyjnego kupuje komputer. Tabela 1. Zbór przyk ladów uczacych opisujacy grup e osób, którzy sa klientami sklepu elektronicznego Lp. Dochody Student P leć kupuje komputer 1 średnie tak m eżczyzna tak 2 średnie nie kobieta nie 3 wysokie tak kobieta tak 4 niskie tak m eżczyzna nie 5 niskie tak kobieta nie 6 średnie tak kobieta tak 7 niskie nie kobieta nie 8 średnie nie m eżczyzna nie

Za pomoca algorytmu ID3 ze zbioru przyk ladów uczacych reprezentowanych w tabeli powyżej uzyskano drzewo decyzyjne, które przedstawiono na rysunku poniżej. Dochody niskie średnie wysokie Nie Tak Student tak Tak nie Dzi eki utworzonemu drzewu decyzyjnemu można klasyfikować klientów kupujacych komputery (np. typu notebook) w zależności od ich poziomu dochodów i statusu studenckiego. Na przyk lad osoba b ed aca kobieta o dochodach średnich i nie studiujaca nie kupuje komputera. Można dojść do tego analizujac ga l ezie drzewa do liścia (kupuje komputer = nie). Można zauważyć, że p leć osoby nie odgrywa tu żadnej roli. Można zauważyć, że ścieżki prowadzace od korzenia do liścia drzewa reprezentuja koniunkcje pewnych wyrażeń (testów) zdefiniowanych na wartościach atrybutów opisujacych przyk lady. Jeśli do tej samej klasy prowadzi kilka ścieżek, to tworza one sk ladniki pewnej alternatywy. Stad też mówi si e, że drzewa decyzyjne pozwalaja na nauczenie si e poj eć, które można zdefiniować w postaci dysjunkcji takich koniunkcji. Na przyk lad z powyżej przedstawionego drzewa można zdefiniować poj ecie klienta pragnacego kupić komputer za pomoca nast epuj acego wyrażenia dysjunkcyjnego: Nie (dochody = srednie) (student = tak) (dochody = wysokie) Drzewo decyzyjne można też przedstawić jako zbiór regu l określajacego przydzia l obiektów do klas. Każda ścieżka drzewa od korzenia do liścia odpowiada regule. Dla drzewa przedstawionego na powyższym rysunku uzyskuje si e 4 regu ly: 1) if (dochody = niskie) then (kupuje komputer = nie) 2) if (dochody = średnie) (student = nie) then (kupuje komputer = nie) 3) if (dochody = wysokie) then (kupuje komputer = tak) 4) if (dochody = średnie) (student = tak) then (kupuje komputer = tak)

Powinno si e sprawdzić, czy wszystkie regu ly posiadaja nienadmiarowe koniunkcje warunków elementarnych. Można to wykonać za pomoca operacji chwilowego pomini ecia warunku w koniunkcji danej regu ly (ang. dropping conditions) i porównania tak zmodyfikowanej regu ly ze zbiorem przyk ladów uczacych. Jeśli regu la nadal jednoznacznie klasyfikuje przyk lady do w laściwej klasy, to warunek może być zredukowany. W przeciwnym przypadku należy go odtworzyć w koniunkcji regu ly. W powyższym zbiorze regu l można zredukować regu l e 2 do poniższej postaci, gdyż w tabeli podanej powyżej wszystkie osoby nie b ed ace studentami równocześnie nie kupi ly komputerów: if (student = nie) then (kupuje komputer = nie) 2. Algorytm ID3 indukcji drzewa decyzyjnego Wi ekszość algorytmów uczenia si e drzew decyzyjnych jest oparta na podobnym heurystycznym schemacie zst epuj acego konstruowania drzewa (nazwa angielska TDIDT - Top Down Induction of Decision Trees). Jest to rozwia- zanie użyte już w pierwszych algorytmach, takich jak ID3, CART, a nast epnie C4.5. Różnice mi edzy konkretnymi algorytmami dotycza przede wszystkim sposobu wyboru testu dla w ez la zwiazanego z ocena jakości podzia lu zbioru przyk ladów w w eźle, zasad podejmowania decyzji o utworzeniu liścia lub w ez la oraz technik uwzgl edniania różnego rodzaju zaburzeń w opisie przyk ladów uczacych. Algorytm schematu zst epuj acego konstruowania drzewa odpowiadajacy wersji ID3 podano poniżej. Zak lada si e, że jest dost epny zbiór przyk ladów uczacych S. Jeżeli wszystkie przyk lady należa do tej samej klasy, to utworzony jest liść i przydzielana mu jest etykieta tej klasy. W przeciwnym razie jest tworzony w eze l (w pierwszej iteracji jest to korzeń drzewa) i konieczne jest sformu lowanie zwiazanego z nim testu. Rozważa si e wszystkie możliwe atrybuty i ocenia ich przydatność do zbudowania testu prowadzacego do podzia lu zbioru przyk ladów S na podzbiory jak najbardziej jednorodne w sensie przydzia lu do klas (w oryginalnej postaci algorytmu ID3 test jest pytaniem o wartość danego atrybutu). Dokonuje si e wyboru najlepszego z tych podzia lów zgodnie z przyj et a miara oceny jakości podzia lu. Rozbudowuje si e drzewo poprzez dodanie do w ez la ga l ezi odpowiadajacych poszczególnym wynikom testu. W przypadku algorytmu ID3 ga l ezie odpowiadaja poszczególnym wartościom v 1, v 2,...,v p atrybutu a. Podzbiór S jest podzielony na podzbiory zgodnie z wybranym testem. Nast epnie używa si e rekurencyjnie napisanej procedury dla każdego z tych podzbiorów, budujac poddrzewo albo liść, jeśli zajdzie warunek zatrzymania.

function buduj drzewo; input: S - zbiór przyk ladów wejściowych, A - zbiór atrybutów opisujacych przyk lady (w przypadku ID3 atrybuty sa jakościowe lub zdyskretyzowane); output: drzewo decyzyjne; begin Utwórz w eze l t; {przy pierwszym wywo laniu korzeń drzewa} if wszystkie przyk lady w S należa do tej samej klasy K then return t jako liść z etykieta klasy K; if zbiór A jest pusty then return t jako liść z etykieta klasy do której należy wi ekszość przyk ladów w S else begin wybierz atrybut a A, który najlepiej klasyfikuje przyk lady z S zgodnie z przyj et a miara oceny {dla ID3 jest information gain}; Przypisz w ez lowi t test zbudowany na podstawie wybranego atrybutu a; for v i wartośći atrybutu a do begin dodaj do w ez la t galaź odpowiadajac a warunkowi (a = v i ); Niech S i b edzie podzbiorem przyk ladów z S, które posiadaja wartość v i dla atrybutu a; if S i jest pusty then dodaj do ga l ezi liść z etykieta klasy, do której należy wi ekszość przyk ladów w S else indukuj poddrzewo buduj drzewo(a i, A - {a}) end; end; return drzewo o korzeniu w t end. Podstawowym problemem jschematu zst epuj acego konstruowania drzewa jest wybór atrybutu do zbudowania testu, na którego podstawie nastapi w w eźle podzia l zbioru przyk ladów. Dobrym testem jest ten, który powoduje skrócenie ścieżki prowadzacej przez ten w eze l do liści wskazujacych klas e decyzyjna. Tak b edzie, gdy w każdym podzbiorze zwiazanym z ga l eziami wychodzacymi z w ez la wszystkie przyk lady lub ich wi ekszość b edzie reprezentowa la jedna klas e. Wybór powinien być przeprowadzany na podstawie miary oceniajacej, na ile wartości danego atrybutu podziela zbiór przyk ladów na podzbiory, które charakteryzuja si e maksymalna jednorodnościa w zakresie przydzia lu do klas decyzyjnych. W algorytmie ID3 w tym celu wykorzystuje si e miar e przyrostu informacji (ang. information gain). Aby ja zdefiniować, należy wyjaśnić najpierw miar e entropii.

Niech S b edzie zbiorem uczacym zawierajacym przyk lady do jednej z k klas decyzyjnych, oznaczonych przez K 1, k 2,...,K k. Niech n b edzie liczba przyk ladów z S oraz n i niech oznacza liczebność klasy K i. Entropia zwiazana z klasyfikacja zbioru S jest zdefiniowana jako: k Ent(S) = p i log 2 p i i=1 gdzie p i jest prawdopodobieństwem, że losowo wybrany przyk lad z S należy do klasy K i, estymowanym jako n i. Podstawa logarytmu jesdt równa 2, ponieważ entropia mierzy oczekiwana n liczb e bitów do zakodowania informacji o klasyfikacji losowo wybranego przyk ladu ze zbioru S. Można zauważyć, że gdy którekolwiek p i = 0, to otrzymuje si e 0 log 2 0 = 0. W przypadku rozważania klasyfikacji binarnej (k = 2) entropia przyjmuje wartości z przedzia?u [0, 1], przy czym maksymalna wartość, równa 1, osiagana jest dla p 1 = p 2 = 0.5, czyli dla przyk ladów o równomiernym rozk ladzie klas. Najmniejsza wartość, równa 0, przyjmuje entropia, gdy wszystkie przyk lady należa do tej samej klasy. Interpretacja wartości entropii jest nast epuj aca: im mniejsza wartość entropii, tym w zbiorze S wyst epuje wi eksza przewaga przydzia lu przyk ladów do jednej z klas nad pozosta lymi klasami. W przypadku użycia atrybutu a do zbudowania testu oblicza si e entropi e warunkowa. Niech atrybut a przyjmuje p różnych wartości {v 1, v 2,..., v p }. W algorytmie ID3 test w w eźle jest konstruowany jako pytanie jaka jest wartość atrybutu a?, czyli dokonuje si e podzia lu S na podzbiory {S 1, S 2,..., S r }, gdzie S j zawiera przyk lady posiadajace dla atrybutu a wartość v j (j = 1,...,p). Liczebność zbioru S j jest oznaczana jako n Sj. Entropia podzia lu zbioru przyk ladów S ze wzgl edu na atrybut a jest zdefiniowana jako: Ent(S a) = p j=1 n Sj n Ent(S j) Można powiedzieć, że entropia Ent(S a) jest średnia ważona dla entropii poszczególnych podzbiorów S j. Im mniejsza wartość Ent(S a), tym wi eksza jednorodność klasyfikacji dla przyk ladów podzielonych na podzbiory.

Przyrost informacji (ang. gain) wynika z zastosowania atrybutu a do zbudowania testu dzielacego zbiór przyk ladów uczacych S jest zdefiniowany jako różnica: Gain(S, a) = Ent(S) Ent(S a) Dzia lanie algorytmu ID3 polega na przeszukiwaniu przestrzeni hipotez, tj. drzew decyzyjnych reprezentujacych funkcje klasyfikujace zdefiniowane na opisach przyk ladów. Przeszukiwanie jest wykonywane od poczatkowo pustego drzewa do drzew coraz bardziej skomplikowanych za pomoca strategii heurystycznej sterowanej odpowiednia funkcja oceny, np. przyrostu informacji. W algorytmie ID3 dla danego w ez la poszukuje si e lokalnie najlepszego kandydata na stworzenie testu, przy czym wybór ten nie musi prowadzić do globalnie najlepszego drzewa. W typowych alg. indukcji drzew nie stosuje si e operacji nawrotu, tzn. po wyborze atrybutu do testu dla danego w ez la nie rozważa si e ponownie zmiany tego atrybutu. 3. Algorytm C4.5, czyli dlaczego ID3 nie wystarcza? Algorytm ID3 ma nast epuj ace ograniczenia: 1) algorytm ID3 nie radzi sobie z ciag lymi dziedzinami atrybutów (zak lada, że wartości atrybutów sa dyskretne) 2) zak lada sztywno, że wszystkie rekordy w zbiorze uczacym sa wype lnione, tzn. nie dzia la, jeśli choć jeden rekord zawiera niepe lne dane, 3) duży rozmiar drzewa, 4) brak odporności na zjawisko ovefitting. Polega ono na tym, że algorytm nie radzi sobie z danymi zaburzajacymi ogólna informacja. Może to prowadzić do wysokiego wspó lczynnika b l edów na danych testowych Aby przeciwdzia lać zjawisku ovefittingu stosuje si e tzw. przycinanie (ang. em prunning). Dzia la ono w sposób nast epuj acy: 1) zaczyna si e od liści i dzia la na zasadzie bottom-up, 2) majac dany w eze l nie b ed acy liściem i jego poddrzewo oblicza si e w heurystyczny sposób wartość przewidywanego b l edu dla aktualnego poddrzewa,

3) oblicza si e wartość przewidywanego b l edu dla sytuacji, gdyby rozpatrywane poddrzewo zastapić liściem z kategoria najpopularniejsza wśród liści, 4) porównuje te dwie wartości i ewentualnie dokonuje zamiany poddrzewa na pojedynczy liść propagujac t e informacj e do swoich przodków. Dzi eki temu dokonuje si e wi eksz a generalizacj e oceny nowych przypadków. 4. Przebieg ćwiczenia Zadanie 1. Jednym z klasycznych zbiorów ilustrujacych dzia lanie algorytmów uczacych jest przyk lad do gry w golfa. Wp lyw warunków pogodowych wp lywaj acych na podj ecie decyzji o grze w gr e golfa przedstawiono w tabeli poniżej. Stan nieba Temperatura Wilgotność Wiatr Grać s lońce 29 85 nie nie s lońce 27 90 tak nie pochmurno 28 78 nie tak deszcz 21 96 nie tak deszcz 20 80 nie tak deszcz 18 70 tak nie pochmurno 18 65 tak tak s lońce 22 95 nie nie s lońce 21 70 nie tak deszcz 24 80 nie tak s lońce 24 70 tak tak pochmurno 22 90 tak tak pochmurno 27 75 nie tak deszcz 22 80 tak nie Dla tabeli podanej na pierwszej stronie przeprowadź: 1) Dokonaj najpierw analizy zbioru przyk ladów ze wzgl edu na to, że wszystkie atrybuty sa tam przedstawione na skalach jakościowych (nominalnych lub porzadkowych), 2) Zbadaj, jakie sa liczebności przyk ladów należacych do każdej klasy decyzyjnej,

3) Określ miary entropii informacji dla klasyfikacji wszystkich przyk ladów, 4) Odpowiedz na pytanie, który z atrybutów zostanie wybrany jako najkorzystniejszy do zbudowania testu w w eźle drzewa. Odpowiedź uzasadnij odpowiednimi obliczeniami wg algorytmu ID3 5) Przeprowadź proces budowy ca lego drzewa. Zadanie 2 Przy użyciu programu C4.5 z systemu Weka dokonaj analizy zbioru przyk ladów uczacych opisujacych wp lyw warunków pogodowych na podj ecie decyzji do gry w golfa. Program C4.5 jest w nim dost epny jako J48 (wersja 8 programu C4.5, ostatnia przed komercjalizacja). Wybierz Explorer Open File data. W katalogu data otwórz notatnik Windows lub inny edytor. Wyedytuj plik golf.arff, który jest w formacie arff. Jego postać jest nast epuj aca: @relation golf @attribute outlook {sunny, overcast, rain} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 78, false, yes rain, 70, 96, false, yes rain, 68, 80, false, yes rain, 65, 70, true, no overcast, 64, 65, true, yes sunny, 72, 95, false, no

Należy wybrać opcj e Classify, a nast epnie Choose. Wówczas wejść do trees i wybrać J48. Uruchomienie analizy nast epuje dzi eki naciśni eciu Start. Powtórz podobna analiz e dla zbioru przyk ladów uczacych w przypadku podj ecia decyzji o grze w golfa. Zadanie 3 Przy użyciu programu C4.5 z systemu Weka dokonaj analizy zbioru przyk ladów uczacych opisujacych wp lyw warunków pogodowych na podj ecie decyzji dotyczacych zakupu komputera. @relation komputer @attribute komputer {dobry, sredni, marny} @attribute dochody numeric @attribute cena numeric @attribute student {true, false} @attribute kupic {yes, no} @data dobry, 500, 850, false, no sredni, 800, 900, true, no marny, 490, 1000, false, yes dobry, 700, 9006, false, yes sredni, 8968, 8000, false, yes marny, 657, 700, true, no dobry, 640, 650, true, yes sredni, 720, 950, false, no Należy wybrać opcj e Classify, a nast epnie Choose. Wówczas wejść do trees i wybrać J48. Uruchomienie analizy nast epuje dzi eki naciśni eciu Start.

Zadanie 4 Zbuduj drzewo decyzyjne dotyczace zakupu samochodu. Przy użyciu programu C4.5 z pakietu Weka dokonaj analizy przyk ladów uczacych opisujacych zakup samochodu. @relation somochod @attribute samochod {dobry, uzywany, nowy} @attribute dochody numeric @attribute cena numeric @attribute klient {true, false} @attribute kupic {yes, no} @data dobry, 5000, 20050, false, no uzywany, 1800, 2000, true, no nowy, 4900, 3000, true, yes dobry, 7000, 3000, false, yes uzywany, 7968, 3500, false, yes nowy, 6570, 17000, true, no nowy, 6400, 10500, true, yes dobry, 7200, 950, false, no Należy wybrać opcj e Classify, a nast epnie Choose. Wówczas wejść do trees i wybrać J48. Uruchomienie analizy nast epuje dzi eki naciśni eciu Start.