Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Podobne dokumenty
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Drzewa decyzyjne i lasy losowe

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Interwałowe zbiory rozmyte

Algorytmy klasyfikacji

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

ALGORYTM RANDOM FOREST

ALGORYTM PROJEKTOWANIA ROZMYTYCH SYSTEMÓW EKSPERCKICH TYPU MAMDANI ZADEH OCENIAJĄCYCH EFEKTYWNOŚĆ WYKONANIA ZADANIA BOJOWEGO

ZBIORY ROZMYTE I WNIOSKOWANIE PRZYBLIŻONE

KLASYFIKACJA. Słownik języka polskiego

PODSTAWY INŻYNIERI WIEDZY

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Indukowane Reguły Decyzyjne I. Wykład 8

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Metody klasyfikacji danych - część 1 p.1/24

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Sztuczna Inteligencja Projekt

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Podstawy sztucznej inteligencji

Rozmyte systemy doradcze

KARTA PRZEDMIOTU. 17. Efekty kształcenia:

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Tadeusz Pankowski

Multiklasyfikatory z funkcją kompetencji

Regresyjne metody łączenia klasyfikatorów

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Lingwistyczne podsumowania baz danych.inteligentne generowanie s

Wprowadzenie do klasyfikacji

WYKŁAD 10 Rozmyta reprezentacja danych (modelowanie i wnioskowanie rozmyte)

Budowa modeli klasyfikacyjnych o skośnych warunkach

Badania w sieciach złożonych

Systemy uczące się Lab 4

Analiza danych. TEMATYKA PRZEDMIOTU

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Wprowadzenie do uczenia maszynowego

Mail: Pokój 214, II piętro

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Algorytmy klasyfikacji

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Data Mining Wykład 4. Plan wykładu

Szkolenie Analiza dyskryminacyjna

Elementy inteligencji obliczeniowej

TEORETYCZNE PODSTAWY INFORMATYKI

Część 2: Data Mining

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

1 Klasyfikator bayesowski

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

STANDARDOWE FUNKCJE PRZYNALEŻNOŚCI. METODY HEURYSTYCZNE wykład 6. (alternatywa dla s) (zdef. poprzez klasę s) GAUSSOWSKA F.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Inżynieria Wiedzy i Systemy Ekspertowe. Niepewność wiedzy. dr inż. Michał Bereta Politechnika Krakowska

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Pattern Classification

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

10. Redukcja wymiaru - metoda PCA

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Sztuczna inteligencja: zbiory rozmyte

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Wprowadzenie do uczenia maszynowego

Maszyny wektorów podpierajacych w regresji rangowej

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Uczenie sieci neuronowych i bayesowskich

Archipelag Sztucznej Inteligencji

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

THE PART OF FUZZY SYSTEMS ASSISTING THE DECISION IN DI- AGNOSTICS OF FUEL ENGINE SUBASSEMBLIES DEFECTS

Systemy uczące się wykład 2

Problemy złożone trudno jest analizować precyzyjnie Wiedza eksperta w złożonych przypadkach daje się opisać tylko w sposób nieprecyzyjny, np.

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Drzewa klasyfikacyjne algorytm podstawowy

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

STATYSTYKA MATEMATYCZNA

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Metody Kompilacji Wykład 3

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

do Wniosku o przeprowadzenie postępowania habilitacyjnego w dziedzinie nauk technicznych w dyscyplinie informatyka AUTOREFERAT

Data Mining z wykorzystaniem programu Rapid Miner

Piotr Sobolewski Krzysztof Skorupski

Rozdział 8. Regresja. Definiowanie modelu

Metoda Tablic Semantycznych

Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Nazwa przedmiotu: METODY SZTUCZNEJ INTELIGENCJI W ZAGADNIENIACH EKONOMICZNYCH Artificial intelligence methods in economic issues Kierunek:

Sztuczna inteligencja : Zbiory rozmyte cz. 2

Transkrypt:

µ(x) x µ(x) µ(x) x x µ(x) µ(x) x x µ(x) x µ(x) x Rozmyte drzewa decyzyjne Łukasz Ryniewicz Metody inteligencji obliczeniowej 21.05.2007

AGENDA 1 Drzewa decyzyjne kontra rozmyte drzewa decyzyjne, problemy i cele 2 Zbiory rozmyte - teoria 3 Rozmyte drzewa decyzyjne, opis strukury, funkcji podziału, miara różnorodności, klasyfikacja 4 Wyniki badań 5 Modyfikacje rozmytych drzew decyzyjnych 6 Moje prace 7 Pierwsze wyniki

Drzewa decyzyjne - problem Niewielkie zmiany w zbiorze uczącym mogą znacząco wpływać na postać drzewa Nieprecyzyjne dane mogą wpływać na postać drzewa Te cechy powodują że uzasadnione jest poszukiwanie lepszego klasyfikatora, choć sama idea drzew decyzyjnych wydaje się być słuszna

Rozmyte drzewa decyzyjne - cel Uzyskanie klasyfikacji ciągłego paramertu, oraz umiejętność wyjaśnienia podjętej decyzji Lepsza estymacja badanego zachowania Bardziej naturalna struktura danych jaki i wyników

Rozmyte drzewa decyzyjne

Zbiory rozmyte - teoria Zbiór rozmyty A jest to pewnien zwykły zbiór X oraz stowarzyszona z nim funkcja przynależności: u A x : X [0,1] Zwykle jest charakteryzowany przez dwa parametry: α, β, będące odpowiednio parametrem podziału i rozmycia

Zbiory rozmyte - teoria Podstawowe operacje Suma: Przecięcie: Dopełnienie: u A B =MAX x X u A B =MIN x {u A x,u B x } {u A x,u B x } u A' x =1 u A x Równość: Zawieranie: Nośnik: A=B u A x =u B x, x X A B u A x u B x, x X supp A ={x X :u A x 0}

Rozmyte drzewa decyzyjne opis struktury Proces klasyfikacji analogicznie jak w przypadku zwykłych drzew (budowa, przycinanie, itd) W każdym wierzchołku znajduje się pewien zbiór obserwacji, lecz jest przedstawiony jako zbiór rozmyty Zwykle dla korzenia przyjmuje się zbiór pewny, tj taki dla którego wartość funkcji przynależności jest równa 1

Rozmyte drzewa decyzyjne funkcja podziału Podział jest określany na podstwawie funkcji przynależnośći v dla której estymujemy paramert podziału i rozmycia (przypadek linniowej funkcji podziału, badane są też funkcje logistyczne i sigmoidalne) Obserwacje < α β/2 trafiają do lewego dziecka Obserwacje > α β/2 trafiają do lewego dziecka Pozostałe do obydwu wraz z określeniem funkcji przynależności odpowiednio: v(a(x),α,β) oraz 1-v(a(x),α,β)

Rozmyte drzewa decyzyjne - podziały Wartość funkcji przynależnośći do wezłów dzieci: u S L x =u S x v a x,a, u S R x =u S x 1 v a x,a, Minimalizacja błędu średniokwadratowego przy każdym podziale: E = S x S u S x u C x u C x 2 u C x =v a x,a, L L 1 v a x,a, L R

Rozmyte drzewa decyzyjne miary rozróżnialności klas Rozmyta liczność zbioru S: M S = x S u S x Wsparcie zbioru dla i-tej klasy: Entropia: f i S = M S C i M S H S = i =1,2.. k f i S ln f i S

Rozmyte drzewa decyzyjne - klasyfikacja Klasyfikacja odbywa się analogicznie do zwykłych drzew, jednak każda obserwacja może leżeć w kilku liściach Gdy jest pewne że obserwacja należy do danego liścia L tzn gdy: u L x =1 wtedy: u c x =C argmax i f i L Przy tak kostruowanym drzewie powyższy warunek dyskryminuje przynależność danej obserwacji tylko do jednego liścia

Rozmyte drzewa decyzyjne - klasyfikacja W przypadku gdy dla każdego liścia: u L x 1 Z reguły przyjmuje się jeno z poniższych Klasyfikacje do liścia dla którego funkcja przynależności jest największa u C x = Li Liscie I max u Lj x =u Li x C argmax f k Li Lj Liscie k Obliczenie średniej ważonej z wartościami funkcji przynależności jako wagami u = C Li Liscie C argmax k f k Li u Li x

Rozmyte drzewa decyzyjne - przykład pu(100,30) qu 90 80 70 1 3 1 qu(80,10) 2 70 100 130 pu 2 3

Rozmyte drzewa decyzyjne - przykład Często zbudowane rozmyte drzewo decyzyjne ma inną postać niż zwykłe

Badane zbiory: Omib - baza danych o sieciach elekrycznych, 6 zmiennych ciągłych opisowych, jedna ciągła decyzyjna decyzyjna Twonorm - baza wygenerowana na podstawie wielowymiarowego rozkładu normalnego,10 zmiennych opisowych, dwie klasy decyzyjne Waveform - baza z opisami kształtów fal, 21 zmiennych ciagłych, trzy klasy decyzyjne Do wyników brana średnia z 20 drzew Funkcja podziału - linniowa Warunki stopu: znajdowanie sie w liściu mniej niż 1% obserwacji z oryginalnego zbioru, dla danego liścia błąd średniokwadratowy mniejszy niż 10^-4

Rozmyte drzewa decyzyjne - wyniki

Rozmyte drzewa decyzyjne - wyniki

Rozmyte drzewa decyzyjne - wyniki

Rozmyte drzewa decyzyjne - wyniki

Rozmyte drzewa decyzyjne - wyniki

Rozmyte drzewa decyzyjne dalsze prace Przedstawienie klas decyzyjnych, danych wejściowych w postaci zbiorów rozmytych Wprowadzono miary rozmycia kazdej obserwacji po funkcjach przynależności do atrybutów (dla każdego termu w atrybucie jest określona funkcja przynależności) Miara jendoznaczności wartości atrybutu (w przypadku atrybutów które są zbiorami rozmytymi jest to istotna informacja)

Rozmyte drzewa decyzyjne dalsze prace Okazują się bardzo dobrym narzędziem do tłumaczenia decyzji podejmowanej przez sieci neuronowe Sieci neuronowe są w nich wykorzystywane do określania funkcji podziału w węzłach Otrzymywano lepsze wyniki w uzupełnianiu braków danych niż w przypadku zwykłych drzew Stworzono efektywne metody rozmywania zwykłych drzew

Moje prace Dostarczyć pełny formalny matematyczny opis rozmytych drzew decyzyjnych Wykazać lepszą jakość klasyfikacji (mniejszy błąd średniokwadratowy) dla atrybutów ciągłych niż w przypadku zwykłych drzew Dodatkowo, skonstuowanie hybrydowego algorytmu budowy rozmytego drzewa decyzyjnego opartego o: Algorytm C4.5 Miarą rozróżnienia klas jest entropia Funkcja podziału przedstawiana za pomocą regresji logistycznej, której prarametry są wyznaczane na podstawie obserwacji znajdujących się w danym węźle

Wyniki Testy były prowadzone dla podziału: 40:30:30, wyniki to średnia dla 10 drzew. Przeprowadziłem pierwsze testy na zbiorach: INSURANCE - zbiór z 49 cechami określającymi klienta, oraz binarną zmienną decyzyjną - czy zakupi dany produkt ubezpieczeniowy, ponad 19000 obserwacji Wyniki: DT FDT %Error 26,29 22,84 WINE - zbiór z informacjami na temat oceny jakości wina, 13 atrybutów opisujących, trzy klasy decyzyjne, 178 obserwacji Wyniki: DT FDT %Error 8,11 8,02

Wyniki GLASS - zbór z informacjami o typach szkła, 10 atrybutów opisujących, sześć klas decyzyjnych, 214 obserwacji Wyniki: DT FDT %Error 34,67 31,86

Bibiografia [1] Cristina Olaru, Louis Wehenkel, A complete fuzzy decision tree technique, Fuzzy Sets and Systems, 138 (2003) 221-254 [2] I-Jen Chiang, Jane Yung-jen Hsu, Fuzzy classification trees for data analysis, Fuzzy Sets and Systems 130 (2002) 87 99 [3] Eyke Hullermeier, Fuzzy sets in machine learning and data mining, (2008) preprint Applied Soft Computing [4] Motohide Umano, Hirotaka Okamoto, Itsuo Hatono, Fuzzy Decision Trees by Fuzzy ID3 Algorithm and Its Application to Diagnosis Systems, Proceedings ofthe Third IEEE Conference on Fuzzy Systems, Vol. 3, June 26 29, Orlando, FL, 1994, pp. 2113 2118. [5] E. C. C. Tsang, X. Z. Wang, and D. S. Yeung, Improving Learning Accuracy of Fuzzy Decision Trees by Hybrid Neural Networks, IEEE TRANSACTIONS ON FUZZY SYSTEMS, VOL. 8, NO. 5, OCTOBER 2000, 601-613

Bibiografia [6] Cezary Z. Janikow, Fuzzy Decision Trees: Issues and Methods, IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS PART B: CYBERNETICS, VOL. 28, NO. 1, FEBRUARY 1998, 1-14 [7] Alberto Suarez, James F. Lutsko, Globally Optimal Fuzzy Decision Trees for Classification and Regression, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 21, NO. 12, DECEMBER 1999, 1297 1311 [8] Yufei Yuan, Michael J. Shaw, Induction of fuzzy decisions trees, Fuzzy Sets and Systems 69 (1995) 125-139