Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Podobne dokumenty
Indukcja drzew decyzyjnych

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody probabilistyczne klasyfikatory bayesowskie

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Algorytmy klasyfikacji

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Elementy modelowania matematycznego

Drzewa decyzyjne i lasy losowe

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Analiza danych. TEMATYKA PRZEDMIOTU

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Metody klasyfikacji danych - część 1 p.1/24

Indukowane Reguły Decyzyjne I. Wykład 3

Wykład 2. Poprawność algorytmów

WYKŁAD 6. Reguły decyzyjne

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

TEORETYCZNE PODSTAWY INFORMATYKI

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Algorytmy klasyfikacji

Sztuczna Inteligencja Projekt

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

ALGORYTM RANDOM FOREST

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

Rekurencje. Jeśli algorytm zawiera wywołanie samego siebie, jego czas działania moŝe być określony rekurencją. Przykład: sortowanie przez scalanie:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Wykład 3. Metoda dziel i zwyciężaj

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Co to są drzewa decyzji

Testowanie hipotez statystycznych.

Spis treści 3 SPIS TREŚCI

Automatyczne wyodrębnianie reguł

Algorytmy i Struktury Danych

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Na podstawie dokonanych obserwacji:

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Wstęp do programowania

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Nierówność Krafta-McMillana, Kodowanie Huffmana

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Hipotezy statystyczne

Hipotezy statystyczne

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Drzewa Decyzyjne, cz.2

Data Mining Wykład 4. Plan wykładu

ED Laboratorium 3. Drzewa decyzyjne

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

INDUKCJA DRZEW DECYZYJNYCH

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Optymalizacja. Algorytmy dokładne

METODY STATYSTYCZNE W BIOLOGII

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Obliczenia inspirowane Naturą

Logika Stosowana. Wykład 2 - Logika modalna Część 2. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

TEORETYCZNE PODSTAWY INFORMATYKI

Indukowane Reguły Decyzyjne I. Wykład 8

Testowanie hipotez statystycznych

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

SZTUCZNA INTELIGENCJA

Sztuczna Inteligencja Projekt

Wprowadzenie do klasyfikacji

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Porządek symetryczny: right(x)

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Optymalizacja. Algorytmy dokładne

Testowanie hipotez statystycznych.

Metoda Tablic Semantycznych

Kompresja bezstratna. Entropia. Kod Huffmana

RÓWNANIA NIELINIOWE Maciej Patan

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Statystyka w przykładach

Prawdopodobieństwo i statystyka

Tadeusz Pankowski

Analiza algorytmów zadania podstawowe

Transkrypt:

Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie drzew. Algorytm ID3. Wybór testu - miary. Przycinanie drzewa. Brakujące wartości, atrybuty ciągłe. Złożoność i zagadnienia implementacyjne. Budowanie drzewa - ogólna idea Podejście dziel i rządź. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu. Usuń atrybut z dalszych rozważań. Na końcu każdej gałęzi konstruuj (rekurencyjnie) drzewo z przykładów odpowiadających tej gałęzi. Notacja S - próbka treningowa, zbiór przykładów a n - test w wierzchołku wewnętrznym drzewa a n A dec(s, d) - zwraca najczęstszą decyzję w S lub wartość domyślną d, gdy S pusty. d - domyślna (najczęstsza) decyzja w S. A - zbiór dostępnych atrybutów (testów). d l - decyzja dla liścia l w drzewie. S a=v = {x S a(x) = v}, v V a S d a=v = S d S a=v, d C, v V a Algorytm ID3 1

ID3(S, A, d) create root; if (S pusty) or (wszystkie przykłady z tą samą decyzja) or (A pusty) then create-leaf l; d l := dec(s, d); return(drzewo z pojedynczym liściem l); endif; create node n; a n :=choose-attribute(s, A); root:=n; d := dec(s, d); forall v V an do add-subtree ID3(S a=v, A {a n }, d); end; return(tree); ID3 - wybór atrybutu choose-attribute(s, A); Zwraca atrybut z A, który prowadzi do najlepszego podziału S tj. atrybut będący najlepszym dyskryminatorem ze względu na decyzję. Entropia Niech C = {d 1,..., d m } będzie zbiorem możliwych wartości dla atrybutu decyzyjnego dec. Niech S będzie zbiorem przykładów i = 1,..., m. Niech S d i = {x S; dec(x) = d i }. p i = Sd i Entropia (informacyjna) dla zbioru S: m E(S) = p i log 2 p i i=1 Przyrost informacji - zysk informacyjny Entropia dla testu (atrybutu) t jest określona dla S jako: E t (S) = S t=v E(S t=v ) v V t Zysk informacyjny dla testu t i zbioru S: g t (S) = E(S) E t (S) 2

Zakładamy, że log 2 0 = 0. Kryterium zysku informacyjnego Wybieramy ten test (atrybut), który ma najwyższy zysk informacyjny spośród wcześniej nie wykorzystanych. Wybieramy atrybut, który powoduje podział zbioru przykładów na najbardziej jednolite podzbiory. Własności entropii Entropia jest miarą odzwierciedlającą różnorodność (niejednorodność) zbioru danych (informacji). Własności ID3 Przestrzeń hipotez ID3 jest kompletna. ID3 stosuje podejście minimalistyczne. Krótsze (mniejsze) drzewa są preferowane. Algorytm jest dokładny, działa dopóki nie może dokonać żadnej zmiany. Słabości podstawowego ID3 W większości przypadków dochodzi do nadmiernego dopasowania (przeuczenia). Kryterium zysku informacyjnego nie zawsze da się dobrze zastosować. Tylko atrybuty dyskretne. Trzeba się zabezpieczyć przed brakującymi wartościami. Duże dane - duży problem. Przycinanie drzewa Mając skonstruowane drzewo decyzyjne możemy je modyfikować tak, aby lepiej uogólniało. Przycinanie (post-prunning) jest procesem zastępowania pewnych fragmentów drzewa (poddrzew) pojedynczymi wierzchołkami. Do przycinania możemy wykorzystać zbiór walidacyjny lub treningowy. Ogólny schemat przycinania prune-tree(t, S) forall n T do (dla każdego z wierzchołków wewnętrznych) zastąp n liściem l o etykiecie dec(s T,n, d) if nie zwiększa to znacząco błędu oszacowanego na podstawie S; end; 3

return T ; S T,n - zbiór przykładów z S odpowiadający wierzchołkowi n w drzewie T. Szczegóły przycinania Jeśli zbiór V wykorzystany do przycinania jest różny od S to, w najprostszym przypadku, kryterium dla przycinania opiera się na zmniejszeniu błędu próbki e c V dla zbioru walidacyjnego. Jeśli jedyną próbką, jaką dysponujemy jest próbka treningowa S to musimy użyć estymacji. Estymacja błędu przy przycinaniu Gdy mamy do dyspozycji tylko dane treningowe, możemy próbować przybliżyć błąd całkowity. Domyślnie w C4.5 wykorzystuje się pesymistyczną estymatę dwumianową. Przycinamy drzewo gdy spełniony jest warunek: e c S(l) e c S(n) + u ec S(n)(1 e c S(n)) δ S c T,n Parametr u δ = 1 w większości przypadków, co odpowiada ufności na poziomie 68%. Inne estymaty Statystyka χ 2 jest także często wykorzystywana do wyestymowania błędu całkowitego z błędu próbki. To podejście wymusza jednak (czasami) konieczność zmian w danych, tak aby spełniały kryterium Cochran a. Aby uzyskać statystyczna poprawność naszych estymat musimy spełnić pewne podstawowe warunki dotyczące liczby przykładów i ich dystrybucji. Przycinanie reguł 1. Skonwertuj drzewo na zbiór reguł. Jedna reguła dla każdej ścieżki w drzewie. 2. Przytnij reguły usuwając warunki, które prowadza do poprawy estymowanego błędu. 3. Posortuj reguły ze względu na spodziewaną (wyestymowaną) jakość. Kryterium wyboru testu Kryterium oparte o zysk informacyjny ma niepożądane własności, gdyż preferuje testy o dużej liczbie możliwych odpowiedzi. 4

Najpopularniejsze remedium to użycie względnego zysku informacyjnego: ϑ t (S) = g t(s) IV t (S) gdzie wartość informacyjna (wartość podziału) to: IV t (S) = v V t S t=v log 2 S t=v Inne miary Istnieje wiele miar specyficznych dla konkretnych zastosowań. Możemy wyróżnić trzy główne kategorie: Mierzące rożnicę między S a S t=v for v V t ze względu na częstościowy rozkład klas (kategorii). Mierzące rożnicę między podzbiorami S t=v dla różnych v ze względu na częstościowy rozkład klas (kategorii). Mierzące (statystyczną) niezależność między rozkładem klas, a podziałem na podzbiory za pomocą testu. Atrybuty ciągłe (numeryczne) Zamiast sprawdzać (testem) jaka jest wartość atrybutu, musimy sprawdzać do jakiego przedziału ta wartość należy. Potrzebny jest nam sposób ustalania granic dla takich przedziałów. Dyskretyzacja oparta o zysk informacyjny 1. Posortuj wartości atrybutu. 2. Wybierz granicę przedziału wykorzystując kryterium zysku. 3. Powtarzaj 2 dla zbioru przykładów trafiających poniżej i powyżej granicy, aż do spełnienia kryterium MDL-STOP. To jest zgrubny zarys metody Fayyad a & Irani. Ten algorytm wykorzystuje metoda C4.5. Brakujące wartości W trakcie uczenia brakujące wartości mogą być traktowane na jeden ze sposobów wspomnianych na wcześniejszych wykładach. Te metody są ogólne i stosują się dla drzew. Istnieja też metody dostosowane do algorytmów indukcji drzew: Wykorzystanie obiektów ułamkowych. 5

Stworzenie dodatkowej gałęzi dla wartości atrybutu nieznany. Brakujące wartości c.d. Metody stosowane do klasyfikacji za pomocą skonstruowanego drzewa nowych dla nowych przypadków z brakującymi wartościami: Wykorzystanie dodatkowej gałęzi (gdy istnieje). Stop. Klasyfikacja jest zatrzymywana i przypadek jest klasyfikowany z użyciem arbitralnej zasady (np. większościowej). Wypełnienie brakującego miejsca. Klasyfikacja probabilistyczna. Wszystkie możliwe gałęzie są rozpatrywane. Efektywna, ale potencjalnie kosztowna obliczeniowo metoda. Duże zbiory danych Duże dane = duży problem? Nie tak wielki jak można by się spodziewać. Metoda okienkowania (framing, windowing) działa nieźle dla algorytmów indukcji drzew. Okienkowanie Jest ogólną metodą znajdującą zastosowanie dla różnych algorytmów uczących. framing(s) repeat wybież losowo W S; repeat naucz się hipotezy h na podstawie W ; testuj h na S \ W ; dodaj losowo przykładów z S \ W do W ; until nie ma poprawy błędu próbki na S dla h; przytnij uzyskaną hipotezę; end repeat; return najlepsza z otrzymanych hipotez; Okienkowanie w praktyce Okienkowanie pojawia się najczęściej przy tworzeniu drzew decyzyjnych. Zwykle rozpoczynanie z okienkiem będącym 10% początkowej próbki daje przyzwoite rezultaty po kilku iteracjach. Złożoność konstrukcji drzewa (bez przycinania): Drzewa uwzględniające koszt O(n log n) 6

Jeżeli poszczególnym testom (atrybutom) towarzyszy koszt ich wykonywania, to możemy zmodyfikować algorytm indukcji drzewa tak, aby brał to pod uwagę. W tym celu modyfikujemy miarę w kryterium oceny testów. Ta modyfikacja zwykle jest silnie zależna od konkretnego zadania. Miary uwzględniające koszt Niech ρ(t) będzie kosztem testu t. Przykłady miar: ϑ t (S) = g2 t (S) ρ(t) ϑ t (S) = 2 g t(s) (1 + ρ(t)) α gdzie α [0, 1]. Inkrementalne budowanie drzewa Wartości, S t=v, S d, S d tr muszą być przechowywane dla wszystkich testów na próbce treningowej S i wszystkich wartości decyzji. Dodanie nowych przypadków może zmienić strukturę drzewa. Kryterium decydujące o wprowadzeniu zmiany może być analogiczne do tego stosowanego przy konstrukcji drzewa. Bardzo ważne jest zadbanie o zniwelowanie efektów związanych z kolejnością prezentowania przykładów. Podsumowanie - plusy Umiemy efektywnie konstruować drzewa. Uzyskane hipotezy łatwo zrozumieć. Cała przestrzeń hipotez jest przeszukiwana. Drzewa są relatywnie odporne na zakłócenia. Istnieje wiele rozszerzeń i udoskonaleń. Podsumowanie - minusy Tylko atrybuty nominalne o niewielkiej liczbie wartości(dyskretyzacja/grupowanie konieczne). Podejście typu brzytwy Ockham a. Dla pewnych zadań i miar drzewa mogą rosnąć eksponencjalnie. 7