Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Podobne dokumenty
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa decyzyjne i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ALGORYTM RANDOM FOREST

Algorytmy klasyfikacji

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wprowadzenie. Data Science Uczenie się pod nadzorem

Regresyjne metody łączenia klasyfikatorów

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody systemowe i decyzyjne w informatyce

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Metody klasyfikacji danych - część 1 p.1/24

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Indukowane Reguły Decyzyjne I. Wykład 8

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Optymalizacja ciągła

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Analiza składowych głównych. Wprowadzenie

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Statystyka w pracy badawczej nauczyciela

Co to są drzewa decyzji

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Elementy statystyki wielowymiarowej

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Metody systemowe i decyzyjne w informatyce

Agnieszka Nowak Brzezińska Wykład III

Rozpoznawanie obrazów

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Elementy modelowania matematycznego

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Metody systemowe i decyzyjne w informatyce

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Agnieszka Nowak Brzezińska Wykład III

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

METODY INŻYNIERII WIEDZY

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

KADD Minimalizacja funkcji

166 Wstęp do statystyki matematycznej

Testowanie hipotez statystycznych

Wnioskowanie bayesowskie

Testowanie hipotez statystycznych.

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Testowanie modeli predykcyjnych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Wyznaczanie strategii w grach

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Optymalizacja systemów

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

SZTUCZNA INTELIGENCJA

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Analiza przeżycia. Wprowadzenie

Ważne rozkłady i twierdzenia c.d.

Temat: Algorytm kompresji plików metodą Huffmana

Rozpoznawanie obrazów

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Rozpoznawanie obrazów

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Drzewa klasyfikacyjne algorytm podstawowy

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Podstawy Informatyki. Metody dostępu do danych

Zawansowane modele wyborów dyskretnych

CLUSTERING. Metody grupowania danych

Testowanie hipotez statystycznych.

Rozkłady statystyk z próby

Sortowanie. Bartman Jacek Algorytmy i struktury

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Metody probabilistyczne klasyfikatory bayesowskie

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych DRZEWA KLASYFIKACYJNE ICH BUDOWA, PROBLEMY ZŁOŻONOŚCI I SKALOWALNOŚCI

Jądrowe klasyfikatory liniowe

Metody systemowe i decyzyjne w informatyce

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Wydział Matematyki. Testy zgodności. Wykład 03

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Automatyczne wyodrębnianie reguł

Aproksymacja funkcji a regresja symboliczna

Transkrypt:

Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X. W każdym kroku podział dokonywany jest tak, aby uzyskane części były możliwie jednorodne. Podzbiory które nie podlegają dalszemu podziałowi nazywać będziemy końcowymi. Do każdego podzbioru końcowego przypisana jest dokładnie jedna etykieta klasy.

Wprowadzenie Idea konstrukcji drzew klasyfikacyjnych jest bardzo podobna do metody stosowanej w diagnostyce medycznej. Lekarz pragnący zdiagnozować pacjenta zadaje mu szereg pytań. Kolejność pytań nie jest przypadkowa, a następne pytanie jest często uzależnione od uzyskanej odpowiedzi na pytanie poprzednie. Przykładowo, lekarz zaczyna od pytania najważniejszego ze względu na diagnozę, np. pytania o wiek pacjenta. Załóżmy, że istotne jest czy pacjent przekroczył 60 rok życia. Sam wiek nie jest wystarczający do podjęcia decyzji. Zatem lekarz zadaje następne pytanie. Zwróćmy uwagę, że być może w grupie osób starszych (wiek > 60) będzie ono dotyczyło poziomu cholesterolu we krwi, bo ta właśnie informacja jest najważniejsza w tej grupie wiekowej. Z kolei w grupie osób młodszych (wiek 60) pytanie będzie dotyczyło ciśnienia tętniczego krwi. Postępując w ten sposób, po kilku krokach, lekarz jest w stanie podjąć decyzję.

Wprowadzenie Opisany powyżej proces można przedstawić graficznie przy pomocy drzewa (stąd nazwa metody). Niech T oznacza drzewo klasyfikacyjne. Węzły (wierzchołki) drzewa T utożsamiać będziemy z podzbiorami przestrzeni próby X i oznaczać literą t. Węzły odpowiadające podzbiorom końcowym nazywać będziemy liśćmi, a zbiór wszystkich liści drzewa T oznaczać będziemy przez T.

Wprowadzenie

Wprowadzenie Cechą charakterystyczną drzewa klasyfikacyjnego są związane z nim dwie funkcje. Określona na zbiorze liści T funkcja ind przyporządkowująca każdemu z nich etykietę klasy oraz określona dla każdego węzła wewnętrznego funkcja podziału s. Funkcja ta każdemu elementowi węzła t przyporządkowuje jedną z dwóch wartości prawda lub fałsz. Wszystkie elementy z węzła t dla których podział s przyjmuje wartość prawda są przyporządkowywane do węzła potomka t L, a te elementy dla których podział s przyjmuje wartość fałsz do węzła potomka t R.

Wprowadzenie Prezentując graficznie drzewo klasyfikacyjne wygodnie jest nanieść w węzłach wewnętrznych drzewa kryteria podziału s, a liściom przyporządkować etykiety klas.

Wprowadzenie Podsumowując, każdy klasyfikator zbudowany w oparciu o drzewo klasyfikacyjne T ma następującą postać: ˆd T (x) = t T ind(t)i (x t).

Wprowadzenie Najpopularniejsze metody konstrukcji drzew klasyfikacyjnych to: CHAID, CART, C4.5, QUEST, CRUISE.

Konstrukcja Konstrukcja drzewa klasyfikacyjnego oparta jest na próbie uczącej L n = {(x 1, y 1 ),..., (x n, y n )}, gdzie x j jest wektorem obserwowanych cech, a y j etykietą klasy (j = 1, 2,..., n). Składa się ona z trzech podstawowych elementów: 1 wyboru metody optymalnego podziału węzłów, 2 doboru optymalnej wielkości drzewa klasyfikacyjnego, czyli reguły decydującej o tym czy dany węzeł ma być węzłem końcowym, czy ma podlegać dalszemu podziałowi, 3 sposobu w jaki każdemu węzłowi końcowemu przyporządkowujemy etykietę klasy.

Konstrukcja Wprowadźmy następujące oznaczenia: n i to liczba obserwacji w próbie uczącej L n należących do i tej klasy, n i (t) liczba obserwacji w węźle t należących do i tej klasy (i = 1,..., K). Wtedy n = n 1 + + n K jest liczbą obserwacji uczących, a n(t) = n 1 (t) + + n K (t) jest liczbą obserwacji uczących w węźle t. Dla dowolnego obiektu Z = (X, Y ) określmy następujące prawdopodobieństwa: p(t) = P(X t), p(t i) = P(X t Y = i), K p(t) = π i p(t i), i=1 gdzie π i jest prawdopodobieństwem a priori tego, że obiekt należy do i tej klasy (i = 1,..., K).

Konstrukcja Przyjmując estymator częstościowy prawdopodobieństwa p(t i) postaci ˆp(t i) = n i(t) n i oraz jeżeli prawdopodobieństwa a priori π i oszacujemy przez n i /n to otrzymujemy następujący estymatory: ˆp(t) = K i=1 π i n i (t) n i = n(t) n, p(i t) = π ip(t i) p(t) = n i(t) n(t).

Konstrukcja Ogólnie rzecz biorąc, każdy podział s generowany jest przez odpowiadające mu pytanie postaci: czy x A, A X? Postać powyższego pytania jest bardzo ogólna. Może ona dotyczyć jedynie jednej cechy (podziały jednowymiarowe) lub wielu cech (podziały wielowymiarowe). Poszukując optymalnego podziału s rozważyć powinniśmy możliwie duży zbiór pytań. Im jednak będzie on większy tym bardziej skomplikowana i długa będzie droga wyboru optymalnego podziału s.

Konstrukcja Każdy podział s jest uwarunkowany przez obserwacje ze zbioru uczącego L n, należące do danego węzła t. Praktycznie trzeba zatem rozdzielić je na dwa podzbiory możliwie jednorodne ze względu na etykietę klasy. Gdyby zatem w węźle t znajdowały się obserwacje tylko z dwóch klas, to idealnym byłby taki podział, który przypisałby obserwacje uczące z jednej klasy do węzła t L, a z drugiej klasy do węzła t R. Dla każdego węzła t określmy pewną miarę i(t) niejednorodności elementów w tym węźle. Stąd, dla każdego podziału s węzła t będziemy mogli zmierzyć niejednorodność elementów w tym węźle oraz w jego potomkach t L i t R.

Konstrukcja Niech φ oznacza funkcję określoną dla wszystkich K-elementowych ciągów prawdopodobieństw (p 1, p 2,..., p K ) takich, że K i=1 p i = 1, p i 0 (i = 1, 2,..., K), spełniającą następujące warunki: 1 funkcja φ osiąga maksimum tylko w punkcie ( 1 K, 1 K,..., 1 K ), 2 funkcja φ osiąga minimum tylko w punktach: (1, 0,..., 0), (0, 1,..., 0),..., (0, 0,..., 1), 3 funkcja φ jest symetryczną funkcją swoich argumentów. Miarę niejednorodności i(t) w węźle t definiujemy następująco: i(t) = φ(p(1 t),..., p(k t)).

Konstrukcja 1 2 3 φ 1 (p 1,..., p K ) = 1 max{p 1,..., p K }. Miara niejednorodności oparta o tę funkcję określa błąd klasyfikacji. φ 2 (p 1,..., p K ) = K p i log p i. i=1 Funkcja ta nazywana jest funkcją entropii. φ 3 (p 1,..., p K ) = 1 K pi 2. i=1 Funkcja ta nazywana jest indeksem Giniego. Wybierany jest taki podział, który daje maksymalną redukcję niejednorodności indeksu przynależności do klasy w węźle.

Konstrukcja

Konstrukcja Wybór optymalnej wielkości drzewa klasyfikacyjnego jest równoważny z podaniem reguły decydującej o tym czy dany węzeł ma podlegać podziałowi czy ma być liściem drzewa. Zwróćmy uwagę, że stosując metodę ponownego podstawiania do szacowania poprawności klasyfikacji za pomocą drzewa klasyfikacyjnego T dochodzimy do następującego wniosku: jeżeli drzewo klasyfikacyjne T powstało z drzewa klasyfikacyjnego T poprzez podział dowolnego węzła końcowego, to ê R (T ) ê R (T ). Co więcej, kontynuując odpowiednio długo proces dzielenia węzłów otrzymamy maksymalne drzewo klasyfikacyjne T max, dla którego w każdym węźle końcowym znajdować się będą tylko te obiekty z próby uczącej L n, które należą do tej samej klasy.

Konstrukcja Budując jednak zbyt duże drzewo klasyfikacyjne mamy do czynienia z tzw. efektem przetrenowania. Polega on na tym, że drzewo doskonale klasyfikuje obiekty z próby uczącej L n lecz coraz słabiej (w miarę zwiększania liczby liści) nowe elementy. z

Konstrukcja Pojawia się zatem problem optymalnego wyboru wielkości drzewa klasyfikacyjnego. Prostym rozwiązaniem (niestety dającym zwykle słabe rezultaty) jest wprowadzenie tzw. reguły stopu. Najprostsza reguła tego typu, każe nie dzielić dalej węzła t, gdy liczba przyporządkowanych mu obserwacji ze zbioru uczącego L n jest odpowiednio mała. Inna reguła stopu każe uznać węzeł t za końcowy, po uzyskaniu odpowiedniej jednorodności drzewa klasyfikacyjnego T.

Konstrukcja Bardziej efektywnym podejściem (choć zwiększającym znacząco czasochłonność procesu konstrukcji optymalnego drzewa klasyfikacyjnego) jest procedura polegająca na wstępnym tworzeniu drzewa maksymalnego, a następnie na selektywnym przycinaniu jego krawędzi. Proces przycinania ma na celu modyfikację postaci maksymalnego drzewa klasyfikacyjnego w ten sposób, aby uzyskać nowe drzewo, które daje możliwie minimalne prawdopodobieństwo błędnej klasyfikacji. Prowadzi on do redukcji wielkości drzewa wyeliminowane zostają te podziały, które nie mają istotnego znaczenia dla poprawności klasyfikacji.

Konstrukcja Ocena błędu dla poddrzewa jest sumą ważoną błędów jego liści. Ocena błędu (e) dla węzła (liścia) ma postać: e = f + z2 2N + z f N f 2 N + z2 4N 2, 1 + z2 N gdzie f jest błędem na zbiorze uczącym, N jest liczbą obserwacji w węźle (liściu), z jest kwantylem z rozkładu normalnego, odpowiadającym poziomowi ufności 1 α (w poniższym przykładzie α = 25%).

Konstrukcja Błąd w węźle rodzicu wynosi 0,46, a w węźle potomku 0,51. Czyli ten podział zwiększa błąd, zatem powinniśmy przyciąć.

Konstrukcja Jednym z podstawowych elementów drzewa klasyfikacyjnego jest określona na liściach drzewa funkcja ind. Przyporządkowuje ona etykietę klasy każdemu z węzłów końcowych. Zdefiniujmy ją następująco: ind(t) = arg max 1 i K ˆp(i t). Jeżeli maksimum wypada dla dwóch lub więcej klas, wybór jednej z nich jest dowolny.

zalety 1 możliwość wykorzystania do klasyfikacji zarówno cech ilościowych jak i jakościowych, 2 prosta forma końcowa drzewa klasyfikacyjnego umożliwiająca w szybki i efektywny sposób klasyfikację nowych obiektów, 3 odporność na obserwacje odstające i sytuacje, w których niektóre zmienne są nieobserwowane, 4 intuicyjna interpretacja.

wady 1 niestabilność nawet niewielkie zmiany próby uczącej mogą prowadzić do dużych różnic w końcowej postaci drzewa, 2 problemy z jakością klasyfikacji.

idea Obecnie bardzo coraz popularną metodą są lasy losowe, zaproponowane przez Breimana (1995). Jest to metoda łączenia wielu drzew klasyfikacyjnych. Wpierw losujemy K prób bootstrapowych, dla każdej z nich konstruujemy drzewo klasyfikacyjne w taki sposób, że w każdym węźle losujemy m (mniej niż liczba wszystkich cech) cech, które będą uczestniczyły w wyborze najlepszego podziału. Drzewa budowane są bez przycinania. Ostatecznie obserwacja klasyfikowana jest poprzez metodę głosowania. Jedynym parametrem metody jest współczynnik m, który powinien być znacznie mniejszy od wymiaru danych p, i przyjmuje się najczęściej (klasyfikacja) jego wartość równą m = p. Szybkość konstrukcji lasów losowych pozwala używać je nawet dla bardzo dużych danych. Oprócz klasyfikacji lasy losowe mogą być wykorzystane w regresji oraz analizie przeżycia.

Top R Packages for Machine Learning (2017) KDnuggets

Machine Learning Workflow