Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Podobne dokumenty
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

ALGORYTM RANDOM FOREST

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Drzewa decyzyjne i lasy losowe

Algorytmy klasyfikacji

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Regresyjne metody łączenia klasyfikatorów

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wprowadzenie. Data Science Uczenie się pod nadzorem

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Metody klasyfikacji danych - część 1 p.1/24

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Analiza składowych głównych. Wprowadzenie

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Indukowane Reguły Decyzyjne I. Wykład 8

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Metody systemowe i decyzyjne w informatyce

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Co to są drzewa decyzji

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

METODY INŻYNIERII WIEDZY

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Statystyka w pracy badawczej nauczyciela

Elementy statystyki wielowymiarowej

Wprowadzenie do klasyfikacji

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Optymalizacja systemów

Automatyczne wyodrębnianie reguł

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1

Optymalizacja ciągła

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Agnieszka Nowak Brzezińska Wykład III

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Temat: Algorytm kompresji plików metodą Huffmana

Elementy modelowania matematycznego

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testowanie modeli predykcyjnych

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Metody scoringowe w regresji logistycznej

Drzewa decyzyjne w SAS Enterprise Miner

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Agnieszka Nowak Brzezińska Wykład III

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Wnioskowanie bayesowskie

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

9.9 Algorytmy przeglądu

Rozpoznawanie obrazów

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Indukowane Reguły Decyzyjne I. Wykład 3

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Ważne rozkłady i twierdzenia c.d.

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Elementy teorii informacji i kodowania

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Szkolenie Analiza dyskryminacyjna

Kilka prostych programów

Klasyfikacja LDA + walidacja

Priorytetyzacja przypadków testowych za pomocą macierzy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Drzewa klasyfikacyjne algorytm podstawowy

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych DRZEWA KLASYFIKACYJNE ICH BUDOWA, PROBLEMY ZŁOŻONOŚCI I SKALOWALNOŚCI

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Metody systemowe i decyzyjne w informatyce

Podstawy Informatyki. Metody dostępu do danych

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

SZTUCZNA INTELIGENCJA

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Ewelina Dziura Krzysztof Maryański

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Poprawność semantyczna

166 Wstęp do statystyki matematycznej

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wykład 10 Skalowanie wielowymiarowe

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

W1. Wprowadzenie. Statystyka opisowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody probabilistyczne klasyfikatory bayesowskie

Systemy uczące się Lab 4

Transkrypt:

Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.Wkażdymkrokupodziałdokonywanyjesttak,aby uzyskane części były możliwie jednorodne. Podzbiory które nie podlegają dalszemu podziałowi nazywać będziemy końcowymi. Do każdego podzbioru końcowego przypisana jest dokładnie jedna etykieta klasy.

Wprowadzenie Idea konstrukcji drzew klasyfikacyjnych jest bardzo podobna do metody stosowanej w diagnostyce medycznej. Lekarz pragnący zdiagnozować pacjenta zadaje mu szereg pytań. Kolejność pytań nie jest przypadkowa, a następne pytanie jest często uzależnione od uzyskanej odpowiedzi na pytanie poprzednie. Przykładowo, lekarz zaczyna od pytania najważniejszego ze względu na diagnozę, np. pytania o wiek pacjenta. Załóżmy, że istotne jest czy pacjent przekroczył 60 rok życia, czy nie. Sam wiek pacjenta nie jest wystarczającą informacją potrzebną do podjęcia decyzji. Zatem lekarz zadaje następne pytanie. Zwróćmy uwagę, że być może w grupie osób starszych(wiek > 60) będzie ono dotyczyło poziomu cholesterolu we krwi, bo ta właśnie informacja jest najważniejsza w tejgrupiewiekowej.zkoleiwgrupieosóbmłodszych(wiek 60) pytanie będzie dotyczyło ciśnienia tętniczego krwi bo ta właśnie informacja jest w tej grupie najważniejsza. Postępując w ten sposób, po kilku krokach, lekarz jest w stanie podjąć decyzję.

Wprowadzenie Opisany powyżej proces można przedstawić graficznie przy pomocy drzewa(stąd nazwa metody). Niech T oznacza drzewo klasyfikacyjne. Węzły(wierzchołki) drzewa T utożsamiać będziemy z podzbiorami przestrzeni próby X i oznaczać literą t. Węzły odpowiadające podzbiorom końcowym nazywać będziemy liśćmi, a zbiórwszystkichliścidrzewatoznaczaćbędziemyprzez T.

Wprowadzenie

Wprowadzenie Cechą charakterystyczną drzewa klasyfikacyjnego są związane z nimdwiefunkcje.określonanazbiorzeliści Tfunkcjaind przyporządkowująca każdemu z nich etykietę klasy oraz określona dla każdego węzła wewnętrznego funkcja podziału s. Funkcja ta każdemu elementowi węzła t przyporządkowuje jedną z dwóch wartości prawda lub fałsz. Wszystkie elementy z węzła t dla których podział s przyjmuje wartość prawda są przyporządkowywanedowęzłapotomkat L,ateelementydla którychpodziałsprzyjmujewartośćfałszdowęzłapotomkat R.

Wprowadzenie Prezentując graficznie drzewo klasyfikacyjne wygodnie jest nanieść w węzłach wewnętrznych drzewa kryteria podziału s, a liściom przyporządkować etykiety klas.

Wprowadzenie Podsumowując, każdy klasyfikator zbudowany w oparciu o drzewo klasyfikacyjne T ma następującą postać: ˆd T (x) = t T ind(t)i(x t).

Wprowadzenie Najpopularniejsze metody konstrukcji drzew klasyfikacyjnych to: CHAID, CART, C4.5, QUEST, CRUISE.

Konstrukcja Konstrukcja drzewa klasyfikacyjnego oparta jest na próbie uczącej L n = {(x 1,y 1 ),...,(x n,y n )},gdziex j jestwektorem obserwowanychcech,ay j etykietąklasy (j =1,2,...,n). Składa się ona z trzech podstawowych elementów: 1 wyboru metody optymalnego podziału węzłów, 2 doboru optymalnej wielkości drzewa klasyfikacyjnego, czyli regułydecydującejotymczydanywęzełmabyćwęzłem końcowym, czy ma podlegać dalszemu podziałowi, 3 sposobu w jaki każdemu węzłowi końcowemu przyporządkowujemy etykietę klasy.

Konstrukcja Wprowadźmynastępująceoznaczenia:n i toliczbaobserwacjiw próbieuczącej L n należącychdoi tejklasy,n i (t)liczbaobserwacji wwęźletnależącychdoi tejklasy(i =1,...,K).Wtedy n =n 1 + +n K jestliczbąobserwacjiuczących,a n(t) =n 1 (t)+ +n K (t)jestliczbąobserwacjiuczącychwwęźle t. DladowolnegoobiektuZ = (X,Y)określmynastępujące prawdopodobieństwa: p(t) =P(X t), p(t i) =P(X t Y =i). K p(t) = π i p(t i), i=1 gdzie π i jestprawdopodobieństwemaprioritego,żeobiektnależy doi tejklasy(i =1,...,K).

Konstrukcja Przyjmując estymator częstościowy prawdopodobieństwa p(t i) postaci ˆp(t i) = n i(t) n i orazjeżeliprawdopodobieństwaapriori π i oszacujemyprzezn i /n to otrzymujemy następujący estymatory: ˆp(t) = K i=1 π i n i (t) n i = n(t) n. p(i t) = π ip(t i) p(t) = n i(t) n(t).

Konstrukcja Ogólnie rzecz biorąc, każdy podział s generowany jest przez odpowiadające mu pytanie postaci: czyx A,A X? Postać powyższego pytania jest bardzo ogólna. Może ona dotyczyć jedynie jednej cechy(podziały jednowymiarowe) lub wielu cech (podziały wielowymiarowe). Poszukując optymalnego podziału s rozważyć powinniśmy możliwie duży zbiór pytań. Im jednak będzie on większy tym bardziej skomplikowana i długa będzie droga wyboru optymalnego podziału s.

Konstrukcja Każdy podział s jest uwarunkowany przez obserwacje ze zbioru uczącego L n,należącedodanegowęzłat.praktycznietrzeba zatem rozdzielić je na dwa podzbiory możliwie jednorodne ze względu na etykietę klasy. Gdyby zatem w węźle t znajdowały się obserwacje tylko z dwóch klas, to idealnym byłby taki podział, któryprzypisałbyobserwacjeuczącezjednejklasydowęzłat L,az drugiejklasydowęzłat R.Dlakażdegowęzłatokreślmypewną miarę i(t) niejednorodności elementów w tym węźle. Stąd, dla każdego podziału s węzła t będziemy mogli zmierzyć niejednorodnośćelementówwtymwęźleorazwjegopotomkacht L it R.

Konstrukcja Niech φ oznacza funkcję określoną dla wszystkich K-elementowych ciągówprawdopodobieństw (p 1,p 2,...,p K )takich,że K i=1 p i =1,p i 0 (i =1,2,...,K),spełniającąnastępujące warunki: 1 funkcja φosiągamaksimumtylkowpunkcie ( 1 K,1 K,...,1 K ), 2 funkcja φosiągaminimumtylkowpunktach: (1,0,...,0), (0,1,...,0),...,(0,0,...,1), 3 funkcja φ jest symetryczną funkcją swoich argumentów. Miarę niejednorodności i(t) w węźle t definiujemy następująco: i(t) = φ(p(1 t),...,p(k t)).

Konstrukcja 1 2 3 φ 1 (p 1,...,p K ) =1 max{p 1,...,p K }. Miara niejednorodności oparta o tę funkcję określa błąd klasyfikacji. φ 2 (p 1,...,p K ) = K p i logp i. i=1 Funkcja ta nazywana jest funkcją entropii. φ 3 (p 1,...,p K ) =1 K pi 2. i=1 Funkcja ta nazywana jest indeksem Giniego. Wybierany jest taki podział, który daje maksymalną redukcję niejednorodności indeksu przynależności do klasy w węźle.

Konstrukcja Wybór optymalnej wielkości drzewa klasyfikacyjnego jest równoważny z podaniem reguły decydującej o tym czy dany węzeł ma podlegać podziałowi czy ma być liściem drzewa. Zwróćmy uwagę, że stosując metodę ponownego podstawiania do szacowania poprawności klasyfikacji za pomocą drzewa klasyfikacyjnego T dochodzimy do następującego wniosku: jeżeli drzewo klasyfikacyjnet powstałozdrzewaklasyfikacyjnegotpoprzez podział dowolnego węzła końcowego, to ê R (T ) ê R (T). Co więcej, kontynuując odpowiednio długo proces dzielenia węzłów otrzymamymaksymalnedrzewoklasyfikacyjnet max,dlaktóregow każdym węźle końcowym znajdować się będą tylko te obiekty z próbyuczącej L n,którenależądotejsamejklasy.

Konstrukcja Budując jednak zbyt duże drzewo klasyfikacyjne mamy do czynienia z tzw. efektem przetrenowania. Polega on na tym, że drzewodoskonaleklasyfikujeobiektyzpróbyuczącej L n leczcoraz słabiej(w miarę zwiększania liczby liści) nowe elementy.

Konstrukcja Pojawia się zatem problem optymalnego wyboru wielkości drzewa klasyfikacyjnego. Prostym rozwiązaniem(niestety dającym zwykle słabe rezultaty) jest wprowadzenie tzw. reguły stopu. Najprostsza regułategotypu,każeniedzielićdalejwęzłat,gdyliczba przyporządkowanychmuobserwacjizezbioruuczącego L n jest odpowiednio mała. Inna reguła stopu każe uznać węzeł t za końcowy, po uzyskaniu odpowiedniej jednorodności drzewa klasyfikacyjnego T.

Konstrukcja Bardziej efektywnym podejściem(choć zwiększającym znacząco czasochłonność procesu konstrukcji optymalnego drzewa klasyfikacyjnego) jest procedura polegająca na wstępnym tworzeniu drzewa maksymalnego, a następnie na selektywnym przycinaniu jego krawędzi. Proces przycinania ma na celu modyfikację postaci maksymalnego drzewa klasyfikacyjnego w ten sposób, aby uzyskać nowe drzewo, które daje możliwie minimalne prawdopodobieństwo błędnej klasyfikacji. Prowadzi on do redukcji wielkości drzewa wyeliminowane zostają te podziały, które nie mają istotnego znaczenia dla poprawności klasyfikacji.

Konstrukcja Jednym z podstawowych elementów drzewa klasyfikacyjnego jest określona na liściach drzewa funkcja ind. Przyporządkowuje ona etykietę klasy każdemu z węzłów końcowych. Zdefiniujmy ją następująco: ind(t) =argmax 1 i K ˆp(i t). Jeżeli maksimum wypada dla dwóch lub więcej klas, wybór jednej z nich jest dowolny.

zalety 1 możliwość wykorzystania do klasyfikacji zarówno cech ilościowych jak i jakościowych, 2 prosta forma końcowa drzewa klasyfikacyjnego umożliwiająca w szybki i efektywny sposób klasyfikację nowych obiektów, 3 odporność na obserwacje odstające i sytuacje, w których niektóre zmienne są nieobserwowane, 4 intuicyjna interpretacja.

wady 1 niestabilność nawet niewielkie zmiany próby uczącej mogą prowadzić do dużych różnic w końcowej postaci drzewa, 2 problemy z jakością klasyfikacji.

R Odpowiednie funkcje znajdują się w pakiecie tree oraz w pakiecie rpart: tree konstrukcja drzewa prune przycinanie plot, text wizualizacja

Lasylosowe idea Obecnie coraz popularniejszą metodą stają się lasy losowe, zaproponowane przez Breimana. Jest to metoda łączenia wielu drzew klasyfikacyjnych. Wpierw losujemy K prób bootstrapowych, dla każdej z nich konstruujemy drzewo klasyfikacyjne w taki sposób, że w każdym węźle losujemy m(mniej niż liczba wszystkich cech) cech, które będą uczestniczyły w wyborze najlepszego podziału. Drzewa budowane są bez przycinania. Ostatecznie obserwacja klasyfikowana jest poprzez metodę głosowania. Jedynym parametrem metody jest współczynnik m, który powinien być znacznie mniejszy od wymiaru danych p, i przyjmuje się najczęściejjegowartośćrównąm = p.łatwośćiszybkość konstrukcji lasów losowych pozwala używać je nawet dla bardzo dużych danych. Jest to aktualnie jedna z najskuteczniejszych, obok SVM oraz boostingu, metod klasyfikacji. Oprócz klasyfikacji lasy losowe mogą być wykorzystane w regresji oraz analizie przeżycia.

Lasylosowe R Do konstrukcji lasów wykorzystywane jest polecenie randomforest zpakietuotejsamejnazwie.