WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Podobne dokumenty
WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Drzewa decyzyjne i lasy losowe

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Algorytmy klasyfikacji

Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu).

Indukowane Reguły Decyzyjne I. Wykład 3

Stosowana Analiza Regresji

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Indukowane Reguły Decyzyjne I. Wykład 8

Agnieszka Nowak Brzezińska Wykład III

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ED Laboratorium 3. Drzewa decyzyjne

Agnieszka Nowak Brzezińska Wykład III

ALGORYTM RANDOM FOREST

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Agnieszka Nowak Brzezińska

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Analiza składowych głównych. Wprowadzenie

WYKŁAD: Estymacja funkcji regresji I. Zaawansowane Metody Uczenia Maszynowego

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Tadeusz Pankowski

Metody klasyfikacji danych - część 1 p.1/24

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Prawdopodobieństwo i statystyka

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Podstawy Informatyki. Metody dostępu do danych

Regresyjne metody łączenia klasyfikatorów

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Drzewa klasyfikacyjne algorytm podstawowy

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wprowadzenie. Data Science Uczenie się pod nadzorem

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Rozdział 8. Regresja. Definiowanie modelu

Drzewa decyzyjne w SAS Enterprise Miner

Stosowana Analiza Regresji

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Komputerowa Analiza Danych Doświadczalnych

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Optymalizacja ciągła

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Programowanie liniowe metoda sympleks

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Prawdopodobieństwo i statystyka

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

Indukcja drzew decyzyjnych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Co to są drzewa decyzji

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Algorytmy klasyfikacji

Spacery losowe generowanie realizacji procesu losowego

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Optymalizacja wielokryterialna

Własności statystyczne regresji liniowej. Wykład 4

Weryfikacja hipotez statystycznych

Hierarchiczna analiza skupień

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi.

Estymacja parametrów rozkładu cechy

Wysokość drzewa Głębokość węzła

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Metoda simpleks. Gliwice

ALGORYTMY I STRUKTURY DANYCH

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Wykład 3 Momenty zmiennych losowych.


Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Metody Eksploracji Danych. Klasyfikacja

Wykład 3 Momenty zmiennych losowych.

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Statystyka i eksploracja danych

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Transkrypt:

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego

Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty: nominalne, nominalne na skali porządkowej, ciągłe) lub do konstrukcji estymatorów funkcji regresji Y = f (X) + ε = E(Y X ) + ε gdzie ε błąd losowy, taki, że Eε = 0. Omówimy metodologię wprowadzoną przez Breimana i in. (1984): Classification and Regression Trees (CART). Inne podejście Quinlan (1993,2004) C4.5, C.5 (www.rulequest.com)

E(Y X ) jako rzut Y ε = Y E(Y X ) E(Y X ) Podprzestrzeń X = {f (X ), f L 2 } Rysunek: E(Y X ) jest rzutem ortogonalnym Y na X = {g(x ), g L 2 }

Drzewo graf skierowany, acykliczny, spójny, wierzchołek wyróżniony - korzeń drzewa. Drzewa binarne z każdego wierzchołka wychodzą 2 krawędzie (lub 0)(dla liści) A B C D E B, D, F, G liście F G D i E są dziećmi węzła C, F i G jego potomkami Konwencja: drzewa rosną od góry do dołu korzeń na górze rysunku, liście na dole

W każdym węźle warunek logiczny {X i c} (lub {X i < c}, {X i > c}) spełniony: ścieżka lewa niespełniony: scieżka prawa Zmienna X i jest jedną ze zmiennych objaśniających i z reguły zmienia się przy przejściu z węzła do węzła. W rezultacie z każdym liściem związana jest hiperkostka określona przez warunki na drodze łączącej liść z korzeniem, hiperkostki tworzą rozbicie X = R p. Dla drzewa klasyfikacyjnego: decyzja związana z liściem: wybierz tę klasę, do której należy większość elementów próby uczącej, które trafiły do danego liścia po przepuszczeniu przez drzewo; dla drzewa regresyjnego: x R m kostka w przestrzeni X wyznaczona przez liść Ê(Y X = x) = średnia z wartości y dla elementów znajdujących się w liściu

Przykład. Występowanie cukrzycy wśród Indianek Pima (Arizona, USA). y pos (przypadki dodatnie) y neg (przypadki ujemne) X : liczba ciąż, wynik testu glukozowego ( (56, 199)), ciśnienie rozkurczowe, grubość fałdy skórnej na tricepsie (mm), indeks masy ciała BMI (ciężar / (wzrost w m) 2 ), współczynnik podatności na cukrzycę ( (0.085, 2.42)), wiek n = 532, z tego 33% cukrzyca Liść nr 4: test glukozowy < 127.5, wiek < 28.5, osoby w tym liściu zaklasyfikowane jako zdrowe, 214 elementów, w tym 16 błędnie sklasyfikowanych.

1 Neg 2 Neg 4 Neg 5 Pos 10 Neg 20 Neg 21 Pos 42 Neg 43 Pos 11 Pos 22 Neg 23 Pos 46 Neg 47 Pos 3 Pos 6 Neg 12 Neg 13 Pos 26 Neg 52 Neg 53 Pos 106 Neg 212 Neg 424 Neg 425 Pos 213 Pos 107 Pos 27 Pos 7 Pos Glucose<127,5 177/532 Glucose 127,5 Age<28,5 59 343 Age 28,5 Glucose<157,5 71 189 Glucose 157,5 16 214 43 129 54 113 12 76 20 87 19 42 7 34 32 79 7 52 13 35 0 7 12 35 29 59 2 20 7 27 2 8 3 10 5 25 3 15 18 44 15 31 2 13 8 21 3 10 Pedigree 0,62 Body<30,2 Glucose 110 Body 26,5 Age 42,5 Pregnant 1 Glucose 96,5 Pedigree 0,285 Glucose<135,5 Body<41,55 Body 35,65

Reguły podziału - funkcje różnorodności Reguły podziału w węzłach drzewa klasyfikacyjnego. Podpróba znajdująca się w węźle charakteryzuje się pewną różnorodnością (zróżnicowaniem) klas. Dążymy do tego, żeby różnorodność (zróżnicowanie) klas dla dzieci węzła była jak najmniejsza. węzeł: 80 klasa 1, 20 klasa 2 idealny podział (zmniejszył różnorodność klas w dzieciach do 0) potomek lewy: 80 (klasa 1) potomek prawy: 20 (klasa 2)

Potrzebujemy: miary różnorodności klas w węźle; oceny zmiany różnorodności klas po przejściu o poziom wyżej; algorytmu maksymalizacji zmiany różnorodności. (x i, y i ), i = 1, 2,..., n próba ucząca węzeł m wyznaczony przez warunek x R m X frakcja elementów z klasy k w węźle m ˆp mk = 1 n m I (y i = k) = n mk n m x i R m n m liczba obserwacji w węźle m n mk liczba obserwacji z klasy k w węźle m Rozsądna miara różnorodności klas powinna być = 0, gdy elementy tylko z jednej klasy = max, gdy ˆp m1 = ˆp m2 = = ˆp mg = 1/g

Miary zmienności dla zmiennych jakościowych: entropia X : zmienna jakościowa o wartościach 1,..., k (oznaczenia wartości). p = (p 1,..., p k ), p i = P(X = i): rozkład X. Entropia rozkładu X H(p) = k p i log p i Własności: H(p) 0; H(p) = 0 i o : p i0 = 1 H(p) log k (górne ograniczenie dla rozkładu jednostajnego p i = 1/k). i=1

Miary zmienności dla zmiennych jakościowych: indeks Giniego p = (p 1, p 2..., p k ). Z, Z dwie niezależne zmienne losowe przyjmujące wartość i z prawdopodobieństwem p i. Miara zmienności tego rozkładu: prawdopodobieństwo, że te dwie zmienne są różne. P(Z Z ) = = k k P(Z Z Z = i)p(z = i) = P(Z i)p i i=1 k (1 p i )p i = 1 k i=1 i=1 p 2 i i=1 Dwie pierwsze własności takie same jak dla entropii. Inne ograniczenie G(p) 1 1 k ale górne ograniczenie też dla rozkładu jednostajnego

k(m) = arg max k ˆp mk (1) Miary różnorodności klas w węźle m drzewa T 1 ˆp mk(m) g ˆp Q m (T ) = mk (1 ˆp mk ) k=1 indeks Giniego (2) g ˆp mk log ˆp mk k=1 entropia p = (p 1, p 2..., p k ). Z, Z dwie niezależne zmienne losowe przyjmujące wartość i z prawdopodobieństwem p i. Indeks Giniego dla p = k i=1 p i(1 p i ) = P(Z Z ). Interpretacja indeksu Giniego w drzewie klasyfikacyjnym: oszacowanie pr. błędnej decyzji, gdy obserwacje klasyfikowane są do klasy k z pr. ˆp mk.

W przypadku dwóch klas, g = 2, podane trzy miary przyjmują postać: 1 max(p, 1 p) Q m (T ) = 2p(1 p) (3) p log p (1 p) log (1 p), p: jest ułamkiem przynależności do klasy 2. (Na rysunku entropia przemnożona przez 0.5)

Oznaczmy dzieci węzła-rodzica m symbolami m L i m R. ˆp L = n m L n m ˆp R = n m R n m = 1 ˆp L ˆp L (ˆp R ) jest ułamkiem elementów próby uczącej, które z węzła m przeszły do m L (m R ), a n ml (n mr ) oznacza liczbę obserwacji w m L (m R ).

Łączną miara różnorodności klas w dzieciach węzła m Q ml,m R (T ) = ˆp L Q ml (T ) + ˆp R Q mr (T ), uśredniona miara różnorodności w dzieciach. Uśrednienie uwzględnia frakcje obserwacji w lewym i prawym potomku. Zmiana różnorodności klas przy przejściu od rodzica do dzieci Q ml,m R (T ) = Q m (T ) Q ml,m R (T ).

Uwaga: Indeks Giniego i entropia bardziej czułe na zmiany rozkładów klas niż proporcja błędnych klasyfikacji. Rysunek: dla frakcji błędnych klasyfikacji Q ml,m R (T ) = w obu przypadkach taka sama, gdy drugi daje (intuicyjnie!) większe zmniejszenie różnorodności klas. Cel: maksymalizacja Q ml,m R (T ) ze względu na zmienną objaśniającą i próg c.

Atrybuty nominalne Dla atrybutu nominalnego przyjmującego L wartości: gdyby przyjąć podział na podstawie dowolnego podzbioru wartości, to mielibyśmy 1 2 2L 1 = 2 L 1 1 podziałów Duży koszt obliczeniowy. Ograniczmy się do podziałów: {x i c k }, ale zakładamy, że zmienna x i na skali porządkowej. Problem: czy odpowiednio porządkując wartości optymalny podział będzie postaci {x i c k }? Okazuje się, że tak!

Atrybuty nominalne cd Dla nominalnej cechy x i przyjmującej L wartości i g = 2 porządkujemy jej wartości x (k) i według p(1 x (k) i ) i traktujemy ją jako cechę na skali porządkowej tzn x (k) i x (l) i p(1 x (k) i ) < p(1 x (l). Twierdzenie (por. tw. 4.1 w KC (2005)). W przypadku miary różnorodności Giniego i entropii ograniczenie się do podziałów postaci {x i c k } prowadzi do wyboru optymalnego podziału spośród wszystkich 2 L 1 1 podziałów. i )

Drzewa regresyjne Szukamy podziału m na m L i m R, aby SSE(m L ) + SSE(m R ) ( ) było minimalne. SSE(m L ) suma kwadratów rezyduów, gdy regresja dla m L estymowana jest przez średnią próbkową wartości zmiennej objaśnianej dla tego węzła itd. Minimalizacja ( ) równoważna maksymalizacji różnicy zmiany SSE przy przejściu od rodzica do dzieci. Uwaga Miarą róznorodności w w węźle m jest średni SSE 1 n m SS(m), gdzie n m : liczba obserwacji w węźle m.

Drzewa regresyjne cd Postać estymatora regresji: regule większościowej dla drzewa klasyfikacyjnego odpowiada reguła: najlepsza stała minimializująca bład średniokwadratowy w liściu, czyli średnia wartości w liściu. Estymator regresji na podstawie drzewa: Średnia wartości w liściu Estymator stały na kostkach zadanych przez liście. Uogólnienie: metoda MARS Wada niestabilność estymatora przy małych zmianach w danych

Strategia wyboru najlepszego drzewa Utwórz pełne drzewo T 0 zatrzymując podziały kiedy pewna minimalna wielkość węzła została osiągnięta; przy różnych parametrach określających koszt złożoności drzew przytnij drzewo T 0 do mniejszego drzewa; spośród tak utworzonej skończonej rodziny drzew wybierz drzewo dające najmniejszy błąd w oparciu o kroswalidację.

Reguły przycinania drzew: pruning Kontynuując metodę optymalnych podziałów dojdziemy do drzewa z (najczęsciej) jednoelementowymi liśćmi (przeuczenie - przetrenowanie drzewa) R(T ) miara niedoskonałości drzewa dla drzewa klasyfikacyjnego: frakcja błędnych klasyfikacji dla drzewa regresyjnego: liście SSE Wprowadzamy karę za złożoność drzewa R α (T ) = R(T ) + α T ( ) T - liczba liści w drzewie T, α > 0. Przy ustalonym α minimalizujemy R α (T ). Uwaga: analogiczne postępowanie jak w metodach kryterialnych selekcji w regresji: kara proporcjonalna do liczby parametrów (predyktorów) w modelu!

Reguły przycinania drzew cd Dla α = 0: drzewo pełne T 0, duże α: sam korzeń. Zwiększając α od 0 dostaniemy dyskretną rodzinę poddrzew T j drzewa T 0 takich że T j minimalizuje (*) dla α [α j, α j+1 ), j = 1, 2,..., k. Wybieramy dobre drzewo spośród drzew T 1, T 2,..., T k (kandydatów na dobre drzewa). Metodą kroswalidacji liczymy R CV (T i ). Później wyznaczamy j 0 : R CV (T j0 ) = min j R CV (T j ) (!)

Reguła 1SE reguła 1SE Wybieramy najmniejsze drzewo T j dla którego R CV (T j ) R CV (T j0 ) + SE(R CV (T j0 )), gdzie SE(R CV (T j0 )) = (R CV (T j0 )(1 R CV (T j0 ))/V ) 1/2, błąd standardowy dla kroswalidacji V-krotnej. Reguła 1SE uwzględnia wypłaszczanie się funkcji R CV (T j ) w okolicach minimum.

Ozone data Przykład. Zależność między stężeniem ozonu (O3), a warunkami meteo: sbtp temperatura hmdt wilgotność powietrza vsty visibility ibtp inversion base temperature dgpg gradient ciśnienia, ibht inversion base height temp< 67.5 ibh>=3574 ibt< 226.5 5.148 dpg< 9.5 humidity< 59.5doy>=306.5 6.457 ibt< 159 10.8 17.09 16 vis>=55 9.05 14.35 22.94 27.41

node), split, n, deviance, yval * denotes terminal node 1) root 330 21115.4100 11.775760 2) temp< 67.5 214 4114.3040 7.425234 4) ibh>=3573.5 108 689.6296 5.148148 * 5) ibh< 3573.5 106 2294.1230 9.745283... 3) temp>=67.5 116 5478.4400 19.801720 6) ibt< 226.5 55 1276.8360 15.945450 30) vis>=55 36 1149.8890 22.944440 * 31) vis< 55 17 380.1176 27.411760 * CP nsplit rel error xerror xstd 1 0.5456993 0 1.00000 1.00902 0.076836 2 0.0736591 1 0.45430 0.48649 0.041507 3 0.0535415 2 0.38064 0.42977 0.038669 4 0.0267557 3 0.32710 0.38608 0.035752 5 0.0232760 4 0.30034 0.37523 0.036056 6 0.0231021 5 0.27707 0.36050 0.035629 7 0.0153249 6 0.25397 0.35120 0.035700 8 0.0109137 7 0.23864 0.34461 0.034955 9 0.0070746 8 0.22773 0.35944 0.038598... 22 0.0010000 26 0.16016 0.34697 0.037049

size of tree 1 3 5 7 9 11 16 18 21 24 26 X val Relative Error 0.2 0.4 0.6 0.8 1.0 1.2 Inf 0.038 0.019 0.0065 0.0046 0.0021 0.0011 Drzewo dające minimalny xerror =0.3446 (stosunek R CV (T ) i SSE dla korzenia) oparte na siedmiu podziałach. Odpowiadający SE=0.035. Drzewo wybrane metodą 1SE ma xerror=0.3752 (< 0.3446+0.035) i jest oparte na 4 podziałach. cp (complexity) odpowiada α. cp

Konstrukcja drzew regresyjnych i klasyfikacyjnych w R: pakiet rpart, funkcja rpart. data.rpart<-rpart(03 ~., cp=0.001, minsplit=2,data=..) cp odpowiada wartości α (współczynnik w karze za złożoność drzewa), minsplit -minimalna liczba elementów w węźle, przy której dokonuje się jeszcze podziału elementów węzła. Wykres przedstawiający drzewo: plot(data.rpart, uniform=true,margin=0.1) text(data.rpart) Wykres i wydruk xerror i jego błędu standardowego: plotcp(data.rpart) printcp(data.rpart)

Uwagi Dobre strony drzew Łatwość interpretacyjna; Działaja zarówno dla zmiennych ilościowych i nominalnych; Wartości brakujące: przy konstrukcji podziału węzła rozpatrujemy tylko zmienne nie mające braków w zbiorze uczacym i poza najlepszym podziałem wyznaczamy tzw. podziały zastepcze (surrogate splits) tzn. podział drugi, trzeci w kolejności itd. Przepuszczając obserwacje przez drzewo znajdujemy w każdym węźle najlepszy realizowalny dla tej obserwacji podział.

Wady drzew: Rzadko stosowane w trudnych problemach klasyfikacyjnych, ze względu na niestabilność drzew i dużą wariancję rozwiązania: nieduże zmiany w danych mogą spowodować istotne zmiany w strukturze podziałów (związane z hierarchiczną strukturą drzewa: zmiana w podziale na górze propaguje się w dół). Również wartość optymalnego cp i optymalne drzewo może zmieniać się od wykonania do wykonania. Komitety drzew (bagging) zmniejszają wariancję. Drzewa regresyjne nie dają ciągłego estymatora regresji; Drzewa regresyjne nieprzydatne w przypadku zależności addytywnych od predyktorów E(Y X ) = f (X 1 ) +... + f (X p ). Remedium: Lasy losowe i gradient boosting oparty na drzewach