WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Transkrypt

1 WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego

2 Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty: nominalne, nominalne na skali porządkowej, ciągłe) lub do konstrukcji estymatorów funkcji regresji Y = f (X) + ε = E(Y X ) + ε gdzie ε błąd losowy, taki, że Eε = 0. Omówimy metodologię wprowadzoną przez Breimana i in. (1984): Classification and Regression Trees (CART). Inne podejście Quinlan (1993,2004) C4.5, C.5 (

3 E(Y X ) jako rzut Y ε = Y E(Y X ) E(Y X ) Podprzestrzeń X = {f (X ), f L 2 } Rysunek: E(Y X ) jest rzutem ortogonalnym Y na X = {g(x ), g L 2 }

4 Drzewo graf skierowany, acykliczny, spójny, wierzchołek wyróżniony - korzeń drzewa. Drzewa binarne z każdego wierzchołka wychodzą 2 krawędzie (lub 0)(dla liści) A B C D E B, D, F, G liście F G D i E są dziećmi węzła C, F i G jego potomkami Konwencja: drzewa rosną od góry do dołu korzeń na górze rysunku, liście na dole

5 W każdym węźle warunek logiczny {X i c} (lub {X i < c}, {X i > c}) spełniony: ścieżka lewa niespełniony: scieżka prawa Zmienna X i jest jedną ze zmiennych objaśniających i z reguły zmienia się przy przejściu z węzła do węzła. W rezultacie z każdym liściem związana jest hiperkostka określona przez warunki na drodze łączącej liść z korzeniem, hiperkostki tworzą rozbicie X = R p. Dla drzewa klasyfikacyjnego: decyzja związana z liściem: wybierz tę klasę, do której należy większość elementów próby uczącej, które trafiły do danego liścia po przepuszczeniu przez drzewo; dla drzewa regresyjnego: x R m kostka w przestrzeni X wyznaczona przez liść Ê(Y X = x) = średnia z wartości y dla elementów znajdujących się w liściu

6 Przykład. Występowanie cukrzycy wśród Indianek Pima (Arizona, USA). y pos (przypadki dodatnie) y neg (przypadki ujemne) X : liczba ciąż, wynik testu glukozowego ( (56, 199)), ciśnienie rozkurczowe, grubość fałdy skórnej na tricepsie (mm), indeks masy ciała BMI (ciężar / (wzrost w m) 2 ), współczynnik podatności na cukrzycę ( (0.085, 2.42)), wiek n = 532, z tego 33% cukrzyca Liść nr 4: test glukozowy < 127.5, wiek < 28.5, osoby w tym liściu zaklasyfikowane jako zdrowe, 214 elementów, w tym 16 błędnie sklasyfikowanych.

7 1 Neg 2 Neg 4 Neg 5 Pos 10 Neg 20 Neg 21 Pos 42 Neg 43 Pos 11 Pos 22 Neg 23 Pos 46 Neg 47 Pos 3 Pos 6 Neg 12 Neg 13 Pos 26 Neg 52 Neg 53 Pos 106 Neg 212 Neg 424 Neg 425 Pos 213 Pos 107 Pos 27 Pos 7 Pos Glucose<127,5 177/532 Glucose 127,5 Age<28, Age 28,5 Glucose<157, Glucose 157, Pedigree 0,62 Body<30,2 Glucose 110 Body 26,5 Age 42,5 Pregnant 1 Glucose 96,5 Pedigree 0,285 Glucose<135,5 Body<41,55 Body 35,65

8 Reguły podziału - funkcje różnorodności Reguły podziału w węzłach drzewa klasyfikacyjnego. Podpróba znajdująca się w węźle charakteryzuje się pewną różnorodnością (zróżnicowaniem) klas. Dążymy do tego, żeby różnorodność (zróżnicowanie) klas dla dzieci węzła była jak najmniejsza. węzeł: 80 klasa 1, 20 klasa 2 idealny podział (zmniejszył różnorodność klas w dzieciach do 0) potomek lewy: 80 (klasa 1) potomek prawy: 20 (klasa 2)

9 Potrzebujemy: miary różnorodności klas w węźle; oceny zmiany różnorodności klas po przejściu o poziom wyżej; algorytmu maksymalizacji zmiany różnorodności. (x i, y i ), i = 1, 2,..., n próba ucząca węzeł m wyznaczony przez warunek x R m X frakcja elementów z klasy k w węźle m ˆp mk = 1 n m I (y i = k) = n mk n m x i R m n m liczba obserwacji w węźle m n mk liczba obserwacji z klasy k w węźle m Rozsądna miara różnorodności klas powinna być = 0, gdy elementy tylko z jednej klasy = max, gdy ˆp m1 = ˆp m2 = = ˆp mg = 1/g

10 Miary zmienności dla zmiennych jakościowych: entropia X : zmienna jakościowa o wartościach 1,..., k (oznaczenia wartości). p = (p 1,..., p k ), p i = P(X = i): rozkład X. Entropia rozkładu X H(p) = k p i log p i Własności: H(p) 0; H(p) = 0 i o : p i0 = 1 H(p) log k (górne ograniczenie dla rozkładu jednostajnego p i = 1/k). i=1

11 Miary zmienności dla zmiennych jakościowych: indeks Giniego p = (p 1, p 2..., p k ). Z, Z dwie niezależne zmienne losowe przyjmujące wartość i z prawdopodobieństwem p i. Miara zmienności tego rozkładu: prawdopodobieństwo, że te dwie zmienne są różne. P(Z Z ) = = k k P(Z Z Z = i)p(z = i) = P(Z i)p i i=1 k (1 p i )p i = 1 k i=1 i=1 p 2 i i=1 Dwie pierwsze własności takie same jak dla entropii. Inne ograniczenie G(p) 1 1 k ale górne ograniczenie też dla rozkładu jednostajnego

12 k(m) = arg max k ˆp mk (1) Miary różnorodności klas w węźle m drzewa T 1 ˆp mk(m) g ˆp Q m (T ) = mk (1 ˆp mk ) k=1 indeks Giniego (2) g ˆp mk log ˆp mk k=1 entropia p = (p 1, p 2..., p k ). Z, Z dwie niezależne zmienne losowe przyjmujące wartość i z prawdopodobieństwem p i. Indeks Giniego dla p = k i=1 p i(1 p i ) = P(Z Z ). Interpretacja indeksu Giniego w drzewie klasyfikacyjnym: oszacowanie pr. błędnej decyzji, gdy obserwacje klasyfikowane są do klasy k z pr. ˆp mk.

13 W przypadku dwóch klas, g = 2, podane trzy miary przyjmują postać: 1 max(p, 1 p) Q m (T ) = 2p(1 p) (3) p log p (1 p) log (1 p), p: jest ułamkiem przynależności do klasy 2. (Na rysunku entropia przemnożona przez 0.5)

14 Oznaczmy dzieci węzła-rodzica m symbolami m L i m R. ˆp L = n m L n m ˆp R = n m R n m = 1 ˆp L ˆp L (ˆp R ) jest ułamkiem elementów próby uczącej, które z węzła m przeszły do m L (m R ), a n ml (n mr ) oznacza liczbę obserwacji w m L (m R ).

15 Łączną miara różnorodności klas w dzieciach węzła m Q ml,m R (T ) = ˆp L Q ml (T ) + ˆp R Q mr (T ), uśredniona miara różnorodności w dzieciach. Uśrednienie uwzględnia frakcje obserwacji w lewym i prawym potomku. Zmiana różnorodności klas przy przejściu od rodzica do dzieci Q ml,m R (T ) = Q m (T ) Q ml,m R (T ).

16 Uwaga: Indeks Giniego i entropia bardziej czułe na zmiany rozkładów klas niż proporcja błędnych klasyfikacji. Rysunek: dla frakcji błędnych klasyfikacji Q ml,m R (T ) = w obu przypadkach taka sama, gdy drugi daje (intuicyjnie!) większe zmniejszenie różnorodności klas. Cel: maksymalizacja Q ml,m R (T ) ze względu na zmienną objaśniającą i próg c.

17 Atrybuty nominalne Dla atrybutu nominalnego przyjmującego L wartości: gdyby przyjąć podział na podstawie dowolnego podzbioru wartości, to mielibyśmy 1 2 2L 1 = 2 L 1 1 podziałów Duży koszt obliczeniowy. Ograniczmy się do podziałów: {x i c k }, ale zakładamy, że zmienna x i na skali porządkowej. Problem: czy odpowiednio porządkując wartości optymalny podział będzie postaci {x i c k }? Okazuje się, że tak!

18 Atrybuty nominalne cd Dla nominalnej cechy x i przyjmującej L wartości i g = 2 porządkujemy jej wartości x (k) i według p(1 x (k) i ) i traktujemy ją jako cechę na skali porządkowej tzn x (k) i x (l) i p(1 x (k) i ) < p(1 x (l). Twierdzenie (por. tw. 4.1 w KC (2005)). W przypadku miary różnorodności Giniego i entropii ograniczenie się do podziałów postaci {x i c k } prowadzi do wyboru optymalnego podziału spośród wszystkich 2 L 1 1 podziałów. i )

19 Drzewa regresyjne Szukamy podziału m na m L i m R, aby SSE(m L ) + SSE(m R ) ( ) było minimalne. SSE(m L ) suma kwadratów rezyduów, gdy regresja dla m L estymowana jest przez średnią próbkową wartości zmiennej objaśnianej dla tego węzła itd. Minimalizacja ( ) równoważna maksymalizacji różnicy zmiany SSE przy przejściu od rodzica do dzieci. Uwaga Miarą róznorodności w w węźle m jest średni SSE 1 n m SS(m), gdzie n m : liczba obserwacji w węźle m.

20 Drzewa regresyjne cd Postać estymatora regresji: regule większościowej dla drzewa klasyfikacyjnego odpowiada reguła: najlepsza stała minimializująca bład średniokwadratowy w liściu, czyli średnia wartości w liściu. Estymator regresji na podstawie drzewa: Średnia wartości w liściu Estymator stały na kostkach zadanych przez liście. Uogólnienie: metoda MARS Wada niestabilność estymatora przy małych zmianach w danych

21 Strategia wyboru najlepszego drzewa Utwórz pełne drzewo T 0 zatrzymując podziały kiedy pewna minimalna wielkość węzła została osiągnięta; przy różnych parametrach określających koszt złożoności drzew przytnij drzewo T 0 do mniejszego drzewa; spośród tak utworzonej skończonej rodziny drzew wybierz drzewo dające najmniejszy błąd w oparciu o kroswalidację.

22 Reguły przycinania drzew: pruning Kontynuując metodę optymalnych podziałów dojdziemy do drzewa z (najczęsciej) jednoelementowymi liśćmi (przeuczenie - przetrenowanie drzewa) R(T ) miara niedoskonałości drzewa dla drzewa klasyfikacyjnego: frakcja błędnych klasyfikacji dla drzewa regresyjnego: liście SSE Wprowadzamy karę za złożoność drzewa R α (T ) = R(T ) + α T ( ) T - liczba liści w drzewie T, α > 0. Przy ustalonym α minimalizujemy R α (T ). Uwaga: analogiczne postępowanie jak w metodach kryterialnych selekcji w regresji: kara proporcjonalna do liczby parametrów (predyktorów) w modelu!

23 Reguły przycinania drzew cd Dla α = 0: drzewo pełne T 0, duże α: sam korzeń. Zwiększając α od 0 dostaniemy dyskretną rodzinę poddrzew T j drzewa T 0 takich że T j minimalizuje (*) dla α [α j, α j+1 ), j = 1, 2,..., k. Wybieramy dobre drzewo spośród drzew T 1, T 2,..., T k (kandydatów na dobre drzewa). Metodą kroswalidacji liczymy R CV (T i ). Później wyznaczamy j 0 : R CV (T j0 ) = min j R CV (T j ) (!)

24 Reguła 1SE reguła 1SE Wybieramy najmniejsze drzewo T j dla którego R CV (T j ) R CV (T j0 ) + SE(R CV (T j0 )), gdzie SE(R CV (T j0 )) = (R CV (T j0 )(1 R CV (T j0 ))/V ) 1/2, błąd standardowy dla kroswalidacji V-krotnej. Reguła 1SE uwzględnia wypłaszczanie się funkcji R CV (T j ) w okolicach minimum.

25 Ozone data Przykład. Zależność między stężeniem ozonu (O3), a warunkami meteo: sbtp temperatura hmdt wilgotność powietrza vsty visibility ibtp inversion base temperature dgpg gradient ciśnienia, ibht inversion base height temp< 67.5 ibh>=3574 ibt< dpg< 9.5 humidity< 59.5doy>= ibt< vis>=

26 node), split, n, deviance, yval * denotes terminal node 1) root ) temp< ) ibh>= * 5) ibh< ) temp>= ) ibt< ) vis>= * 31) vis< * CP nsplit rel error xerror xstd

27 size of tree X val Relative Error Inf Drzewo dające minimalny xerror = (stosunek R CV (T ) i SSE dla korzenia) oparte na siedmiu podziałach. Odpowiadający SE= Drzewo wybrane metodą 1SE ma xerror= (< ) i jest oparte na 4 podziałach. cp (complexity) odpowiada α. cp

28 Konstrukcja drzew regresyjnych i klasyfikacyjnych w R: pakiet rpart, funkcja rpart. data.rpart<-rpart(03 ~., cp=0.001, minsplit=2,data=..) cp odpowiada wartości α (współczynnik w karze za złożoność drzewa), minsplit -minimalna liczba elementów w węźle, przy której dokonuje się jeszcze podziału elementów węzła. Wykres przedstawiający drzewo: plot(data.rpart, uniform=true,margin=0.1) text(data.rpart) Wykres i wydruk xerror i jego błędu standardowego: plotcp(data.rpart) printcp(data.rpart)

29 Uwagi Dobre strony drzew Łatwość interpretacyjna; Działaja zarówno dla zmiennych ilościowych i nominalnych; Wartości brakujące: przy konstrukcji podziału węzła rozpatrujemy tylko zmienne nie mające braków w zbiorze uczacym i poza najlepszym podziałem wyznaczamy tzw. podziały zastepcze (surrogate splits) tzn. podział drugi, trzeci w kolejności itd. Przepuszczając obserwacje przez drzewo znajdujemy w każdym węźle najlepszy realizowalny dla tej obserwacji podział.

30 Wady drzew: Rzadko stosowane w trudnych problemach klasyfikacyjnych, ze względu na niestabilność drzew i dużą wariancję rozwiązania: nieduże zmiany w danych mogą spowodować istotne zmiany w strukturze podziałów (związane z hierarchiczną strukturą drzewa: zmiana w podziale na górze propaguje się w dół). Również wartość optymalnego cp i optymalne drzewo może zmieniać się od wykonania do wykonania. Komitety drzew (bagging) zmniejszają wariancję. Drzewa regresyjne nie dają ciągłego estymatora regresji; Drzewa regresyjne nieprzydatne w przypadku zależności addytywnych od predyktorów E(Y X ) = f (X 1 ) f (X p ). Remedium: Lasy losowe i gradient boosting oparty na drzewach