WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Podobne dokumenty
WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Drzewa decyzyjne i lasy losowe

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu).

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Indukowane Reguły Decyzyjne I. Wykład 3

Algorytmy klasyfikacji

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

Stosowana Analiza Regresji

Indukowane Reguły Decyzyjne I. Wykład 8

ALGORYTM RANDOM FOREST

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Agnieszka Nowak Brzezińska Wykład III

ED Laboratorium 3. Drzewa decyzyjne

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Tadeusz Pankowski

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Analiza składowych głównych. Wprowadzenie

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Metody klasyfikacji danych - część 1 p.1/24

Regresyjne metody łączenia klasyfikatorów

Drzewa decyzyjne w SAS Enterprise Miner

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Drzewa klasyfikacyjne algorytm podstawowy

WYKŁAD: Estymacja funkcji regresji I. Zaawansowane Metody Uczenia Maszynowego

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 8. Regresja. Definiowanie modelu

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Podstawy Informatyki. Metody dostępu do danych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Co to są drzewa decyzji

Optymalizacja ciągła

Wprowadzenie. Data Science Uczenie się pod nadzorem

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wysokość drzewa Głębokość węzła

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

Indukcja drzew decyzyjnych

Metody Eksploracji Danych. Klasyfikacja

Algorytmy klasyfikacji

Hierarchiczna analiza skupień

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Programowanie liniowe metoda sympleks

Weryfikacja hipotez statystycznych

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

ALGORYTMY I STRUKTURY DANYCH

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Metody probabilistyczne klasyfikatory bayesowskie

Estymacja parametrów rozkładu cechy

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Własności statystyczne regresji liniowej. Wykład 4

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Data Mining Wykład 4. Plan wykładu

dodatkowe operacje dla kopca binarnego: typu min oraz typu max:

WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA

Metoda simpleks. Gliwice

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Optymalizacja wielokryterialna

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

7. Teoria drzew - spinanie i przeszukiwanie

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych DRZEWA KLASYFIKACYJNE ICH BUDOWA, PROBLEMY ZŁOŻONOŚCI I SKALOWALNOŚCI

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Regresja liniowa wprowadzenie

Wyznaczanie strategii w grach

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

liniowa - elementy następują jeden za drugim. Graficznie możemy przedstawić to tak:

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Transkrypt:

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego

Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty: nominalne, nominalne na skali porządkowej, ciągłe) lub do konstrukcji estymatorów funkcji regresji Y = f (X) + ε gdzie ε błąd losowy, taki, że Eε = 0. Omówimy metodologię wprowadzoną przez Breimana i in. (1984): Classification and Regression Trees (CART). Inne podejście Quinlan (1993,2004) C4.5, C.5 (www.rulequest.com)

Drzewo graf skierowany, acykliczny, spójny, wierzchołek wyróżniony - korzeń drzewa. Drzewa binarne z każdego wierzchołka wychodzą 2 krawędzie (lub 0)(dla liści) A B C D E B, D, F, G liście F G D i E są dziećmi węzła C, F i G jego potomkami Konwencja: drzewa rosną od góry do dołu korzeń na górze rysunku, liście na dole

W każdym węźle warunek logiczny {X i c} (lub {X i < c}, {X i > c}) spełniony: ścieżka lewa niespełniony: scieżka prawa Zmienna X i jest jedną ze zmiennych objaśniających i z reguły zmienia się przy przejściu z węzła do węzła. W rezultacie z każdym liściem związana jest hiperkostka określona przez warunki na drodze łączącej liść z korzeniem, hiperkostki tworzą rozbicie X = R p. Dla drzewa klasyfikacyjnego: decyzja związana z liściem: wybierz tę klasę, do której należy większość elementów próby uczącej, które trafiły do danego liścia po przepuszczeniu przez drzewo; dla drzewa regresyjnego: x R m kostka w przestrzeni X wyznaczona przez liść Ê(Y X = x) = średnia z wartości y dla elementów znajdujących się w liściu

Przykład. Występowanie cukrzycy wśród Indianek Pima (Arizona, USA). y pos (przypadki dodatnie) y neg (przypadki ujemne) X : liczba ciąż, wynik testu glukozowego ( (56, 199)), ciśnienie rozkurczowe, grubość fałdy skórnej na tricepsie (mm), indeks masy ciała BMI (ciężar / (wzrost w m) 2 ), współczynnik podatności na cukrzycę ( (0.085, 2.42)), wiek n = 532, z tego 33% cukrzyca Liść nr 4: test glukozowy < 127.5, wiek < 28.5, osoby w tym liściu zaklasyfikowane jako zdrowe, 214 elementów, w tym 16 błędnie sklasyfikowanych.

1 2 4 5 10 20 21 42 43 11 22 23 46 47 3 6 12 13 26 52 53 106 212 424 425 213 107 27 7 Glucose<127,5 177/532 Glucose 127,5 Age<28,5 59 343 Age 28,5 Glucose<157,5 71 189 Glucose 157,5 16 214 43 129 54 113 12 76 20 87 19 42 7 34 32 79 7 52 13 35 0 7 12 35 29 59 2 20 7 27 2 8 3 10 5 25 3 15 18 44 15 31 2 13 8 21 3 10 Pedigree 0,62 Body<30,2 Glucose 110 Body 26,5 Age 42,5 Pregnant 1 Glucose 96,5 Pedigree 0,285 Glucose<135,5 Body<41,55 Body 35,65

Reguły podziału - funkcje różnorodności Reguły podziału w węzłach drzewa klasyfikacyjnego. Podpróba znajdująca się w węźle charakteryzuje się pewną różnorodnością (zróżnicowaniem) klas. Dążymy do tego, żeby różnorodność (zróżnicowanie) klas dla dzieci węzła była jak najmniejsza. węzeł: 80 klasa 1, 20 klasa 2 idealny podział (zmniejszył różnorodność klas w dzieciach do 0) potomek lewy: 80 (klasa 1) potomek prawy: 20 (klasa 2)

Potrzebujemy: miary różnorodności klas w węźle; oceny zmiany różnorodności klas po przejściu o poziom wyżej; algorytmu maksymalizacji zmiany różnorodności. (x i, y i ), i = 1, 2,..., n próba ucząca węzeł m wyznaczony przez warunek x R m X frakcja elementów z klasy k w węźle m ˆp mk = 1 n m I (y i = k) = n mk n m x i R m n m liczba obserwacji w węźle m n mk liczba obserwacji z klasy k w węźle m Rozsądna miara różnorodności klas powinna być = 0, gdy elementy tylko z jednej klasy = max, gdy ˆp m1 = ˆp m2 = = ˆp mg = 1/g

k(m) = arg max k ˆp mk (1) Miary różnorodności klas w węźle m drzewa T 1 ˆp mk(m) g ˆp Q m (T ) = mk (1 ˆp mk ) k=1 indeks Giniego (2) g ˆp mk log ˆp mk k=1 entropia p = (p 1, p 2..., p k ). Z, Z dwie niezależne zmienne losowe przyjmujące wartość i z prawdopodobieństwem p i. Indeks Giniego dla p = k i=1 p i(1 p i ) = P(Z Z ). Interpretacja indeksu Giniego w drzewie klasyfikacyjnym: oszacowanie pr. błędnej decyzji, gdy obserwacje klasyfikowane są do klasy k z pr. ˆp mk.

W przypadku dwóch klas, g = 2, podane trzy miary przyjmują postać: 1 max(p, 1 p) Q m (T ) = 2p(1 p) (3) p log p (1 p) log (1 p), p: jest ułamkiem przynależności do klasy 2. (Na rysunku entropia przemnożona przez 0.5)

Oznaczmy dzieci węzła-rodzica m symbolami m L i m R. ˆp L = n m L n m ˆp R = n m R n m = 1 ˆp L ˆp L (ˆp R ) jest ułamkiem elementów próby uczącej, które z węzła m przeszły do m L (m R ), a n ml (n mr ) oznacza liczbę obserwacji w m L (m R ).

Łączną miara różnorodności klas w dzieciach węzła m Q ml,m R (T ) = ˆp L Q ml (T ) + ˆp R Q mr (T ), uśredniona miara różnorodności w dzieciach. Uśrednienie uwzględnia frakcje obserwacji w lewym i prawym potomku. Zmiana różnorodności klas przy przejściu od rodzica do dzieci Q ml,m R (T ) = Q m (T ) Q ml,m R (T ).

Uwaga: Indeks Giniego i entropia bardziej czułe na zmiany rozkładów klas niż proporcja błędnych klasyfikacji. Rysunek: dla frakcji błędnych klasyfikacji Q ml,m R (T ) = w obu przypadkach taka sama, gdy drugi daje (intuicyjnie!) większe zmniejszenie różnorodności klas. Cel: maksymalizacja Q ml,m R (T ) ze względu na zmienną objaśniającą i próg c.

Atrybuty nominalne Dla atrybutu nominalnego przyjmującego L wartości: gdyby przyjąć podział na podstawie dowolnego podzbioru wartości, to mielibyśmy 1 2 2L 1 = 2 L 1 1 podziałów Duży koszt obliczeniowy. Ograniczamy się do podziałów: {x i c k }, zakładamy, że zmienna x i na skali porządkowej. Dla nominalnej cechy x i przyjmującej L wartości i g = 2 porządkujemy jej wartości x (k) i według p(1 x (k) i ) i traktujemy ją jako cechę na skali porządkowej tzn x (k) i x (l) i jeśli p(1 x (k) i ) < p(1 x (l) i ). Twierdzenie (por. tw. 4.1 w KC (2005)). W przypadku miary różnorodności Giniego i entropii powyższa procedura prowadzi do wyboru optymalnego podziału spośród wszystkich 2 L 1 1 podziałów.

Drzewa regresyjne Szukamy podziału m na m L i m R, aby SSE(m L ) + SSE(m R ) ( ) było minimalne. SSE(m L ) suma kwadratów rezyduów, gdy regresja dla m L estymowana jest przez średnią próbkową wartości zmiennej objaśnianej dla tego węzła itd. Minimalizacja ( ) równoważna maksymalizacji różnicy zmiany SSE przy przejściu od rodzica do dzieci.

Strategia wyboru najlepszego drzewa Utwórz pełne drzewo T 0 zatrzymując podziały kiedy pewna minimalna wielkość węzła została osiągnięta; przy różnych parametrach określających koszt złożoności drzew przytnij drzewo T 0 do mniejszego drzewa; spośród tak utworzonej skończonej rodziny drzew wybierz drzewo dające najmniejszy błąd w oparciu o kroswalidację.

Reguły przycinania drzew Kontynuując metodę optymalnych podziałów dojdziemy do drzewa z (najczęsciej) jednoelementowymi liśćmi (przeuczenie - przetrenowanie drzewa) R(T ) miara niedoskonałości drzewa dla drzewa klasyfikacyjnego: frakcja błędnych klasyfikacji dla drzewa regresyjnego: liście SSE Wprowadzamy karę za złożoność drzewa R α (T ) = R(T ) + α T ( ) T - liczba liści w drzewie T, α > 0. Przy ustalonym α minimalizujemy R α (T ). Dla α = 0: drzewo pełne T 0, duże α: sam korzeń.

Zwiększając α od 0 dostaniemy dyskretną rodzinę poddrzew T j drzewa T 0 takich że T j minimalizuje (*) dla α [α j, α j+1 ), j = 1, 2,..., k. Wybieramy dobre drzewo spośród drzew T 1, T 2,..., T k (kandydatów na dobre drzewa). Metodą kroswalidacji liczymy R CV (T i ). Później wyznaczamy j 0 : R CV (T j0 ) = min j R CV (T j ) (!) lub reguła 1SE Wybieramy najmniejsze drzewo T j dla którego R CV (T j ) R CV (T j0 ) + SE(R CV (T j0 )), gdzie SE(R CV (T j0 )) = (R CV (T j0 )(1 R CV (T j0 ))/V ) 1/2, błąd standardowy dla kroswalidacji V-krotnej. Reguła 1SE uwzględnia wypłaszczanie się funkcji R CV (T j ) w okolicach minimum.

Przykład. Zależność między stężeniem ozonu (O3), a warunkami meteo: sbtp temperatura hmdt wilgotność powietrza vsty visibility ibtp inversion base temperature dgpg gradient ciśnienia, ibht inversion base height

temp< 67.5 ibh>=3574 ibt< 226.5 5.148 dpg< 9.5 humidity< 59.5doy>=306.5 6.457 ibt< 159 10.8 17.09 16 vis>=55 9.05 14.35 22.94 27.41

node), split, n, deviance, yval * denotes terminal node 1) root 330 21115.4100 11.775760 2) temp< 67.5 214 4114.3040 7.425234 4) ibh>=3573.5 108 689.6296 5.148148 * 5) ibh< 3573.5 106 2294.1230 9.745283... 3) temp>=67.5 116 5478.4400 19.801720 6) ibt< 226.5 55 1276.8360 15.945450 30) vis>=55 36 1149.8890 22.944440 * 31) vis< 55 17 380.1176 27.411760 * CP nsplit rel error xerror xstd 1 0.5456993 0 1.00000 1.00902 0.076836 2 0.0736591 1 0.45430 0.48649 0.041507 3 0.0535415 2 0.38064 0.42977 0.038669 4 0.0267557 3 0.32710 0.38608 0.035752 5 0.0232760 4 0.30034 0.37523 0.036056 6 0.0231021 5 0.27707 0.36050 0.035629 7 0.0153249 6 0.25397 0.35120 0.035700 8 0.0109137 7 0.23864 0.34461 0.034955 9 0.0070746 8 0.22773 0.35944 0.038598... 22 0.0010000 26 0.16016 0.34697 0.037049

size of tree 1 3 5 7 9 11 16 18 21 24 26 X val Relative Error 0.2 0.4 0.6 0.8 1.0 1.2 Inf 0.038 0.019 0.0065 0.0046 0.0021 0.0011 Drzewo dające minimalny xerror =0.3446 (stosunek R CV (T ) i SSE dla korzenia) oparte na siedmiu podziałach. Odpowiadający SE=0.035. Drzewo wybrane metodą 1SE ma xerror=0.3752 (< 0.3446+0.035) i jest oparte na 4 podziałach. cp (complexity) odpowiada α. cp

Konstrukcja drzew regresyjnych i klasyfikacyjnych w R: pakiet rpart, funkcja rpart. data.rpart<-rpart(03 ~., cp=0.001, minsplit=2,data=..) cp odpowiada wartości α (współczynnik w karze za złożoność drzewa), minsplit -minimalna liczba elementów w węźle, przy której dokonuje się jeszcze podziału elementów węzła. Wykres przedstawiający drzewo: plot(data.rpart, uniform=true,margin=0.1) text(data.rpart) Wykres i wydruk xerror i jego błędu standardowego: plotcp(data.rpart) printcp(data.rpart)

Uwagi Dobre strony drzew Łatwość interpretacyjna; Działaja zarówno dla zmiennych ilościowych i nominalnych; Wartości brakujące: przy konstrukcji podziału węzła rozpatrujemy tylko zmienne nie mające braków w zbiorze uczacym i poza najlepszym podziałem wyznaczamy tzw. podziały zastepcze (surrogate splits) tzn. podział drugi, trzeci w kolejności itd. Przepuszczając obserwacje przez drzewo znajdujemy w każdym węźle najlepszy realizowalny dla tej obserwacji podział.

Wady drzew: Rzadko stosowane w trudnych problemach klasyfikacyjnych, ze względu na Niestabilność drzew i dużą wariancję rozwiązania: nieduże zmiany w danych mogą spowodować istotne zmiany w strukturze podziałów (związane z hierarchiczną strukturą drzewa: zmiana w podziale na górze propaguje się w dół). Również wartość optymalnego cp i optymalne drzewo może zmieniać się od wykonania do wykonania. Komitety drzew (bagging) zmniejszają wariancję. Drzewa regresyjne nie dają ciągłego estymatora regresji; Drzewa regresyjne nieprzydatne w przypadku zależności addytywnych od predyktorów E(Y X ) = f (X 1 ) +... + f (X p ). Remedium: Lasy losowe i gradient boosting oparty na drzewach