Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART



Podobne dokumenty
DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Projektowanie, ocena i wykorzystanie danych rynkowych

ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO. Poznanie odpowiedzi na pytania wstępna analiza przekrojowa

PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

ALGORYTM RANDOM FOREST

Metoda Automatycznej Detekcji Interakcji CHAID

Drzewa decyzyjne i lasy losowe

Szkolenie Analiza dyskryminacyjna

Wprowadzenie do analizy korelacji i regresji

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Wnioskowanie bayesowskie

ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Metody klasyfikacji danych - część 1 p.1/24

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Regresja logistyczna (LOGISTIC)

PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

Analiza składowych głównych. Wprowadzenie

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Przygotowanie danych

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Algorytmy klasyfikacji

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Statystyka i Analiza Danych

Algorytmy genetyczne

ALGORYTMY SZTUCZNEJ INTELIGENCJI

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wprowadzenie. Data Science Uczenie się pod nadzorem

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Szkolenie Regresja liniowa

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Programowanie celowe #1

R-PEARSONA Zależność liniowa

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Data Mining Wykład 4. Plan wykładu

Ćwiczenie 12. Metody eksploracji danych

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Struktury danych: stos, kolejka, lista, drzewo

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Aproksymacja funkcji a regresja symboliczna

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Wysokość drzewa Głębokość węzła

TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza regresji - weryfikacja założeń

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Stanisław Cichocki. Natalia Nehrebecka

Niestandardowa tabela częstości

Drzewa czerwono-czarne.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Jak przekształcać zmienne jakościowe?

Zadania ze statystyki, cz.6

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

Automatyczne wyodrębnianie reguł

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Średnie. Średnie. Kinga Kolczyńska - Przybycień

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Co to są drzewa decyzji

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie modeli predykcyjnych

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu

Jak korzystać z arkusza kalkulacyjnego?

Zależność cech (wersja 1.01)

Sieci neuronowe w Statistica

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

Agnieszka Nowak Brzezińska

Regresyjne metody łączenia klasyfikatorów

Transkrypt:

Zeszyty Naukowe nr 800 Uniwersytet Ekonomiczny w Krakowie 2009 Katedra Analizy Rynku i Badań Marketingowych Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART 1. Wprowadzenie w procedurę algorytmu CART Drzewa klasyfikacyjne CART 1 to narzędzie analityczne data mining, które jest uznawane za najbardziej zaawansowaną metodę podziału rekurencyjnego. Mimo że metoda ta powstała na początku lat 80. ubiegłego wieku, doczekała się tylko nieznacznych modyfikacji. Próbowano wprawdzie stworzyć bayesowski CART 2, dokonywano jego modyfikacji w NASA (pakiet IND) 3, usiłowano także udoskonalić podział drzew (FACT) 4 poprzez połączenie właściwości CART i liniowej analizy dyskryminacyjnej, podejmowano próby zastąpienia wielokrotnej walidacji krzyżowej metodą Monte Carlo 5, jednak rdzeń metody z jego nowatorskimi rozwiązaniami do dziś pozostał niezmieniony. Celem artykułu jest wskazanie roli zmiennych zastępczych i konkurencyjnych w budowie i interpretacji drzew klasyfikacyjnych CART interpretacji wykraczającej poza standardowy zestaw zdań warunkowych typu jeśli, to, a także rankingu ważności predyktorów oraz macierzy błędnych klasyfikacji. 1 Pierwsza praca poświęcona algorytmowi CART to pozycja: L. Breiman i in., Classification and Regression Trees, Chapman and Hall, 1984. 2 H.A. Chapman, E.I. George, R.E. McCulloch, Bayesian CART Model Search, Journal of the American Statistical Association 1998, September, vol. 93, nr 443, s. 935 960. 3 W. Buntine, Tree Classification Software, Technology 2002, Baltimore, December 1992. 4 W.-Y. Loh, N. Vanichsetakul, Tree-structured Classification via Generalized Discriminant Analysis, Journal of the American Statistical Association 1988, September, vol. 83, nr 403, s. 715 729. 5 S.L. Crawford, Extension to the CART Algorithm, International Journal Man-Machine Studies 1989, vol. 31, s. 197 217.

100 W algorytmie CART występują dwie reguły podziału: indeks Giniego oraz metoda podziału na 2 części (twoing criterion). Pierwszą z nich można wyrazić wzorem 6 : 2 IG = 1 p ( j t), (1) gdzie: IG indeks Giniego, t liczebność węzła drzewa, j liczba klas (wariantów zmiennej zależnej) w węźle, p(j t) prawdopodobieństwo pojawienia się przypadków z danej klasy w tym węźle. Łatwiej zrozumieć zasadę działania indeksu Giniego, kiedy spojrzy się na dane zamieszczone w tabeli 1. Wskaźnik ten przyjmuje wartość 0, jeśli w węźle znajdują się przypadki należące wyłącznie do jednej klasy (jednego wariantu zmiennej zależnej), i wartość największą, gdy wszystkie klasy występują w tym węźle równolicznie. Dla dwóch klas maksimum wynosi 0,5; dla trzech klas jest to wartość 0,66(7), a dla czterech klas wartość 0,75 itd. Zatem im mniejsza jest wartość indeksu Giniego, tym lepszy podział danego węzła. Tabela 1. Wskaźnik Giniego dla 3-wariantowej zmiennej zależnej dane przykładowe P(A) P(B) P(C) Indeks Giniego 0 0 1 0,00000 0,00001 0,00001 0,99998 0,00004 0,0001 0,0001 0,9998 0,00040 0,001 0,001 0,998 0,00399 0,01 0,01 0,98 0,0394 0,1 0,1 0,8 0,34 0,1 0,2 0,7 0,46 0,1 0,3 0,6 0,54 0,1 0,4 0,5 0,58 0,2 0,2 0,6 0,56 0,2 0,3 0,5 0,62 0,2 0,4 0,4 0,64 0,3 0,3 0,4 0,66 0,33333 0,33333 0,33333 0,66667 Źródło: opracowanie własne. j 6 L. Breiman i in., op. cit., s. 103.

Zmienne zastępcze i konkurencyjne... 101 Aby zaprezentować, w jaki sposób indeks Giniego znajduje zastosowanie w podziale drzewa klasyfikacyjnego, dobrze jest posłużyć się przykładem (tabela 2). Tabela 2. Przykładowe dane do obliczeń Wiek Miejsce zamieszkania Wykształcenie Marka 31 50 lat miasto <= 100 tys. mieszkańców średnie BMW 31 50 lat miasto <= 100 tys. mieszkańców średnie Mercedes 31 50 lat miasto > 100 tys. mieszkańców wyższe Jaguar 31 50 lat miasto > 100 tys. mieszkańców wyższe Jaguar 31 50 lat wieś wyższe BMW 31 50 lat wieś wyższe Mercedes 31 50 lat wieś wyższe Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców średnie Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców średnie Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców wyższe Mercedes 51 lub więcej miasto > 100 tys. mieszkańców wyższe BMW 51 lub więcej miasto > 100 tys. mieszkańców wyższe BMW 51 lub więcej wieś średnie BMW 51 lub więcej wieś średnie Mercedes 51 lub więcej wieś wyższe Mercedes do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto > 100 tys. mieszkańców wyższe Mercedes do 30 lat wieś średnie Jaguar Źródło: opracowanie własne. Jeśli zadanie polegałoby na predykcji preferencji w oparciu o dany zestaw zmiennych niezależnych, to pierwszym krokiem będzie oszacowanie indeksu Giniego dla całego zbioru obserwacji. Znając prawdopodobieństwa występowania poszczególnych klas (tu: marek samochodów): P(BMW) = 0,25, P(Jaguar) = 0,30 i P(Mercedes) = 0,45, łatwo obliczyć, że wskaźnik Giniego wynosi 0,645. Kolejnym krokiem jest podział całego zbioru obserwacji w oparciu o jeden z trzech predyktorów. Aby wybrać najlepszy z nich, trzeba przeanalizować trzy potencjalne fragmenty drzewa (rys. 1, 2 i 3). Dla każdej zmiennej niezależnej należy obliczyć wskaźnik Giniego oraz tzw. wskaźnik poprawy (improvement). Indeksy Giniego dla poszczególnych wariantów zmiennych niezależnych są następujące:

102 wiek do 50 lat i(do 50) = 0,612, wiek 51+ i(51+) = 0,466, miejsce zamieszkania wieś i(wieś) = 0,571, miejsce zamieszkania miasto i(miasto) = 0,654, wykształcenie średnie i(średnie) = 0,571, wykształcenie wyższe i(wyższe) = 0,654. 20 przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 WIEK do 50 lat P(BMW) = 0,17 P(Jaguar) = 0,50 P(Mercedes) = 0,33 51+ lat P(BMW) = 0,37 P(Jaguar) = 0,00 P(Mercedes) = 0,63 12 przypadków 8 przypadków Rys. 1. Podział w oparciu o zmienną niezależną wiek Źródło: opracowanie własne. 20 przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 MIEJSCE ZAMIESZKANIA wieś P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57 miasto P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38 7 przypadków 13 przypadków Rys. 2. Podział w oparciu o zmienną niezależną miejsce zamieszkania Źródło: opracowanie własne. Prawdopodobieństwo trafienia przypadku do poszczególnych węzłów drzewa jest równe odpowiednio: P(wiek do 50 lat) = 0,6; P(wiek 51+) = 0,4; P(miejsce zamieszkania wieś) = 0,35; P(miejsce zamieszkania miasto) = 0,65; P(wykształcenie średnie) = 0,35; P(wykształcenie wyższe) = 0,65.

Zmienne zastępcze i konkurencyjne... 103 20 przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 średnie WYKSZTAŁCENIE wyższe P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57 P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38 7 przypadków 13 przypadków Rys. 3. Podział w oparciu o zmienną niezależną wykształcenie Źródło: opracowanie własne. Pozwala to obliczyć ważone średnie indeksy Giniego dla każdej zmiennej: wiek: i(wiek) = P(do 50) i(do 50) + P(51+) i(51+) = 0,5536, miejsce zamieszkania: i(miejsce_zam) = P(wieś) i(wieś) + P(miasto) i(miasto) = 0,6249, wykształcenie: i(wykształcenie) = P(średnie) i(średnie) + P(wyższe) i(wyższe) = 0,6249, co z kolei umożliwia oszacowanie wskaźnika poprawy (improvement): wiek = 0,0914, miejsce zamieszkania = 0,0201, wykształcenie = 0,0201. Im wyższa jest wartość wskaźnika poprawy, tym lepszy podział zapewniony przez daną zmienną niezależną. W powyższym przykładzie najlepszym predyktorem okazała się zmienna wiek, choć należy tu podkreślić, że są to tylko szacunki poglądowe (brakuje np. podziału wiek do 30 wiek 31+ albo wieś i miasto <=100 miasto >100 ). Alternatywnym sposobem oceny jakości wydzielonych węzłów jest reguła podziału na dwie części (twoing criterion), którą wyraża się wzorem 7 : 2 plpr TC = p( j tl) p( jtr), (2) 4 j gdzie: TC reguła podziału na dwie części, p L prawdopodobieństwo trafienia przypadków do lewego węzła, p R prawdopodobieństwo trafienia przypadków do prawego węzła, 7 L. Breiman i in., op. cit., s. 108.

104 j liczba przypadków z danej klasy (z danego wariantu zmiennej zależnej) w węźle, t L liczba wszystkich przypadków w lewym węźle, t R liczba wszystkich przypadków w prawym węźle. Cechą charakterystyczną reguły podziału na dwie części jest dychotomizowanie zmiennych wielowariantowych (dlatego w indeksach dolnych znajdują się litery L i R oznaczające węzeł lewy i węzeł prawy drzewa). Im wyższa wartość TC, tym lepszy jest podział drzewa, co znaczy, że miara ta preferuje podzbiory równoliczne iloczyn p L p R przyjmuje maksimum (0,25) dla prawdopodobieństw 0,5 i 0,5. Posługując się danymi z tabeli 2 oraz przykładowymi podziałami drzewa (rys. 1, 2 i 3), można oszacować wartości TC dla poszczególnych zmiennych niezależnych: TC wiek = 0,0600; TC miejsce_zamieszkania = 0,0133; TC wykształcenie = 0,0133. Również w tym przypadku najlepszym predyktorem okazała się zmienna wiek. Dla binarnej zmiennej zależnej obie miary (IG i TC) dają identyczne rozwiązanie. Inaczej rzecz ma się w przypadku zmiennych wielowariantowych, w wypadku których indeks Giniego preferuje wydzielanie węzłów znacznie różniących się liczebnością (jeden mniej liczny, ale bardziej homogeniczny, a drugi bardziej liczny, ale równocześnie bardziej heterogeniczny), a reguła podziału na dwie części preferuje równoliczne węzły potomne. Ogólnie rzecz ujmując, autorzy algorytmu zalecają stosowanie wskaźnika Giniego, który ich zdaniem częściej zapewnia wyższą jakość modelu. 2. Zmienne zastępcze i zmienne konkurencyjne Interesującą i przydatną innowacją metody CART jest występowanie zmiennych konkurencyjnych (competitors) i zmiennych zastępczych (surrogates). Na każdym etapie podziału drzewa zestawiany jest ranking zmiennych niezależnych, które zapewniają najlepszy podział danego węzła. Pozycja w tym rankingu zależy od trafności predykcji zmiennej zależnej w wydzielanych węzłach potomnych. Najlepszy z predyktorów wykorzystywany jest do budowy modelu, a pozostałe pełnią funkcję bądź to zmiennych konkurencyjnych, bądź zmiennych zastępczych (lub obie te role jednocześnie). Kolejność w tych lokalnych rankingach zależy od wartości omówionego wcześniej wskaźnika poprawy (improvement). Zmienna niezależna, dla której wartość ta jest najwyższa, zostaje uznana za najlepszy predyktor pierwotny, który dzieli dany węzeł. Kolejność pozostałych predyktorów jest determinowana posortowanymi malejąco wartościami wskaźnika poprawy. Różnica między zmiennymi konkurencyjnymi a zmiennymi zastępczymi sprowadza się do tego, że te pierwsze zapewniają zbliżoną redukcję heterogeniczności węzła, te drugie zaś oprócz redukcji nieczystości węzła naśladują najlep-

Zmienne zastępcze i konkurencyjne... 105 szy predyktor, rozdzielając konkretne przypadki ze zbioru obserwacji w sposób jak najbardziej zbliżony do podziału pierwotnego (case-by-case). Zmienna zastępcza to zazwyczaj predyktor, który w danym miejscu drzewa zajmuje drugą pozycję i jednocześnie dzieli dany węzeł w sposób zbliżony do tego, jaki daje zmienna niezależna z pierwszej pozycji. O jakości predyktorów decyduje współczynnik asocjacji (association), którego maksymalna wartość może być równa 1 (najmniejsze mogą być ujemne), co oznacza, że zmienna zastępcza zapewnia równie skuteczny podział co zmienna pierwotna (z pierwszej pozycji). Należy przy tym podkreślić, że niska wartość tej miary nie oznacza słabej zastępowalności. Mogłoby się bowiem zdarzyć, że współczynnik o wysokości 0,25 daje podział zastępczy w 96% zgodny z podziałem pierwotnym. Wprowadzenie zmiennych zastępczych niesie ze sobą następujące korzyści: ułatwia analizę danych z brakującymi obserwacjami, pozwala zestawić ranking ważności predyktorów, umożliwia lepsze zrozumienie badanego zjawiska. Jeśli przypadki posiadają braki danych w zmiennych niezależnych, a zmienne te są najlepszymi na danym etapie podziału predyktorami, to algorytm zastępuje je wartościami zmiennych zastępczych. Jest to podejście, które nie występuje w żadnym innym algorytmie drzew klasyfikacyjnych, choć należy dodać, że bywają podziały, w których nie ma możliwości wyselekcjonowania sensownych zmiennych zastępczych. Ranking zmiennych zastępczych pozwala również sporządzić ostateczny ranking ważności predyktorów, czyli oszacować, w jakim stopniu zmienne niezależne wpływają na zmienną zależną. Ogólną ideę przedstawiono na schemacie (rys. 4). Co znamienne, predyktor, który wcale nie uczestniczył w podziale drzewa, może mieć wysoką pozycję w ostatecznym rankingu. Wynika to z faktu, że za każdym razem jego współczynnik asocjacji przyjmował wysokie wartości (był najlepszą zmienną zastępczą). Zmienne zastępcze pozwalają również na lepsze poznanie badanej dziedziny. Badacz może przyjrzeć się dokładnie strukturze drzewa i sprawdzić, jakie inne zmienne mogły być potencjalnymi predyktorami na poszczególnych etapach podziału. Niektóre programy (np. STATISTICA Data Miner, CART wersja 6.0) pozwalają na ingerencję analityka w strukturę modelu. Możliwe jest usuwanie (dodawanie) dowolnych gałęzi i wprowadzanie własnych podziałów. Jednym z celów algorytmu CART jest dostarczenie względnie prostego modelu z niewielką liczbą węzłów końcowych i o niezbyt dużej głębokości. Powoduje to, że w strukturze drzewa pojawiają się tylko te zmienne niezależne, które uznane są za najlepsze predyktory na danym etapie podziału drzewa. Może się jednakże zdarzyć, że część zmiennych objaśniających ma wysoką (chociaż nie najwyższą) wartość wskaźnika poprawy i mimo dużej przydatności w redukcji nieczystości

106 węzłów nigdy ich nie dzieli, a tym samym nie trafia do żadnego zdania warunkowego opisującego model. Jest to tzw. problem maskowania zmiennych (masking problem), w wypadku którego podziały pierwotne przesłaniają inne czasami tylko nieznacznie gorsze alternatywne podziały drzewa. Problem ten może być zidentyfikowany i rozwiązany na dwa sposoby: poprzez interpretację rankingu ważności predyktorów oraz przez wykorzystanie zmiennych konkurencyjnych w tworzeniu alternatywnych reguł. Rys. 4. Rankingi zmiennych zastępczych a ostateczny ranking ważności predyktorów Źródło: opracowanie własne. Ranking ważności predyktorów powstaje, co przedstawiono na schemacie (rys. 4), względnie prosto. Na każdym etapie podziału drzewa tworzy się rankingi zmiennych zastępczych i oblicza dla każdej z nich wartość wskaźnika poprawy. Po zbudowaniu modelu drzewa sumuje się te wartości dla wszystkich zmiennych niezależnych ze wszystkich etapów podziału i to jest podstawą do stworzenia ostatecznego rankingu. Jeśli część zmiennych z pierwszych pozycji tego rankingu nie występuje w podziale drzewa, wówczas mamy do czynienia z problemem maskowania. Co istotne, interpretując rankingi ważności, trzeba mieć na uwadze, że odnoszą się one wyłącznie do konkretnego modelu drzewa, a najmniejsza zmiana polegająca przykładowo na usunięciu jednej zmiennej objaśniającej może spowodować znaczące zmiany w kolejności tego rankingu. Drugi sposób radzenia sobie z problemem maskowania zmiennych polega na wykorzystaniu w interpretacji modelu najlepszych zmiennych konkurencyjnych znajdujących się blisko wierzchołka drzewa. Predyktory te mogą być wykorzystane przy formułowaniu alternatywnego zestawu reguł, co przedstawiono na rys. 5. Jak łatwo zauważyć, najlepszą zmienną konkurencyjną znajdującą się w węźle blisko wierzchołka drzewa (tutaj B) wstawiono w miejsce predyktora

Zmienne zastępcze i konkurencyjne... 107 Klasyczna reguła wykorzystująca podziały pierwotne A BC Jeżeli A i C i A, to rezultat A A BC ABC Alternatywna reguła wykorzystująca zmienną konkurencyjną z wierzchołka drzewa Jeżeli B i C i A, to rezultat Rys. 5. Tworzenie alternatywnych reguł z wykorzystaniem zmiennych konkurencyjnych Źródło: opracowanie własne. pierwotnego (tutaj A), co wzbogaciło opis modelu o dodatkowe zdanie warunkowe typu jeżeli, to. 3. Przykład pogłębionej interpretacji drzewa klasyfikacyjnego Przykład pogłębionej interpretacji drzewa klasyfikacyjnych opiera się na zbiorze danych zebranych w trakcie badań ankietowych realizowanych w czerwcu i lipcu 2005 r. Celem tych badań była próba modelowania preferencji konsumentów na rynku samochodów osobowych 8. Rozważania zawężono do tzw. deklarowanych preferencji (stated preferences), które w odróżnieniu od preferencji ujawnionych (revealed preferences) nie są rzeczywistymi aktami zakupu, a jedynie wyrażeniem gotowości do nabycia danej kategorii lub marki produktu przez respondentów. Budując model drzewa klasyfikacyjnego, wykorzystano zaawansowane opcje, tj. przycinanie oraz szacowanie błędu klasyfikacji za pomocą 10-krotnej walidacji krzyżowej. Ogólną jakość rozwiązania wyrażoną odsetkiem poprawnych klasyfikacji przedstawiono w macierzy błędnych klasyfikacji (tabela 3). Jak łatwo zauważyć, trafność predykcji całego modelu wynosi 69,05%, podczas gdy traf- 8 Opisane w dalszej części pracy wyniki badań dotyczą nowych i używanych samochodów osobowych, których cena wynosi w przybliżeniu 40 tys. zł. Używane w pracy zwroty rynek samochodów osobowych czy rynek motoryzacyjny powinny być tu traktowane jako synonimy.

108 ność predykcji klasy samochód nowy wynosi blisko 75%, a trafność predykcji dla klasy samochód używany 65% 9. Tabela 3. Macierz błędnych klasyfikacji dla modelu z przycinaniem po 10-krotnej walidacji krzyżowej Ogólna poprawność klasyfikacji 69,05% Klasa obserwowana Liczba przypadków Procent poprawnych klasyfikacji Klasa przewidywana auto nowe Klasa przewidywana auto używane Auto nowe 90 74,44 67 23 Auto używane 120 65,00 42 78 Źródło: opracowanie własne z wykorzystaniem programu CART. Struktura drzewa nie jest rozbudowana (rys. 6), na co wpływ miało przycinanie modelu, czyli w dużym uogólnieniu redukcja liczby liści połączona z nieznacznym pogorszeniem się jakości rozwiązania. Na rysunku zamieszczono szczegóły dotyczące liczebności węzłów oraz nazwy predyktorów uczestniczących w podziale drzewa. Node 1 P2COPIER N = 210 Terminal Node 1 N = 73 Node 2 P19FAZA N = 137 Terminal Node 2 N = 36 Terminal Node 3 N = 101 Rys. 6. Struktura drzewa model z przycinaniem po 10-krotnej walidacji krzyżowej Źródło: opracowanie własne z wykorzystaniem programu CART. Drzewo ma tylko trzy liście, więc cały model można opisać za pomocą trzech zdań warunkowych (tabela 4). Poprawność klasyfikacji poszczególnych reguł zamieszczono w kolumnie odsetek badanych. 9 Zmienna zależna miała dwa warianty: 1) respondent preferuje samochód nowy oraz 2) respondent preferuje samochód używany.

Zmienne zastępcze i konkurencyjne... 109 Tabela 4. Zestaw zdań warunkowych opisujących model z przycinaniem po 10-krotnej walidacji krzyżowej (reguły dotyczą obu klas) Nr węzła 1 2 3 Poprzednik nr 1 Jeżeli cechy brane pod uwagę przy zakupie auta = kraj pochodzenia marki albo pojemność silnika albo liczba drzwi Jeżeli cechy brane pod uwagę przy zakupie auta = typ silnika albo marka Jeżeli cechy brane pod uwagę przy zakupie auta = typ silnika albo marka Poprzednik nr 2 faza cyklu życia rodziny = 4 albo 5 albo 6 faza cyklu życia rodziny = 1 albo 2 albo 3 Odsetek badanych 63% przypadków spełniających tę regułę preferuje NOWY samochód 58% przypadków spełniających tę regułę preferuje NOWY samochód 77% przypadków spełniających tę regułę preferuje UŻYWANY samochód Źródło: opracowanie własne. Ranking ważności predyktorów dla tego modelu przedstawiono w tabeli 5. Ponieważ dokonano tylko dwóch podziałów, zdecydowana większość zmiennych niezależnych nie mogła być brana pod uwagę w podziale ani jako najlepszy predyktor, ani jako jedna ze zmiennych zastępczych. Tabela 5. Ranking ważności predyktorów model z przycinaniem po 10-krotnej walidacji krzyżowej Zmienna Liczba punktów Cecha auta brana pod uwagę przy zakupie jako pierwsza 100,00 Faza cyklu życia rodziny badanego 67,62 Korzyści nacisk na zabezpieczenia samochodu przed kradzieżą 19,13 Wartość bycie poważanym 18,81 Wartość poczucie spełnienia 16,11 Status zatrudnienia badanego 1,20 Źródło: opracowanie własne z wykorzystaniem programu CART. Największy wpływ na preferencje respondentów miały dwie zmienne: cecha auta brana pod uwagę przy zakupie jako pierwsza oraz faza cyklu życia rodziny badanego. Obie te zmienne z początku rankingu uczestniczą w podziale drzewa (są predyktorami pierwotnymi), a zatem w tym konkretnym przypadku nie występuje problem maskowania zmiennych.

110 Jeśli badacz uzna, że model jest zbytnim uproszczeniem rzeczywistości, może zdecydować się na ręczne zwiększenie liczby liści, a tym samym liczby reguł. W tym celu najłatwiej posłużyć się tabelą, w której zestawiono błąd klasyfikacji dla sekwencji drzew (tabela 6). Drzewo oznaczone dwiema gwiazdkami zostało wybrane w sposób automatyczny z uwzględnieniem reguły jednego błędu standardowego. Badacz ma jednak możliwość wyboru innego modelu (np. modelu nr 10), godząc się przy tym na wzrost błędu klasyfikacji (z 63% do 71%) i na wzrost liczby reguł (z 3 do 7). Błąd jest stosunkowo wysoki, jednak należy pamiętać, że dotyczy całego zbioru obserwacji. Może się także zdarzyć, że szczegółowa analiza zawartości węzłów i trafności predykcji poszczególnych klas sprawią, iż drzewo o niższej ogólnej jakości będzie mieć większą wartość poznawczą. Tabela 6. Sekwencja drzew model z przycinaniem po 10-krotnej walidacji krzyżowej Numer modelu Liczba liści Błąd po 10-krotnej walidacji krzyżowej Koszt resubstytucji Parametr złożoności 1 29 0,747 +/ 0,067 0,242 0,000 5 20 0,772 +/ 0,068 0,300 0,006 6 17 0,772 +/ 0,068 0,336 0,006 7 15 0,761 +/ 0,068 0,361 0,006 8 13 0,728 +/ 0,067 0,389 0,007 9 12 0,719 +/ 0,066 0,406 0,008 10 7 0,711 +/ 0,066 0,511 0,011 11 4 0,750 +/ 0,067 0,578 0,011 12** 3 0,633 +/ 0,065 0,606 0,014 13 2 0,750 +/ 0,066 0,714 0,054 14 1 1,000 +/ 0,610352E-04 1,000 0,143 Źródło: opracowanie własne z wykorzystaniem programu CART. Reasumując, o preferencjach respondentów decydują przede wszystkim: cecha auta brana pod uwagę przy zakupie jako pierwsza, faza cyklu życia rodziny badanego 10, oraz w mniejszym stopniu: korzyści nacisk na zabezpieczenia samochodu przed kradzieżą, wartość ze skali LOV bycie poważanym, 10 Zmienna faza cyklu życia rodziny przyjęła następujące warianty: 1) młode osoby stanu wolnego (kawalerowie, panny do 49. roku życia), 2) młode małżeństwa bez dzieci, 3) małżeństwa z dziećmi na utrzymaniu (wiek dzieci nie przekracza 18 lat), 4) małżeństwa z dorosłymi dziećmi na utrzymaniu (wiek dzieci to 18 lat i więcej), 5) małżeństwa bez dzieci na utrzymaniu tzw. puste gniazda, 6) starsze osoby stanu wolnego (od 50. roku życia wzwyż).

Zmienne zastępcze i konkurencyjne... 111 wartość ze skali LOV poczucie spełnienia, status zatrudnienia badanego. Upraszczając interpretację, można stwierdzić, że autami nowymi są zainteresowane osoby znajdujące się w fazie czwartej, piątej albo szóstej cyklu życia rodziny, które zwracają uwagę na typ silnika (benzynowy-diesel) i markę samochodu. Faza czwarta cyklu życia rodziny to małżeństwa z dorosłymi dziećmi na utrzymaniu, faza piąta to puste gniazda, faza szósta zaś to starsze osoby stanu wolnego. Wynika stąd, że respondenci, którzy wybrali nowy samochód, są osobami w średnim i starszym wieku, które samochodu potrzebują na własny użytek (można tu przyjąć, że dorosłe dzieci będące na utrzymaniu podróżują samodzielnie). Drugą grupę badanych preferujących nowe samochody stanowią osoby żonate (zamężne), które przy zakupie samochodu biorą w pierwszej kolejności pod uwagę: kraj pochodzenia marki, pojemność silnika albo liczbę drzwi. Na rys. 7 przedstawiono rozkłady obu klas (osób preferujących auta nowe i osób preferujących auta używane) w węźle macierzystym i węzłach potomnych. Jak widać, podziału dokonano w oparciu o zmienną P2COPIER (cecha auta brana pod uwagę przy zakupie jako pierwsza), przy czym do lewego potomka trafiły kategorie 1, 2 i 5 (kraj pochodzenia marki, pojemność silnika i liczba drzwi), do prawego zaś kategorie 3 i 4 (typ silnika i marka). Rys. 7. Przykład rozkładów procentowych klas w węźle macierzystym i węzłach potomnych Źródło: opracowanie własne z wykorzystaniem programu CART. Rysunek 8 przedstawia ranking zmiennych konkurencyjnych (po lewej stronie) oraz ranking zmiennych zastępczych (po prawej stronie) dla tego samego

112 węzła macierzystego. Zmienna konkurencyjna, dla której wskaźnik poprawy jest nieznacznie niższy od wartości 0,0517 (tyle wynosi wskaźnik poprawy dla predyktora P2COPIER), to faza cyklu życia rodziny. Trzy kategorie tej zmiennej trafiłyby do węzła lewego (aut nowych), a zatem można mówić, że dotyczy to osób z czwartej, piątej albo szóstej fazy. Druga zmienna konkurencyjna to P8OTPLUS (korzyści nacisk na wysokie osiągi techniczne), dla której wskaźnik poprawy wynosi 0,0256. Do węzła lewego (osób preferujących nowe samochody) trafiliby wówczas respondenci, którzy nie przywiązują wagi do wysokich osiągów technicznych samochodu (P8OTPLUS = 2). Jeśli chodzi o zmienne zastępcze, mają one za zadanie głównie zastępować braki danych. Gdyby w dowolnym przypadku zaobserwowano brak danych w zmiennej P2COPIER, to CART zastąpi tę brakującą wartość wariantem zmiennej P10ZPLUS (korzyści nacisk na zabezpieczenia samochodu przed kradzieżą). Rys. 8. Ranking zmiennych konkurencyjnych (competitors) i zmiennych zastępczych (surrogates) Źródło: opracowanie własne z wykorzystaniem programu CART. Reasumując, szczegółowa analiza zmiennych konkurencyjnych pozwala uzupełnić merytoryczną interpretację modelu. Jest to bardzo cenna i ważna zaleta algorytmu CART. O nabywcach nowych samochodów można dodatkowo powiedzieć, że są to osoby, które nie przywiązują wagi do wysokich osiągów technicznych samochodu i które nie kierują się wartościami: życie pełne wrażeń oraz przyjemność i radość z życia. Czynnikami psychologicznymi charakteryzującymi respondentów z tego segmentu są natomiast wartości: poczucie spełnienia i bycie poważanym.

Zmienne zastępcze i konkurencyjne... 113 4. Podsumowanie Klasyczna interpretacja drzew klasyfikacyjnych opiera się najczęściej na zestawie zdań warunkowych opisujących model, na rankingu ważności predyktorów oraz macierzy błędnych klasyfikacji, w której podaje się odsetek poprawnie sklasyfikowanych przypadków. Algorytm CART jako jedyne narzędzie do budowy drzew klasyfikacyjnych umożliwia badaczowi wykorzystanie tzw. zmiennych konkurencyjnych i zmiennych zastępczych. Dzięki wglądowi w głąb struktury modelu możliwe jest wówczas eliminowanie problemu maskowania zmiennych. Część zmiennych (zastępcze) jest bowiem wykorzystywana do tworzenia globalnego rankingu ważności predyktorów, natomiast inna część zmiennych (konkurencyjne) jest używana przy tworzeniu alternatywnego zestawu reguł. Ta cecha metody CART nie zostanie zapewne doceniona przez analityków dokonujących obliczenia na potrzeby CRM, jednak z całą pewnością warto zwrócić na nią uwagę, stosując to narzędzie w analizie danych ankietowych. Literatura Breiman L. i in., Classification and Regression Trees, Chapman and Hall, New York 1993. Buntine W., Tree Classification Software, Technology 2002, Baltimore, December 1992. Chapman H.A., George E.I., McCulloch R.E., Bayesian CART Model Search, Journal of the American Statistical Association 1998, September, vol. 93, nr 443. Crawford S.L., Extension to the CART algorithm, International Journal Man-Machine Studies 1989, vol. 31. Gatnar E. Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001. Loh W.-Y., Vanichsetakul N., Tree-structured Classification Via Generalized Discriminant Analysis, Journal of the American Statistical Association 1988, September, vol. 83, nr 403. Łapczyński M., Understanding Consumers Stated Preferences using CART s Surrogate and Competitor Splits, niepublikowany recenzowany referat wygłoszony w trakcie The 31st Annual Conference of the German Classification Society on Data Analysis, Machine Learning, and Applications, Freiburg, 7 9 marca 2007. Steinberg D., Colla P., CART. Interface and Documentation, Salford Systems 1997, http:// www.salford-systems.com/

114 Competitors and Surrogates in the Interpretation of Classification and Regression Trees The aim of this article is to indicate the role of surrogates and competitors in the creation and interpretation of classification and regression trees interpretation that goes beyond the standard set of conditional statements of the if, then... type, the significance ranking of predictors, and the confusion matrix. In the introduction, the author describes the classical methods for dividing classification and regression trees the Gini criterion and the twoing criterion. Next, he describes the differences between competitors and surrogates, with particular emphasis on the construction of a significance ranking of predictors, the masking problem, and the creation of alternative rules to describe the tree model. The article is supplemented with an example of how to construct a consumer preference model on the motor car market using CART software.