PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

Transkrypt

1 Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa klasyfikacyjne i regresyjne to narzędzia data mining służące do budowy modeli deskryptywnych i predykcyjnych. O drzewach klasyfikacyjnych można mówić wtedy, gdy zmienna zależna znajduje się na nominalnym lub porządkowym poziomie pomiaru, natomiast o drzewach regresyjnych wtedy, gdy poziom pomiaru tej zmiennej jest co najmniej przedziałowy. Czasem metody te nazywa się ogólnie drzewami klasyfikacyjnymi, które, w zależności od poziomu pomiaru zmiennej objaśnianej, pozwalają budować modele dyskryminacyjne bądź regresyjne. Za najbardziej zaawansowany algorytm budowy drzew klasyfikacyjnych i regresyjnych uznaje się CART (Classification and Regression Trees). Mimo że narzędzie to powstało na początku lat 80. ubiegłego stulecia, to do dziś doczekało się nieznacznych modyfikacji i stanowi odrębną rodzinę algorytmów drzewkowych. 2. Zasady budowy drzew regresyjnych Analiza z zastosowaniem drzew regresyjnych jest zbliżona do analizy z zastosowaniem drzew dyskryminacyjnych. Także i tutaj dokonuje się rekurencyjnego podziału zbioru obserwacji na rozłączne podzbiory, przy czym poziom pomiaru zmiennej zależnej jest co najmniej przedziałowy, a jej przewidywana wartość w węzłach końcowych jest stała. Drzewkowe podejście do regresji ma kilka zalet:

2 136 Mariusz Łapczyński nie trzeba przekodowywać wielokategorialnych jakościowych zmiennych niezależnych na zmienne zerojedynkowe (dummy variables) 1, nie ma potrzeby standaryzowania różnoimiennych predyktorów, związki między zmiennymi nie muszą być liniowe, rozkłady zmiennych nie muszą być normalne (nie ma także obowiązku przekształcania zmiennych, które utrudnia interpretację). Trzeba tu jednak podkreślić, że jeśli spełnione są wymogi regresji wielorakiej, to należy wybrać ten właśnie sposób analizy danych. Drzewa regresyjne w wypadku liniowych związków dają gorsze wyniki 2. Podczas budowy drzew regresyjnych, niską wartość kosztu resubstytucji zapewniają wartości zmiennej zależnej, których wartość jest bliska lub równa średniej w danym liściu. Najlepszy podział danego węzła to taki, w którym występuje największy spadek kosztu resubstytucji. Podsumowując: drzewo regresyjne jest tworzone przez iteracyjne podziały zbioru obserwacji minimalizujące koszt resubstytucji. W przeciwieństwie do drzew klasyfikacyjnych, nie chodzi wyłącznie o minimalizację błędu klasyfikacji, ale także o to, aby na danym etapie podziału rozdzielić wysokie i niskie wartości zmiennej zależnej. Należy tu dodać, że w poprawnie zbudowanym modelu zawsze do jednego wydzielonego węzła trafiają wartości wyższe, a do drugiego niższe od wartości w węźle macierzystym (rys. 1) Rys. 1. Przykład wartości w węźle macierzystym i węzłach potomkach Etapy analizy z użyciem drzew regresyjnych są następujące: 1) wybór reguły podziału, 2) wybór kryterium stopu (określenie, kiedy węzeł drzewa staje się liściem), 3) oszacowanie jakości modelu, 4) określenie reguły przydzielającej obserwacje do liści drzewa. 1 Zaleca się przekodowanie dopiero wówczas, gdy liczba wariantów zmiennej jakościowej przekracza L. Breiman i in., Classification and Regression Trees, Chapman & Hill/CRC, New York 1998, s. 264.

3 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 137 Najczęściej stosowanymi w praktyce regułami podziału 3 są wariancja i odchylenie przeciętne. W pierwszym wypadku liczy się średnią wartość zmiennej zależnej w liściu i podaje wariancję znajdujących się w nim przypadków (czasem także odchylenie standardowe). W drugim wypadku szacowana jest mediana zmiennej zależnej oraz średnie odchylenie bezwzględne obserwacji znajdujących się w liściu. Węzeł staje się maksymalnie homogeniczny w sytuacji, gdy wszystkie znajdujące się w nim przypadki są równe odpowiednio: średniej lub medianie. Wybór reguły podziału ma wpływ na ostateczną postać modelu. Odchylenie przeciętne jest odporne na przypadki odstające i asymetryczne rozkłady zmiennych, jednak wariancja zapewnia wyższą trafność predykcji. W wypadku drzew regresyjnych nie ma potrzeby ustalania prawdopodobieństw a priori pojawienia się klas. Podobnie jak w odniesieniu do drzew klasyfikacyjnych, podział drzewa zaczyna się od całego zbioru obserwacji i kończy teoretycznie wtedy, gdy każdy przypadek trafi do odrębnego liścia. Gdyby takie rozwiązanie uznać za ostateczne, to błąd predykcji wynosiłby 0, ale liczba reguł typu jeżeli, to byłaby równa liczbie obserwacji, co powodowałoby, że praktyczne wykorzystanie modelu byłoby niemożliwe. Przyjmuje się zazwyczaj 4, że minimalna liczebność węzła końcowego jest równa 5. Ogólnie rzecz biorąc, koszt resubstytucji maleje wraz ze wzrostem liczby węzłów końcowych modelu, co najłatwiej przedstawić na rysunku (rys. 2). 1,00 Błąd predykcji 0,75 0,50 0, Liczba węzłów końcowych Rys. 2. Schemat zależności między wielkością drzewa a błędem predykcji 3 E. Gatnar, Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001, s L. Breiman i in., op. cit., s. 233.

4 138 Mariusz Łapczyński W wypadku drzew klasyfikacyjnych podział zbioru kończył się wtedy, gdy węzeł był czysty, tzn. zawierał przypadki należące tylko do jednej kategorii zmiennej zależnej lub gdy jego liczebność zrównała się z minimalną przyjętą liczebnością (ew. frakcją obiektów). Jeśli chodzi o drzewa regresyjne, również obowiązuje minimalna liczebność liścia, a ponadto zasada czystości węzła końcowego (purity condition for regression tree), która mówi, że węzeł jest jednorodny, jeśli wszystkie przypadki mają jednakową wartość. Miary służące do oceny jakości modelu regresyjnego są podobne do tych z modeli dyskryminacyjnych. W najprostszym ujęciu jest to koszt resubstytucji, choć uważa się, że szacowanie błędu jedynie na podstawie próby uczącej prowadzi do nazbyt optymistycznych wyników. W celu bardziej dokładnego oszacowania trafności predykcji stosuje się prostą walidację lub wielokrotną walidację krzyżową. Wybierając ostateczny wynik można wykorzystać wykres, na którym zestawia się koszt resubstytucji (RE) i współczynnik błędu po wielokrotnej walidacji krzyżowej (RE CV ) 5 jednocześnie (rys. 3). 1,00 Błąd predykcji 0,75 0,50 0,25 współczynnik błędu po wielokrotnej walidacji krzyżowej koszt resubstytucji Liczba węzłów końcowych Rys. 3. Jednoczesne zestawienie kosztu resubstytucji i współczynnika błędu po wielokrotnej walidacji krzyżowej Proces przycinania w drzewach regresyjnych jest nieco inny niż w wypadku drzew klasyfikacyjnych w jednym kroku usuwane są tylko dwa węzły końcowe (w drzewach klasyfikacyjnych przycinanie dotyczyło nawet całych kilkuwęzłowych gałęzi). Powoduje to, że sekwencja przyciętych drzew regresyjnych, z których wybiera się drzewo właściwych rozmiarów, jest znacznie dłuższa. Inna 5 skróty RE i RE CV związane są z angielską terminologią, RE oznacza resubstitution estimate, a RE CV cross-validated resubstitution estimate.

5 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 139 różnica dotyczy kształtu krzywej obrazującej RE CV jest dłuższa i bardziej płaska niż w modelach dyskryminacyjnych. Oznacza to, że wybór drzewa właściwych rozmiarów staje się arbitralny, gdyż zbyt wiele drzew posiada zbliżoną wartość RE CV. Różnicę tę przedstawiono na rys. 4, gdzie odcieniem szarości zaznaczono obszar obejmujący potencjalne drzewa właściwych rozmiarów. model regresyjny model dyskryminacyjny RE CV RE CV RE RE Rys. 4. Wykres współczynników błędu w modelach regresyjnych i dyskryminacyjnych Przycinając drzewo ma się na celu redukcję jego wielkości (zmniejszenie liczby liści), przy jak najmniejszym przyroście błędu predykcji. Znalezienie takiego kompromisu w drzewach regresyjnych jest możliwe dzięki zasadzie jednego odchylenia standardowego (1 SE rule). Za optymalne uznaje się to drzewo, dla którego błąd predykcji (RE TS ) 6 jest mniejszy (lub równy) od najmniejszego błędu predykcji (RE CV ) powiększonego o jedno odchylenie standardowe w sekwencji drzew. Zasadę tę zilustrowano przykładem (tabela 1). Widać, że drzewem o najmniejszym błędzie predykcji jest drzewo nr 167 (RE CV ± SE = 0,17 ± 0,02). Błąd predykcji RE TS sąsiadujących z nim drzew wynosi 0,18 dla drzewa nr 166 i 0,17 dla drzewa nr 168. Oznacza to, że drzewem właściwych rozmiarów staje się rozwiązanie nr 168, ponieważ 0,17 < 0,17 ± 0,02. Wprawdzie RE TS dla drugiego rozwiązania również spełnia ten warunek (0,18 < < 0,17 ± 0,02), ale w takiej sytuacji wybiera się wartość najniższą. W regresji wielorakiej miarą oceniającą jakość rozwiązania jest współczynnik determinacji R 2, który informuje o tym, jaka część wariancji zmiennej zależnej jest wyjaśniana przez zestaw predyktorów. W przypadku drzew regresyjnych zaleca się wykorzystanie współczynnika błędu po wielokrotnej walidacji krzyżowej (RE CV ) zamiast trafności predykcji po wielokrotnej walidacji krzyżowej R CV. 6 Oszacowany w czasie prostej walidacji i oznaczony symbolem RE TS (od angielskiego terminu: Test Sample).

6 140 Mariusz Łapczyński Tabela 1. Przykład wyboru drzewa optymalnego na podstawie zasady jednego odchylenia standardowego Numer drzewa Liczba liści RE RE CV ± SE RE TS ,00 0,25 ± 0,03 0, ,00 0,25 ± 0,03 0, ,01 0,25 ± 0,03 0, ,12 0,18 ± 0,02 0, a 14 0,13 0,17 ± 0,02 0, b 13 0,13 0,17 ± 0,02 0, ,27 0,32 ± 0,03 0, ,00 1,00 1,00 a drzewo o najmniejszym błędzie predykcji; b drzewo optymalne Źródło: L. Breiman, op. cit., s Zdaniem autorów algorytmu CART 7, mimo że RE CV i R CV sumują się do jedności, to nie można mówić, że 1 RE CV to współczynnik R 2 informujący o proporcji wariancji zmiennej zależnej wyjaśnianej przez model. Proponują szacowanie błędu po wielokrotnej walidacji krzyżowej i przyjęcie, że to właśnie jest miara dokładności modelu. Ważną zaletą drzew regresyjnych CART jest sposób postępowania z brakującymi wartościami zmiennych oraz z przypadkami odstającymi. W klasycznych metodach statystycznych często usuwa się przypadki z brakami danych, co ma wpływ na pogorszenie wyników analizy. Propozycja Breimana i in. polega na wykorzystaniu tzw. zmiennej zastępczej (surrogate) lub zmiennej konkurencyjnej (competitors). Zmienną zastępczą jest ten predyktor, który zapewnia podział węzła zbliżony do pierwotnego podziału dokonanego na podstawie najlepszego w danym etapie predyktora. W każdym kroku analizy budowany jest ranking zmiennych zastępczych, gdzie o kolejności decyduje wielkość wskaźnika asocjacji. Zmienne zastępcze i zmienne konkurencyjne omówione będą w dalszej części pracy. Na rys. 5 pokazano, w jaki sposób algorytm CART znajduje zastosowanie w przypadkach odstających. W węźle macierzystym znajduje się 30 przypadków, dla których wartość średnia zmiennej zależnej wynosi 45,1; a odchylenie standardowe 6,1. Dokonano podziału węzła tak, że do lewego węzła potomnego trafiło 29 przypadków, dla których średnia wynosi 45,9 przy odchyleniu standardowym równym 4,3; natomiast w prawym węźle potomnym znalazł się tylko jeden przypadek o wartości zmiennej zależnej równej 21,9. Ogólnie rzecz biorąc, przypadki 7 L. Breiman, op. cit., s. 225.

7 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 141 odstające są izolowane do osobnych liści, o ile pozwala na to kryterium stopu mówiące o minimalnej liczebności węzła końcowego. 45,1 6, ,9 4,3 21,9 0,0 Rys. 5. Przykład odizolowania przypadku odstającego w metodzie CART Źródło: L. Breiman, op cit., s Interpretacja liści w modelu regresyjnym różni się w zależności od liczby zmiennych niezależnych wykorzystanych w podziale węzłów drzewa. Jeśli w drzewie pojawiłby się tylko jeden predyktor (rys. 6), to reguły można rozpisać w tabeli (tabela 2) lub sporządzić wykres funkcji schodkowej (rys. 7). 15 dochód < 1500 zł 13 dochód < 1000 zł 20 dochód < 2500 zł dochód < 2000 zł Rys. 6. Drzewo regresyjne z jedną zmienną niezależną

8 142 Mariusz Łapczyński Tabela 2. Wartości parametrów modelu regresyjnego z jedną zmienną niezależną Węzeł końcowy Dochód (zł) Wydatki na dobro x (zł) 1 <0; 1000) 15 2 <1000; 1500) 10 3 <2500; 3000) 25 4 <1500; 2000) 5 5 <2000; 2500) 12 Jeśli jednak w podziale drzewa bierze udział kilka predyktorów (rys. 8), to interpretacja jest analogiczna do opisu reguł w drzewach klasyfikacyjnych (tabela 3). Jedyna różnica sprowadza się do tego, że tam był to procent danej klasy w węźle, a tutaj jest to średnia wartość zmiennej zależnej z wyliczoną wariancją (ew. odchyleniem standardowym) bądź mediana ze średnim odchyleniem bezwzględnym. 20 Wydatki na dobro x Dochód Rys. 7. Prezentacja modelu regresyjnego z jedną zmienną niezależną w postaci funkcji schodkowej

9 Podejście regresyjne w budowie drzew klasyfikacyjnych CART dochód < 1500 zł 13 kobieta 20 wykształcenie wyższe wiek do 20 lat Rys. 8. Drzewo regresyjne z kilkoma zmiennymi niezależnymi Tabela 3. Wartości parametrów modelu regresyjnego z kilkoma zmiennymi niezależnymi Węzeł końcowy Wydatki na dobro x (zł) Reguła typu jeżeli, to 1 15 jeżeli wynagrodzenie < 1500 zł i płeć = kobieta 2 10 jeżeli wynagrodzenie < 1500 zł i płeć = mężczyzna 3 25 jeżeli wynagrodzenie 1500 zł i wykształcenie wyższe jeżeli wynagrodzenie 1500 zł i wykształcenie = wyższe, i wiek < 20 lat jeżeli wynagrodzenie 1500 zł i wykształcenie = wyższe, i wiek 20 lat Stabilność modelu regresyjnego można szacować przez zbudowanie kilku drzew dla tej samej liczby fałd w wielokrotnej walidacji krzyżowej, ale z różnymi ustawieniami generatora liczb losowych. Następnie porównuje się struktury drzewa i rankingi ważności predyktorów. Ich zbieżność świadczy o tym, że model jest stabilny. W innym razie oznacza to skorelowanie zmiennych niezależnych lub istnienie alternatywnych reguł predykcyjnych opisujących liście drzewa.

10 144 Mariusz Łapczyński 3. Porównanie drzew zbudowanych na podstawie wariancji i odchylenia przeci tnego Przykład opisany w niniejszym artykule będzie dotyczył predykcji cen samochodów osobowych dostępnych na rynku polskim. W analizie wykorzystano zbiór 803 nowych pojazdów 8 dostępnych w sprzedaży w 1999 r. Zmiennymi niezależnymi są: moc silnika (KM), pojemność silnika (cm 3 ), segment według SAMAR (np. small, upper medium, lower medium itp.), kraj pochodzenia marki, wersja nadwozia (np. sedan, hatchback, kombi), liczba drzwi, typ silnika (benzynowy, diesel) i zestaw zmiennych binarnych typu: posiada nie posiada (ABS, klimatyzacja, elektrycznie sterowane szyby, poduszki powietrzne, wspomaganie kierownicy, centralny zamek. Modele regresyjne zbudowano w programie CART firmy Salford Systems przy użyciu dwóch reguł podziału: średniej z wariancją i mediany ze średnim odchyleniem bezwzględnym. Celem badania nie jest poznanie struktury cenowej rynku motoryzacyjnego w Polsce, ale analiza porównawcza tych dwóch sposobów konstruowania drzew regresyjnych. Pierwszy model ( ze średnią ) powstał w ciągu niespełna 7 sekund, podczas gdy konstrukcja drugiego ( z medianą ) trwała 18 minut i 36 sekund (!). Względny błąd predykcji dla obu modeli różni się znacznie (rys. 9). Dla drzewa zbudowanego na podstawie średniej wynosi on 0,147, zaś dla drzewa zbudowanego na podstawie mediany aż 0,351. Liczba węzłów końcowych w obu przypadkach jest równa 22, jednak struktura modelu i związany z nią opis liści różnią się istotnie (rys. 10). Program CART umożliwia szczegółową analizę każdego podziału w modelu. Przykład dla podziału w węźle nr 7 z drzewa regresyjnego ze średnią 9 znajduje się na rys. 11. Jego liczebność wynosi 159 przypadków, zaś liczebność węzłów potomnych: 97 dla węzła nr 8 i 62 dla węzła końcowego nr 6 (oznaczonego 6). 8 Jest to zbiór wykorzystany w analizie za pomocą drzew klasyfikacyjnych CART i opisany w: M. Łapczyński, Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków 2002, s ; tam również dokonano analizy za pomocą metody CART, jednak zmienna zależna została zdyskretyzowana (powstał model dyskryminacyjny), a w obliczeniach użyto jednego z modułów pakietu STATI- STICA. 9 W języku angielskim mówi się o LS Regression Trees i LAD Regression Trees, gdzie LS (Least Squares) oznacza model zbudowany na podstawie średniej, zaś LAD (Least Absolute Deviation) model zbudowany na podstawie mediany.

11 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 145 średnia Relative Error 0,6 0,147 0,5 0,4 0,3 0,2 0, Number of Nodes mediana Relative Error 0,8 0,7 0,6 0,5 0,4 0,3 Number of Nodes 0, Rys. 9. Liczba węzłów końcowych a względny błąd predykcji w drzewach regresyjnych zbudowanych dwoma metodami Źródło: opracowanie własne w programie CART. średnia mediana Rys. 10. Schemat drzewa regresyjnego zbudowanego na podstawie średniej i mediany Źródło: opracowanie własne w programie CART.

12 146 Mariusz Łapczyński ************************************* * Node 7: MOC KM_ * * N: 159 * ************************************* ********** ******************** =============================== * Node 8 * = Terminal Node 6 = * N: 97 * = N: 62 = ******************************* ======== ==================== Node 7 was split on MOC KM_ A case goes left if MOC KM_ <= Improvement = Complexity Threshold = E+10 Node Cases Wgt Count Mean StdDev Surrogate Split Assoc. Improve. 1 EL_SZYBY s CCM s PRODUCEN s Francja,Hiszpania,Japonia NADWOZIE s hatchback,mini MPV,sedan, convertible,coupe,roadster,mpv, SUV 5 AIR_BAG s Competitor Split Improve. 1 CCM SEGMENT mini,mini plus,small,suv NADWOZIE hatchback,convertible,coupe,roadster,mpv, SUV 4 EL_ SZYBY BENZYNA Rys. 11. Szczegóły obliczeniowe dotyczące wybranego podziału węzła Źródło: opracowanie własne w programie CART. Predyktorem wykorzystanym w tym miejscu drzewa jest moc silnika. Auta o mocy mniejszej lub równej 88,5 KM trafiają do węzła lewego (nr 8), zaś pozostałe do prawego (nr 6). Wskaźnik poprawy (improvement) to wielkość wariancji wewnątrz węzła zredukowana przez podział drzewa w tym węźle. W tym wypadku obliczenia będą następujące: (159/803) x (5908,033) 2 [(97/803) x (4368,423) 2 + (62/803) x (5704,515) 2 ] = = ,541. Na każdym etapie podziału drzewa oblicza się wskaźnik poprawy oraz wskaźnik asocjacji (association) dla zestawu zmiennych niezależnych. Najwyższa wartość wskaźnika skojarzenia może przyjąć wartość 1, co oznacza, że zmienna zastępcza (surrogate) daje identyczny podział węzła jak predyktor użyty do podziału na danym

13 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 147 etapie 10. Wskaźnik skojarzenia służy jedynie do zestawienia rankingu zmiennych zastępczych i nie może być interpretowany jako współczynnik korelacji między podziałem pierwotnym a podziałem zastępczym danego węzła. W tym przypadku za najlepsze zmienne zastępcze uznano: posiadanie elektrycznie sterowanych szyb (0,290), pojemność silnika (0,274), kraj producenta (0,194), wersję nadwozia (0,048) i posiadanie poduszek powietrznych (0,016). Innym zaproponowanym rozwiązaniem jest zastosowanie zmiennych konkurencyjnych (competitors), których ranking wyznaczany jest za pomocą posortowanego malejąco wskaźnika poprawy. Ich porządek jest tu następujący: pojemność silnika, segment, wersja nadwozia, posiadanie elektrycznie sterowanych szyb i typ silnika (benzynowy, diesel). Mimo że oba modele mają różne współczynniki błędu i strukturę drzewa (reguły predykcyjne), to ranking ważności predyktorów jest podobny, zwłaszcza jeśli weźmie się pod uwagę jego kilka pierwszych pozycji (rys. 12). Cztery zmienne niezależne mające największy wpływ na ceną samochodu to: moc silnika (KM), pojemność silnika (cm 3 ), przynależność do segmentu według SAMAR i kraj pochodzenia marki. Zmienna niezależna Moc silnika (KM) Pojemność silnika (cm 3 ) Segment Kraj pochodzenia marki Wersja nadwozia ABS Liczba drzwi Klimatyzacja Elektrycznie sterowane szyby Poduszki powietrzne Wspomaganie kierownicy Centralny zamek Silnik benzynowy/diesel Średnia Liczba punktów 100,00 98,03 82,25 17,73 11,97 9,64 8,14 5,87 0,76 0,67 0,35 0,32 0,31 Zmienna niezależna Moc silnika (KM) Pojemność silnika (cm 3 ) Segment Kraj pochodzenia marki ABS Wersja nadwozia Centralny zamek Elektrycznie sterowane szyby Liczba drzwi Klimatyzacja Wspomaganie kierownicy Poduszki powietrzne Silnik benzynowy/diesel Mediana Liczba punktów 100,00 94,73 87,94 25,81 19,85 19,08 11,12 10,97 6,74 3,90 3,06 3,01 0,74 Rys. 12. Porównanie rankingów ważności predyktorów w obu modelach Źródło: opracowanie własne w programie CART. Poza automatycznym generowaniem reguł, CART zestawia charakterystyki wszystkich liści, co przedstawiono na rys. 13. Oprócz liczebności węzła (count), 10 Najniższe wartości mogą być ujemne, jednak nie są one zamieszczane w oknie wyników programu CART.

14 148 Mariusz Łapczyński podano średnią wartość zmiennej zależnej ceny samochodu (mean) oraz odchylenie standardowe. ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Mean StdDev Complexity E E E E E E E E E E E E E E E E E E E E E E+12 Rys. 13. Charakterystyki węzłów końcowych w drzewie regresyjnym ze średnią Źródło: opracowanie własne w programie CART. Odchylenie standardowe informuje o stopniu homogeniczności węzła. Jak łatwo zauważyć, najlepszymi klasyfikatorami są węzły: 4, 2 i 5, zaś najgorszymi węzły: 22, 17 i 21. Oznacza to, że trafność predykcji dla samochodów tańszych jest wyższa od trafności predykcji dla samochodów droższych 11. Podobne zestawienie jest tworzone dla drzewa regresyjnego z medianą (rys. 14), z tą różnicą, że zamiast średniej i odchylenia standardowego podaje się tam wartość mediany i średniego odchylenia bezwzględnego. Węzłami o największej, z punktu widzenia wartości zmiennej zależnej, homogeniczności są węzły: 5, 6 i 9, natomiast węzłami najbardziej heterogenicznymi są węzły: 4, 22 i 1. Podobnie jak w modelu regresyjnym ze średnią, najmniejsza trafność predykcji dotyczy samochodów najdroższych. 11 Gdyby badania takie przeprowadzić na potrzeby praktyki, to należałoby badać ceny wewnątrz SAMAR-owskich segmentów lub w grupie marek i modeli konkurencyjnych; w tej analizie chodzi o poznanie metody, więc w jednym zbiorze obserwacji znalazł się Fiat 126p i Mercedes klasy S, których ceny są de facto potraktowane jako przypadki odstające.

15 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 149 ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Median MeanAbsDev Complexity Rys. 14. Charakterystyki węzłów końcowych w drzewie regresyjnym z medianą Źródło: opracowanie własne w programie CART. 400 CENA W Shapiro-Wilka, 66887, p < 0, Liczba obserwacji ,000 0, , , , , , , , , , ,000 Górna granica (x <= granicy) oczekiwane normalne Rys. 15. Rozkład zmiennej zależnej ceny samochodu Źródło: opracowanie własne w programie STATISTICA.

16 150 Mariusz Łapczyński Należy tu jednak dodać, że rozkład zmiennej zależnej nie jest zgodny z rozkładem normalnym (test W Shapiro-Wilka jest istotny), ale wykazuje silną asymetrię prawostronną (miara skośności wynosi 3,19). Przedstawiono to na rys Podsumowanie Drzewa regresyjne są alternatywnym dla klasycznej regresji wielorakiej sposobem badania zależności między zestawem zmiennych niezależnych a metryczną zmienną zależną. Choć nie sprawdzają się w wypadku związków liniowych, to ich niewątpliwymi zaletami jest brak konieczności tworzenia zmiennych zerojedynkowych ze zmiennych kategorialnych i brak konieczności standaryzowania zmiennych. Powoduje to, że ich interpretacja jest klarowna i ograniczona do zestawu zdań warunkowych typu: jeżeli, to. Autorzy algorytmu podkreślają, że drzewa mogą być również wykorzystane do wstępnego rozpoznania struktury danych. Może się bowiem okazać, że węzły wydzielone w początkowych krokach analizy stanowią podzbiory danych, w których można użyć regresji wielorakiej. Istnieją dwa sposoby budowania modeli regresyjnych CART: średnia z wariancją i mediana ze średnim odchyleniem bezwzględnym. Pierwszy daje wyższą trafność predykcji i charakteryzuje się krótszym czasem analizy, natomiast drugi jest odporny na przypadki odstające i asymetrię rozkładów. Budując modele regresyjne warto wykorzystać obie metody i wybrać tę, która najlepiej rozwiązuje problem badawczy. Literatura Breiman L. i in., Classification and Regression Trees, Chapman & Hill/CRC, New York Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa Łapczyński M., Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków A Regression Approach in Constructing CART Classification Trees The purpose of the article is to provide an introduction to constructing CART regression trees. The author describes in detail each step in an analysis using two splitting rules: Least Squares (LS) and Least Absolute Deviation (LAD). The author characterises the basic measures such as the improvement coefficient and association coefficient and discusses procedures to deal with outliers. The author reviews a supplementary description, introduced by Breiman et al., of surrogate and competitor variables that participate in tree splitting when missing values arise in independent variables.

17 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 151 In a comparative analysis of both methods (LS and LAD), the author uses a set of observations from over 800 cases motorcars available on the Polish market. The dependent variable was the price of the vehicle, while the independent quantitative and qualitative variables were the vehicle characteristics. In the calculations, the best implementation of the algorithm was used the CART program developed by Salford Systems.