PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

Podobne dokumenty
DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie do analizy korelacji i regresji

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Drzewa decyzyjne i lasy losowe

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

ALGORYTM RANDOM FOREST

Zadania ze statystyki, cz.6

Rozdział 8. Regresja. Definiowanie modelu

Algorytmy klasyfikacji

Analiza współzależności zjawisk

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

MODELE LINIOWE. Dr Wioleta Drobik

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zmienne zależne i niezależne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Pobieranie prób i rozkład z próby

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Ćwiczenia IV

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

KORELACJE I REGRESJA LINIOWA

Wykład 5: Statystyki opisowe (część 2)

Analiza składowych głównych. Wprowadzenie

Miary statystyczne w badaniach pedagogicznych

Testy nieparametryczne

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Jak przekształcać zmienne jakościowe?

Regresja logistyczna (LOGISTIC)

Testowanie modeli predykcyjnych

5. Model sezonowości i autoregresji zmiennej prognozowanej

Statystyka i Analiza Danych

R-PEARSONA Zależność liniowa

Wykład 4: Statystyki opisowe (część 1)

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Parametry statystyczne

ANALIZY WIELOZMIENNOWE

Metoda Automatycznej Detekcji Interakcji CHAID

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Agnieszka Nowak Brzezińska Wykład III

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

10. Podstawowe wskaźniki psychometryczne

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Optymalizacja ciągła

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. Strona 1

1 Podstawy rachunku prawdopodobieństwa

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Metody Eksploracji Danych. Klasyfikacja

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Drzewa decyzyjne w SAS Enterprise Miner

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

STATYSTYKA MATEMATYCZNA

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Stosowana Analiza Regresji

Szkice rozwiązań z R:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Inteligentna analiza danych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Wykład 3 Hipotezy statystyczne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Analiza Statystyczna

Graficzna prezentacja danych statystycznych

Transkrypt:

Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa klasyfikacyjne i regresyjne to narzędzia data mining służące do budowy modeli deskryptywnych i predykcyjnych. O drzewach klasyfikacyjnych można mówić wtedy, gdy zmienna zależna znajduje się na nominalnym lub porządkowym poziomie pomiaru, natomiast o drzewach regresyjnych wtedy, gdy poziom pomiaru tej zmiennej jest co najmniej przedziałowy. Czasem metody te nazywa się ogólnie drzewami klasyfikacyjnymi, które, w zależności od poziomu pomiaru zmiennej objaśnianej, pozwalają budować modele dyskryminacyjne bądź regresyjne. Za najbardziej zaawansowany algorytm budowy drzew klasyfikacyjnych i regresyjnych uznaje się CART (Classification and Regression Trees). Mimo że narzędzie to powstało na początku lat 80. ubiegłego stulecia, to do dziś doczekało się nieznacznych modyfikacji i stanowi odrębną rodzinę algorytmów drzewkowych. 2. Zasady budowy drzew regresyjnych Analiza z zastosowaniem drzew regresyjnych jest zbliżona do analizy z zastosowaniem drzew dyskryminacyjnych. Także i tutaj dokonuje się rekurencyjnego podziału zbioru obserwacji na rozłączne podzbiory, przy czym poziom pomiaru zmiennej zależnej jest co najmniej przedziałowy, a jej przewidywana wartość w węzłach końcowych jest stała. Drzewkowe podejście do regresji ma kilka zalet:

136 Mariusz Łapczyński nie trzeba przekodowywać wielokategorialnych jakościowych zmiennych niezależnych na zmienne zerojedynkowe (dummy variables) 1, nie ma potrzeby standaryzowania różnoimiennych predyktorów, związki między zmiennymi nie muszą być liniowe, rozkłady zmiennych nie muszą być normalne (nie ma także obowiązku przekształcania zmiennych, które utrudnia interpretację). Trzeba tu jednak podkreślić, że jeśli spełnione są wymogi regresji wielorakiej, to należy wybrać ten właśnie sposób analizy danych. Drzewa regresyjne w wypadku liniowych związków dają gorsze wyniki 2. Podczas budowy drzew regresyjnych, niską wartość kosztu resubstytucji zapewniają wartości zmiennej zależnej, których wartość jest bliska lub równa średniej w danym liściu. Najlepszy podział danego węzła to taki, w którym występuje największy spadek kosztu resubstytucji. Podsumowując: drzewo regresyjne jest tworzone przez iteracyjne podziały zbioru obserwacji minimalizujące koszt resubstytucji. W przeciwieństwie do drzew klasyfikacyjnych, nie chodzi wyłącznie o minimalizację błędu klasyfikacji, ale także o to, aby na danym etapie podziału rozdzielić wysokie i niskie wartości zmiennej zależnej. Należy tu dodać, że w poprawnie zbudowanym modelu zawsze do jednego wydzielonego węzła trafiają wartości wyższe, a do drugiego niższe od wartości w węźle macierzystym (rys. 1). 20 20 19 22 5 40 Rys. 1. Przykład wartości w węźle macierzystym i węzłach potomkach Etapy analizy z użyciem drzew regresyjnych są następujące: 1) wybór reguły podziału, 2) wybór kryterium stopu (określenie, kiedy węzeł drzewa staje się liściem), 3) oszacowanie jakości modelu, 4) określenie reguły przydzielającej obserwacje do liści drzewa. 1 Zaleca się przekodowanie dopiero wówczas, gdy liczba wariantów zmiennej jakościowej przekracza 15. 2 L. Breiman i in., Classification and Regression Trees, Chapman & Hill/CRC, New York 1998, s. 264.

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 137 Najczęściej stosowanymi w praktyce regułami podziału 3 są wariancja i odchylenie przeciętne. W pierwszym wypadku liczy się średnią wartość zmiennej zależnej w liściu i podaje wariancję znajdujących się w nim przypadków (czasem także odchylenie standardowe). W drugim wypadku szacowana jest mediana zmiennej zależnej oraz średnie odchylenie bezwzględne obserwacji znajdujących się w liściu. Węzeł staje się maksymalnie homogeniczny w sytuacji, gdy wszystkie znajdujące się w nim przypadki są równe odpowiednio: średniej lub medianie. Wybór reguły podziału ma wpływ na ostateczną postać modelu. Odchylenie przeciętne jest odporne na przypadki odstające i asymetryczne rozkłady zmiennych, jednak wariancja zapewnia wyższą trafność predykcji. W wypadku drzew regresyjnych nie ma potrzeby ustalania prawdopodobieństw a priori pojawienia się klas. Podobnie jak w odniesieniu do drzew klasyfikacyjnych, podział drzewa zaczyna się od całego zbioru obserwacji i kończy teoretycznie wtedy, gdy każdy przypadek trafi do odrębnego liścia. Gdyby takie rozwiązanie uznać za ostateczne, to błąd predykcji wynosiłby 0, ale liczba reguł typu jeżeli, to byłaby równa liczbie obserwacji, co powodowałoby, że praktyczne wykorzystanie modelu byłoby niemożliwe. Przyjmuje się zazwyczaj 4, że minimalna liczebność węzła końcowego jest równa 5. Ogólnie rzecz biorąc, koszt resubstytucji maleje wraz ze wzrostem liczby węzłów końcowych modelu, co najłatwiej przedstawić na rysunku (rys. 2). 1,00 Błąd predykcji 0,75 0,50 0,25 20 40 60 80 100 120 Liczba węzłów końcowych Rys. 2. Schemat zależności między wielkością drzewa a błędem predykcji 3 E. Gatnar, Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001, s. 139. 4 L. Breiman i in., op. cit., s. 233.

138 Mariusz Łapczyński W wypadku drzew klasyfikacyjnych podział zbioru kończył się wtedy, gdy węzeł był czysty, tzn. zawierał przypadki należące tylko do jednej kategorii zmiennej zależnej lub gdy jego liczebność zrównała się z minimalną przyjętą liczebnością (ew. frakcją obiektów). Jeśli chodzi o drzewa regresyjne, również obowiązuje minimalna liczebność liścia, a ponadto zasada czystości węzła końcowego (purity condition for regression tree), która mówi, że węzeł jest jednorodny, jeśli wszystkie przypadki mają jednakową wartość. Miary służące do oceny jakości modelu regresyjnego są podobne do tych z modeli dyskryminacyjnych. W najprostszym ujęciu jest to koszt resubstytucji, choć uważa się, że szacowanie błędu jedynie na podstawie próby uczącej prowadzi do nazbyt optymistycznych wyników. W celu bardziej dokładnego oszacowania trafności predykcji stosuje się prostą walidację lub wielokrotną walidację krzyżową. Wybierając ostateczny wynik można wykorzystać wykres, na którym zestawia się koszt resubstytucji (RE) i współczynnik błędu po wielokrotnej walidacji krzyżowej (RE CV ) 5 jednocześnie (rys. 3). 1,00 Błąd predykcji 0,75 0,50 0,25 współczynnik błędu po wielokrotnej walidacji krzyżowej koszt resubstytucji 20 40 60 80 100 120 Liczba węzłów końcowych Rys. 3. Jednoczesne zestawienie kosztu resubstytucji i współczynnika błędu po wielokrotnej walidacji krzyżowej Proces przycinania w drzewach regresyjnych jest nieco inny niż w wypadku drzew klasyfikacyjnych w jednym kroku usuwane są tylko dwa węzły końcowe (w drzewach klasyfikacyjnych przycinanie dotyczyło nawet całych kilkuwęzłowych gałęzi). Powoduje to, że sekwencja przyciętych drzew regresyjnych, z których wybiera się drzewo właściwych rozmiarów, jest znacznie dłuższa. Inna 5 skróty RE i RE CV związane są z angielską terminologią, RE oznacza resubstitution estimate, a RE CV cross-validated resubstitution estimate.

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 139 różnica dotyczy kształtu krzywej obrazującej RE CV jest dłuższa i bardziej płaska niż w modelach dyskryminacyjnych. Oznacza to, że wybór drzewa właściwych rozmiarów staje się arbitralny, gdyż zbyt wiele drzew posiada zbliżoną wartość RE CV. Różnicę tę przedstawiono na rys. 4, gdzie odcieniem szarości zaznaczono obszar obejmujący potencjalne drzewa właściwych rozmiarów. model regresyjny model dyskryminacyjny RE CV RE CV RE RE Rys. 4. Wykres współczynników błędu w modelach regresyjnych i dyskryminacyjnych Przycinając drzewo ma się na celu redukcję jego wielkości (zmniejszenie liczby liści), przy jak najmniejszym przyroście błędu predykcji. Znalezienie takiego kompromisu w drzewach regresyjnych jest możliwe dzięki zasadzie jednego odchylenia standardowego (1 SE rule). Za optymalne uznaje się to drzewo, dla którego błąd predykcji (RE TS ) 6 jest mniejszy (lub równy) od najmniejszego błędu predykcji (RE CV ) powiększonego o jedno odchylenie standardowe w sekwencji drzew. Zasadę tę zilustrowano przykładem (tabela 1). Widać, że drzewem o najmniejszym błędzie predykcji jest drzewo nr 167 (RE CV ± SE = 0,17 ± 0,02). Błąd predykcji RE TS sąsiadujących z nim drzew wynosi 0,18 dla drzewa nr 166 i 0,17 dla drzewa nr 168. Oznacza to, że drzewem właściwych rozmiarów staje się rozwiązanie nr 168, ponieważ 0,17 < 0,17 ± 0,02. Wprawdzie RE TS dla drugiego rozwiązania również spełnia ten warunek (0,18 < < 0,17 ± 0,02), ale w takiej sytuacji wybiera się wartość najniższą. W regresji wielorakiej miarą oceniającą jakość rozwiązania jest współczynnik determinacji R 2, który informuje o tym, jaka część wariancji zmiennej zależnej jest wyjaśniana przez zestaw predyktorów. W przypadku drzew regresyjnych zaleca się wykorzystanie współczynnika błędu po wielokrotnej walidacji krzyżowej (RE CV ) zamiast trafności predykcji po wielokrotnej walidacji krzyżowej R CV. 6 Oszacowany w czasie prostej walidacji i oznaczony symbolem RE TS (od angielskiego terminu: Test Sample).

140 Mariusz Łapczyński Tabela 1. Przykład wyboru drzewa optymalnego na podstawie zasady jednego odchylenia standardowego Numer drzewa Liczba liści RE RE CV ± SE RE TS 1 200 0,00 0,25 ± 0,03 0,25 49 150 0,00 0,25 ± 0,03 0,25 96 100 0,01 0,25 ± 0,03 0,25 166 15 0,12 0,18 ± 0,02 0,18 167 a 14 0,13 0,17 ± 0,02 0,17 168 b 13 0,13 0,17 ± 0,02 0,17 175 6 0,27 0,32 ± 0,03 0,26 180 1 1,00 1,00 1,00 a drzewo o najmniejszym błędzie predykcji; b drzewo optymalne Źródło: L. Breiman, op. cit., s. 239. Zdaniem autorów algorytmu CART 7, mimo że RE CV i R CV sumują się do jedności, to nie można mówić, że 1 RE CV to współczynnik R 2 informujący o proporcji wariancji zmiennej zależnej wyjaśnianej przez model. Proponują szacowanie błędu po wielokrotnej walidacji krzyżowej i przyjęcie, że to właśnie jest miara dokładności modelu. Ważną zaletą drzew regresyjnych CART jest sposób postępowania z brakującymi wartościami zmiennych oraz z przypadkami odstającymi. W klasycznych metodach statystycznych często usuwa się przypadki z brakami danych, co ma wpływ na pogorszenie wyników analizy. Propozycja Breimana i in. polega na wykorzystaniu tzw. zmiennej zastępczej (surrogate) lub zmiennej konkurencyjnej (competitors). Zmienną zastępczą jest ten predyktor, który zapewnia podział węzła zbliżony do pierwotnego podziału dokonanego na podstawie najlepszego w danym etapie predyktora. W każdym kroku analizy budowany jest ranking zmiennych zastępczych, gdzie o kolejności decyduje wielkość wskaźnika asocjacji. Zmienne zastępcze i zmienne konkurencyjne omówione będą w dalszej części pracy. Na rys. 5 pokazano, w jaki sposób algorytm CART znajduje zastosowanie w przypadkach odstających. W węźle macierzystym znajduje się 30 przypadków, dla których wartość średnia zmiennej zależnej wynosi 45,1; a odchylenie standardowe 6,1. Dokonano podziału węzła tak, że do lewego węzła potomnego trafiło 29 przypadków, dla których średnia wynosi 45,9 przy odchyleniu standardowym równym 4,3; natomiast w prawym węźle potomnym znalazł się tylko jeden przypadek o wartości zmiennej zależnej równej 21,9. Ogólnie rzecz biorąc, przypadki 7 L. Breiman, op. cit., s. 225.

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 141 odstające są izolowane do osobnych liści, o ile pozwala na to kryterium stopu mówiące o minimalnej liczebności węzła końcowego. 45,1 6,1 29 1 45,9 4,3 21,9 0,0 Rys. 5. Przykład odizolowania przypadku odstającego w metodzie CART Źródło: L. Breiman, op cit., s. 219. Interpretacja liści w modelu regresyjnym różni się w zależności od liczby zmiennych niezależnych wykorzystanych w podziale węzłów drzewa. Jeśli w drzewie pojawiłby się tylko jeden predyktor (rys. 6), to reguły można rozpisać w tabeli (tabela 2) lub sporządzić wykres funkcji schodkowej (rys. 7). 15 dochód < 1500 zł 13 dochód < 1000 zł 20 dochód < 2500 zł 15 10 10 25 1 2 3 dochód < 2000 zł 5 12 4 5 Rys. 6. Drzewo regresyjne z jedną zmienną niezależną

142 Mariusz Łapczyński Tabela 2. Wartości parametrów modelu regresyjnego z jedną zmienną niezależną Węzeł końcowy Dochód (zł) Wydatki na dobro x (zł) 1 <0; 1000) 15 2 <1000; 1500) 10 3 <2500; 3000) 25 4 <1500; 2000) 5 5 <2000; 2500) 12 Jeśli jednak w podziale drzewa bierze udział kilka predyktorów (rys. 8), to interpretacja jest analogiczna do opisu reguł w drzewach klasyfikacyjnych (tabela 3). Jedyna różnica sprowadza się do tego, że tam był to procent danej klasy w węźle, a tutaj jest to średnia wartość zmiennej zależnej z wyliczoną wariancją (ew. odchyleniem standardowym) bądź mediana ze średnim odchyleniem bezwzględnym. 20 Wydatki na dobro x 15 10 5 0 1000 1500 2000 2500 Dochód Rys. 7. Prezentacja modelu regresyjnego z jedną zmienną niezależną w postaci funkcji schodkowej

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 143 15 dochód < 1500 zł 13 kobieta 20 wykształcenie wyższe 15 10 10 25 1 2 3 wiek do 20 lat 5 12 4 5 Rys. 8. Drzewo regresyjne z kilkoma zmiennymi niezależnymi Tabela 3. Wartości parametrów modelu regresyjnego z kilkoma zmiennymi niezależnymi Węzeł końcowy Wydatki na dobro x (zł) Reguła typu jeżeli, to 1 15 jeżeli wynagrodzenie < 1500 zł i płeć = kobieta 2 10 jeżeli wynagrodzenie < 1500 zł i płeć = mężczyzna 3 25 jeżeli wynagrodzenie 1500 zł i wykształcenie wyższe 4 5 5 12 jeżeli wynagrodzenie 1500 zł i wykształcenie = wyższe, i wiek < 20 lat jeżeli wynagrodzenie 1500 zł i wykształcenie = wyższe, i wiek 20 lat Stabilność modelu regresyjnego można szacować przez zbudowanie kilku drzew dla tej samej liczby fałd w wielokrotnej walidacji krzyżowej, ale z różnymi ustawieniami generatora liczb losowych. Następnie porównuje się struktury drzewa i rankingi ważności predyktorów. Ich zbieżność świadczy o tym, że model jest stabilny. W innym razie oznacza to skorelowanie zmiennych niezależnych lub istnienie alternatywnych reguł predykcyjnych opisujących liście drzewa.

144 Mariusz Łapczyński 3. Porównanie drzew zbudowanych na podstawie wariancji i odchylenia przeci tnego Przykład opisany w niniejszym artykule będzie dotyczył predykcji cen samochodów osobowych dostępnych na rynku polskim. W analizie wykorzystano zbiór 803 nowych pojazdów 8 dostępnych w sprzedaży w 1999 r. Zmiennymi niezależnymi są: moc silnika (KM), pojemność silnika (cm 3 ), segment według SAMAR (np. small, upper medium, lower medium itp.), kraj pochodzenia marki, wersja nadwozia (np. sedan, hatchback, kombi), liczba drzwi, typ silnika (benzynowy, diesel) i zestaw zmiennych binarnych typu: posiada nie posiada (ABS, klimatyzacja, elektrycznie sterowane szyby, poduszki powietrzne, wspomaganie kierownicy, centralny zamek. Modele regresyjne zbudowano w programie CART firmy Salford Systems przy użyciu dwóch reguł podziału: średniej z wariancją i mediany ze średnim odchyleniem bezwzględnym. Celem badania nie jest poznanie struktury cenowej rynku motoryzacyjnego w Polsce, ale analiza porównawcza tych dwóch sposobów konstruowania drzew regresyjnych. Pierwszy model ( ze średnią ) powstał w ciągu niespełna 7 sekund, podczas gdy konstrukcja drugiego ( z medianą ) trwała 18 minut i 36 sekund (!). Względny błąd predykcji dla obu modeli różni się znacznie (rys. 9). Dla drzewa zbudowanego na podstawie średniej wynosi on 0,147, zaś dla drzewa zbudowanego na podstawie mediany aż 0,351. Liczba węzłów końcowych w obu przypadkach jest równa 22, jednak struktura modelu i związany z nią opis liści różnią się istotnie (rys. 10). Program CART umożliwia szczegółową analizę każdego podziału w modelu. Przykład dla podziału w węźle nr 7 z drzewa regresyjnego ze średnią 9 znajduje się na rys. 11. Jego liczebność wynosi 159 przypadków, zaś liczebność węzłów potomnych: 97 dla węzła nr 8 i 62 dla węzła końcowego nr 6 (oznaczonego 6). 8 Jest to zbiór wykorzystany w analizie za pomocą drzew klasyfikacyjnych CART i opisany w: M. Łapczyński, Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków 2002, s. 87 102; tam również dokonano analizy za pomocą metody CART, jednak zmienna zależna została zdyskretyzowana (powstał model dyskryminacyjny), a w obliczeniach użyto jednego z modułów pakietu STATI- STICA. 9 W języku angielskim mówi się o LS Regression Trees i LAD Regression Trees, gdzie LS (Least Squares) oznacza model zbudowany na podstawie średniej, zaś LAD (Least Absolute Deviation) model zbudowany na podstawie mediany.

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 145 średnia Relative Error 0,6 0,147 0,5 0,4 0,3 0,2 0,1 0 5 10 15 20 25 30 Number of Nodes mediana Relative Error 0,8 0,7 0,6 0,5 0,4 0,3 Number of Nodes 0,351 0 5 10 15 20 25 Rys. 9. Liczba węzłów końcowych a względny błąd predykcji w drzewach regresyjnych zbudowanych dwoma metodami Źródło: opracowanie własne w programie CART. średnia mediana Rys. 10. Schemat drzewa regresyjnego zbudowanego na podstawie średniej i mediany Źródło: opracowanie własne w programie CART.

146 Mariusz Łapczyński ************************************* * Node 7: MOC KM_ * * N: 159 * ************************************* ********** ******************** =============================== * Node 8 * = Terminal Node 6 = * N: 97 * = N: 62 = ******************************* ======== ==================== Node 7 was split on MOC KM_ A case goes left if MOC KM_ <= 88.500 Improvement = 2093694.125 Complexity Threshold =.168124E+10 Node Cases Wgt Count Mean StdDev 7 159 159.00 44838.992 5908.033 8 97 97.00 42239.277 4368.423 6 62 62.00 48906.289 5704.515 Surrogate Split Assoc. Improve. 1 EL_SZYBY s 0 0.290 613961.000 2 CCM s 1450.000 0.274 1677804.125 3 PRODUCEN s Francja,Hiszpania,Japonia 0.194 153452.719 4 NADWOZIE s hatchback,mini MPV,sedan, 0.048 573485.438 convertible,coupe,roadster,mpv, SUV 5 AIR_BAG s 1 0.016 19179.436 Competitor Split Improve. 1 CCM 1700.000 1997765.125 2 SEGMENT mini,mini plus,small,suv 1367905.125 3 NADWOZIE hatchback,convertible,coupe,roadster,mpv, 632645.313 SUV 4 EL_ SZYBY 0 613960.750 5 BENZYNA 1 524490.000 Rys. 11. Szczegóły obliczeniowe dotyczące wybranego podziału węzła Źródło: opracowanie własne w programie CART. Predyktorem wykorzystanym w tym miejscu drzewa jest moc silnika. Auta o mocy mniejszej lub równej 88,5 KM trafiają do węzła lewego (nr 8), zaś pozostałe do prawego (nr 6). Wskaźnik poprawy (improvement) to wielkość wariancji wewnątrz węzła zredukowana przez podział drzewa w tym węźle. W tym wypadku obliczenia będą następujące: (159/803) x (5908,033) 2 [(97/803) x (4368,423) 2 + (62/803) x (5704,515) 2 ] = = 2093694,541. Na każdym etapie podziału drzewa oblicza się wskaźnik poprawy oraz wskaźnik asocjacji (association) dla zestawu zmiennych niezależnych. Najwyższa wartość wskaźnika skojarzenia może przyjąć wartość 1, co oznacza, że zmienna zastępcza (surrogate) daje identyczny podział węzła jak predyktor użyty do podziału na danym

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 147 etapie 10. Wskaźnik skojarzenia służy jedynie do zestawienia rankingu zmiennych zastępczych i nie może być interpretowany jako współczynnik korelacji między podziałem pierwotnym a podziałem zastępczym danego węzła. W tym przypadku za najlepsze zmienne zastępcze uznano: posiadanie elektrycznie sterowanych szyb (0,290), pojemność silnika (0,274), kraj producenta (0,194), wersję nadwozia (0,048) i posiadanie poduszek powietrznych (0,016). Innym zaproponowanym rozwiązaniem jest zastosowanie zmiennych konkurencyjnych (competitors), których ranking wyznaczany jest za pomocą posortowanego malejąco wskaźnika poprawy. Ich porządek jest tu następujący: pojemność silnika, segment, wersja nadwozia, posiadanie elektrycznie sterowanych szyb i typ silnika (benzynowy, diesel). Mimo że oba modele mają różne współczynniki błędu i strukturę drzewa (reguły predykcyjne), to ranking ważności predyktorów jest podobny, zwłaszcza jeśli weźmie się pod uwagę jego kilka pierwszych pozycji (rys. 12). Cztery zmienne niezależne mające największy wpływ na ceną samochodu to: moc silnika (KM), pojemność silnika (cm 3 ), przynależność do segmentu według SAMAR i kraj pochodzenia marki. Zmienna niezależna Moc silnika (KM) Pojemność silnika (cm 3 ) Segment Kraj pochodzenia marki Wersja nadwozia ABS Liczba drzwi Klimatyzacja Elektrycznie sterowane szyby Poduszki powietrzne Wspomaganie kierownicy Centralny zamek Silnik benzynowy/diesel Średnia Liczba punktów 100,00 98,03 82,25 17,73 11,97 9,64 8,14 5,87 0,76 0,67 0,35 0,32 0,31 Zmienna niezależna Moc silnika (KM) Pojemność silnika (cm 3 ) Segment Kraj pochodzenia marki ABS Wersja nadwozia Centralny zamek Elektrycznie sterowane szyby Liczba drzwi Klimatyzacja Wspomaganie kierownicy Poduszki powietrzne Silnik benzynowy/diesel Mediana Liczba punktów 100,00 94,73 87,94 25,81 19,85 19,08 11,12 10,97 6,74 3,90 3,06 3,01 0,74 Rys. 12. Porównanie rankingów ważności predyktorów w obu modelach Źródło: opracowanie własne w programie CART. Poza automatycznym generowaniem reguł, CART zestawia charakterystyki wszystkich liści, co przedstawiono na rys. 13. Oprócz liczebności węzła (count), 10 Najniższe wartości mogą być ujemne, jednak nie są one zamieszczane w oknie wyników programu CART.

148 Mariusz Łapczyński podano średnią wartość zmiennej zależnej ceny samochodu (mean) oraz odchylenie standardowe. ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Mean StdDev Complexity ------------------------------------------------------------------------------ 1 34.00 34 25815.883 5690.369.205274E+10 2 77.00 77 35145.066 4315.715.205274E+10 3 29.00 29 33208.965 5007.526.331741E+10 4 76.00 76 41066.973 3414.376.482444E+09 5 21.00 21 46481.906 4793.913.482444E+09 6 62.00 62 48906.289 5704.515.168124E+10 7 22.00 22 41457.273 5234.289.107891E+10 8 50.00 50 49860.801 4976.249.107891E+10 9 39.00 39 56399.742 7291.598.209795E+10 10 49.00 49 68941.023 13324.652.115694E+11 11 48.00 48 56175.418 11139.215.229347E+11 12 28.00 28 63148.570 5511.616.634494E+09 13 22.00 22 70325.000 11857.819.634494E+09 14 24.00 24 80005.414 8315.115.304327E+10 15 32.00 32 80704.375 14405.883.105888E+10 16 28.00 28 89125.000 11189.955.105888E+10 17 28.00 28 100667.141 31235.031.130100E+11 18 32.00 32 125474.375 28644.176.697000E+11 19 21.00 21 112979.523 25490.746.464270E+11 20 35.00 35 151698.578 23523.715.221156E+11 21 24.00 24 191111.250 30213.529.221156E+11 22 22.00 22 329602.281 90777.602.535969E+12 Rys. 13. Charakterystyki węzłów końcowych w drzewie regresyjnym ze średnią Źródło: opracowanie własne w programie CART. Odchylenie standardowe informuje o stopniu homogeniczności węzła. Jak łatwo zauważyć, najlepszymi klasyfikatorami są węzły: 4, 2 i 5, zaś najgorszymi węzły: 22, 17 i 21. Oznacza to, że trafność predykcji dla samochodów tańszych jest wyższa od trafności predykcji dla samochodów droższych 11. Podobne zestawienie jest tworzone dla drzewa regresyjnego z medianą (rys. 14), z tą różnicą, że zamiast średniej i odchylenia standardowego podaje się tam wartość mediany i średniego odchylenia bezwzględnego. Węzłami o największej, z punktu widzenia wartości zmiennej zależnej, homogeniczności są węzły: 5, 6 i 9, natomiast węzłami najbardziej heterogenicznymi są węzły: 4, 22 i 1. Podobnie jak w modelu regresyjnym ze średnią, najmniejsza trafność predykcji dotyczy samochodów najdroższych. 11 Gdyby badania takie przeprowadzić na potrzeby praktyki, to należałoby badać ceny wewnątrz SAMAR-owskich segmentów lub w grupie marek i modeli konkurencyjnych; w tej analizie chodzi o poznanie metody, więc w jednym zbiorze obserwacji znalazł się Fiat 126p i Mercedes klasy S, których ceny są de facto potraktowane jako przypadki odstające.

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 149 ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Median MeanAbsDev Complexity ----------- ------------------------------------------------------------------- 1 28.00 28 111600.000 26073.215 608350.000 2 47.00 47 148150.000 18696.809 276490.000 3 24.00 24 180350.000 23417.916 276490.000 4 22.00 22 341450.000 77147.727 2171450.000 5 41.00 41 34100.000 2375.610 20270.000 6 27.00 27 37250.000 2699.630 20270.000 7 43.00 43 27300.000 4727.674 129330.000 8 21.00 21 46800.000 3702.857 47090.000 9 78.00 78 41300.000 2742.436 47090.000 10 39.00 39 50900.000 3778.205 25280.000 11 24.00 24 45900.000 5179.167 25280.000 12 40.00 40 36000.000 5375.000 144540.000 13 52.00 52 49900.000 4182.308 56910.000 14 25.00 25 41990.000 4162.800 56910.000 15 33.00 33 54350.000 4706.667 78470.000 16 42.00 42 62150.000 7382.381 78470.000 17 42.00 42 62900.000 7322.857 104580.000 18 41.00 41 72200.000 7531.708 104580.000 19 45.00 45 72900.000 11264.889 102410.000 20 31.00 31 78150.000 16748.387 48950.000 21 31.00 31 86900.000 9831.290 48950.000 22 27.00 27 119400.000 27493.334 499760.000 Rys. 14. Charakterystyki węzłów końcowych w drzewie regresyjnym z medianą Źródło: opracowanie własne w programie CART. 400 CENA W Shapiro-Wilka, 66887, p < 0,000 350 Liczba obserwacji 300 250 200 150 100 50 0 50 000,000 0,000 50 000,000 100 000,000 150 000,000 200 000,000 250 000,000 300 000,000 350 000,000 400 000,000 450 000,000 500 000,000 Górna granica (x <= granicy) oczekiwane normalne Rys. 15. Rozkład zmiennej zależnej ceny samochodu Źródło: opracowanie własne w programie STATISTICA.

150 Mariusz Łapczyński Należy tu jednak dodać, że rozkład zmiennej zależnej nie jest zgodny z rozkładem normalnym (test W Shapiro-Wilka jest istotny), ale wykazuje silną asymetrię prawostronną (miara skośności wynosi 3,19). Przedstawiono to na rys. 15. 4. Podsumowanie Drzewa regresyjne są alternatywnym dla klasycznej regresji wielorakiej sposobem badania zależności między zestawem zmiennych niezależnych a metryczną zmienną zależną. Choć nie sprawdzają się w wypadku związków liniowych, to ich niewątpliwymi zaletami jest brak konieczności tworzenia zmiennych zerojedynkowych ze zmiennych kategorialnych i brak konieczności standaryzowania zmiennych. Powoduje to, że ich interpretacja jest klarowna i ograniczona do zestawu zdań warunkowych typu: jeżeli, to. Autorzy algorytmu podkreślają, że drzewa mogą być również wykorzystane do wstępnego rozpoznania struktury danych. Może się bowiem okazać, że węzły wydzielone w początkowych krokach analizy stanowią podzbiory danych, w których można użyć regresji wielorakiej. Istnieją dwa sposoby budowania modeli regresyjnych CART: średnia z wariancją i mediana ze średnim odchyleniem bezwzględnym. Pierwszy daje wyższą trafność predykcji i charakteryzuje się krótszym czasem analizy, natomiast drugi jest odporny na przypadki odstające i asymetrię rozkładów. Budując modele regresyjne warto wykorzystać obie metody i wybrać tę, która najlepiej rozwiązuje problem badawczy. Literatura Breiman L. i in., Classification and Regression Trees, Chapman & Hill/CRC, New York 1998. Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001. Łapczyński M., Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków 2002. A Regression Approach in Constructing CART Classification Trees The purpose of the article is to provide an introduction to constructing CART regression trees. The author describes in detail each step in an analysis using two splitting rules: Least Squares (LS) and Least Absolute Deviation (LAD). The author characterises the basic measures such as the improvement coefficient and association coefficient and discusses procedures to deal with outliers. The author reviews a supplementary description, introduced by Breiman et al., of surrogate and competitor variables that participate in tree splitting when missing values arise in independent variables.

Podejście regresyjne w budowie drzew klasyfikacyjnych CART 151 In a comparative analysis of both methods (LS and LAD), the author uses a set of observations from over 800 cases motorcars available on the Polish market. The dependent variable was the price of the vehicle, while the independent quantitative and qualitative variables were the vehicle characteristics. In the calculations, the best implementation of the algorithm was used the CART program developed by Salford Systems.