DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI



Podobne dokumenty
Metoda Automatycznej Detekcji Interakcji CHAID

Drzewa decyzyjne w SAS Enterprise Miner

Wprowadzenie do analizy korelacji i regresji

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

ALGORYTM RANDOM FOREST

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART

Drzewa decyzyjne i lasy losowe

Metody Eksploracji Danych. Klasyfikacja

PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Statystyka i Analiza Danych

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Statystyka w pracy badawczej nauczyciela

Badanie opinii Omniwatch. Oferta badawcza

Indukowane Reguły Decyzyjne I. Wykład 3

CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER

W1. Wprowadzenie. Statystyka opisowa

Badanie opinii Warsaw Watch. Oferta badawcza

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Scoring kredytowy w pigułce

MODELE HYBRYDOWE C&RT-LOGIT W ANALIZIE MIGRACJI KLIENTÓW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Metody klasyfikacji danych - część 1 p.1/24

Analiza składowych głównych. Wprowadzenie

WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA

Widzenie komputerowe (computer vision)

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Testowanie modeli predykcyjnych

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

SPIS TREŚCI CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Szkolenie Analiza dyskryminacyjna

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH I REGRESYJNYCH DO ANALIZY WYJAZDÓW TURYSTYCZNYCH GOSPODARSTW DOMOWYCH SENIORÓW W POLSCE

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Wykład 3: Prezentacja danych statystycznych

Wprowadzenie. Data Science Uczenie się pod nadzorem

Analiza korespondencji

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Ewelina Dziura Krzysztof Maryański

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Jak przekształcać zmienne jakościowe?

Drzewa klasyfikacyjne algorytm podstawowy

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Zadania ze statystyki, cz.6

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Algorytmy klasyfikacji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Co to są drzewa decyzji

Wykład z dnia 8 lub 15 października 2014 roku

Metodologia badań psychologicznych

Badania eksperymentalne

ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO. Poznanie odpowiedzi na pytania wstępna analiza przekrojowa

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

PRZEWIDYWANIE LOJALNOŚCI KLIENTÓW

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Wykład ze statystyki. Maciej Wolny

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wprowadzenie do klasyfikacji

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Kilka uwag o testowaniu istotności współczynnika korelacji

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Badanie zależności skala nominalna

Podstawowe pojęcia statystyczne

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

Klasyfikacja gospodarstw domowych ze względu na stopień zaspokojenia ich potrzeb mierzony kategorią minimum socjalnego

Nowe narzędzia zarządzania jakością

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Graficzna prezentacja danych statystycznych

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Metody scoringowe w regresji logistycznej

Statystyka i Analiza Danych

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Hipotezy statystyczne

Transkrypt:

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Wprowadzenie Drzewa klasyfikacyjne i regresyjne to narzędzia data mining służące do budowy modeli predykcyjnych i deskryptywnych. Z drzewami klasyfikacyjnymi mamy do czynienia wtedy, gdy zmienna zależna jest wyrażona na skali nominalnej lub porządkowej, natomiast z drzewami regresyjnymi wtedy, gdy poziom pomiaru tej zmiennej jest co najmniej przedziałowy. Celem budowy modelu predykcyjnego jest predykcja jakościowa lub ilościowa zjawiska, zaś celem budowy modelu deskryptywnego jest opis i prezentacja wzorców w badanej zbiorowości. Drzewo jest graficznym modelem powstałym w wyniku rekurencyjnego podziału zbioru obserwacji A na n rozłącznych podzbiorów A 1, A, A, A n. Celem budowy modelu jest uzyskanie podzbiorów maksymalnie jednorodnych z punktu widzenia wartości zmiennej zależnej. Jest to proces wieloetapowy, który w każdym kolejnym kroku może wykorzystywać inną zmienną niezależną. Na każdym etapie analizuje się bowiem wszystkie predyktory i wybiera ten, który zapewnia najlepszy podział węzła, czyli wydziela najbardziej homogeniczne podzbiory. Przykład drzewa klasyfikacyjnego przedstawiono na rys. 1. Początek każdego drzewa stanowi cały zbiór obserwacji, który jest dzielony na lub więcej podzbiorów. W pierwszym przypadku mówi się o drzewach binarnych, a w drugim o drzewach dowolnych. Dzielony zbiór nosi nazwę węzła macierzystego (ang. parent node), natomiast wydzielone podzbiory nazwę węzłów potomków (ang. child nodes). W kolejnym etapie podziału węzeł potomek, który jest dalej dzielony, staje się węzłem macierzystym dla. etapu, zaś węzeł, który pozostaje bez zmian, staje się węzłem końcowym, nazywanym liściem. Wielkość drzewa to liczba liści (tu równa 4), zaś głębokość drzewa to liczba krawędzi między wierzchołkiem a najbardziej odległym liściem (tu równa ). Copyright StatSoft Polska, 00 9

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl klasa A 40% klasa B 0% klasa C 0% klasa D 10% krawędź 1. etap podziału TAK czy wiek klienta > 40 lat NIE klasa A 40% klasa B 0% klasa C 0% klasa D 10% węzeł macierzysty (parent node) dla. etapu podziału. etap podziału TAK czy miesięczny dochód netto klienta > 1500 PLN NIE klasa B 0% klasa C 0% klasa D 10% węzeł potomek (child node) dla. etapu podziału. etap podziału TAK czy klient ma wykształcenie wyższe? NIE klasa C 0% klasa D 10% węzeł końcowy (liść) (terminal node) Rys. 1. Przykład drzewa klasyfikacyjnego; źródło: opracowanie własne Krótka charakterystyka klasycznych metod drzewkowych Zdecydowana większość algorytmów podziału drzew klasyfikacyjnych i regresyjnych wywodzi się z klasycznych metod: CLS (Concept Learning System), AID (Automatic Interaction Detection), CART (Classification and Regression Trees). Rodzina CLS Algorytm CLS powstał w latach 60. ubiegłego stulecia i służył do binarnego podziału zbioru obiektów na dwie klasy: klasę pozytywną (K + ) i klasę negatywną (K - ). CLS wybierał tę cechę, która najlepiej różnicowała obiekty należące do K + i K -. Kolejne algorytmy oparte na metodzie CLS to m.in.: ID (Iterative Dichotomizer), ASSISTANT i C4.5. Ten ostatni, chociaż popularny wśród naukowców, nie zyskał sympatii specjalistów ds. marketingu. Dzieje się tak zapewne ze względu na fakt, że jego implementacja pozwala na tworzenie zestawu reguł, a pomija graficzny wynik analizy, jakim jest drzewo. Rodzina AID AID to metoda detekcji interakcji, która pojawiła się na początku lat 60., jako alternatywny dla regresji sposób analizowania danych. Z czasem okazało się, że metoda ta nie jest 94 Copyright StatSoft Polska, 00

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl pozbawiona pewnych wad, co spowodowało ewolucję algorytmu w następnych dziesięcioleciach. Część kolejnych modyfikacji (MAID, XAID) służyła do budowy modeli regresyjnych, a część (THAID, CHAID) do budowy modeli dyskryminacyjnych. Najnowszą odmianą metody jest opracowana w 000 r. WAID. Obecny w pakiecie STATISTICA Data Miner algorytm CHAID wykorzystuje test niezależności chi-kwadrat i mnożnik Bonferroniego. Na każdym etapie podziału drzewa tworzy się tabelę kontyngencji, w której zestawia się zmienną zależną i predyktor. Jeśli zmienna zależna ma d kategorii, a predyktor c kategorii, to dąży się do redukcji tabeli kontyngencji o wymiarach d x c do bardziej istotnej 1 o wymiarach d x j, przez łączenie w dozwolony sposób kategorii predyktora. Oryginalny CHAID pozwala budować modele dyskryminacyjne, czyli takie, których zmienna zależna jest zmienną nominalną. Inna modyfikacja XAID (Exhaustive CHAID) pozwala na tworzenie drzew klasyfikacyjnych i regresyjnych. Jeśli chodzi o te pierwsze, to wykorzystano algorytm Kassa CHAID, jeśli o drugie, to statystykę F. Wprowadzono też inne usprawnienie metodę Monte Carlo. Zdaniem autorów ma ona na celu szacowanie stabilności modelu dla małych i dużych prób, a ponadto zapewnia sprawiedliwy dobór predyktorów (bez dyskryminacji zmiennych wielowariantowych). Cechami charakterystycznymi metod CHAID i XAID są: budowa modeli dyskryminacyjnych i regresyjnych, możliwość podziału węzła na więcej niż dwa podzbiory, brak możliwości przycinania drzewa w przeciwieństwie do CART, algorytm przestaje dzielić zbiór obserwacji, gdy kryterium stopu nie pozwala na dalszy rozrost drzewa. CART CART to najbardziej zaawansowana metoda budowy drzew klasyfikacyjnych i regresyjnych. Powstała na początku lat 80. ubiegłego stulecia i do dziś doczekała się kilku nieznacznych modyfikacji. Reguły podziału drzewa używane w tej metodzie to: indeks Giniego, miara entropii i reguła podziału na dwie części (twoing rule). Cechą charakterystyczną metody jest nadmierny rozrost drzewa i przycinanie (pruning) poszczególnych gałęzi w celu redukcji opisu liści (przy nieznacznym wzroście błędu klasyfikacji). Pozwala to na porównanie modelu rozbudowanego i modelu ze zredukowaną liczbą węzłów, czasami bowiem o jakości drzewa nie decyduje trafność predykcji, ale przydatność wygenerowanych reguł. Sprawdza się, jaka jest różnica między błędem klasyfikacji całego drzewa (α 0 ) a błędem klasyfikacji drzewa z usuniętą gałęzią (α 1 ). Po pierwszym etapie przycinania wybiera się to α 1, dla którego różnica ta jest najmniejsza. W kolejnym kroku drzewem wyjściowym jest już α 1 i to jego błąd jest porównywany z błędem dla drzewa α. Wybiera się to α, dla którego różnica w błędach klasyfikacji między α a α 1 jest najmniejsza. 1 Z punktu widzenia testu niezależności chi-kwadrat Copyright StatSoft Polska, 00 95

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl miejsce przycięcia współczynnik błędu błąd obliczony w oparciu o zbiór testowy błąd obliczony w oparciu o zbiór uczący głębokość drzewa Rys.. Przykład przycinania z uwzględnieniem różnych współczynników błędu; opracowanie własne Drugą ważną zaletą algorytmu jest jednoczesne zestawienie kosztu resubstytucji (współczynnika błędu obliczonego ze zbioru uczącego) ze współczynnikiem błędu obliczonym na zbiorze testowym (ta druga wartość może być wynikiem prostej walidacji, walidacji krzyżowej, wielokrotnej walidacji krzyżowej czy metod bootstrapowych). Przycinanie drzewa dokonywane jest z uwzględnieniem obu współczynników (rys. ). Wymienione wyżej cechy algorytmu powodują, że jest najchętniej stosowanym drzewkowym narzędziem data mining. Predykcja lojalności klientów za pomocą metody CART Decydując się na analizę danych za pomocą metod drzewkowych, trzeba uwzględnić następujące etapy: wybór reguły podziału, ustalenie prawdopodobieństwa a priori występowania klas, wybór kryterium stopu, zaawansowane szacowanie błędu klasyfikacji z wykorzystaniem zbioru uczącego i testowego, interpretacja liści, czyli zamiana modelu drzewkowego na zestaw reguł typu jeśli zdanie Z 1, to zdanie Z. W analizie wykorzystano zbiór obserwacji z rozdziału poświęconego analizie rzetelności skal satysfakcji i lojalności. Analiza głównych składowych pozwoliła pogrupować 16 stwierdzeń ze skali SERVQUAL w 4 czynniki. Oprócz zmiennych demograficznych (płci, wykształcenia, wieku i miejsca zamieszkania) włączono do obliczeń stwierdzenie 96 Copyright StatSoft Polska, 00

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl reprezentanta każdego czynnika. O tym, którą zmienną wybrać, decydowała wartość ładunku czynnikowego (wybierano najwyższą), dlatego też wybrano: z czynnika 1. zmienną (wart. ładunku czynnikowego = 0,80711): Firma X posiada nowocześnie wyglądający sprzęt, z czynnika. zmienną R (wart. ładunku czynnikowego = 0,81690): Firma X już za pierwszym razem wykonuje usługę właściwie, z czynnika. zmienną L (wart. ładunku czynnikowego = 0,791467): Będę polecać firmę X moim znajomym, z czynnika 4. zmienną E1 (wart. ładunku czynnikowego = 0,81475): Firma X traktuje Pana(Panią) indywidualnie. Zmienną zależną będzie reprezentant czynnika określającego stopień lojalności respondenta stwierdzenie L, zaś predyktorami pozostałe 7 zmiennych: 4 z nich to zmienne kategorialne (cechy demograficzne respondenta), a to zmienne przedziałowe (wybrane stwierdzenia ze skali SERVQUAL). Stwierdzenie L dotyczy polecania firmy znajomym. Skala jest 7-punktowa, gdzie 1 to wariant zdecydowanie się nie zgadzam, a 7 to wariant zdecydowanie się zgadzam. Zredukowano poziom pomiaru zmiennej z przedziałowego (1 7) na nominalny. Połączono oceny 1 i ze skali SERVQUAL w jedna kategorię osób zdecydowanie nie zamierzających polecać usług firmy, oceny, 4 i 5 połączono w druga kategorię osób niezdecydowanych, natomiast oceny 6 i 7 połączono w trzecią kategorię osób zdecydowanie zamierzających polecić usługi firmy znajomym. System STATISTICA Data Miner zawiera 4 moduły do analizy drzewkowej: ogólne modele drzew klasyfikacyjnych i regresyjnych (moduł oparty o algorytm CART), ogólne modele CHAID, drzewa interakcyjne (C&RT, CHAID i XAID), drzewa klasyfikacyjne i regresyjne ze wzmocnieniem (ang. boosted). Rys.. Panel początkowy modułu Drzewa interakcyjne (C&RT, CHAID) z pakietu STATISTICA W analizie wykorzystano algorytm CART z modułu drzew interakcyjnych (rys. ), jako że pozwala on na ręczne sterowanie wielkością i głębokością drzewa. Ten pierwszy parametr Copyright StatSoft Polska, 00 97

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl można zmieniać, usuwając poszczególne krawędzie (gałęzie) modelu, zaś ten drugi usuwając cały etap podziału jednocześnie. Przed przystąpieniem do analizy wybrano następujące ustawienia (rys. 4): reguła podziału miara Giniego, prawdopodobieństwa a priori szacowane z próby uczącej, koszty błędnej klasyfikacji równe, kryterium stopu: przy błędnej klasyfikacji, minimalna liczebność węzła końcowego n=0, maksymalna liczba poziomów (głębokość) drzewa n=10, maksymalna liczba węzłów n=1000, szacowanie błędu za pomocą 10-krotnej walidacji testowej. Rys. 4. Ustawienia początkowe analizy CART w module Drzewa interakcyjne (C&RT, CHAID) Graficzny wynik analizy to drzewo z rys. 5., zawierające 10 liści i głębokie na 5 poziomów. Przy budowie modelu wykorzystano 5 zmiennych niezależnych: wykształcenie, miejsce zamieszkania, wiek, ocenę indywidualnego traktowania klienta (E1) i ocenę nowoczesności sprzętu (). Jak łatwo zauważyć, węzeł nr 9 dzieli się na węzły 1. i 1., które zawierają klasę., czyli respondentów zdecydowanych polecić usługi firmy znajomym. Podobnie z węzłem nr 16, z którego wydzielono liście (18. i 19.) zawierające tę samą klasę zmiennej zależnej oraz z węzłem nr 15 również podzielonym na dwie takie same klasy (16. i 17.). Powstaje pytanie, dlaczego dokonano podziału, skoro wydzielone liście zawierają tę samą klasę? Odpowiedź jest prosta. Po pierwsze, celem podziału jest wydzielenie maksymalnie homogenicznych liści z punktu widzenia wartości zmiennej zależnej. Węzeł 9. zawiera 10 przypadków klientów niezdecydowanych i 70 zdecydowanych polecić usługi znajomym, natomiast węzeł 1. zawiera tylko klientów zdecydowanych (45 przypadków), 98 Copyright StatSoft Polska, 00

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl a węzeł 1. 10 niezdecydowanych i 5 zdecydowanych. O dalszym podziale zadecydowała tutaj 100-procentowa jednorodność liścia nr 1. 1 Tree graph for L (nowa nazwa) Num. of non-terminal nodes: 9, Num. of terminal nodes: 10 ID=1 N=1070 ID= N=610 wykształcenie = średnie = podst. lub zas. zaw., wyższe ID= N=460 ID=4 N=00 wiek = 51 lub więcej = 18-5 lat, 6-50 lat ID=5 N=410 ID=14 N= 15 miejsce zamieszkania = powyżej 100 tys = do50 tys, 50-100 tys ID =15 N=5 ID=6 N=145 miejsce zamieszkania = powyżej 100 tys = do 50 tys ID=7 N=55 ID=16 N=70 E1 <= 1,500000 > 1,500000 ID=17 N=65 ID=8 N=65 <= 4,000000 > 4,000000 ID=9 N=80 ID=18 N=0 <=,500000 >,500000 ID=19 N=40 ID=10 N=5 <=,500000 >,500000 ID=11 N=0 ID=1 N=45 E1 <= 4,000000 > 4,000000 ID=1 N=5 Rys. 5. Drzewo klasyfikacyjne CART Po drugie, w nazewnictwie liści stosuje się zasadę majoryzacji zbiorów, polegającą na przyjęciu nazwy od klasy najliczniej występującej w liściu. O ile liść nr 1 zawiera wyłącznie respondentów z klasy. (liść przejmuje nazwę tej klasy), o tyle w liściu nr 1 jest 10 przypadków klasy. i 5 przypadków z klasy. Gdyby nie zasada majoryzacji, to liść ten można by nazwać w 71% klasa. W zależności od celu badań można przyjąć, że te podziały są zbędne. Moduł Drzewa interakcyjne (C&RT, CHAID) pozwala zredukować model o dowolne gałęzie lub poziomy bez ingerencji w pozostałą strukturę drzewa. Zmianę układu drzewa przedstawiono na rys. 6. Tree layout for L (nowa nazwa Num. of non-terminal nodes: 9, Num. of terminal nodes: 1 Tree layout for L (nowa nazwa Num. of non-terminal nodes: 6, Num. of terminal nodes 1 4 5 14 15 4 5 14 15 6 7 16 17 6 7 8 9 18 19 8 9 10 11 1 1 10 11 Rys. 6. Układ pierwotnego drzewa klasyfikacyjnego CART (z lewej) i drzewa z usuniętymi gałęziami w węźle 9. i 15. (z prawej) Copyright StatSoft Polska, 00 99

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl Zredukowane drzewo (rys. 7.) ma teraz 7 liści i jest głębokie na 5 poziomów. 1 Tree graph for L (nowa nazwa) Num. of non-terminal nodes: 6, Num. of terminal nodes: 7 ID=1 N=1070 ID= N=610 wykształcenie = średnie = podst. lub zas. zaw., wyższe ID= N=460 ID=4 N=00 wiek = 51 lub więcej = 18-5 lat, 6-50 lat ID=5 N=410 miejsce zamieszkania = powyżej 100 tys = do 50 tys, 50-100 tys ID=14 N=15 ID=15 N=5 ID =6 N=145 miejsce zamieszkania = powyżej 100 tys = do50 tys ID=7 N= 55 ID=8 N=65 <= 4,000000 > 4,000000 ID=9 N=80 ID=10 N=5 <=,500000 >,500000 ID=11 N=0 Rys. 7. Drzewo klasyfikacyjne CART ze zredukowaną liczbą gałęzi Współczynnik błędu po 10-krotnej walidacji krzyżowej wynosi 0,050916, co oznacza, że model jest bardzo dobrze dopasowany do danych. Ranking ważności predyktorów (rys. 8) przedstawia zmienne niezależne, które porangowano na skali od 0,0 do 1,0, gdzie wartości najwyższe oznaczają największy wpływ danej zmiennej na zmienną zależną. W tym przypadku o polecaniu usług firmy znajomym decydują przede wszystkim: miejsce zamieszkania, wiek i ocena nowoczesności sprzętu dokonana przez respondenta. 1,0 ranking ważności predyktorów (0,0 - najmniejsza ważność, 1,0 największa ważność) 0,9 0,8 0,7 0,6 Importance 0,5 0,4 0, 0, 0,1 0,0 R E1 płeć wykształcenie miejsce zamieszkania wiek Rys. 8. Ranking ważności predyktorów dla zredukowanego drzewa klasyfikacyjnego CART 100 Copyright StatSoft Polska, 00

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl Liczba liści przekłada się bezpośrednio na liczbę reguł typu jeśli zdanie Z 1, to zdanie Z. Ten spójnik międzyzdaniowy jest odpowiednikiem funktora prawdziwościowego implikacji i oznacza zazwyczaj zdanie warunkowe. Używając tego spójnika w mowie potocznej, przyjmuje się, że między zdaniami składowymi istnieje powiązanie rzeczowe lub formalne, tzn. pierwsze zdanie Z 1 implikuje drugie Z. W przypadku reguł indukcyjnych opartych na drzewach klasyfikacyjnych związek między poprzednikiem Z 1 (poprzednikami) a następnikiem Z może mieć charakter przyczynowy lub strukturalny (taki, który wynika z rozmieszczenia przedmiotów w przestrzeni albo zdarzeń w czasie). Jeśli zdania opisujące reguły indukcyjne składają się z kilku poprzedników, to zawierają również słowny odpowiednik funktora prawdziwościowego koniunkcji. Poprzedniki te łączy się spójnikiem międzyzdaniowym i, który ma tutaj znaczenie syntetyzujące, np. jeżeli Z 1 i Z i Z, to Z 4. Oznacza to, że jeżeli spełnione zostały warunki Z 1 i Z i Z łącznie, to wystąpi Z 4. Gdyby zastosować spójnik międzyzdaniowy oraz, to zdanie to należałoby rozumieć następująco: jeśli występuje Z 1, to występuje Z 4, oraz jeśli występuje Z, to występuje Z 4, oraz jeśli występuje Z, to występuje Z 4. Spójnik ten ma znaczenie enumeracyjne, tzn. poprzedniki nie są traktowane łącznie. Przykładowe reguły brzmią następująco: 1. Jeśli respondent ma wykształcenie średnie i co najwyżej 50 lat, to zdecydowanie poleci usługi firmy swoim znajomym (węzeł nr ),. Jeśli respondent ma wykształcenie średnie i ma co najmniej 51 lat i mieszka w miejscowości o liczbie mieszkańców do 50 tys., to nie jest pewien, czy poleci usługi firmy swoim znajomym (węzeł nr 7),. Jeśli respondent ma wykształcenie średnie i ma co najmniej 51 lat, i mieszka w miejscowości o liczbie mieszkańców powyżej 100 tys., i ocenia sprzęt w firmie jako nowoczesny (ocena>4,0), to zdecydowanie poleci usługi firmy swoim znajomym (węzeł nr 9), 4. Jeśli respondent ma wykształcenie inne niż średnie i mieszka w miejscowości o liczbie mieszkańców do 100 tys., to nie jest pewien czy poleci usługi firmy swoim znajomym (węzeł nr 15). Gdyby badacz uznał, że część z tych reguł jest z praktycznego punktu widzenia nieprzydatna, może je odrzucić przez redukcję kolejnych gałęzi i poziomów modelu. W module Drzewa interakcyjne (C&RT, CHAID) jest to sprawą stosunkowo prostą. Podsumowanie W badaniach marketingowych bardzo często analizuje się zmienne wyrażone na skalach słabych. Mogą to być zarówno zmienne binarne (np. kupi nie kupi), jak też zmienne wielokategorialne (np. kto kupi? na jaką cechę produktu zwróci uwagę? jaką markę wybierze?). Poziom pomiaru zmiennych zależnych ogranicza możliwość stosowania wielu narzędzi statystycznych nieznajdujących zastosowania w predykcji jakościowej. Copyright StatSoft Polska, 00 101

StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl Elastycznym i łatwym w użyciu narzędziem do analizy takich zbiorów obserwacji są drzewa klasyfikacyjne i regresyjne. Elastyczność dotyczy poziomów pomiaru zmiennych zależnych i zmiennych niezależnych. Łatwość w użyciu związana jest z przejrzystością graficznego wyniku analizy drzewa oraz z brakiem ograniczeń dotyczących rozkładów zmiennych. Do innych ważnych zalet zaprezentowanego w niniejszej pracy algorytmu CART należy dodać: niewrażliwość na występowanie obserwacji nietypowych, co do których istnieje przypuszczenie, że pochodzą z innej populacji; klasyczne statystyczne metody analizy nie są odporne na występowanie takich przypadków; zaleta tej metody jest szczególnie ważna, jeśli wykorzystuje się regresyjne właściwości CART; możliwość skutecznego wykorzystania w zbiorach danych cechujących się licznymi brakami danych w zmiennych niezależnych; wykorzystywanie tych samych zmiennych w różnych częściach drzewa (pozwala odkryć kontekst zależności i interakcji między zmiennymi); możliwość wykorzystania liniowej kombinacji zmiennych ilościowych w celu określenia dalszego podziału drzewa. Literatura 1. Breiman L., Friedman J.H., Olshen R.A., Stone C.J.; Classification and Regression Trees; Chapman and Hall; 199.. Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 001.. Łapczyński M., Detekcja interakcji w modelach drzewkowych próba syntezy, referat z VII Warsztatów Metodologicznych pt. Badanie czynników wpływających na zachowania podmiotów rynkowych. Analiza interakcji, Wrocław 15 maja 00. 4. Łapczyński M., Przyczynowa interpretacja drzew klasyfikacyjnych, [w:] Zależności przyczynowo-skutkowe w badaniach rynkowych i marketingowych pod red. S. Mynarskiego, Wydawnictwo AE w Krakowie, Kraków 00, s. 47-60. 10 Copyright StatSoft Polska, 00