ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ



Podobne dokumenty
SEGMENTACJA RYNKU A TYPY MARKETINGU

STATYSTYKA I DOŚWIADCZALNICTWO

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Hierarchiczna analiza skupień

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Elementy statystyki wielowymiarowej

ALGORYTM RANDOM FOREST

STATYSTYKA I DOŚWIADCZALNICTWO

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Agnieszka Nowak Brzezińska

Podstawowe pojęcia statystyczne

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Czym jest analiza skupień?

Zmienne zależne i niezależne

CZĘŚĆ I. PRZYGOTOWANIE PROCESU BADAŃ MARKETINGOWYCH Faza identyfikacji problemów decyzyjnych lub okoliczności sprzyjających

Zagadnienie klasyfikacji (dyskryminacji)

Metoda Automatycznej Detekcji Interakcji CHAID

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie do analizy korelacji i regresji

Metodologia badań psychologicznych

Analiza korespondencji

Graficzna prezentacja danych statystycznych

Badania eksperymentalne

Wykład: Badania marketingowe

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Sposoby prezentacji problemów w statystyce

Wykład ze statystyki. Maciej Wolny

Cz. II. Metodologia prowadzonych badań. Rozdz. 1. Cele badawcze. Rozdz. 2. Metody i narzędzia badawcze. Celem badawczym niniejszego projektu jest:

Badanie zależności skala nominalna

Agnieszka Nowak Brzezińska Wykład III

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Rodzaje badań statystycznych

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Agnieszka Nowak Brzezińska Wykład III

ZASTOSOWANIE TECHNIK ANALIZY SKUPIEŃ I DRZEW DECYZYJNYCH DO SEGMENTACJI RYNKU

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

W1. Wprowadzenie. Statystyka opisowa

10. Podstawowe wskaźniki psychometryczne

METODY STOSOWANE W DATA MINING

Analiza danych. TEMATYKA PRZEDMIOTU

Badania marketingowe. Podstawy metodyczne Stanisław Kaczmarczyk

SPIS TREŚCI CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka w pracy badawczej nauczyciela

Badania marketingowe : podstawy metodyczne / Stanisław Kaczmarczyk. - wyd. 4. Warszawa, 2011

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Tegoroczna edycja badań przeprowadzana była na przełomie marca i kwietnia 2015.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

SPIS TREŚCI. Do Czytelnika... 7

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Przyjmuje dowolne wartości z określonego przedziału (skończonego lub nie). Zmienne ciągłe: wzrost, czas rozwiązana testu, kwota dochodu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Szkolenie Analiza dyskryminacyjna

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

MODEL STRUKTURALNY RELACJI MIĘDZY SATYSFAKCJĄ

Marketing Internetowy (cz. 3) - Badania marketingowe - wzorce i procedury segmentacji rynku cz. I

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

13. Interpretacja wyników testowych

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

Metody doboru próby do badań. Dr Kalina Grzesiuk

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Proces badawczy schemat i zasady realizacji

You created this PDF from an application that is not licensed to print to novapdf printer (

produkt konsument zaufanie

Przyjmuje dowolne wartości z określonego przedziału (skończonego lub nie). Zmienne ciągłe: wzrost, czas rozwiązana testu, kwota dochodu

KLASYFIKACJA. Słownik języka polskiego

Tegoroczna edycja badań przeprowadzana była na przełomie marca i kwietnia 2015.

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Analiza wariancji - ANOVA

Wprowadzenie do analizy dyskryminacyjnej

Proces badawczy schemat i zasady realizacji

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości EUR

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Spis treści 3 SPIS TREŚCI

MODELE LINIOWE. Dr Wioleta Drobik

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Statystyka i Analiza Danych

Zadania ze statystyki, cz.6

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Ćwiczenia nr 11. mgr Jolanta Tkaczyk

ANALIZA CZYNNIKOWA Przykład 1

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Mail: Pokój 214, II piętro

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Wnioskowanie statystyczne. Statystyka w 5

Transkrypt:

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach marketingowych jest grupowanie i klasyfikacja danych. Ma to miejsce w badaniach produktu przy grupowaniu jego cech, czy segmentacji i selektywności rynku przy wyodrębnianiu jednorodnych grup nabywców (rynków docelowych) jak również w tzw. zgłębianiu danych (data mining) pochodzących z dużych baz informacyjnych. Spośród wielu metod stosowanych w tego typu analizach zaprezentowane zostaną dwie nieco bardziej zaawansowane metody służące grupowaniu i klasyfikacji danych zarówno w tradycyjnych badaniach marketingowych jak również w data mining. Są to: analiza skupisk oraz analiza drzew klasyfikacyjnych (decyzyjnych). Wybór tych metod podyktowany został kilkoma względami. Są to metody służące grupowaniu i klasyfikacji obiektów. Obie metody są również metodami eksploracyjnymi (poszukiwawczymi) pozwalającymi dokonywać wartościowych analiz nawet badaczom bez formalnego statystycznego wykształcenia (niektórzy nawet twierdzą nawet, że nie są to metody statystyczne w ścisłym tego słowa znaczeniu) Oznacza to, że ich celem jest poszukiwanie (eksploracja) "ukrytej" informacji zawartej w danych, której badacz nie ma często świadomości istnienia. Metod tych nie należy w zasadzie stosować do weryfikacji hipotez czy uzyskiwania odpowiedzi potwierdzających na postawione uprzednio pytania badawcze. Są jednak cennymi metodami pomagającymi w tworzeniu hipotez i pytań badawczych. Metody te są metodami opisowymi, nie pozwalającymi na wnioskowanie statystyczne (brak jest statystycznych podstaw wnioskowania na podstawie próby losowej o populacji generalnej). Ostatnim, bardziej formalnym, podobieństwem obu metod jest drzewkowa postać prezentacji wyników analizy (na tym jednak konczy się wszelkie podobieństwo ponieważ całkowicie inna jest interpretacja drzewek w obu wykresach). Z drugiej strony metody analizy skupisk i drzewek decyzyjnych są metodami dopełniającymi się. Pierwsza metoda jest przedstawicielem tzw. metod analizy współzależności. Oznacza to, że wszystkie zmienne w analizie traktowane są jako współzależne bez wydzielenia spośród nich zmiennych zależnych (skutków) i niezależnych (przyczyn). Celem analizy jest w takim przypadku zazwyczaj sama identyfikacja struktury badanego zbioru zmiennych lub obiektów. Metoda druga jest natomiast metodą analizy zależności, w której wyróżnia się zmienną zależną (skutek) oraz zestaw zmiennych niezależnych (przyczyny). Copyright StatSoft Polska www.statsoft.pl/czytelnia 3

Podstawową metodą grupowania, która pozwala na wyodrębnienie spójnych wewnętrznie grup obiektów jest analiza skupisk (cluster analysis). Jej zastosowania wiążą się z taksonomicznym opisem obiektów oraz budową typologii a także redukcją i upraszczaniem danych, a przede wszystkim poszukiwaniem ukrytych wymiarów czy też struktur w ramach prowadzonych obserwacji. Stosowanie tej metody odbywa się w czterech podstawowych etapach: 1. Wybór zmiennych i sposobu określania podobieństw między obiektami 2. Wybór sposobu przyporządkowania danych obiektów (np.konsumentów) do homogenicznej grupy, 3. Wybór liczby identyfikowanych skupisk 4. Interpretacja i profilowanie uzyskanych skupisk Wybór zmiennych i miary podobieństwa Wybór odpowiednich zmiennych służących jako podstawa dla grupowania obiektów (konsumentów, sklepów, firm itp.) jest bardzo ważny w analizie skupisk. Efekt analizy jest bowiem całkowicie zależny od typu zmiennych użytych jako podstawa grupowania. Należy wybrać tylko te zmienne, które poprawnie opisują grupowane obiekty i odnoszą się trafnie do celów analizy. Należy wyeliminować te zmienne, które niezbyt silnie różnicują badanych. Analiza skupisk jest także bardzo wrażliwa na tzw. "przypadki odstające" czyli obiekty, które są wyraźnie inne od pozostałych. Po "wyczyszczeniu" danych z przypadków odstających i nietrafnych zmiennych należy wybrać odpowiednią miarę odległości. Zazwyczaj zmienne będące podstawą klasyfikacji są standaryzowane. Jest to zabieg pozwalający na porównywanie i klasyfikację obiektów z punktu zmiennych różnomianowych (np. dochodów i wieku). Standaryzacja zmiennych powoduje, że wszystkie one mają wariancję równą 1 i średnią arytmetyczną równą 0. Procesu standaryzacji dokonuje się zazwyczaj gdy występują zmienne jednocześnie o dużym i małym rzędzie pomiaru (wtedy te o dużym mogą zdominować analizę). Jednocześnie należy pamiętać, że standaryzacja zmniejsza różnice między klasyfikowanymi obiektami. Większość metod określających symboliczne dystanse między konsumentami ma charakter metryczny i ich zastosowanie ograniczone jest do zmiennych interwałowych i stosunkowych. Zakłada się więc, że np. skale do mierzenia postaw, jak skala Likerta czy dyferencjału semantycznego są skalami silnymi. 4 www.statsoft.pl/czytelnia Copyright StatSoft Polska

Spośród wielu miar podobieństw wyróżnia się trzy podstawowe grupy: korelacje, dystanse i miary powiązań. Pomiar podobieństwa za pomocą współczynnika korelacji ujawnia kształtowanie się wzorców kształtowania się relacji miedzy obiektami (a ściślej profilami obiektów). Wysoka korelacja oznacza duże podobieństwo a niska - małe podobieństwo obiektów. Nie jest to często spotykana miara i stosowana jest raczej do grupowania zmiennych niż obiektów. Miary dystansów są najbardziej popularnymi miernikami podobieństw między obiektami. Najpowszechniej używana jest odległość euklidesowa (lub kwadratowa euklidesowa) gdzie i, j - wartości badanych cech konsumentów k = 1,...,n - ilość cech oraz miejska (Manhattan). Ta ostatnia jest często stosowana także dla zmiennych binarnych lecz w każdym przypadku zmienne powinny być między sobą nisko skorelowane. Copyright StatSoft Polska www.statsoft.pl/czytelnia 5

Dla zmiennych jakościowych (np. odpowiedzi "tak"-"nie") stosowane są różne miary powiązań opartych na analizie zgodności i niezgodności odpowiedzi na pytania kategorialne. Wybór sposobu przyporządkowania danych obiektów (np.konsumentów) do homogenicznych grup Drugi problem wiąże się ze sposobem wyodrębniania skupisk. Wyróżnia się dwa podstawowe podejścia do problemu grupowania: hierarchiczne i niehierarchiczne. W podejściu hierarchicznym otrzymujemy strukturę hierarchiczną podobieństw między obiektami. Ma ona postać drzewa zwanego dendrogramem. Wypracowano wiele sposobów uzyskiwania drzewek hierarchicznych odzwierciedlających relacje podobieństw między obiektami. Można je podzielić na trzy podstawowe grupy metod: metody powiązań, centroidalne i Warda. Zazwyczaj stosowanie różnych metod daje różne przyporządkowanie badanych do segmentów. Jednakże przyjąć należy, że im bardziej identyfikowane skupiska zależą od zastosowanej metody aglomeracji konsumentów, tym w większym stopniu uzyskane segmenty mają charakter "sztuczny", tj. są efektem procedury obliczeniowej, nie zaś realnie istniejących różnorodnych preferencji, postaw, dyspozycji czy cech konsumentów. Istnieje związek pomiędzy wyborem miary odległości a wyborem sposobu grupowania obiektów. Na przykład metoda centroidalna i Warda powinna być stosowana wraz z miarą euklidesową. Najczęściej jednak stosowana jest w praktyce badań marketingowych metoda Warda oraz najdalszego sąsiedztwa. Stosowanie metody pojedyńczych powiązań jest związane z efektem "łańcuchowym" (chaining) wywołanym wrażliwością tej metody na występowanie przypadków odstających. Wśród metod niehierarchicznych wyróżnić należy metodę k-średnich pozwalającą na szybsze i bardziej efektywne grupowanie przypadków. Jest to metoda iteracyjna, która 6 www.statsoft.pl/czytelnia Copyright StatSoft Polska

pozwala na grupowanie zbiorów obiektów liczących nawet kilka lub kilkanaście tysięcy obserwacji. W metodzie tej badacz musi jednak podać z góry liczbę skupisk. Dlatego w badaniach segmentacyjnych bardzo powszechne jest podejście dwuetapowe. W pierwszym etapie stosowana jest na wylosowanej podpróbie analizia hierarchiczna w celu określenia wstępnej liczby skupisk a w drugim kroku właściwa klasyfikacja obiektów przy pomocy metody k-średnich. Wybór liczby identyfikowanych skupisk Trzeci problem w stosowaniu analizy skupisk w badaniach segmentacyjnych wiąże się z zastosowaniem odpowiedniego tzw. kryterium stopu. Homogeniczne, odrębne segmenty otrzymuje się najczęściej odcinając "gałęzie" dendogramu w miejscach o względnie długich "wąsach". Można również skorzystać ze współczynników fuzji - tam, gdzie krzywa fuzji (aglomeracji) staje się bardziej płaska tj. gdy dodatkowy przyrost informacji jest niewielki poprzez przyłączenie kolejnych obiektów, lub subsegmentów do istniejącej grupy. Copyright StatSoft Polska www.statsoft.pl/czytelnia 7

W metodzie k-średnich ostateczna liczba akceptowanych skupisk jest określana poprzez podobną krzywą określającą relację między wariancję wewnątrz - i międzyskupiskową a liczbą skupisk. W praktyce badań segmentacyjnych ilość skupisk powinna się wahać od trzech do sześciu. Interpretacja i profilowanie uzyskanych skupisk Ostatnim problemem do rozwiązania jest oszacowanie rzetelności i trafności analizy. Podobnie jak w poprzedniej procedurze, również i w przypadku analizy skupisk algorytm komputerowy znajdzie rozwiązanie numeryczne nawet wówczas, gdy nie będą istnieć żadne naturalne segmenty. Rozwiązanie problemu polega na określeniu w jakim stopniu skupiska otrzymane na podstawie danych empirycznych różnią się w od skupisk stworzonych na podstawie danych losowych. Podobnie jak w analizie rzetelności skal zastosować można test połówkowy polegający na przeprowadzeniu analizy skupisk osobno na dwóch, losowo wybranych połówkach próby. Miernikiem korelacji między połówkowej może być współczynnik Kendalla Mając wyodrębnione spójne grupy obiektów, ostatnim krokiem w badaniach segmentacyjnych jest ich opis. W badaniach segmentacyjnych są to cechy charakteryzujące postępowanie konsumentów i ich pozycję społeczno-demograficzną. Podstawowym wyróżnikiem poprawnego opisu segmentów jest stopień w jakim te segmenty są identyfikowalne poprzez postawy wobec produktu i cechy demograficzne, geograficzne czy psychograficzne konsumentów oraz stopień, w jakim segmenty różnią się w swoich reakcjach lub elastycznościach reakcji na zmienne marketingowe (produkt, typ reklamy, cenę, kanał dystrybucji). Profilowanie to odbywa się najczęściej z wykorzystaniem trzech podstawowych technik: tabulacji krzyżowej (lub analizy korespondencji), wielorakiej analizy dyskryminacyjnej oraz metody drzew klasyfikacyjnych. Najprostszą z nich (lecz najmniej dokładną) jest tabulacja krzyżowa. Podobnie jak poprzednia metoda, drzewka klasyfikacyjne stosuje się do rozwiązywania problemów klasyfikacji danych. Podstawowym celem tej metody jest przewidywanie lub wyjaśnienie kształtowania się kategorialnej zmiennej zależnej (np. odpowiedzi typu "tak"- "nie") przez zestaw różnych zmiennych niezależnych (zarówno ciągłych jak i kategorialnych). Jest to metoda podobna do takich metod statystycznych jak analiza dyskryminacji czy regresji lecz mniej restrykcyjna jeżeli chodzi o jej statystyczne założenia. Charakterystyczną cechą metody drzewek klasyfikacyjnych jest jej hierarchiczność i elastyczność w stosowaniu. Pierwsza cecha związana jest z samym matematycznym algorytmem uzyskiwania współczynników równań klasyfikacyjnych. W metodzie drzewkowej jest on oparty na zasadzie "jeżeli... to..." (np. "jeżeli konsument kupił 8 www.statsoft.pl/czytelnia Copyright StatSoft Polska

A, to posiada dochody X lub jeżeli konsument kupił C to posiada dochody X"). Drugą cechą metody jest jej elastyczność. Jak wspomniano zmiennymi niezależnymi (predyktorami) mogą być zarówno zmienne ciągłe (np. dochody, wiek, continnum postawy) jak i kategorialne (np. płeć, wykształcenie. Wzajemne relacje między zmienną zależną i niezależnymi mogą być również wielorakie. Analiza drzewkowa jest poprawna zarówno dla dwukategorialnej zmiennej zależnej i wielu zmiennych niezależnych, jak również wielokategorialnej zmiennej zależnej i niewielkiej liczby predyktorów. Jakość przewidywania lub wyjaśniania zachowań zmiennej zależnej przez predyktory jest przedstawiana dla każdej zmiennej niezależnej na 100 punktowej skali. Siła ocen wskazuje na stopień ważności poszczególnych zmiennych niezależnych w wyjaśnianiu zmiennej zależnej. Zasadniczym celem analizy drzewkowej jest więc uzyskanie optymalnej klasyfikacji przypadków, która minimalizuje proporcję błędnie sklasyfikowanych obserwacji. Przeprowadzając klasyfikację danych metodą drzewkową należy uwzględnić trzy podstawowe etapy analizy: 1. Określenie kryteriów trafności predykcyjnej 2. Wybór algorytmu podziału 3. Określenie kryterium stopu i wybór ostatecznej postaci drzewka klasyfikacyjnego Określenie kryteriów trafności predykcyjnej Określenie najlepszej kryterium wiarygodności predykcji nie jest rzeczą łatwą. Najczęściej kryterium to oznacza predykcję przeprowadzoną przy minimalnym koszcie. Jako koszt zwykle przyjmuje się procent błędnie sklasyfikowanych obserwacji. Jest on różny od tych ostatnich jeżeli prawdopodobieństwo a priori przynależności danej obserwacji do klasy nie Copyright StatSoft Polska www.statsoft.pl/czytelnia 9

jest proporcjonalne do rozmiarów klas i nie jest równe dla każdej klasy. Prawdopodobieństwo a priori określa na ile jest prawdopodobne, że dany przypadek znajdzie się w danej klasie (bez wzięcia pod uwagę żadnej uprzedniej wiedzy na ten temat). Prawdopodobieństwo to może być równe, szacowane na podstawie liczebności klas określonych przez zmienną zależną lub wprowadzone przez użytkownika w oparciu o wcześniejsze badania. Wybór algorytmu podziału Program STATISTICA oferuje trzy podstawowe typy podziału obiektów z punktu widzenia zmiennej zależnej. Dwa z nich to podziały podobne do metody analizy dyskryminacyjnej (ściślej kwadratowej analizy dyskryminacyjnej) oparte na metodzie QUEST (Quick Unbiased Efficient Statistical Trees). Trzeci typ, to metoda CART uwzględniająca wszystkie możliwe kombinacje poziomów zmiennych niezależnych w celu odnalezienia najlepszego podziału obiektów z punktu widzenia zmiennej zależnej. Podziały dyskryminacyjne są szybsze w analizie (szczególnie jeżeli jest wiele poziomów zmiennych niezależnych). Metoda CART natomiast częściej wybiera te zmienne predykcyjne, które posiadają więcej poziomów podziału lecz oferuje możliwie najlepsze klasyfikacje. Określenie kryterium stopu Kryterium pozwala na uzyskanie drzewka klasyfikacyjnego właściwej wielkości. Spośród trzech poniższych metod, dwie pierwsze są metodami przycinania, gdzie od kompletnego drzewa odcinane są kolejne gałęzie aż do osiągnięcia odpowiedniego parametru zatrzymania. 10 www.statsoft.pl/czytelnia Copyright StatSoft Polska

W zatrzymaniu typu FACT drzewo kompletne jest traktowane jako drzewo właściwej wielkości. Zatrzymanie przycinania kontrolowane jest poprzez dopuszczalną minimalną frakcje obiektów błędnie zaklasyfikowanych w węźle końcowym. Dokonajmy analizy drzewkowej na przykładzie danych z badań lojalności i zadowolenia z okien za pomocą algorytmu CART i jako kryterium stopu - bezpośrednim zatrzymaniem typu FACT. Jako zmienną zależną przyjęto skategoryzowany indeks lojalności, a zmiennymi niezależnymi są liczne zmienne społeczno-demograficzne oraz indeks zadowolenia. nominalna zmienna opisująca znajomość różnic między markami oraz porządkowa zmienna opisująca indeks zadowolenia. Ranking ważności predyktorów wskazuje na dwie bardzo ważne zmienne w kształtowaniu się lojalności wobec marki tj. indeks zadowolenia i typ pracy. Do najmniej ważnych zaliczyć można wiek, płeć, wykształcenie, liczbę osób w rodzinie, subiektywne przywiązanie do jednej marki. Copyright StatSoft Polska www.statsoft.pl/czytelnia 11

Powyżej przedstawione jest drzewko klasyfikacyjne po wyeliminowaniu braków odpowiedzi i braków danych. W pierwszym węźle nastąpił podział na dwie grupy: 60 respondentów o indeksie zadowolenia powyżej 5.5 oraz 24 badanych spełniających podany poniżej węzła warunek (indeks zadowolenia mniejszy od 5.5). Obie grupy zostały w dalszym etapie podzielone na następne dwie. Pierwsza o indeksie zadowolenia <5.5 została podzielona z punktu widzenia płci na 12 mężczyzn o przewadze lojalnych oraz 12 kobiet nielojalnych wobec marki. Druga grupa o indeksie zadowolenia > 5.5 rozdzieliła się na 4 osoby nielojalne (emeryci) oraz 56 osób lojalnych pracujących zawodowo. Ostatni podział dotyczy grupy o dominacji lojalnych mężczyzn. Podzielona ona została na przedstawicieli mniejszych gospodarstw domowych (lojalnych) oraz nielojalnych wobec marki mieszkających w liczniejszych rodzinach. Charakteryzując lojalnych wobec marki okien należy zauważyć, że kształtują ją przede wszytkim osoby zadowolone z produktu, pracownicy. Lojalnych - niezadowolonych respondentów znajdujemy przede wszystkim wśród mężczyzn znajdujących się gospodarstwach domowych liczących poniżej 4 osób. 12 www.statsoft.pl/czytelnia Copyright StatSoft Polska