Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane są według siły tego wpływu. Pozwala też na dokładne wskazanie, które wartości zmiennych implikują poszczególne wartości zmiennej zależnej.
CHAID - cele Identyfikacja zmiennych najlepiej różnicujących wybrane zjawisko Stworzenie rankingu zmiennych ze względu na siłę ich wpływu Identyfikacja zestawów cech warunkujących występowanie danej wartości zmiennej zależnej Identyfikacja i opis segmentów respondentów
CHAID - dane próby losowa lub celowa wielkość próby musi odpowiadać ilości potencjalnych zmiennych objaśniających (zbyt mała uniemożliwi dokonanie wszystkich niezbędnych podziałów) możliwe jest wykorzystanie zarówno zmiennych ciągłych, jaki i porządkowych czy nominalnych braki danych mogą być traktowane jako odrębna kategoria lub być usunięte z analizy
CHAID przebieg analizy Etapy analizy: Dla każdych dwu kategorii każdego predyktora liczony jest test Chikwadrat (zmienne nominalne) lub test F (zmienne ciągłe) jako sprawdzian, czy różnicują one zmienną zależną. Jeśli tak nie jest, kategorie są ze sobą łączone dzieje się tak aż do momentu wyczerpania możliwych kategorii dla danego predyktora. W przypadku zmiennych ciągłych tworzony jest początkowy podział na kategorie o zbliżonych liczebnościach
CHAID - przebieg analizy Dla każdego predyktora z uprzednio zdefiniowanymi kategoriami oblicza się wartość testu Chi-kwadrat lub F - dla tych wartości statystyk obliczane jest p-value Wybierany jest predyktor z najmniejszą wartością p-value Respondenci dzieleni są według kategorii wybranej zmiennej ustalonych w pierwszym kroku W każdej z wyróżnionych podgrup cała procedura jest powtarzana - powstają w ten sposób kolejne podgrupy
CHAID - przebieg analizy Proces zatrzymuje się, gdy: - kolejnej wyróżnionej podgrupy nie da się już podzielić na różnicujące zmienną objaśnianą części - liczebność podgrupy jest za mała dla przeprowadzenia testu niezależności - kolejny podział doprowadziłby do powstania podgrupy o mniejszej niż zadana na początku liczebności poprawka Bonferroniego polecana ze względu na jednoczesne wykonywanie wielu testów (dotyczy to również etapu łączenia kategorii).
CHAID - parametry maksymalna głębokość drzewka maksymalna liczba podziałów minimalna liczebność podgrupy, która może zostać podzielona minimalna liczebność podgrupy wynikowej podziału stosowanie poprawki Bonferroniego zezwolenie na dzielenie wcześniej połączonych kategorii koszty błędnej klasyfikacji walidacja drzewa
CHAID - wyniki Podstawowym kryterium jakości analizy jest trafność klasyfikacji do poszczególnych kategorii zmiennej zależnej, jak i trafność klasyfikacji ogółem. Oblicza się je na podstawie tabeli krzyżowej rzeczywistych i prognozowanych wartości zmiennej zależnej. Struktura podziałów prezentowana jest w formie drzewa, którego korzeń to zmienna objaśniana, a kolejne rozgałęzienia obrazują kolejne podziały.
CHAID - wyniki Na każdej gałęzi widnieje nazwa zmiennej będącej podstawą podziału, oraz wartość statystyki Chi-kwadrat (lub F), p-value i liczba stopni swobody testu. Po rozgałęzieniu zapisane są wartości danej zmiennej wyznaczające daną gałąź. Jeżeli kilka pierwotnych kategorii uległo połączeniu, na gałęzi zapisane są wszystkie. Każą podgrupę charakteryzują: liczba obserwacji, jaka do niej weszła i struktura zmiennej objaśnianej w danej podgrupie. Wyróżniona jest kategoria zmiennej objaśnianej o najwyższej frekwencji.
CHAID przykład drzewka
CHAID - wyniki Analiza poszczególnych podziałów pozwala na znalezienie i uporządkowanie zmiennych najsilniej różnicujących zmienną zależną. Struktura zmiennej objaśnianej w poszczególnych podgrupach pozwoli stwierdzić kierunek wpływu poszczególnych kategorii na zmienną zależną lub, jeśli ma ona charakter nominalny, współwystępowanie kategorii zmiennych niezależnych i zmiennej zależnej. Ostatnie podgrupy (zwane liśćmi) w całym drzewie, lub powstające na skutek obcięcia drzewa na pewnym poziomie, można traktować jako segmenty rynku.
CHAID przykład drzewka
CHAID przykład: konsumpcja lodów W celu dokładnej charakterystyki poszczególnych grup konsumentów i niekonsumentów lodów pod względem niezależnych zmiennych społecznodemograficznych została przeprowadzona analiza CHAID. Próba podzielona została na grupy jak najbardziej jednorodne pod względem zmiennej zależnej (konsumpcji lodów) i maksymalnie różniące się pomiędzy sobą. Każda grupa wyróżniona pod względem jednej zmiennej jest następnie analizowana indywidualnie i dzielona według kolejnych zmiennych, które tę grupę najsilniej różnicują.
KONSUMPCJA JAKICHKOLWIEK LODÓW ANALIZA CHAID Tak 81% Nie 19% N=1019 Grupa społeczno-zawodowa Firma prywatna, studenci, gospodynie domowe Zakład państwowy, bezrobotny Renciści, emeryci Tak 89% Nie 11% N=502 Dzieci Tak 82% Nie 18% N=239 Dzieci Tak 66% Nie 34% N=278 Nie Tak Nie Jedno Dwoje lub więcej Tak 84% Nie 16% N=250 Tak 94% Nie 6% N=252 Tak 75% Nie 25% N=119 Tak 93% Nie 7% N=68 Tak 85% Nie 15% N=52 Miejsce zamieszkania Miasto Wieś Tak 90% Nie 10% N=156 Tak 73% Nie 27% N=94
CHAID Zmienną najsilniej różnicującą jest grupa społeczno-zawodowa. Zdecydowanie najwyższy odsetek konsumentów lodów jest wśród osób pracujących w prywatnych firmach, zajmujących się domem oraz studentów. W tej grupie lody jedzą częściej osoby posiadające dzieci lub bezdzietne, ale mieszkające w mieście. Wśród pracujących w państwowym sektorze przedsiębiorstw oraz bezrobotnych po lody częściej sięgają osoby posiadające dzieci. Zdecydowanie najmniejsza liczba konsumentów lodów występuje w grupie rencistów i emerytów.
Answer Tree
Answer Tree
Answer Tree
Answer Tree
Answer Tree
Answer Tree 5
Answer Tree
Answer Tree