Metoda Automatycznej Detekcji Interakcji CHAID

Podobne dokumenty
Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Testy nieparametryczne

Jednoczynnikowa analiza wariancji

Jak przekształcać zmienne jakościowe?

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Rozkłady statystyk z próby. Statystyka

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Badanie zależności skala nominalna

Badania eksperymentalne

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Modele selekcji próby

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Drzewa decyzyjne w SAS Enterprise Miner

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Dokładne i graniczne rozkłady statystyk z próby

Agnieszka Nowak Brzezińska

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Estymacja przedziałowa. Przedział ufności

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Wprowadzenie do analizy korelacji i regresji

Regresja i Korelacja

Wykład 3 Hipotezy statystyczne

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Analiza wariancji. dr Janusz Górczyński

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Wnioskowanie statystyczne. Statystyka w 5

Ćwiczenia IV

GSMONLINE.PL. UKE: Polacy o rynku telekomunikacyjnym w roku

Statystyka matematyczna Test χ 2. Wrocław, r

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Przykład 1. (A. Łomnicki)

5. Model sezonowości i autoregresji zmiennej prognozowanej

Badania eksperymentalne

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka w pracy badawczej nauczyciela

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Analiza wariancji jednej zmiennej (UNIANOVA)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Hipoteza: Dziewczynki częściej niż chłopcy mają sprecyzowane plany dotyczące dalszego kształcenia (dlaczego?)

Zadania ze statystyki cz.8. Zadanie 1.

Metodologia badań psychologicznych

Niestandardowa tabela częstości

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Wykład 8 Dane kategoryczne

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Analiza niepewności pomiarów

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

Regresja logistyczna (LOGISTIC)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

WHILE (wyrażenie) instrukcja;

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Preferencje partyjne Polaków w połowie listopada 2005 r.

Estymacja punktowa i przedziałowa

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

CBOS - SPOSOBY POPRAWY BEZPIECZEŃSTWA NA DROGACH

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

STATYSTYKA MATEMATYCZNA

STRAŻ POŻARNA NA TLE INNYCH INSTYTUCJI ŻYCIA PUBLICZNEGO

Agnieszka Nowak Brzezińska Wykład III

Preferencje partyjne Polaków w lutym 2009 r.

KARTA KURSU. Kod Punktacja ECTS* 1

1 Podstawy rachunku prawdopodobieństwa

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Chłopiec czy dziewczynka? Polacy o dzieciach.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Preferencje partyjne Polaków na początku czerwca 2009 r.

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zadania ze statystyki, cz.6

STATYSTYKA wykład 5-6

WHILE (wyrażenie) instrukcja;

Analiza danych ilościowych: Analiza danych jakościowych:

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA MATEMATYCZNA

Rodzaje badań statystycznych

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Analiza korespondencji

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Podstawowe definicje statystyczne

1 Estymacja przedziałowa

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Transkrypt:

Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane są według siły tego wpływu. Pozwala też na dokładne wskazanie, które wartości zmiennych implikują poszczególne wartości zmiennej zależnej.

CHAID - cele Identyfikacja zmiennych najlepiej różnicujących wybrane zjawisko Stworzenie rankingu zmiennych ze względu na siłę ich wpływu Identyfikacja zestawów cech warunkujących występowanie danej wartości zmiennej zależnej Identyfikacja i opis segmentów respondentów

CHAID - dane próby losowa lub celowa wielkość próby musi odpowiadać ilości potencjalnych zmiennych objaśniających (zbyt mała uniemożliwi dokonanie wszystkich niezbędnych podziałów) możliwe jest wykorzystanie zarówno zmiennych ciągłych, jaki i porządkowych czy nominalnych braki danych mogą być traktowane jako odrębna kategoria lub być usunięte z analizy

CHAID przebieg analizy Etapy analizy: Dla każdych dwu kategorii każdego predyktora liczony jest test Chikwadrat (zmienne nominalne) lub test F (zmienne ciągłe) jako sprawdzian, czy różnicują one zmienną zależną. Jeśli tak nie jest, kategorie są ze sobą łączone dzieje się tak aż do momentu wyczerpania możliwych kategorii dla danego predyktora. W przypadku zmiennych ciągłych tworzony jest początkowy podział na kategorie o zbliżonych liczebnościach

CHAID - przebieg analizy Dla każdego predyktora z uprzednio zdefiniowanymi kategoriami oblicza się wartość testu Chi-kwadrat lub F - dla tych wartości statystyk obliczane jest p-value Wybierany jest predyktor z najmniejszą wartością p-value Respondenci dzieleni są według kategorii wybranej zmiennej ustalonych w pierwszym kroku W każdej z wyróżnionych podgrup cała procedura jest powtarzana - powstają w ten sposób kolejne podgrupy

CHAID - przebieg analizy Proces zatrzymuje się, gdy: - kolejnej wyróżnionej podgrupy nie da się już podzielić na różnicujące zmienną objaśnianą części - liczebność podgrupy jest za mała dla przeprowadzenia testu niezależności - kolejny podział doprowadziłby do powstania podgrupy o mniejszej niż zadana na początku liczebności poprawka Bonferroniego polecana ze względu na jednoczesne wykonywanie wielu testów (dotyczy to również etapu łączenia kategorii).

CHAID - parametry maksymalna głębokość drzewka maksymalna liczba podziałów minimalna liczebność podgrupy, która może zostać podzielona minimalna liczebność podgrupy wynikowej podziału stosowanie poprawki Bonferroniego zezwolenie na dzielenie wcześniej połączonych kategorii koszty błędnej klasyfikacji walidacja drzewa

CHAID - wyniki Podstawowym kryterium jakości analizy jest trafność klasyfikacji do poszczególnych kategorii zmiennej zależnej, jak i trafność klasyfikacji ogółem. Oblicza się je na podstawie tabeli krzyżowej rzeczywistych i prognozowanych wartości zmiennej zależnej. Struktura podziałów prezentowana jest w formie drzewa, którego korzeń to zmienna objaśniana, a kolejne rozgałęzienia obrazują kolejne podziały.

CHAID - wyniki Na każdej gałęzi widnieje nazwa zmiennej będącej podstawą podziału, oraz wartość statystyki Chi-kwadrat (lub F), p-value i liczba stopni swobody testu. Po rozgałęzieniu zapisane są wartości danej zmiennej wyznaczające daną gałąź. Jeżeli kilka pierwotnych kategorii uległo połączeniu, na gałęzi zapisane są wszystkie. Każą podgrupę charakteryzują: liczba obserwacji, jaka do niej weszła i struktura zmiennej objaśnianej w danej podgrupie. Wyróżniona jest kategoria zmiennej objaśnianej o najwyższej frekwencji.

CHAID przykład drzewka

CHAID - wyniki Analiza poszczególnych podziałów pozwala na znalezienie i uporządkowanie zmiennych najsilniej różnicujących zmienną zależną. Struktura zmiennej objaśnianej w poszczególnych podgrupach pozwoli stwierdzić kierunek wpływu poszczególnych kategorii na zmienną zależną lub, jeśli ma ona charakter nominalny, współwystępowanie kategorii zmiennych niezależnych i zmiennej zależnej. Ostatnie podgrupy (zwane liśćmi) w całym drzewie, lub powstające na skutek obcięcia drzewa na pewnym poziomie, można traktować jako segmenty rynku.

CHAID przykład drzewka

CHAID przykład: konsumpcja lodów W celu dokładnej charakterystyki poszczególnych grup konsumentów i niekonsumentów lodów pod względem niezależnych zmiennych społecznodemograficznych została przeprowadzona analiza CHAID. Próba podzielona została na grupy jak najbardziej jednorodne pod względem zmiennej zależnej (konsumpcji lodów) i maksymalnie różniące się pomiędzy sobą. Każda grupa wyróżniona pod względem jednej zmiennej jest następnie analizowana indywidualnie i dzielona według kolejnych zmiennych, które tę grupę najsilniej różnicują.

KONSUMPCJA JAKICHKOLWIEK LODÓW ANALIZA CHAID Tak 81% Nie 19% N=1019 Grupa społeczno-zawodowa Firma prywatna, studenci, gospodynie domowe Zakład państwowy, bezrobotny Renciści, emeryci Tak 89% Nie 11% N=502 Dzieci Tak 82% Nie 18% N=239 Dzieci Tak 66% Nie 34% N=278 Nie Tak Nie Jedno Dwoje lub więcej Tak 84% Nie 16% N=250 Tak 94% Nie 6% N=252 Tak 75% Nie 25% N=119 Tak 93% Nie 7% N=68 Tak 85% Nie 15% N=52 Miejsce zamieszkania Miasto Wieś Tak 90% Nie 10% N=156 Tak 73% Nie 27% N=94

CHAID Zmienną najsilniej różnicującą jest grupa społeczno-zawodowa. Zdecydowanie najwyższy odsetek konsumentów lodów jest wśród osób pracujących w prywatnych firmach, zajmujących się domem oraz studentów. W tej grupie lody jedzą częściej osoby posiadające dzieci lub bezdzietne, ale mieszkające w mieście. Wśród pracujących w państwowym sektorze przedsiębiorstw oraz bezrobotnych po lody częściej sięgają osoby posiadające dzieci. Zdecydowanie najmniejsza liczba konsumentów lodów występuje w grupie rencistów i emerytów.

Answer Tree

Answer Tree

Answer Tree

Answer Tree

Answer Tree

Answer Tree 5

Answer Tree

Answer Tree