Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Transkrypt

1

2 Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

3 Segmentacja bez zmiennej wynikowej (grupowanie) Analiza skupień Segmentacja ze zmienną wynikową (klasyfikacja) Drzewa klasyfikacyjne (CHAID) Analiza dyskryminacji Regresja logistyczna

4 Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienna (objaśniana) zmienneporządkowane są według siły tego wpływu. Pozwala też na dokładne wskazanie, które wartości zmiennych implikują poszczególne wartości zmiennej zależnej.

5 Identyfikacja zmiennych najlepiej różnicujących wybrane zjawisko Stworzenie rankingu zmiennych ze względu na siłę ih ich wpływuł Identyfikacja zestawów cech warunkujących występowanie danej wartości zmiennej zależnej Identyfikacja i opis segmentów respondentów

6 Zmienna Y Lista predyktorów: X 1,, X n

7 Próba losowa lub celowa Wielkość próby musi odpowiadać ilości potencjalnych zmiennych objaśniających (bytmała (zbyt uniemożliwi dokonanie wszystkich niezbędnych podziałów) Możliwe jest wykorzystanie zarówno zmiennych ciągłych, jaki i porządkowych czy nominalnych Braki danych mogą być traktowane jako odrębna ę kategoria lub być usunięte z analizy

8 Etapy analizy: Dla każdych dwu kategorii każdego predyktora liczony jest test Chi kwadrat (zmienne nominalne) lub test F (zmienne ciągłe) jako sprawdzian, czy różnicują one zmienna zależną. Jeśli tak nie jest, kategorie są ze sobą łączone dzieje są tak aż do momentu wyczerpania możliwych kategorii dla danego predyktora. W przypadku zmiennych ciągłych tworzony jest początkowy podział nakategorie o zbliżonychliczebnościach liczebnościach

9 Dla każdego predyktora z uprzednio zdefiniowanymi kategoriami oblicza się wartość testu Chi kwadrat lub F dla tych wartości statystyk obliczane jest p value Wybierany jest predyktor z najmniejsza wartością p value Respondenci dzieleni są według kategorii wybranej zmiennej ustalonych w pierwszym kroku W każdej z wyróżnionych podgrup cała procedura jest powtarzana powstają w ten sposóbkolejnepodgrupy podgrupy

10 Proces zatrzymuje się, gdy: kolejnej wyróżnionej podgrupy nie da się już podzielić na różnicujące zmienną objaśnianą części liczebność podgrupy jest za mała dla przeprowadzenia testu niezależności kl kolejny podział ł doprowadziłby do powstania podgrupy o mniejszej niż zadana na początku liczebności poprawka Bonferroniego polecana ze względu na jednoczesne wykonywanie wielu testów (dotyczy to równie etapu łączenia kategorii).

11 maksymalna głębokość ł drzewka maksymalna liczba podziałów minimalna liczebność podgrupy, która może zostać podzielona minimalna liczebność podgrupy wynikowej podziału stosowanie poprawki Bonferroniego zezwolenie na dzielenie wcześniej połączonych kategorii koszty błędnej klasyfikacji walidacja ld drzewa

12 Podstawowym kryterium jakości ś analizy jest trafność klasyfikacji k do poszczególnych kategorii zmiennej zależnej, jak i trafność klasyfikacji ogółem. Oblicza się je na podstawie tabeli krzyżowej rzeczywistych i prognozowanych wartości zmiennej zależnej. Struktura podziałów prezentowana jest w formie drzewa, którego korzeń to zmienna objaśniana, a kolejne rozgałęzienia obrazują kolejne podziały.

13 Na każdej gałęzi ł widnieje nazwa zmiennej będącej podstawa podziału, ł oraz wartość statystyki Chi kwadrat (lub F), p value i liczba stopni swobody testu. Po rozgałęzieniu zapisane są wartości danej zmiennej wyznaczające daną gałąź. Jeżeli kilka pierwotnych kategorii uległo połączeniu, na gałęzi zapisane są wszystkie. Każdą podgrupę charakteryzują: liczba obserwacji, jaka do niej weszła i struktura zmiennej objaśnianej w danej podgrupie. Wyróżniona jest kategoria zmiennej objaśnianej o najwyższej frekwencji.

14 Analiza poszczególnych podziałów pozwala na znalezienie i uporządkowanie zmiennych najsilniej różnicujących zmienną zależną. Struktura zmiennej objaśnianej w poszczególnych podgrupach pozwoli stwierdzić kierunek wpływu poszczególnych kategorii na zmienną zależną lub, jeśli ma ona charakter nominalny, współwystępowanie kategorii zmiennych niezależnych ż i zmiennej zależnej. ż Ostatnie podgrupy (zwane liśćmi) w całym drzewie, lub powstające na skutekobcięcia drzewanapewnym poziomie, możnatraktować jako segmenty rynku.

15 CHAID Zmienna Y spliting Zmienna X i (max zależność z Y) merging Zmienna X1 (max zależność z Y) Zmienna X2 (max zależność z Y)

16

17 1,2 1,0,8, HOM12,,4,2 0,0,2 HOM HOM11 1,2 1,0,8,6,4,2 0,0 H,2 HOM H 20,04,03,02, HOM22 0,00,01,02, V K 4,00 3,00 2,00 1,00 17 HOM21,02,01 0,00,01,02 V1

18 narzędzie służące ł do podziału ł heterogenicznego zbioru na homogeniczne segmenty nie istnieją żadne warunki wstępne, na jakich musiałoby się opierać postępowanie segmentacyjne postępowanie generuje hipotezy, a nie rozpatruje je.

19 Eksploracja danych Kontrola danych Poszukiwanie obiektów odstających Wykrycie wewnętrznej struktury obiektów Wykrywanie współzależności między zmiennymi Typologia Weryfikacja istniejącej typologii Propozycje klasyfikacji obiektów Rdkj Redukcja danych Agregacja danych Wybór reprezentantów grup

20 Hierarchiczne tworzą drzewa binarne Optymalizacyjno iteracyjne py yj yj poprawiają wstępny podział w kolejnych iteracjach na podstawie danej funkcji kryterium Obszarowe wykrywają obszary o dużej gęstości Pozostałe np. tworzą skupienia nierozłączne, niezupełne, rozmyte

21 metody aglomeracyjne C A S E Label Num I I metody podziałowe Dendrogram Diagram Venna 21

22 Technika hierarchicznej analizy skupień bierze się z metod mierzenia odległości między skupieniem jednoelementowym (pojedynczą obserwacją) a skupieniem zawierającym klk kilka obserwacji, lub między dwoma grupami wieloelementowymi. 22

23 1. Najbliższego sąsiedztwa (Single linkage, Nearest neighbor). 2. Najdalszego sąsiedztwa (Complete linkage, Furthest neighbor). 3. Mdi Mediany (Median clustering). 4. Środka ciężkości (Centroid clustering). 5. Średniej odległości wewnątrz skupień (Average linkage within groups). 6. Średniej odległości między skupieniami (Average linkage between groups). 7. Minimalnej wariancji Warda (Ward s method). 23

24 metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda środka ciężkości metoda średniej grupowej metoda Warda 24

25 odległość między dwomaklasteramito to najmniejsza z odległości pomiędzy ich elementami; wadą metody jest tworzenie "łańcuchów", co w praktyce może prowadzić do uformowania grup dość heterogenicznych; pozwalana wykrycieobserwacjiodstających, odstających, nie należących do żadnej z grup, i warto przeprowadzić klasyfikację za jej pomocą na samym początku, aby wyeliminować takie obserwacje i przejść bez nich do właściwej części analizy 25

26 odległość ł między utworzonym skupieniem a jednostką zewnętrzną to średnia arytmetyczna z odległości ł ś między jednostkami w skupieniu i jednostką zewnętrzną Odległość między dwoma skupieniami średnia z odległości między jednostkami jednego i drugiego skupienia 26

27 Odległość między utworzonym skupieniem a jednostką zewnętrzną to mediana odległości między jednostkami w skupieniu i jednostką zewnętrzną Odległość między dwoma skupieniami mediana z odległości ł ś między jd jednostkami ijd jednego i drugiego skupienia 27

28 W każdym kroku po utworzeniu skupienia wyznacza się nową macierz odległości ł ś na podstawie uśrednionych wartości cech (stanowiących kryteria segmentacji) tych jednostek, które połączono w skupienia Wartości średnie określa się mianem centroid Natalia Nehrebecka 28

29 Kryterium grupowania jednostek: minimum zróżnicowania wartości cech, stanowiących kryteria segmentacji względem wartości średnich skupień tworzonych w kolejnych krokach Gdy powiększymy jd jeden z klasterów, wariancja wewnątrzgrupowa (liczona przez kwadraty odchyleń od średnich w klasterach) rośnie; metoda polega na takiej fuzji klasterów, która zapewnia najmniejszy przyrost tej wariancji dla danej iteracji empirycznie metoda daje bardzo dobre wyniki (grupy bardzo homogeniczne), jednak ma skłonność do tworzenia klasterów o podobnych rozmiarach; nie jest też często w stanie zidentyfikować grup o szerokim zakresie zmienności poszczególnych cech oraz grup niewielkich 29

30 A C D B E

31 Metod hierarchiczne nie określają liczby klas. Pozostaje więc problem, który podział jest podziałem optymalnym. Występuje kilka metod określających najlepszy podział. Operują one najczęściej na poziomie połączenia klas i jego statystyk takich jak średnia i odchylenie standardowe. Natalia Nehrebecka 31

32 dendrogram; cubic clustering criterium Sarle a; a; statystyka pseudo F; test pseudo T2 Natalia Nehrebecka 32

33 Cubic clustering criterion Sarla (CCC) testuje następującą hipotezę: H0 : dane pochodzą z rozkładu jednostajnego; H1 : dane pochodzą z mieszanych wielowymiarowych rozkładów normalnych o równych wariancjach i prawdopodobieństwie wylosowania. Dodatnie wartości CCC oznaczają, że uzyskana wartość R2 jest większa niż oczekiwana w przypadku rozkładu jednostajnego (wtedy odrzucamy H0). Natalia Nehrebecka 33

34 Statystyka pseudo F statistic (lub PSF) mierzy rozdzielenie między grupami na bieżącym poziomie hierarchii; Wysokie wartości wskazują, że średnie wartości rozpatrywanych zmiennych różnią istotnie it t i się między grupami; Nie ma rozkładu F Snedecora; Natalia Nehrebecka 34

35 Statystyka pseudo T2 jest wariantem testu T2 Hotellinga. jeśli wartość statystyki y pseudo T2 jest duża, rozpatrywane w danym kroku dwa skupienia nie powinny być połączone, ponieważ średnie wartości rozpatrywanych zmiennych różnią się istotnie między nimi; jeśli wartość statystyki jest mała, rozpatrywane w danym kroku dwa skupienia mogą być bezpiecznie połączone. Natalia Nehrebecka 35

36 Konieczne jest określenie a priori liczby segmentów Dla ustalonej liczby segmentów dokonuje się rozdziału jednostek według wstępnie wybranych przedstawicieli każdego segmentu Zasada rozdziału: kryterium najmniejszej odległości względem wybranych przedstawicieli

37 1. Ustalamy liczbę grup (k) 2. Wybieramy (w sposób losowy lub ustalony z góry) k punktów przestrzeni, stanowiących tzw. zalążki środków ciężkości skupień (cluster seeds) 3. Każdyzobiektów (i=1,...,n) przydzielamy do grupyonajbliższym dla niego środku ciężkości 4. Dla (j=1,...,k) obliczamy nowe środki ciężkościę jako średnie arytmetyczne wszystkich obiektów należących do danej grupy 5. Powtarzamy kroki 3 i 4 aż do chwili, gdy nie następują przesunięcia obiektów międzygrupami

38 Jednocześnie obliczana jest funkcja błędu podziału ogólna suma kwadratów odległości wewnątrzgrupowych liczonych od środków ciężkości ś i grup, tzn. F k = j= 1 O S i j d (, ) O i M j 2 gdzie d jest odległością euklidesową.

39 Mamy 8 elementów, które chcemy podzielić na k=2 skupienia Iteracja 1 Ustalamy zalążki środków ciężkości skupień, Arbitralnie (lub losowo) wybieramy dwa elementy punkty (1; 1) i (2; 1). Pozostałe elementy przyporządkowujemy do najbliższych środków ciężkości skupień.

40 Iteracja Skupienie 1 ma 3 elementy. Skupienie 2 ma 5 elementów. Wyznaczono środki ciężkości skupień. Jeden obiekt leży bliżej środka ciężkości innego skupienia

41 5 4 3 Iteracja Obiekt przeszedł ze skupienia 2 do skupienia 1. Teraz oba skupienia mają po 4 elementy. Wyznaczono nowe środki ciężkości skupień. Wszystkie punkty leżą najbliżej środków ciężkości swoich skupień. Algorytm kończy się