ANALIZA KORESPONDENCJI opisowa i eksploracyjna technika analizy danych jakościowych pozwala na graficzne przedstawienie zmiennych w niskowymiarowej przestrzeni stosunkowo łatwo interpretowalne wyniki technika redukcji danych przedstawienie danych w bardziej przystępnej formie, kosztem utraty pewnej ilości informacji
ANALIZA KORESPONDENCJI Analizę korespondencji w podstawowym zastosowaniu wykonuje się dla przypadku dwóch zmiennych jakościowych. Przykład. Mamy zmienne ulubiony napój i przedział wiekowy. Za pomocą analizy korespondencji można stwierdzić, napoje jakiej marki wolą ludzie młodzi, a jakiej osoby starsze.
ANALIZA KORESPONDENCJI Klasyczne zastosowanie jest jednak stosunkowo rzadko stosowane, właśnie ze względu na konieczność ograniczenia się do dwóch zmiennych. Metoda ta pozwala jednak również na analizę bezpośrednio tablic wielodzielnych.
ANALIZA KORESPONDENCJI Przykład. Analiza wizerunku marek produktów Dysponując ocenami baterii stwierdzeń dla poszczególnych marek można stworzyć sztuczną zmienną zawierającą średnie oceny marek dla tych stwierdzeń drugą zmienną będzie wtedy identyfikator marki. Na bazie powstałej tablicy kontyngencji można otrzymać mapę percepcji, która pozwala w jednym układzie współrzędnych zaznaczyć marki i stwierdzenia. Wzajemne położenie marek i stwierdzeń pozwala wnioskować, na ile poszczególne marki są związane z każdym z nich oraz czym różnią się ich wizerunki.
ANALIZA KORESPONDENCJI Jak zrobić to w praktyce? Przykład zbioru danych: wizer_czynniki.sav banki.sav konieczne jest utworzenie zmiennej systemowej rowcat_: val lab rowcat_ 1 'NA SPECJALNE OKAZJE' 2 'NATURALNE' 3 'DOBRY MARKETING' 4 'TRADYCYJNE' 5 'NIEDROGIE'. exe.
ANALIZA KORESPONDENCJI *Pierwsze wiersze. CORRESPONDENCE TABLE = all (5,3) /DIMENSIONS = 2 /MEASURE = euclid /STANDARDIZE = RCMEAN /NORMALIZATION = SYMMETRICAL /PRINT = TABLE RPOINTS CPOINTS /PLOT = NDIM(1,MAX) BIPLOT(20) /OUTFILE=score('xxx.sav') /supplementary =row(4,5). exe. Liczba wierszy - stwierdzeń Liczba kolumn - marek Miara odległości euclid (dla średnich) chisq (dla odsetków) Zmienne pasywne
ANALIZA KORESPONDENCJI Zmienne pasywne: nie wpływają na geometryczną orientację przestrzeni dzięki temu możliwe jest umieszczenie dodatkowych zmiennych np. demograficznych, które mogą być pomocne w interpretacji wyników. mogą też służyć do porównywania różnych grup przypadku wystąpienia efektu dźwigni, kategorie rzadko występujące mogą być potraktowane jako zmienne pasywne, podobnie jak braki danych
WYMIAR 1 (83%) ANALIZA KORESPONDENCJI NIEDROGIE Marka B Marka A NATURALNE Marka C TRADYCYJNE DOBRY MARKETING NA SPECJALNE OKAZJE WYMIAR 2 (17%)
HOMALS Większe możliwości analizy daje również wielowymiarowa analiza korespondencji, nazywana też analizą homogeniczności (HOMALS), będąca rozszerzeniem analizy korespondencji na przypadek wielu zmiennych. HOM ogeneity analysis via A lternating L east S quares => HOMALS
HOMALS Analiza HOMALS pozwala zrzutować wielowymiarowy zbiór danych na przestrzeń dwu- lub więcej wymiarową) w taki sposób, aby zachować maksimum początkowej informacji zawartej w zbiorze danych, mierzonej za pomocą statystyki Chi-kwadrat (używanej też w teście niezależności). W utworzonym układzie współrzędnych każdy obiekt respondent, kategoria ma wówczas określone współrzędne.
HOMALS Dane wejściowe: nominalne, ewentualnie porządkowe z ograniczoną liczbą poziomów Cele Odkrycie kluczowych, ukrytych cech respondentów Wskazanie współwystępujących grup kategorii Identyfikacja związków przyczynowo-skutkowych Stworzenie mapy percepcyjnej Identyfikacja jednorodnych grup respondentów
HOMALS Obiekty o podobnych profilach są blisko siebie Kategorie o podobnej zawartości są blisko siebie Homogeniczność danej grupy zmiennych jest mierzona przez: obliczenie sumy kwadratów odchyleń dla każdego obiektu (OSS) oraz sumy kwadratów odchyleń pomiędzy obiektami (TSS) Miarą homogeniczności jest stosunek OSS i TSS homogeniczność jest doskonała gdy OSS=0 Celem jest optymalne skwantyfikowanie zmiennych (przypisanie ich kategoriom wartości liczbowych), w ten sposób, by zmaksymalizować homogeniczność
HOMALS Przygotowanie danych dla SPSS: kodowanie kategorii liczbami naturalnymi, zaczynając od 1 nie ma kategorii pasywnych każda kategoria musi być kodowana kolejną liczbą naturalną unikać kategorii rzadko występujących (<10% próby) w szczególności takie kategorie mogą mieć tak wysoki wkład w całkowitą zmienność zbioru, że wyznaczą jeden z wymiarów, choć nie będzie on odpowiadał żadnej kategorii latentnej
HOMALS HOMALS może być zastosowany do konstruowania syntetycznych skal mierzących cechy latentne (ukryte). Wówczas analizuje się wartości punktów w układzie współrzędnych jako wartości do konstrukcji skali (podobnie jak w PCA)
HOMALS HOMALS kwantyfikuje nie tylko kategorie zmiennych ale też każdą obserwację. Współrzędne punktu na każdym wymiarze są wyliczone tak, aby punkt reprezentujący każdą obserwację był środkiem ciężkości dla skwantyfikowanych kategorii do których należy W SPSS w opcjach możemy utworzyć nowe zmienne ze współrzędnymi
HOMALS *Tworzenie skali: (pliki stw.sav stw.sps ) HOMALS /VARIABLES=p2(7) p3(2) p4(3) /ANALYSIS=p2 p3 p4 /DIMENSION=1 /PRINT FREQ EIGEN DISCRIM QUANT /PLOT QUANT OBJECT NDIM(ALL,MAX) /SAVE = (1) /MAXITER = 100 /CONVERGENCE =.00001. TYLKO jeden wymiar zachowuje jeden wymiar - jako skalę
HOMALS Jakość analizy liczbę iteracji nie powinna być bardzo duża, normą jest kilkadziesiąt iteracji wartości własne bardzo mała wartość drugiej w porównaniu z pierwszą (kilkakrotnie mniejsza) oznacza, że w zasadzie można ograniczyć się do jednego wymiaru miary dyskryminacji sytuacja, gdy w danym wymiarze tylko jedna zmienna ma wysoką miarę dyskryminacji, zaś pozostałe zmienne mają miary dyskryminacji poniżej 0.1, oznacza, że zmienna latentna, którą oddaje ten wymiar dokładnie odpowiada zmiennej mierzalnej samotne kategorie na krańcach wykresu kategorii zwykle są to właśnie kategorie o zbyt niskiej liczebności, zaburzające proces znajdowania właściwej płaszczyzny odwzorowania. W takim przypadku najlepiej wyeliminować te kategorie i powtórzyć analizę.
HOMALS Jakość analizy wyraźnie rozdzielne grupy respondentów na wykresie respondentów jeżeli ich występowanie wynika z założonych filtrów lub innych znanych i zmierzonych powodów, należy wówczas grupy te analizować oddzielnie wyizolowani respondenci na wykresie respondentów nietypowe obserwacje, które należałoby wykluczyć z analizy
HOMALS Interpretacja wyników Wykres kategorii Interpretacja wyłonionych wymiarów Miary dyskryminacji Wartości własne - Wykres respondentów - Ocena relatywnego wkładu obu wymiarów w całkowitą zmienność respondentów Ocena jednorodności respondentów (czy można wyodrębnić jakieś jednorodne grupy)
MCA alternatywy MCA macierz znaczników MCA macierz Burta
MCA macierz znaczników wiek Macierz znaczników tworzy się kodując zmienne w postaci zerojedynkowej. Jedynka oznacza wystąpienie danej kategorii. Następnie postępujemy tak, jak w przypadku zwykłej analizy korespondencji. nr rsp 1 2 3 4 21-30 0 1 1 0 31-40 1 0 0 0 41-50 0 0 0 0 51-60 0 0 0 1
MCA macierz Burta Macierz Burta jest to symetryczna macierz blokowa, na której przekątnej znajdują się macierze diagonalne z liczebnościami poszczególnych kategorii na przekątnej. Tworzą one bloki diagonalne. Bloki pozadiagonalne są tablicami kontygencji między parami zmiennych. Dalej ponownie postępujemy analogicznie jak w przypadku zwykłej analizy korespondencji.
MCA macierz Burta 21-30 31-40 41-50 51-60 1 nieważne 2 3 5 4 ważne TAK NIE 21-30 80 0 0 0 23 18 20 14 5 16 64 31-40 0 50 0 0 6 7 13 14 10 35 15 41-50 0 0 70 0 5 12 20 15 18 66 4 51-60 0 0 0 50 2 13 18 11 6 33 17 1 nieważne 23 6 5 2 36 0 0 0 0 9 27 2 18 7 12 13 0 50 0 0 0 18 32 3 20 13 20 18 0 0 71 0 0 55 16 4 14 14 15 11 0 0 0 54 0 41 13 5 ważne 5 10 18 6 0 0 0 0 39 27 12 TAK 16 35 66 33 9 18 55 41 27 150 0 NIE 64 15 4 17 27 32 16 13 12 0 100