ANALIZA KORESPONDENCJI

Podobne dokumenty
Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

Skalowanie wielowymiarowe idea

Analiza korespondencji

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Badanie zależności skala nominalna

BADANIA U&A ANALIZA PRZYKŁADOWA

Analiza składowych głównych. Wprowadzenie

Analiza korespondencji

Regresja logistyczna (LOGISTIC)

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Hierarchiczna analiza skupień

Zmienne zależne i niezależne

Badania eksperymentalne

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Analiza składowych głównych

Podstawowe pojęcia statystyczne

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Testy nieparametryczne

W1. Wprowadzenie. Statystyka opisowa

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wprowadzenie do analizy dyskryminacyjnej

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Przygotowanie danych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

STATYSTYKA I DOŚWIADCZALNICTWO

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Analiza składowych głównych idea

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Badania Statystyczne

Wykład 10 Skalowanie wielowymiarowe

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przypomnienie: Ćwiczenie 1.

Statystyka w pracy badawczej nauczyciela

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Elementy statystyki wielowymiarowej

Metoda Automatycznej Detekcji Interakcji CHAID

Sposoby prezentacji problemów w statystyce

Analiza głównych składowych- redukcja wymiaru, wykł. 12

ANALIZA CZYNNIKOWA Przykład 1

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Zagadnienia do próbnych matur z poziomu podstawowego.

Wykład 4: Statystyki opisowe (część 1)

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Opis przedmiotu: Probabilistyka I

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Analiza współzależności zjawisk

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

MODELE LINIOWE. Dr Wioleta Drobik

Wizualizacja danych przestrzennych. dr Marta Kuc-Czarnecka

Analizy wariancji ANOVA (analysis of variance)

Wykład 8 Dane kategoryczne

Konferencja "Zarządzanie w organizacjach publicznych" Mariusz Topolski

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Analiza współzależności dwóch cech I

Badanie normalności rozkładu

Skumulowane wykresy słupkowe: pokazują zależności zachodzące między indywidualnymi elementami i całością.

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Analiza wariancji jednej zmiennej (UNIANOVA)

Wykład ze statystyki. Maciej Wolny

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Graficzna prezentacja danych statystycznych

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

Jednoczynnikowa analiza wariancji

Wykład 2: Tworzenie danych

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Wykorzystanie programu MS Excel do opracowań statystycznych

Jak przekształcać zmienne jakościowe?

Statystyka matematyczna i ekonometria

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Sprowadzenie rzeczywistości do pewnych jej elementów określanych jako zmienne i stałe, razem z relacjami, jakie między tymi elementami zachodzą.

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

author: Andrzej Dudek

KORELACJE I REGRESJA LINIOWA

Po naciśnięciu przycisku Dalej pojawi się okienko jak poniżej,

Wykład 10 Zrandomizowany plan blokowy

STATYSTYKA I DOŚWIADCZALNICTWO

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Transkrypt:

ANALIZA KORESPONDENCJI opisowa i eksploracyjna technika analizy danych jakościowych pozwala na graficzne przedstawienie zmiennych w niskowymiarowej przestrzeni stosunkowo łatwo interpretowalne wyniki technika redukcji danych przedstawienie danych w bardziej przystępnej formie, kosztem utraty pewnej ilości informacji

ANALIZA KORESPONDENCJI Analizę korespondencji w podstawowym zastosowaniu wykonuje się dla przypadku dwóch zmiennych jakościowych. Przykład. Mamy zmienne ulubiony napój i przedział wiekowy. Za pomocą analizy korespondencji można stwierdzić, napoje jakiej marki wolą ludzie młodzi, a jakiej osoby starsze.

ANALIZA KORESPONDENCJI Klasyczne zastosowanie jest jednak stosunkowo rzadko stosowane, właśnie ze względu na konieczność ograniczenia się do dwóch zmiennych. Metoda ta pozwala jednak również na analizę bezpośrednio tablic wielodzielnych.

ANALIZA KORESPONDENCJI Przykład. Analiza wizerunku marek produktów Dysponując ocenami baterii stwierdzeń dla poszczególnych marek można stworzyć sztuczną zmienną zawierającą średnie oceny marek dla tych stwierdzeń drugą zmienną będzie wtedy identyfikator marki. Na bazie powstałej tablicy kontyngencji można otrzymać mapę percepcji, która pozwala w jednym układzie współrzędnych zaznaczyć marki i stwierdzenia. Wzajemne położenie marek i stwierdzeń pozwala wnioskować, na ile poszczególne marki są związane z każdym z nich oraz czym różnią się ich wizerunki.

ANALIZA KORESPONDENCJI Jak zrobić to w praktyce? Przykład zbioru danych: wizer_czynniki.sav banki.sav konieczne jest utworzenie zmiennej systemowej rowcat_: val lab rowcat_ 1 'NA SPECJALNE OKAZJE' 2 'NATURALNE' 3 'DOBRY MARKETING' 4 'TRADYCYJNE' 5 'NIEDROGIE'. exe.

ANALIZA KORESPONDENCJI *Pierwsze wiersze. CORRESPONDENCE TABLE = all (5,3) /DIMENSIONS = 2 /MEASURE = euclid /STANDARDIZE = RCMEAN /NORMALIZATION = SYMMETRICAL /PRINT = TABLE RPOINTS CPOINTS /PLOT = NDIM(1,MAX) BIPLOT(20) /OUTFILE=score('xxx.sav') /supplementary =row(4,5). exe. Liczba wierszy - stwierdzeń Liczba kolumn - marek Miara odległości euclid (dla średnich) chisq (dla odsetków) Zmienne pasywne

ANALIZA KORESPONDENCJI Zmienne pasywne: nie wpływają na geometryczną orientację przestrzeni dzięki temu możliwe jest umieszczenie dodatkowych zmiennych np. demograficznych, które mogą być pomocne w interpretacji wyników. mogą też służyć do porównywania różnych grup przypadku wystąpienia efektu dźwigni, kategorie rzadko występujące mogą być potraktowane jako zmienne pasywne, podobnie jak braki danych

WYMIAR 1 (83%) ANALIZA KORESPONDENCJI NIEDROGIE Marka B Marka A NATURALNE Marka C TRADYCYJNE DOBRY MARKETING NA SPECJALNE OKAZJE WYMIAR 2 (17%)

HOMALS Większe możliwości analizy daje również wielowymiarowa analiza korespondencji, nazywana też analizą homogeniczności (HOMALS), będąca rozszerzeniem analizy korespondencji na przypadek wielu zmiennych. HOM ogeneity analysis via A lternating L east S quares => HOMALS

HOMALS Analiza HOMALS pozwala zrzutować wielowymiarowy zbiór danych na przestrzeń dwu- lub więcej wymiarową) w taki sposób, aby zachować maksimum początkowej informacji zawartej w zbiorze danych, mierzonej za pomocą statystyki Chi-kwadrat (używanej też w teście niezależności). W utworzonym układzie współrzędnych każdy obiekt respondent, kategoria ma wówczas określone współrzędne.

HOMALS Dane wejściowe: nominalne, ewentualnie porządkowe z ograniczoną liczbą poziomów Cele Odkrycie kluczowych, ukrytych cech respondentów Wskazanie współwystępujących grup kategorii Identyfikacja związków przyczynowo-skutkowych Stworzenie mapy percepcyjnej Identyfikacja jednorodnych grup respondentów

HOMALS Obiekty o podobnych profilach są blisko siebie Kategorie o podobnej zawartości są blisko siebie Homogeniczność danej grupy zmiennych jest mierzona przez: obliczenie sumy kwadratów odchyleń dla każdego obiektu (OSS) oraz sumy kwadratów odchyleń pomiędzy obiektami (TSS) Miarą homogeniczności jest stosunek OSS i TSS homogeniczność jest doskonała gdy OSS=0 Celem jest optymalne skwantyfikowanie zmiennych (przypisanie ich kategoriom wartości liczbowych), w ten sposób, by zmaksymalizować homogeniczność

HOMALS Przygotowanie danych dla SPSS: kodowanie kategorii liczbami naturalnymi, zaczynając od 1 nie ma kategorii pasywnych każda kategoria musi być kodowana kolejną liczbą naturalną unikać kategorii rzadko występujących (<10% próby) w szczególności takie kategorie mogą mieć tak wysoki wkład w całkowitą zmienność zbioru, że wyznaczą jeden z wymiarów, choć nie będzie on odpowiadał żadnej kategorii latentnej

HOMALS HOMALS może być zastosowany do konstruowania syntetycznych skal mierzących cechy latentne (ukryte). Wówczas analizuje się wartości punktów w układzie współrzędnych jako wartości do konstrukcji skali (podobnie jak w PCA)

HOMALS HOMALS kwantyfikuje nie tylko kategorie zmiennych ale też każdą obserwację. Współrzędne punktu na każdym wymiarze są wyliczone tak, aby punkt reprezentujący każdą obserwację był środkiem ciężkości dla skwantyfikowanych kategorii do których należy W SPSS w opcjach możemy utworzyć nowe zmienne ze współrzędnymi

HOMALS *Tworzenie skali: (pliki stw.sav stw.sps ) HOMALS /VARIABLES=p2(7) p3(2) p4(3) /ANALYSIS=p2 p3 p4 /DIMENSION=1 /PRINT FREQ EIGEN DISCRIM QUANT /PLOT QUANT OBJECT NDIM(ALL,MAX) /SAVE = (1) /MAXITER = 100 /CONVERGENCE =.00001. TYLKO jeden wymiar zachowuje jeden wymiar - jako skalę

HOMALS Jakość analizy liczbę iteracji nie powinna być bardzo duża, normą jest kilkadziesiąt iteracji wartości własne bardzo mała wartość drugiej w porównaniu z pierwszą (kilkakrotnie mniejsza) oznacza, że w zasadzie można ograniczyć się do jednego wymiaru miary dyskryminacji sytuacja, gdy w danym wymiarze tylko jedna zmienna ma wysoką miarę dyskryminacji, zaś pozostałe zmienne mają miary dyskryminacji poniżej 0.1, oznacza, że zmienna latentna, którą oddaje ten wymiar dokładnie odpowiada zmiennej mierzalnej samotne kategorie na krańcach wykresu kategorii zwykle są to właśnie kategorie o zbyt niskiej liczebności, zaburzające proces znajdowania właściwej płaszczyzny odwzorowania. W takim przypadku najlepiej wyeliminować te kategorie i powtórzyć analizę.

HOMALS Jakość analizy wyraźnie rozdzielne grupy respondentów na wykresie respondentów jeżeli ich występowanie wynika z założonych filtrów lub innych znanych i zmierzonych powodów, należy wówczas grupy te analizować oddzielnie wyizolowani respondenci na wykresie respondentów nietypowe obserwacje, które należałoby wykluczyć z analizy

HOMALS Interpretacja wyników Wykres kategorii Interpretacja wyłonionych wymiarów Miary dyskryminacji Wartości własne - Wykres respondentów - Ocena relatywnego wkładu obu wymiarów w całkowitą zmienność respondentów Ocena jednorodności respondentów (czy można wyodrębnić jakieś jednorodne grupy)

MCA alternatywy MCA macierz znaczników MCA macierz Burta

MCA macierz znaczników wiek Macierz znaczników tworzy się kodując zmienne w postaci zerojedynkowej. Jedynka oznacza wystąpienie danej kategorii. Następnie postępujemy tak, jak w przypadku zwykłej analizy korespondencji. nr rsp 1 2 3 4 21-30 0 1 1 0 31-40 1 0 0 0 41-50 0 0 0 0 51-60 0 0 0 1

MCA macierz Burta Macierz Burta jest to symetryczna macierz blokowa, na której przekątnej znajdują się macierze diagonalne z liczebnościami poszczególnych kategorii na przekątnej. Tworzą one bloki diagonalne. Bloki pozadiagonalne są tablicami kontygencji między parami zmiennych. Dalej ponownie postępujemy analogicznie jak w przypadku zwykłej analizy korespondencji.

MCA macierz Burta 21-30 31-40 41-50 51-60 1 nieważne 2 3 5 4 ważne TAK NIE 21-30 80 0 0 0 23 18 20 14 5 16 64 31-40 0 50 0 0 6 7 13 14 10 35 15 41-50 0 0 70 0 5 12 20 15 18 66 4 51-60 0 0 0 50 2 13 18 11 6 33 17 1 nieważne 23 6 5 2 36 0 0 0 0 9 27 2 18 7 12 13 0 50 0 0 0 18 32 3 20 13 20 18 0 0 71 0 0 55 16 4 14 14 15 11 0 0 0 54 0 41 13 5 ważne 5 10 18 6 0 0 0 0 39 27 12 TAK 16 35 66 33 9 18 55 41 27 150 0 NIE 64 15 4 17 27 32 16 13 12 0 100