Analiza korespondencji
Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy takich danych jest ich zestawienie w tabeli wielodzielniczej. Następnie analizujemy tak utworzone tabele za pomocą testu niezależności chi-kwadrat i wyznaczamy statystyki mówiące o sile związku między zmiennymi jakościowymi (np. V Cramera, współczynnik kontyngencji). Jednakże miary te nic nam nie mówią o strukturze powiązań między zmiennymi jakościowymi. Analiza korespondencji jest techniką, która dostarcza informacji o strukturze powiązań między kolumnami i wierszami tabeli wielodzielniczej. Analiza statystyk i wykresów zaproponowanych przez tę metodę pozwala na proste i intuicyjne wnioskowanie o powiązaniach zachodzących pomiędzy kategoriami zmiennych.
Analiza korespondencji definicja (1) Analiza korespondencji jest metodą prezentacji graficznej zależności między zmiennymi nominalnymi. Przede wszystkim powinna być postrzegana jako metoda wspomagania i uzupełniania, a nie jako zamiennik, dla bardziej formalnych narzędzi statystycznych, które mogą być wykorzystywane w analizie danych jakościowych. 3
Analiza korespondencji definicja (2) Ważną różnicą pomiędzy analizą korespondencji a standardowymi narzędziami analizy statystycznej, jest to, iż nie jest to technika konfirmacyjna, która ma na celu potwierdzić lub sfalsyfikować hipotezy, lecz raczej metoda odkrywcza (eksploracyjna), która dąży do wykrycia związków i prezentacji struktury danych. Można ją traktować jako okno na dane, pozwalające badaczowi na łatwiejszy dostęp do wyników numerycznych, ułatwiający wysuwanie hipotez, które następnie będą weryfikowane przy pomocy bardziej formalnych technik w czasie dalszych etapów badania. * 4 * Greenacre M. (1992), Correspondence analysis in medical research, Statistical Methods in Medical Research, (1) 97-117
Profile (1) Punktem wyjścia do analizy korespondencji jest macierz korespondencji P. Otrzymujemy ją z tablicy wielodzielniczej przez podzielenie liczebności w poszczególnych komórkach przez liczebność całkowitą. Przekształcamy tym samym liczebności w częstości względne. Następnie wyznaczamy macierze profili wierszowych i kolumnowych. Macierz profili wierszowych wyznaczamy dzieląc częstości względne w każdym wierszu macierzy P przez sumę wszystkich częstości w odpowiadającym wierszu. W analogiczny sposób obliczana jest macierz profili kolumnowych. Przeciętny profil wierszowy otrzymujemy poprzez podzielenie podsumowującego wiersza w tabeli wielodzielniczej przez ogólną liczebność. 5
Profile (2) 6 Tablica wielodzielnicza Macierz korespondencji Macierz profili wierszowych Płeć Liczba wypalanych papierosów < 10 10-20 > 20 Suma Kobieta 15 20 5 40 Mężczyzna 10 30 20 60 Suma 25 50 25 100 Płeć Liczba wypalanych papierosów < 10 10-20 > 20 Suma Kobieta 0,15 0,2 0,05 0,4 Mężczyzna 0,1 0,3 0,2 0,6 Suma 0,25 0,5 0,25 1 Płeć Liczba wypalanych papierosów Przeciętny profil < 10 10-20 > 20 kolumnowy Kobieta 0,38 0,50 0,13 0,4 Mężczyzna 0,17 0,50 0,33 0,6 Przeciętny profil wierszowy 0,25 0,5 0,25 1
Bezwładność (1) Termin bezwładność (inercja) jest używany w analizie korespondencji analogicznie do występującego w statystyce pojęcia wariancji. Całkowita bezwładność jest miarą rozproszenia profili wokół odpowiednich przeciętnych profili. I tak całkowita bezwładność wierszy pokazuje, jak bardzo poszczególne profile wierszowe różnią się od przeciętnego profilu wierszowego. Bezwładność dla wierszy jest równa bezwładności dla kolumn. Stąd w literaturze spotykamy tylko jedną wartość nazwaną bezwładnością całkowitą lub inercją całkowitą. Bezwładność jest powiązana ze statystyką chi-kwadrat: 7 2 χ = Λ 2 n
Bezwładność (2) Jeżeli bezwładność jest bliska zeru, wtedy różnica między profilami, a profilem przeciętnym jest niewielka, co oznacza niewielkie rozproszenie wokół profilu przeciętnego. Z kolei duża wartość bezwładności oznacza duże rozproszenie wokół profilu przeciętnego. Z powiązania bezwładności z wartością testu chikwadrat wynika, że im mniejsza bezwładność, tym mniejsza szansa wystąpienia istotnego, powiązania między wierszami i kolumnami tabeli wielodzielniczej. 8
Redukcja wymiaru 9 Każdy wiersz macierzy profili o wymiarach wxk może być przedstawiony jako punkt w przestrzeni k-wymiarowej, generowanej przez kolumny macierzy. Podobnie każdą kolumnę możemy przedstawić jako punkt w przestrzeni w-wymiarowej generowanej przez wiersze tej macierzy. Głównym celem analizy korespondencji jest przedstawienie analizowanego zbioru punktów w przestrzeni maksymalnie trójwymiarowej przy zachowaniu pełnej lub prawie pełnej informacji o zróżnicowaniu wierszy i kolumn. Do tego celu wykorzystujemy właśnie rozkład macierzy względem wartości osobliwych (Singular Value Decomposition SVD) Procedura ta jest zwykle mało przydatna dla małych tablic, jednakże jest szczególnie przydatna dla dużych tablic, ułatwiając ich prezentację i interpretację.
Rozkład względem wartości osobliwych 10 Metoda SVD polega na przedstawieniu macierzy A rzędu r (zakładamy, że macierz jest wymiaru wxk) w postaci iloczynu trzech macierzy: A = U D V w k w r r r r k gdzie: macierze U i V są macierzami ortonormalnymi (czyli U U = Ir r, V V = I k k), D jest macierzą diagonalną utworzoną z niezerowych wartości własnych macierzy AA uporządkowanych nierosnąco λ1 λ2... λ r > 0. Kolumny macierzy U to wektory własne macierzy AA. Stanowią one ortonormalną bazę dla kolumn macierzy A. Kolumny macierzy V to wektory własne macierzy A A. Są one ortonormalną bazą dla wierszy macierzy A. Baza ortonormalna to jednostkowy układ wektorów wzajemnie prostopadłych, takich że dowolny wektor jest kombinacją liniową wektorów z bazy.
Ocena reprezentacji danych w przestrzeni dwuwymiarowej (1) Całkowita bezwładność jest związana z wartościami własnymi następującą zależnością: gdzie: r = min( w, k) 1. 2 r 2 λ i 1 i Λ = = Powyższa zależność okazuje się być bardzo przydatną przy wyborze liczby wymiarów, w których możemy odtworzyć w miarę pełną informację zawartą w wyjściowej tablicy kontyngencji. 11
Ocena reprezentacji danych w przestrzeni dwuwymiarowej (2) ( ) ( ) 2 2 2 Jeżeli λ1 + λ2 / Λ 100% przyjmuje wartość przekraczającą 75%, to możemy uznać przestrzeń dwuwymiarową za dobrą reprezentację początkowych danych. Możemy bowiem przy dwóch wymiarach odtworzyć 75% bezwładności, czyli 75% ogólnej wartości statystyki chi-kwadrat. Najlepszą dwuwymiarową konfigurację uzyskujemy poprzez użycie dwóch pierwszych kolumn macierzy V do reprezentacji kolumn oraz dwóch pierwszych kolumn macierzy U do reprezentacji wierszy macierzy kontyngencji. 12
Interpretacja rozwiązań dwuwymiarowych Analizujemy i interpretujemy pozycję punktów odpowiadających wierszą i kolumną tablicy kontyngencji na podstawie wyznaczonych współrzędnych w przestrzeni dwuwymiarowej. Jeżeli okaże się, że dwuwymiarowe rozwiązanie zapewnia adekwatne dopasowanie, to kategorie wierszowe, które są bliskie sobie, mają zbliżony rozkład (profil) w poszczególnych kolumnach. Analogiczna interpretacja w przypadku kategorii kolumnowych znajdujących się na wykresie blisko siebie. Kategorie wierszowe i kolumnowe położone blisko siebie reprezentują kombinacje, które pojawiają się częściej niż jest to oczekiwane przy założeniu niezależności między wierszami a kolumnami. 13
Przykład 14 Dane zawierają informacje na temat liczby uzyskanych tytułów doktorskich w latach 1973 1978 w wybranych dziedzinach nauk w Stanach Zjednoczonych. Dane są zebrane w poniższej tablicy kontyngencji (punkt wyjścia analizy): Dziedzina Rok nauki 1973 1974 1975 1976 1977 1978 Suma Life Sciences 4489 4303 4402 4350 4266 4361 26171 Physical 4101 3800 3749 3572 3410 3234 Sciences 21866 Social 3354 3286 3344 3278 3137 3008 Sciences 19407 Behavioral 2444 2587 2749 2878 2960 3049 Sciences 16667 Engineering 3338 3144 2959 2791 2641 2432 17305 Mathematics 1222 1196 1149 1003 959 959 6488 Suma 18948 18316 18352 17872 17373 17043 107904
Prezentacja graficzna wyników 15 Dwa wymiary wyjaśniają ponad 98% inercji (właściwie można się ograniczyć do jednego wymiaru). Wykres pokazuje, iż liczba uzyskanych stopni doktora w różnych dziedzinach nauk zmienia się na przestrzeni lat. W naukach behawioralnych liczba uzyskanych tytułów doktorskich przypada na lata późniejsze, a w matematyce i naukach politechnicznych na wcześniejsze.