Analiza korespondencji



Podobne dokumenty
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Skalowanie wielowymiarowe idea

Badanie zależności skala nominalna

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Analiza głównych składowych- redukcja wymiaru, wykł. 12

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Analiza składowych głównych. Wprowadzenie

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Analiza korespondencji

Analiza składowych głównych

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Stosowana Analiza Regresji

TABELE WIELODZIELCZE

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Elementy statystyki wielowymiarowej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Weryfikacja hipotez statystycznych

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

You created this PDF from an application that is not licensed to print to novapdf printer (

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Niestandardowa tabela częstości

Wykład 5: Statystyki opisowe (część 2)

Macierze. Rozdział Działania na macierzach

Wprowadzenie do analizy dyskryminacyjnej

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Przedmiot statystyki. Graficzne przedstawienie danych.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez statystycznych.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zmienne zależne i niezależne

WYBRANE METODY ANALIZY STATYSTYCZNEJ W OCENIE EFEKTÓW KSZTAŁCENIA NA PRZYKŁADZIE WYNIKÓW EGZAMINU ZE STATYSTYKI OPISOWEJ

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Wykład 14. Elementy algebry macierzy

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Przekształcenia liniowe

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Wprowadzenie do analizy korelacji i regresji

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Regresja logistyczna (LOGISTIC)

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Metody i analiza danych

1 Macierze i wyznaczniki

Wprowadzenie do Mathcada 1

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

3. FUNKCJA LINIOWA. gdzie ; ół,.

Baza w jądrze i baza obrazu ( )

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Z-LOGN1-006 Statystyka Statistics

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Wykład 8 Dane kategoryczne

Układy równań liniowych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

ANALIZA CZYNNIKOWA Przykład 1

Opis przedmiotu: Probabilistyka I

Sposoby prezentacji problemów w statystyce

Wykorzystanie programu MS Excel do opracowań statystycznych

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Układy równań liniowych. Ax = b (1)

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

Wykład 4: Statystyki opisowe (część 1)

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

1 Zbiory i działania na zbiorach.

Pozyskiwanie wiedzy z danych

Analiza matematyczna i algebra liniowa Macierze

Algebra WYKŁAD 3 ALGEBRA 1

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

φ(x 1,..., x n ) = a i x 2 i +

Prawdopodobieństwo i statystyka

III. Układy liniowe równań różniczkowych. 1. Pojęcie stabilności rozwiązań.

Metody Statystyczne. Metody Statystyczne

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Krótkie wprowadzenie do macierzy i wyznaczników

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Metody numeryczne Wykład 4

Wektor, prosta, płaszczyzna; liniowa niezależność, rząd macierzy

Kilka uwag o testowaniu istotności współczynnika korelacji

Analiza współzależności zjawisk

Układy równań liniowych i metody ich rozwiązywania

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Transkrypt:

Analiza korespondencji

Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy takich danych jest ich zestawienie w tabeli wielodzielniczej. Następnie analizujemy tak utworzone tabele za pomocą testu niezależności chi-kwadrat i wyznaczamy statystyki mówiące o sile związku między zmiennymi jakościowymi (np. V Cramera, współczynnik kontyngencji). Jednakże miary te nic nam nie mówią o strukturze powiązań między zmiennymi jakościowymi. Analiza korespondencji jest techniką, która dostarcza informacji o strukturze powiązań między kolumnami i wierszami tabeli wielodzielniczej. Analiza statystyk i wykresów zaproponowanych przez tę metodę pozwala na proste i intuicyjne wnioskowanie o powiązaniach zachodzących pomiędzy kategoriami zmiennych.

Analiza korespondencji definicja (1) Analiza korespondencji jest metodą prezentacji graficznej zależności między zmiennymi nominalnymi. Przede wszystkim powinna być postrzegana jako metoda wspomagania i uzupełniania, a nie jako zamiennik, dla bardziej formalnych narzędzi statystycznych, które mogą być wykorzystywane w analizie danych jakościowych. 3

Analiza korespondencji definicja (2) Ważną różnicą pomiędzy analizą korespondencji a standardowymi narzędziami analizy statystycznej, jest to, iż nie jest to technika konfirmacyjna, która ma na celu potwierdzić lub sfalsyfikować hipotezy, lecz raczej metoda odkrywcza (eksploracyjna), która dąży do wykrycia związków i prezentacji struktury danych. Można ją traktować jako okno na dane, pozwalające badaczowi na łatwiejszy dostęp do wyników numerycznych, ułatwiający wysuwanie hipotez, które następnie będą weryfikowane przy pomocy bardziej formalnych technik w czasie dalszych etapów badania. * 4 * Greenacre M. (1992), Correspondence analysis in medical research, Statistical Methods in Medical Research, (1) 97-117

Profile (1) Punktem wyjścia do analizy korespondencji jest macierz korespondencji P. Otrzymujemy ją z tablicy wielodzielniczej przez podzielenie liczebności w poszczególnych komórkach przez liczebność całkowitą. Przekształcamy tym samym liczebności w częstości względne. Następnie wyznaczamy macierze profili wierszowych i kolumnowych. Macierz profili wierszowych wyznaczamy dzieląc częstości względne w każdym wierszu macierzy P przez sumę wszystkich częstości w odpowiadającym wierszu. W analogiczny sposób obliczana jest macierz profili kolumnowych. Przeciętny profil wierszowy otrzymujemy poprzez podzielenie podsumowującego wiersza w tabeli wielodzielniczej przez ogólną liczebność. 5

Profile (2) 6 Tablica wielodzielnicza Macierz korespondencji Macierz profili wierszowych Płeć Liczba wypalanych papierosów < 10 10-20 > 20 Suma Kobieta 15 20 5 40 Mężczyzna 10 30 20 60 Suma 25 50 25 100 Płeć Liczba wypalanych papierosów < 10 10-20 > 20 Suma Kobieta 0,15 0,2 0,05 0,4 Mężczyzna 0,1 0,3 0,2 0,6 Suma 0,25 0,5 0,25 1 Płeć Liczba wypalanych papierosów Przeciętny profil < 10 10-20 > 20 kolumnowy Kobieta 0,38 0,50 0,13 0,4 Mężczyzna 0,17 0,50 0,33 0,6 Przeciętny profil wierszowy 0,25 0,5 0,25 1

Bezwładność (1) Termin bezwładność (inercja) jest używany w analizie korespondencji analogicznie do występującego w statystyce pojęcia wariancji. Całkowita bezwładność jest miarą rozproszenia profili wokół odpowiednich przeciętnych profili. I tak całkowita bezwładność wierszy pokazuje, jak bardzo poszczególne profile wierszowe różnią się od przeciętnego profilu wierszowego. Bezwładność dla wierszy jest równa bezwładności dla kolumn. Stąd w literaturze spotykamy tylko jedną wartość nazwaną bezwładnością całkowitą lub inercją całkowitą. Bezwładność jest powiązana ze statystyką chi-kwadrat: 7 2 χ = Λ 2 n

Bezwładność (2) Jeżeli bezwładność jest bliska zeru, wtedy różnica między profilami, a profilem przeciętnym jest niewielka, co oznacza niewielkie rozproszenie wokół profilu przeciętnego. Z kolei duża wartość bezwładności oznacza duże rozproszenie wokół profilu przeciętnego. Z powiązania bezwładności z wartością testu chikwadrat wynika, że im mniejsza bezwładność, tym mniejsza szansa wystąpienia istotnego, powiązania między wierszami i kolumnami tabeli wielodzielniczej. 8

Redukcja wymiaru 9 Każdy wiersz macierzy profili o wymiarach wxk może być przedstawiony jako punkt w przestrzeni k-wymiarowej, generowanej przez kolumny macierzy. Podobnie każdą kolumnę możemy przedstawić jako punkt w przestrzeni w-wymiarowej generowanej przez wiersze tej macierzy. Głównym celem analizy korespondencji jest przedstawienie analizowanego zbioru punktów w przestrzeni maksymalnie trójwymiarowej przy zachowaniu pełnej lub prawie pełnej informacji o zróżnicowaniu wierszy i kolumn. Do tego celu wykorzystujemy właśnie rozkład macierzy względem wartości osobliwych (Singular Value Decomposition SVD) Procedura ta jest zwykle mało przydatna dla małych tablic, jednakże jest szczególnie przydatna dla dużych tablic, ułatwiając ich prezentację i interpretację.

Rozkład względem wartości osobliwych 10 Metoda SVD polega na przedstawieniu macierzy A rzędu r (zakładamy, że macierz jest wymiaru wxk) w postaci iloczynu trzech macierzy: A = U D V w k w r r r r k gdzie: macierze U i V są macierzami ortonormalnymi (czyli U U = Ir r, V V = I k k), D jest macierzą diagonalną utworzoną z niezerowych wartości własnych macierzy AA uporządkowanych nierosnąco λ1 λ2... λ r > 0. Kolumny macierzy U to wektory własne macierzy AA. Stanowią one ortonormalną bazę dla kolumn macierzy A. Kolumny macierzy V to wektory własne macierzy A A. Są one ortonormalną bazą dla wierszy macierzy A. Baza ortonormalna to jednostkowy układ wektorów wzajemnie prostopadłych, takich że dowolny wektor jest kombinacją liniową wektorów z bazy.

Ocena reprezentacji danych w przestrzeni dwuwymiarowej (1) Całkowita bezwładność jest związana z wartościami własnymi następującą zależnością: gdzie: r = min( w, k) 1. 2 r 2 λ i 1 i Λ = = Powyższa zależność okazuje się być bardzo przydatną przy wyborze liczby wymiarów, w których możemy odtworzyć w miarę pełną informację zawartą w wyjściowej tablicy kontyngencji. 11

Ocena reprezentacji danych w przestrzeni dwuwymiarowej (2) ( ) ( ) 2 2 2 Jeżeli λ1 + λ2 / Λ 100% przyjmuje wartość przekraczającą 75%, to możemy uznać przestrzeń dwuwymiarową za dobrą reprezentację początkowych danych. Możemy bowiem przy dwóch wymiarach odtworzyć 75% bezwładności, czyli 75% ogólnej wartości statystyki chi-kwadrat. Najlepszą dwuwymiarową konfigurację uzyskujemy poprzez użycie dwóch pierwszych kolumn macierzy V do reprezentacji kolumn oraz dwóch pierwszych kolumn macierzy U do reprezentacji wierszy macierzy kontyngencji. 12

Interpretacja rozwiązań dwuwymiarowych Analizujemy i interpretujemy pozycję punktów odpowiadających wierszą i kolumną tablicy kontyngencji na podstawie wyznaczonych współrzędnych w przestrzeni dwuwymiarowej. Jeżeli okaże się, że dwuwymiarowe rozwiązanie zapewnia adekwatne dopasowanie, to kategorie wierszowe, które są bliskie sobie, mają zbliżony rozkład (profil) w poszczególnych kolumnach. Analogiczna interpretacja w przypadku kategorii kolumnowych znajdujących się na wykresie blisko siebie. Kategorie wierszowe i kolumnowe położone blisko siebie reprezentują kombinacje, które pojawiają się częściej niż jest to oczekiwane przy założeniu niezależności między wierszami a kolumnami. 13

Przykład 14 Dane zawierają informacje na temat liczby uzyskanych tytułów doktorskich w latach 1973 1978 w wybranych dziedzinach nauk w Stanach Zjednoczonych. Dane są zebrane w poniższej tablicy kontyngencji (punkt wyjścia analizy): Dziedzina Rok nauki 1973 1974 1975 1976 1977 1978 Suma Life Sciences 4489 4303 4402 4350 4266 4361 26171 Physical 4101 3800 3749 3572 3410 3234 Sciences 21866 Social 3354 3286 3344 3278 3137 3008 Sciences 19407 Behavioral 2444 2587 2749 2878 2960 3049 Sciences 16667 Engineering 3338 3144 2959 2791 2641 2432 17305 Mathematics 1222 1196 1149 1003 959 959 6488 Suma 18948 18316 18352 17872 17373 17043 107904

Prezentacja graficzna wyników 15 Dwa wymiary wyjaśniają ponad 98% inercji (właściwie można się ograniczyć do jednego wymiaru). Wykres pokazuje, iż liczba uzyskanych stopni doktora w różnych dziedzinach nauk zmienia się na przestrzeni lat. W naukach behawioralnych liczba uzyskanych tytułów doktorskich przypada na lata późniejsze, a w matematyce i naukach politechnicznych na wcześniejsze.