Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska
Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R
Rodzicom
Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska WYDAWNICTWO C.H.BECK WARSZAWA 2015
Wydawca: Dorota Ostrowska-Furmanek Redakcja merytoryczna: Danuta Kamińska-Hass Recenzent: prof. dr hab. Adam Sagan Projekt okładki i stron tytułowych: Maryna Wiśniewska Ilustracja na okładce: c MarkEvans/iStockphoto Seria: Metody ilościowe Publikacja dofinansowana ze środków dotacji na działalność statutową (utrzymanie potencjału badawczego) Uniwersytetu Ekonomicznego w Katowicach przyznanych w roku 2015 Złożono programem TEX c Wydawnictwo C.H. Beck 2015 Wydawnictwo C.H. Beck Sp. z o.o. ul. Bonifraterska 17, 00-203 Warszawa Skład i łamanie: Wydawnictwo C.H. Beck Druk i oprawa: Elpil, Siedlce ISBN 978-83-255-7322-5 e-book 978-83-255-7323-2
Spis treści Wstęp........................................ 7 Rozdział 1. Analiza zależności zmiennych niemetrycznych........... 10 1.1. Pojęcie zależności w statystycznej analizie danych............. 10 1.2. Analiza zależności zmiennych nominalnych................ 14 1.2.1. Dwuwymiarowe tablice kontyngencji 2 2............ 14 1.2.2. Dwuwymiarowe tablice kontyngencji H J............ 24 1.2.3. Wielowymiarowe tablice kontyngencji 2 2 K......... 35 1.2.4. Wielowymiarowe tablice kontyngencji H J K........ 39 1.3. Analiza zależności zmiennych porządkowych............... 42 1.4. Tablice z zerowymi liczebnościami..................... 46 1.5. Interakcje.................................. 48 1.6. Przykłady z wykorzystaniem programu R................. 49 Rozdział 2. Analiza korespondencji....................... 57 2.1. Geneza analizy korespondencji....................... 57 2.2. Klasyczna analiza korespondencji..................... 58 2.3. Wielowymiarowa analiza korespondencji................. 60 2.4. Rozkład macierzy według wartości osobliwych SVD........... 66 2.5. Ocena jakości odwzorowania oraz interpretacja wyników......... 71 2.6. Przykłady z wykorzystaniem programu R................. 75 Rozdział 3. Analiza logarytmiczno-liniowa................... 80 3.1. Geneza modeli logarytmiczno-liniowych.................. 80 3.2. Rozkłady prawdopodobieństwa zmiennych niemetrycznych w tablicy kontyngencji................................. 81 3.3. Analiza logarytmiczno-liniowa dla tablic kontyngencji.......... 84 3.3.1. Rola zmiennych w analizie logarytmiczno-liniowej......... 84 3.3.2. Modele logarytmiczno-liniowe dla tablic dwuwymiarowych.... 86 3.3.3. Modele logarytmiczno-liniowe dla tablic wielowymiarowych... 92 3.3.4. Charakterystyka modeli hierarchicznych.............. 96 3.3.5. Estymacja parametrów modelu metodą największej wiarygodności 103 3.3.6. Wyznaczanie liczebności oczekiwanych.............. 105 3.4. Modele logarytmiczno-liniowe dla zmiennych porządkowych....... 108 3.4.1. Jednorodny model asocjacji..................... 109 3.4.2. Model efektów wierszowych i model efektów kolumnowych.... 110 3.4.3. Model efektów wierszowych i kolumnowych (model RC Goodmana)112 3.5. Mierniki oceny jakości dopasowania modelu................ 114 5
Spis treści 3.6. Przykłady z wykorzystaniem programu R................. 120 Rozdział 4. Analiza klas ukrytych........................ 127 4.1. Geneza analizy klas ukrytych........................ 127 4.2. Cel analizy klas ukrytych.......................... 129 4.3. Analiza klas ukrytych w modelach logarytmiczno liniowych....... 131 4.4. Kryteria wyboru liczby klas........................ 134 4.5. Przykłady z wykorzystaniem programu R................. 136 Rozdział 5. Metody wizualizacji zmiennych niemetrycznych w programie R. 141 5.1. Geneza metod wizualizacyjnych...................... 141 5.2. Przykłady wizualizacji tablic dwuwymiarowych.............. 142 5.2.1. Wykres czteropolowy........................ 142 5.2.2. Wykres sitkowy........................... 145 5.2.3. Wykres mozaikowy......................... 146 5.2.4. Wykres asocjacji........................... 147 5.3. Przykłady wizualizacji tablic wielowymiarowych............. 148 5.3.1. Wykres czteropolowy dla tablic o wymiarach 2 2 K..... 148 5.3.2. Wykres mozaikowy......................... 149 5.3.3. Wykres sitkowy........................... 151 5.3.4. Wykres dwuwarstwowy....................... 152 Zakończenie.................................... 154 Bibliografia..................................... 157 Spis rysunków................................... 177 Spis tabel...................................... 178 Indeks rzeczowy.................................. 179
Wstęp Niniejsza książka jest poświęcona szeroko rozumianej analizie zależności zmiennych niemetrycznych ze szczególnym uwzględnieniem analizy logarytmiczno-liniowej. Celem monografii jest prezentacja teoretycznych i metodologicznych podstaw analizy logarytmiczno-liniowej oraz jej zastosowanie w analizie danych z wykorzystaniem programu R. W monografii przedstawiono również inne metody analizy zależności, takie jak analiza korelacji, analiza korespondencji oraz analiza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z pięciu rozdziałów. W rozdziale pierwszym zaprezentowano podstawowe pojęcia związane z analizą zależności zmiennych niemetrycznych dla tablic dwu- i wielowymiarowych. Przedstawiono tam opisowe metody wykorzystywane do badania siły zależności w przypadku tablic o wymiarach 2 2, do których należą: współczynnik chi-kwadrat, korekta Yatesa, statystyka Fishera, współczynnik McNemara oraz łączona statystka chi-kwadrat. W kolejnej części rozdziału zaprezentowano mierniki stosowane w przypadku tablic o wymiarach H J, do których należą współczynniki: chi-kwadrat, Cressie a i Reada, Yule a, Pearsona, zbieżności Czuprowa oraz Goodmana i Kruskala. W dalszej części rozdziału przedstawiono metody analizy tablic o wymiarach 2 2 K, do których należą: współczynnik chi-kwadrat dla łączonych tablic kontyngencji, statystyka Mantela Haenszela, zaprezentowano także paradoks Simpsona. Następnie przedstawiono metody analizy tablic wielowymiarowych H J K. Rozdział ten zakończono opisem metod analizy zależności zmiennych porządkowych, do których należą: współczynniki τ i W Kendalla, γ Goodmana i Kruskala, d Somersa oraz współczynnik korelacji Spearmana. Rozdział drugi poświęcono analizie korespondencji, której głównym celem jest ocena współwystępowania kategorii zmiennych nominalnych. Metoda ta pozwala na graficzne przedstawienie związków i relacji zachodzących pomiędzy kategoriami zmiennych. W rozdziale tym omówiono klasyczną analizę korespondencji, która jest wykorzystywana w przypadku tablic dwuwymiarowych, a także sposoby zapisu danych w przypadku wielowymiarowej analizy korespondencji w postaci tablicy Burta, złożonej macierzy znaczników, wielowymiarowej tablicy kontyngencji oraz łączonej tablicy kontyngencji. Zaprezentowano tam także rozkład macierzy według wartości osobliwych, który pozwala na wyznaczenie współrzędnych punktów reprezentujących kategorie wierszowe i kolumnowe. Porównano cztery sposo- 7
Wstęp by rozkładu macierzy różnic standaryzowanych według wartości osobliwych, które przeprowadzono na podstawie autorskich procedur napisanych w programie R. Rozdział trzeci poświęcono analizie logarytmiczno-liniowej, która jest modelową metodą analizy zależności zmiennych niemetrycznych. W metodzie tej modele logarytmiczno-liniowe uwzględniają interakcje pomiędzy zmiennymi i wskazują na charakter związku między nimi, dzięki czemu można opisać wiele rodzajów zależności. Celem analizy jest zbadanie, czy rozkład liczebności we wnętrzu danej tablicy kontyngencji może zostać wyrażony za pomocą prostszej struktury niż ta, która uwzględnia wszystkie dostępne zmienne i interakcje. W metodzie tej buduje się wiele modeli według zasady hierarchiczności, a wybór modelu najlepszego jest dokonywany w taki sposób, by różnica między liczebnościami empirycznymi a teoretycznymi była możliwie najmniejsza. Do oceny jakości modeli wykorzystuje się liczne kryteria określające stopień tych odchyleń. Wybrany zostaje model o jak najmniejszej złożoności, który jednocześnie cechuje się wystarczającym dopasowaniem do danych. Rozdział czwarty dotyczy analizy klas ukrytych, która znajduje zastosowanie wówczas, gdy badane zmienne są bezpośrednio nieobserwowalne. W metodzie tej zarówno zmienne obserwowalne, jak i ukryte mają charakter zmiennych skokowych. Analiza klas ukrytych ma na celu znalezienie oraz zidentyfikowanie odpowiedniej liczby klas ukrytych, w których zmienne obserwowalne są od siebie niezależne. Zbudowany model przydziela w efekcie obserwacje do klas ukrytych, a w dalszym etapie pozwala na przypuszczenie, jak zmienne obserwowalne zachowają się pod wpływem zmiennych ukrytych. W rozdziale tym zaprezentowano także liczne kryteria służące do oceny modelu. W rozdziale piątym zaprezentowano metody wizualizacji danych zapisanych w tablicach dwu- i wielowymiarowych. Do omawianych w rozdziale wykresów należą: czteropolowy, sitkowy, mozaikowy, asocjacji oraz dwuwarstwowy. Graficzna forma prezentacji danych w postaci zaawansowanych wykresów pełni istotną rolę w procesie analizy, a niekiedy zastępuje nawet formalne kryteria wykorzystywane w celu wyboru modelu najlepszego. Niniejsza monografia jest przeznaczona dla pracowników naukowych zajmujących się zastosowaniem metod analizy danych jakościowych w naukach społecznych, a w szczególności w psychologii, socjologii, ekonomii czy politologii. Ponadto odbiorcami książki mogą być studenci uczelni wyższych studiujący na specjalnościach ilościowych (informatyka ekonomiczna, statystyka i ekonometria, analityka gospodarcza), doktoranci, którzy wykorzystują w swych badaniach analizę danych jakościowych oraz analitycy rynku i pracownicy agencji marketingowych przeprowadzający analizy danych niemetrycznych z wykorzystaniem programu R. W badaniach empirycznych i we wszystkich obliczeniach prezentowanych w książce wykorzystano program R. Wersję instalacyjną programu oraz dodatkowe pakiety zaprezentowane w niniejszej monografii można pobrać ze strony pod adresem: http://www.r-project.org/. 8
Wstęp Pragnę serdeczne podziękować Panu Profesorowi Eugeniuszowi Gatnarowi za życzliwą pomoc, cenne uwagi merytoryczne oraz opiekę naukową, na którą zawsze mogłam liczyć. Dziękuję również Panu Profesorowi Markowi Walesiakowi z Uniwersytetu Ekonomicznego we Wrocławiu oraz Panu Profesorowi Adamowi Saganowi z Uniwersytetu Ekonomicznego w Krakowie za cenne i konstruktywne uwagi, które wpłynęły na ostateczny kształt monografii. Tę książkę pragnę zadedykować moim Rodzicom, którzy są spiritus movens tego, co w mym życiu najwspanialsze.