Justyna Brzezińska Uniwersytet Ekonomiczny w Katowicac MODELOWE METODY ANALIZY DANYCH WIELOWYMIAROWYCH TABLIC KONTYNGENCJI W BADANIACH OPINII PUBLICZNEJ Wprowadzenie Tablice, które stanowią podstawową formę zapisu zmiennyc niemetrycznyc, znane były w istorii uż ponad 000 lat przed naszą erą. Babilończycy wykorzystywali e do przedstawienia zależności w pewnym systemie liczbowym. Matematycy cińscy używali tablic liczbowyc w obliczeniac, które niewiele różniły się od znane dziś tabliczki mnożenia. Część etymologów uważa za źródłosłów terminu tablica słowo stół (table), który w czasac średniowiecznyc wykorzystywany był do układania na nim należności podatkowyc od obywateli danego państwa 1. W XVIII wieku, kiedy rozwinęła się statystyka państwowa, tablice były wykorzystywane do opisu zasobów państwa. Kluczowym okresem z punktu widzenia statystyki ako nauki est przełom XIX i XX wieku, kiedy zaczęto analizować formalne własności tablic. Pionierem w tym zakresie był Karl Pearson, który wprowadził po raz pierwszy poęcie korelaci należące do nabardzie fundamentalnyc narzędzi opisu i interpretaci zawisk w wielu dyscyplinac naukowyc, a także zdefiniował poęcie tablicy kontyngenci. Pearson, zainspirowany problemem losowości wyników ruletki Monte Carlo, zdefiniował także ako pierwszy współczynnik ci-kwadrat, dzięki czemu analiza zmiennyc niemetrycznyc wkroczyła w epokę rozwou i zainteresowania naukowego, która nadal trwa. W latac 1900-191, równolegle do Pearsona, prace nad analizą tablic kontyngenci prowadził także Yule, który zdefiniował miarę zależności 1 Z. Sawiński: Zastosowania tablic w badaniac zawisk społecznyc. IFiS PAN, Warszawa 010.
1 Justyna Brzezińska zwaną współczynnikiem Yule a, a także poęcie ilorazu szans. W 1935 roku Bartlett ako pierwszy zaproponował metodę estymaci nawiększe wiarygodności, a w latac następnyc Deming i Stepan wykorzystanie algorytmu dopasowania iteracyno-proporconalnego. Wilks natomiast zaproponował iloraz wiarygodności, który est alternatywny dla statystyki ci-kwadrat Pearsona, natomiast ego modyfikacę zaproponował Neyman. Forma zapisu zmiennyc niemetrycznyc w postaci łącznego rozkładu zmiennyc sprawiła, że tablice stały się nadogodnieszym sposobem zapisu wielu zmiennyc. Wraz ze wzrostem liczby badanyc zmiennyc komplikue się sposób ic analizy. Zapotrzebowanie na wyspecalizowane narzędzia umożliwiaące analizę dużyc zbiorów danyc est obecnie tak duże, że wywołało konieczność rozwou wyspecalizowanyc tecnologii. Wiek XX stał się kluczowym okresem przełomowym w analizie danyc akościowyc. W ninieszym artykule przez dane akościowe rozumiane będą zmienne mierzone na słabyc skalac pomiaru (skala nominalna, porządkowa). W latac 60. powstały wyspecalizowane metody analizy wielowymiarowyc tablic kontyngenci pozwalaące na przedstawienie zależności zacodzące pomiędzy dowolną liczną zmiennyc. Metody te nazywane są modelowymi metodami analizy danyc (model- -based metods), gdyż w wyniku analizy budue się formalny model opisuący carakter zależności zacodzące pomiędzy zmiennymi. W ninieszym artykule zaprezentowane zostaną modelowe metody przeznaczone do analizy danyc wielowymiarowyc tablic kontyngenci. Celem artykułu est prezentaca zastosowania analizy logarytmiczno-liniowe w opisywaniu zawisk o carakterze ekonomicznym, a także wykorzystanie prezentowane metody w programie R. 1. Modelowe metody analizy tablic kontyngenci Analiza tablic kontyngenci pozwala na badanie zależności pomiędzy kilkoma zmiennymi niemetrycznymi (nominalnymi lub porządkowymi). Tradycynym sposobem analizy związku pomiędzy zmiennymi niemetrycznymi w tablicac dwuwymiarowyc est wyznaczenie współczynnika ci-kwadrat lub innyc statystyk na nim opartyc (Yule a, Czuprowa, Cramera, Pearsona), które mówią edynie o sile i kierunku zależności. Taki sposób pomiaru zależności należy do metod niemodelowyc. Gdy analizie poddana est wielowymiarowa tablica kontyngenci, współczynniki te staą się niewystarczalne i powinny wówczas zostać zastosowane metody modelowe, któryc wynikiem est formalny model opisu zależności.
Modelowe metody analizy danyc 13 W programie R tablice kontyngenci zapisane mogą zostać w postaci: case form, frequency form lub table form. Mogą one także zostać przekształcane z edne postaci w inną dzięki funkcom: expand.dft(),as.data.frame(), xtabs(~a+b), table(~a,b). Jedną z modelowyc metod pozwalaącyc na opisanie struktury zależności pomiędzy zmiennymi nominalnymi oraz porządkowymi est analiza logarytmiczno-liniowa. Metoda ta pozwala na zbudowanie wielu modeli określaącyc strukturę zależności pomiędzy zmiennymi mierzonymi na skali nominalne, ak i porządkowe. Ponadto metodę tę wyróżniaą liczne własności, któryc nie posiadaą niemodelowe metody analizy danyc takie ak: możliwość wizualizaci wyników w postaci zaawansowanyc graficznyc wykresów, wykorzystanie znane metody estymaci parametrów, szczegółowa analiza carakteru zależności oraz możliwość analizy nieograniczone liczby zmiennyc i kategorii.. Analiza logarytmiczno-liniowa Analiza logarytmiczno-liniowa pozwala na zbadanie zależności pomiędzy zmiennymi niemetrycznymi, mierzonymi zarówno na skali nominalne, ak i porządkowe, bez podziału na zmienną zależną i niezależną. W analizie logarytmiczno-liniowe rolę zmienne zależne odgrywaą liczebności teoretyczne o rozkładzie Poissona, natomiast zmiennymi obaśniaącymi są zmienne niemetryczne oraz ic kategorie. Dla trówymiarowe tablicy o liczebnościac empirycznyc n k ( = 1,... H, = 1,..., J, k = 1,..., K) model logarytmiczno-liniowy określony est równaniem : X Y Z XY XZ YZ XYZ ( m ) = λ + λ + λ + λ + λ + λ + λ + λ ln, (1) k gdzie: m k oznaczaą liczebności empiryczne, a λ są parametrami modelu wyznaczonymi metodą nawiększe wiarygodności. k k k k Y.M.M. Bisop et al.: Discrete multivariate analysis. MIT Press, Cambridge, Massacusetts 1975.
14 Justyna Brzezińska W celu wyznaczenia parametrów modelu spełniony est warunek: H J H J X Y Z λ = λ = λ = 0, K = 1 = 1 k = 1 H XY XY XZ XZ YZ YZ λ = λ = λ = λ = λ = λ = 0, () k k k = 1 = 1 = 1 k = 1 = 1 k = 1 H = 1 J K XYZ XYZ XYZ λ = λ = λ = 0. k = 1 k Gdy zmienne maą carakter porządkowy, możliwymi do zbudowania modelami są: ednorodny model asocaci (uniform association), model efektów wierszowyc i kolumnowyc (row-effects and column-effects model) oraz model RC Goodmana (Goodman s RC model, row and column effects model). Modelem, który wykorzystue porządek kategorii zmiennyc wierszowyc oraz kolumnowyc, est ednorodny model o równaniu: K k = 1 X Y ( m ) = μ + λ + λ + β ( u u )( v v ) k J k ln. (3) Model efektu wierszowego zdefiniowany est ako: X Y ( m ) = μ + λ + λ + τ ( v v ) ln, (4) natomiast model efektu kolumnowego można zapisać ako: X Y ( m ) = μ + λ + λ + τ ( u u ) ln. (5) Szczegółowy opis modeli logarytmiczno-liniowyc dla zmiennyc porządkowyc znaleźć można w pracy Masako Isii-Kuntz 3. W analizie logarytmiczno-liniowe wykorzystywane są formalne kryteria pozwalaące na ocenę stopnia dopasowania modelu do danyc. Należą do nic współczynnik ci-kwadrat i iloraz wiarygodności, kryteria informacyne oraz współczynnik determinaci. W celu wyboru modelu nalepie dopasowanego do danyc wykorzystue się współczynnik iloraz wiarygodności G zdefiniowany ako 4 : K k 3 4 M. Isii-Kuntz: Ordinal log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science, Series No. 07-097. Sage, Beverly Hills, London 1994. A. Agresti: Analysis of ordinal categorical data. Jon Wiley & Sons, Hoboken, New Jersey 010; A. Agresti: Categorical data analysis. Jon Wiley & Sons, Hoboken, New Jersey 00; R. Cristensen: Log-linear models and logistic regression. Springer-Verlag, New York 1997; Y.M.M Bisop et al., op. cit.
Modelowe metody analizy danyc 15 G H J K n k = n k ln. (6) = 1 = 1 k= 1 mk Współczynnik ten wykorzystue się do porównywania ze sobą modeli sąsiednic, budowanyc wedle zasady ierarciczności 5. Koleną statystyką służącą do porównania większe ilości modeli est kryterium informacyne Akaike AIC (Akaike Information Criteria) 6 : AIC = G df, (7) gdzie df oznacza liczbę stopni swobody. Kryterium Bayesowskie BIC (Bayesian Information Criteria) est drugim kryterium postaci: BIC = G df ln n, (8) gdzie n oznacza liczebność tablicy kontyngenci 7. Minimalna wartość kryteriów informacynyc pozwala na wybór nalepszego modelu logarytmiczno-liniowego. Ic istotą nie est wskazanie modelu prawdziwego, lecz modelu, który zapewnia nawięce informaci o badanym zawisku. Mierniki te służą także do wyboru nalepszego modelu spośród kilku badanyc, dzięki czemu badacz dysponue obiektywnymi kryteriami wyboru modelu. 3. Wykorzystanie analizy logarytmiczno-liniowe w programie R W ninieszym badaniu wykorzystano dane sondażowe opublikowane przez Radę Monitoringu Społecznego w raporcie Diagnoza Społeczna 013. Warunki i akość życia Polaków. Raport dotyczy czasu spędzanego przed telewizorem przez osoby powyże 18. roku życia względem wieku. Próba liczyła 6 307 respondentów. W badaniu uwzględniono dwie zmienne: czas oglądania telewizi (0-1, 1-3, 3 i więce godzin) oraz wiek (18-4, 5-34, 35-44, 45-59, 60-64, 65 i więce lat). 5 6 7 S.E. Fienberg: Te analysis of multidimensional contingency tables. Ecology 1970, No. 51, s. 419-433; D. Knoke, P.J. Burke: Log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science. Series No. 07-00. Sage, Beverly Hills and London 1980. H. Akaike: Information teory and an extension of te maximum likeliood principle. Proceedings of te nd International Symposium on Information. Akademiai Kiado, Budapest 1973. A.E. Raftery: Coosing models for cross-classification. American Sociological Review 1986, No. 51, s. 145, 146; G. Scwartz: Estimating te dimensions of a model. Annals of Statistics 1978, No. 6, s. 461-464.
16 Justyna Brzezińska W celu oceny współwystępowania kategorii zmiennyc oraz oceny siły zależności przeprowadzono klasyczną analizę korespondenci, traktuąc wszystkie zmienne ako nominalne. Wartość inerci całkowite λ = 0,0614 est niewielka i wskazue na brak zależności pomiędzy zmiennymi. Liczba wymiarów rzutowania wynosi, z czego pierwszy wymiar wyaśnia 91,3% inerci całkowite, natomiast dwa wymiary wyaśniaą łącznie 100% inerci całkowite. W sytuaci te metoda współwystępowania okazała się nieskuteczna, a zależność pomiędzy zmiennymi nie została wykryta. W celu przeprowadzenia pogłębione analizy zależności pomiędzy opisanymi zmiennymi można zastosować analizę logarytmiczno-liniową. Metoda ta est modelową analizą zależności i pozwala na analizę zmiennyc o niewielkie liczbie kategorii. Uwzględnia także porządek kategorii zmiennyc, co w analizie korespondenci est niemożliwe. Ponadto w wyniku przeprowadzone metody wybrany zostanie model opisuący liczebności teoretyczne. Zbudowane zostaną modele prezentuące różne rodzae zależności i uwzględniaące porządek kategorii zmiennyc w różnyc konfiguracac, tzn. raz traktowane są ako nominalne, a koleny raz ako porządkowe. Zbudowane zostaną następuące modele: ednorodny model asocaci, model efektów wierszowyc oraz model efektów kolumnowyc. Wartości mierników oceny modeli przedstawiono w tabeli 1. Wartości mierników oceny dopasowania modeli do danyc Model G df AIC Tabela 1 Model pełny 0 0 196,93 Jednorodny model asocaci 190,10 9 369,03 Model efektów wierszowyc 18,64 8 363,58 Model efektów kolumnowyc 85,5 5 7,46 Model niezależności 1606,60 10 1783,50 Model RC Goodmana 79,15 0 79,15 Spośród zbudowanyc modeli porządkowyc nalepsze dopasowanie do danyc zapewnia model efektów kolumnowyc. Dla tego modelu zarówno współczynnik G = 85,5 przy liczbie stopni swobody równe df = 5, ak i kryteria informacyne osiągaą namniesze wartości. Widoczne est to, że wartości parametrów dla interakci pomiędzy wiekiem a rangami przypisanymi zmienne kolumnowe stale rosną (0,0595; 0,1763; 0,4348; 0,8631; 0,9656). Oznacza to, że dla dane kolumny dodatnie znaki parametrów wskazuą, iż więce obserwaci poawia się w kolumnac reprezentuącyc wysokie wartości zmienne porządkowe, a mnie w kolumnac o niższyc wartościac w porównaniu z występowaniem niezależności zmiennyc.
Modelowe metody analizy danyc 17 Z przeprowadzone analizy wynika, że dla porządkowyc modeli logarytmiczno-liniowyc uzyskane wyniki są znacznie lepsze niż w przypadku modeli dla zmiennyc nominalnyc. Współczynniki G we wszystkic trzec przypadkac (ednorodny model asocaci, model efektów wierszowyc oraz model efektów kolumnowyc) osiągaą znacznie mnieszą wartość niż w przypadku modelu niezależności. Przeprowadzone badanie pokazue, że modele porządkowe wypełniaą obszerną lukę istnieącą pomiędzy modelem pełnym a modelem niezależności, zapewniaąc tym samym znaczną część informaci, które analiza nie est możliwa w przypadku zmiennyc nominalnyc. W badaniac ekonomicznyc nie zawsze dysponue się pełną informacą na temat zawiska, a badana tablica kontyngenci może zawierać zerowe liczebności. W ninieszym badaniu przeprowadzono analizę logarytmiczno-liniową dla tablicy kontyngenci zawieraące zerowe komórki. Dane wykorzystane do analizy logarytmiczno-liniowe pocodzą z Wyższego Urzędu Górniczego w Polsce (www.wug.gov.pl) i dotyczą łączne liczby wypadków w pracy w górnictwie w 013 roku. Zbudowano trówymiarową tablicę przedstawiaącą łączny rozkład liczby ofiar wypadków dla następuącyc zmiennyc: górnictwo (G) (górnictwo węgla kamiennego, górnictwo rud miedzi, górnictwo odkrywkowe, górnictwo otworkowe, pozostałe), załoga (Z) (załoga własna, firmy usługowe), wypadki (W) (śmiertelne, ciężko ranni, inne). Dla badane grupy liczące 588 wypadków tablica ma wymiary 3 5 i spośród 30 komórek 8 zawiera zerowe liczebności. Analiza liczebności trówymiarowe tablicy wypadków w górnictwie pokazue, iż kopalniami, w któryc naczęście docodziło do obrażeń, były kopalnie węgla kamiennego (w sumie 148 wypadki wśród górników pracuącyc w załodze własne i 455 wypadków wśród górników zatrudnionyc w firmac usługowyc). Nalicznieszą grupę wśród rannyc stanowili górnicy należący do komórki opisuące poszkodowanyc w załodze własne, którzy odnieśli inne obrażenia (1471 osób). Brak śmiertelnyc wypadków odnotowano natomiast w górnictwie otworkowym i innym, zarówno wśród załogi własne, ak i wśród górników zatrudnionyc w firmac usługowyc. Brak poważnyc wypadków odnotowano w górnictwie odkrywkowym, otworkowym oraz innym u górników zatrudnionyc w firmac usługowyc. Ze względu na to, że badana tablica zawiera zerowe liczebności, nie est możliwe przeprowadzenie analizy korespondenci, gdyż metoda ta nie powinna być stosowana w przypadku tablic zawieraącyc zera. W badanym przykładzie liczba wypadków est rezultatem wpływu procesów opisywanyc zmiennymi oraz interakcami pomiędzy nimi. Ze zbioru wszystkic możliwyc modeli
18 Justyna Brzezińska z trzema zmiennymi wybrano eden model optymalny. Z przeprowadzonego badania wynika, że nalepszym modelem opisuącym liczbę osób poszkodowanyc w wypadkac górniczyc est model zależności omogeniczne [GZ][GW][ZW]. Dla tego modelu iloraz wiarygodności 1, 804 przy df = 8, z prawdopodobieństwem testowym p = 0, 118. Model ten est modelem złożonym, gdyż zawiera wszystkie możliwe interakce pomiędzy zmiennymi. Równanie modelu zapisać można w postaci: lm( ) = λ + λ + λ + λ + λ + λ + λ. (9) m kl G Z Model ten pozwala opisać strukturę zależności zacodzące pomiędzy zmiennymi opisuącymi tablicę kontyngenci z zerowymi komórkami. Dla modelu zależności omogeniczne można wyznaczyć reszty Pearsona zdefiniowane ako: ~ n mˆ r =. (10) mˆ Ic wartości wskazuą na odcylenia każde liczebności tablicy od wyznaczonyc na podstawie modelu liczebności teoretycznyc. Im większe odcylenia liczebności, tym model wykazue słabsze dopasowanie do danyc. Model z zerowymi odcyleniami est modelem doskonale dopasowanym do danyc i takie reszty zaobserwować można edynie dla modelu pełnego, w którym liczebności empiryczne są równe liczebnościom teoretycznym. Dla badane tablicy kontyngenci wyznaczono reszty Pearsona (10).,, Wypadki = Śmiertelne Załoga Kopalnia Własna Firmy Węgla kamiennego -0.04881384 0.0664388 Rud miedzi 0.8805887-1.59913788 Odkrywkowa -0.68504600 1.03616781 Otworkowa 0.00000000 0.00000000 Inne 0.00000000 0.00000000,, Wypadki = Inne Załoga Kopalnia Własna Firmy Węgla kamiennego 0.05118689-0.0990097 Rud miedzi -0.04997587 0.07650800 Odkrywkowa 0.0618936-0.1566416 Otworkowa -0.14914589 0.4983695 Inne -0.139601 0.950364 W k GZ GW k ZW k
Modelowe metody analizy danyc 19,, Wypadki = Ciężko ranni Załoga Kopalnia Własna Firmy Węgla kamiennego -1.04768 0.9399970 Rud miedzi -0.3443789 0.915457 Odkrywkowa 0.486143-1.101577 Otworkowa 0.5884987-0.979057 Inne 0.7487361-1.4945057 Nawiększe odcylenia widoczne są dla komórek odpowiadaącyc górnikom, którzy byli zatrudnieni w firmac usługowyc i ulegli śmiertelnemu wypadkowi podczas pracy w kopalni rud miedzi (-1,5991) oraz byli ciężko ranni podczas pracy w innyc kopalniac (-1,4945) i w kopalniac odkrywkowyc (-1,1016). Zerowe odcylenia, które odpowiadaą zerowym liczebnościom empirycznym, widoczne są w komórkac dotyczącyc wypadków śmiertelnyc, które wydarzyły się w załogac własnyc, ak i w firmac usługowyc. Podsumowanie Istniee wiele metod analizy danyc niemetrycznyc w postaci tablic kontyngenci. Większość klasycznyc metod ograniczona est edynie do analizy zależności dwóc zmiennyc nominalnyc za pomocą klasycznyc współczynników zależności. W ninieszym artykule zaprezentowano analizę logarytmiczno-liniową, która wykorzystue formalny model opisuący zależność zacodzącą pomiędzy zmiennymi. Metoda ta z powodzeniem może być stosowana zarówno dla zmiennyc nominalnyc, ak i porządkowyc. Ponadto zapewnia ona formalny model liniowy opisuący strukturę zależności i uwzględnia interakce zacodzące między badanymi zmiennymi. Dodatkowo wykorzystue ona znaną metodę estymaci parametrów metodę nawiększe wiarygodności. Metoda ta nie wymaga też spełnienia żadnyc założeń i może być stosowana dla dowolnie duże liczby zmiennyc. Ponadto zaprezentowano model logarytmiczno-liniowy dla tablicy kontyngenci opisuące liczebność wypadków w górnictwie względem trzec zmiennyc nominalnyc w roku 013. W ninieszym artykule zaprezentowano wykorzystanie analizy logarytmiczno- -liniowe do analizy tablic kontyngenci zawieraącyc zarówno zmienne nominalne, ak i porządkowe. Wybrano model nalepie dopasowany do danyc, dla którego odcylenia liczebności empirycznyc od teoretycznyc są namniesze. Wszelkie obliczenia wykonane zostały w programie R z wykorzystaniem pakietu loglm oraz glm. Przy użyciu analizy logarytmiczno-liniowe możliwy est również opis zależności zacodzącyc pomiędzy zmiennymi porządkowymi.
0 Justyna Brzezińska Literatura Agresti A.: Analysis of ordinal categorical data. Jon Wiley & Sons, Hoboken, New Jersey 010. Agresti A.: Categorical data analysis. Jon Wiley & Sons, Hoboken, New Jersey 00. Akaike H.: Information teory and an extension of te maximum likeliood principle. Proceedings of te nd International Symposium on Information. Akademiai Kiado, Budapest 1973. Bisop Y.M.M., Fienberg E.F., Holland P.W.: Discrete multivariate analysis. MIT Press, Cambridge, Massacusetts 1975. Cristensen R.: Log-linear models and logistic regression. Springer-Verlag, New York 1997. Fienberg S.E.: Te analysis of multidimensional contingency tables. Ecology 1970, No. 51. Isii-Kuntz M.: Ordinal log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science. Series No. 07-097. Sage, Beverly Hills, London 1994. Knoke D., Burke P.J.: Log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science. Series No. 07-00. Sage, Beverly Hills and London 1980. Raftery A.E.: Coosing models for cross-classification. American Sociological Review 1986, No. 51. Sawiński Z.: Zastosowania tablic w badaniac zawisk społecznyc. IFiS PAN, Warszawa 010. Scwartz G.: Estimating te dimensions of a model. Annals of Statistics 1978, No. 6. MODEL-BASED METHODS FOR MULTI-WAY FREQUENCY TABLES IN A PUBLIC OPINION SURVEY Summary Te metods for analyzing cross-classified tables are usually to test relations between two variables taken one pair at a time. Furter development of tose metods allowed to move from two dimensional tables to ig dimensional tables, were dimensionality of a cross-table refers to te number of variables. It allowed to transform nonmodel-based to model-based metods providing te equation of a matematical model, te use of estimation metod and variety of visualizing tools. Tis paper describes ow complex qualitative data may be described by a matematical model. One of te metod presented is log-linear analysis.