Grzegorz Kończak Uiwersytet Ekoomiczy w Katowicach O TESTOWANIU ISTOTNOŚCI WSPÓŁCZYNNIKÓW KORELACJI CZĄSTKOWEJ I WIELORAKIEJ DLA WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH Wprowadzeie Do ajważiejszych zagadień rozważaych w badaiach statystyczych ależy aaliza zależości. Dla zmieych rejestrowaych a mocych skalach pomiarowych wykorzystuje się współczyik korelacji liiowej Pearsoa oraz różej postaci fukcje regresji. Dla wykluczeia wpływu zmieych zakłócających wyzacza się współczyiki korelacji cząstkowej, a dla określeia łączego wpływu kilku zmieych a zmieą zależą współczyiki korelacji wielorakiej. W przypadku pomiarów dokoaych a skalach słabych ależy skorzystać z iych arzędzi. Dla pomiarów a skali porządkowej wykorzystuje się współczyiki korelacji rag Spearmaa i Kedalla. W przypadku pomiarów a skali omialej ajczęściej wykorzystuje się róże współczyiki oparte a obliczeiu statystyki chi-kwadrat. W artykule przedstawioo propozycję wyzaczaia współczyików zależości cząstkowej dla zmieych określoych a skalach omialych. Ze względu a kostrukcję współczyika korelacji cząstkowej dla daych omialych, a w szczególości trudości w określeiu rozkładu estymatora tego współczyika, zastosowao testy permutacyje do weryfikacji hipotezy o istotości tych zależości.
O TESTOWANIU ISTOTNOŚCI 41 1. Zależość dla zmieych rejestrowaych a skalach omialych W przypadku, gdy badaiem objęte są dwie zmiee X i Y przyjmujące wartości a skalach omialych, właściwym podejściem jest zastosowaie aaliz związaych z tablicami kotygecji, określaymi rówież jako tablice wielodzielcze. Jeśli wariaty zmieej X ozaczymy przez x 1, x,, x r, a wariaty zmieej Y przez y 1, y,, y c, gdzie r i c są odpowiedio liczbą wariatów zmieych X i Y, to tablicę kotygecji moża przedstawić jak w tabeli 1. Zmiea X Układ daych w tablicy kotygecji Zmiea Y y 1 y y c Tabela 1 Sumy w wierszach x 1 11 1 1c 1 x 1 c x r r1 r rc r Sumy w kolumach 1 c Wielkości ij (i = 1,,, r oraz j = 1,,, c) są zaobserwowaymi liczebościami realizacji jedocześie x i oraz y j zmieej dwuwymiarowej (X, Y). Do aalizy zależości pomiędzy zmieymi X i Y zwykle wykorzystuje się róże mieriki, których kostrukcja opiera się a statystyce chi-kwadrat. Statystyka ta dla dwuwymiarowej tablicy wielodzielczej o wymiarach r x k przyjmuje postać: r c ( ij ˆ ij ) χ =, (1) ˆ i= 1 j= 1 gdzie: ij liczebości obserwowae, i j ˆ ij = liczebości oczekiwae. Statystyka (1) ma asymptotyczie rozkład chi-kwadrat o (r 1)(k 1) stopiach swobody. Do testowaia istotości zależości pomiędzy zmieymi X i Y moża wykorzystać wartości krytycze z rozkładu chi-kwadrat, jeśli liczebości oczekiwae dla wszystkich komórek tabeli wyoszą przyajmiej 5 (por. p. Domański, 1990). ij
4 Grzegorz Kończak Statystyka (1) przyjmuje ieujeme wartości. Jest oa wykorzystywaa do kostrukcji różych współczyików, które przyjmują wartości z przedziału ograiczoego, co ułatwia iterpretację poziomu zależości. Wzory () (4) przedstawiają wybrae współczyiki siły zależości dla daych przedstawioych w tablicy wielodzielczej (Zeliaś et al., 00). Współczyik kotygecji C Pearsoa: Współczyik V Cramera: V = Współczyik T Czuprowa: T = C = χ. () χ + χ. (3) mi( r 1, k 1) χ. (4) ( r 1)( k 1) W dalszych rozważaiach będzie uwzględioy wyłączie współczyik (1), jedak wszystkie aalizy mogą zostać rozszerzoe a pozostałe przedstawioe współczyiki zależości.. Pomiar zależości cząstkowych dla daych w wielowymiarowych tablicach wielodzielczych J.H. Zar (010) wskazuje a możliwość wyzaczaia współczyików korelacji cząstkowej dla tablic wielodzielczych. Niech daa będzie tablica wielodzielcza skostruowaa a podstawie badaia zależości pomiędzy trzema zmieymi X, Y i Z przyjmującymi wartości a skalach omialych. Jeśli wariaty zmieej X ozaczymy przez x 1, x,, x r, dla zmieej Y przez y 1, y,, y c, a dla zmieej Z przez z 1, z,, z l, gdzie r, c i l są odpowiedio liczbą wszystkich występujących wariatów zmieych X, Y i Z, to wartość statystyki chi-kwadrat jest obliczaa a podstawie wzoru: r c l ( ijk ˆ ijk ) χ =, (5) ˆ i= 1 j= 1 k= 1 gdzie: ijk liczebości obserwowae, i j k ˆ ijk = liczebości oczekiwae. ijk
O TESTOWANIU ISTOTNOŚCI 43 Przy założeiu iezależości zmieych X, Y i Z statystyka (5) ma asymptotyczie rozkład chi-kwadrat o rcl-r-c-l+ stopiach swobody (por. Sheski, 004). Jeżeli hipoteza o iezależości ie jest odrzucoa, to w kokluzji stwierdza się, że moża przyjąć hipotezę o iezależości zmieych. W przypadku odrzuceia hipotezy o iezależości zmieych test ie iformuje o występujących rodzajach zależości. Możliwe jest występowaie zależości pomiędzy wszystkimi zmieymi, ale może występować zależość wyłączie p. pomiędzy X i Y. W literaturze są rozważae róże możliwości odwołujące się do określeia siły zależości pomiędzy dwiema zmieymi lub pomiędzy dwiema zmieymi z wyłączeiem wpływu trzeciej zmieej. Określeie siły takich zależości moża zrealizować poprzez: zbadaie siły zależości pomiędzy x i y, x i z oraz pomiędzy y i z. obliczeie współczyików korelacji cząstkowej (por. Zar, 010). Tradycyjie wariaty zmieych X i Y określa się jako wiersze i kolumy, a jest to bezpośredio związae z kostrukcją tablicy kotygecji. D.J. Sheski (004) przyjmuje określeia wariatów zmieej Z jako warstwy. J.H. Zar (010) propouje wyzaczaie współczyików korelacji cząstkowej z wykorzystaiem modyfikacji obliczaia liczebości oczekiwaych w komórkach tablicy wielodzielczej: Dla hipotezy, że wiersze są iezależe od łączie kolum i warstw i jk ˆ ijk = dla i = 1,,, r, j = 1,,, c oraz k = 1,, l. Liczba stopi swobody dla statystyki (5) wyosi: v = (r 1)(c 1)(k 1) + (r 1)(c 1) + (r 1)(k 1). Dla hipotezy, że kolumy są iezależe od łączie wierszy i warstw j i k ˆ ijk = dla i = 1,,, r, j = 1,,, c oraz k = 1,, l. Liczba stopi swobody dla statystyki (5) wyosi: v = (r 1)(c 1)(k 1) + (c 1)(r 1) + (c 1)(k 1). Dla hipotezy, że warstwy są iezależe od łączie wierszy i kolum k ij ˆ ijk = dla i = 1,,, r, j = 1,,, c oraz k = 1,, l. Liczba stopi swobody dla statystyki (5) wyosi: v = (r 1)(c 1)(k 1) + (k 1)(r 1) + (k 1)(c 1).
44 Grzegorz Kończak Występujące symbole i j, k, ozaczają odpowiedio: = c l i ijk, dla i = 1,,, r j= 1 k = 1 r l j = ijk i= 1 k = 1 r c k = ijk i= 1 j= 1, dla j = 1,,, c, dla k = 1,,, l. Przedstawioe wzory umożliwiają weryfikację hipotezy o łączym wpływie dwóch zmieych a trzecią. Ze względu a wykorzystaie rozkładu chikwadrat jest koiecze spełieie założeia dotyczącego miimalej liczebości oczekiwaej w komórkach tablicy wielodzielczej. W dalszej części opracowaia przedstawioo ie możliwe podejście do testowaia istotości występujących zależości cząstkowych dla daych w tablicy wielodzielczej. Prezetowae rozwiązaie odwołuje się do testu permutacyjego (Good, 005) i dlatego może być stosowae awet w przypadku, gdy występują liczebości oczekiwae są miejsze od 5. 3. Łączy wpływ dwóch zmieych a trzecią zmieą Weryfikacja hipotezy o iezależości 3 zmieych może być przeprowadzoa z wykorzystaiem statystyki (5). Takie podejście rówoprawie traktuje wszystkie trzy zmiee. W badaiach statystyczych często iteresujący jest łączy wpływ kilku zmieych a wyróżioą zmieą oraz wyłączy wpływ określoej zmieej (zmieych) z pomiięciem wpływu pozostałych zmieych. Niech będzie daa trójwymiarowa tablica wielodzielcza. Dae takie mogą być przedstawioe w formie jak a rysuku 1. Z Z = z 1 Z = z l Rys. 1. Zapis daych w trójwymiarowej tablicy kotygecji
O TESTOWANIU ISTOTNOŚCI 45 Zagadieie badaia łączego wpływu zmieych X i Y a zmieą Z (współczyik korelacji wielorakiej) moża formalie zapisać za pomocą hipotez: H 0 : Brak łączego wpływu zmieych X i Y a zmieą Z (iezależość). H Z : Występuje zależość pomiędzy zmieą Z i zmieymi X i Y. Dla weryfikacji hipotezy H 0 wobec hipotezy alteratywej H Z ie może być bezpośredio wykorzystaa statystyka (5). Mogą w tym przypadku być wykorzystae wcześiej opisae współczyiki. Niech obliczoa a podstawie wzoru (5) wartość statystyki będzie ozaczoa przez T 0. W przypadku tablic wielowymiarowych, gdzie zmiee mogą przyjmować wiele wariatów, ie jest zazwyczaj spełioy waruek ałożoy a liczebości oczekiwae w komórkach tablicy wielodzielczej. Nie ma w takich przypadkach możliwości skorzystaia z wartości krytyczych wyzaczoych z rozkładu chi-kwadrat. Do przybliżeia rozkładu statystyki przy założeiu prawdziwości hipotezy H 0 moża wykorzystać permutacje zmieej Z. Ideę permutacji przedstawia rysuek Rys.. Schemat permutowaia zmieej Z (po lewej zbiór wyjściowy, po prawej po jeda z możliwych permutacji zmieej Z) Jako współczyik określający siłę zależości w dalszych rozważaiach może być dowoly z mierików () (4), jak rówież statystyka (5). Niech współczyik T zależości wyzaczoy dla pierwotych daych będzie ozaczoy przez T 0. Dla każdej permutacji zmieej Z jest obliczaa wartość współczyika T i (i = 1,,, N). Takie postępowaie prowadzi do uzyskaia empiryczego rozkładu statystyki T przy założeiu prawdziwości hipotezy H 0. Dla podjęcia decyzji wykorzystuje się wartość ASL (Achievig Sigificace Level, empirycza p-wartość, por. Efro, Tibshirai, 1993) zadaą wzorem: ( ) ASL = P T. (6) i T 0 Wartość ta jest iezaa, a jej oceę otrzymuje się a podstawie rozkładu empiryczego statystyki T:
46 Grzegorz Kończak ^ card( i : Ti T ) 0 ASL =, gdzie i = 0, 1,, N. (7) N Jeżeli wartość ASL jest miejsza od przyjętego poziomu istotości α, to hipoteza H 0 jest odrzucaa a korzyść hipotezy alteratywej H Z. Podobe rozważaia mogą być przeprowadzoe dla odpowiedio sformułowaej hipotezy H 0 i hipotez alteratywych H Y i H X. Procedurę weryfikacji przedstawioej hipotezy a podstawie testu permutacyjego moża zapisać astępująco: 1. Pobieraa jest próbka losowa. Na podstawie próby losowej jest kostruowaa tablica wielodzielcza.. Dla otrzymaej tablicy wielodzielczej jest obliczaa wartość statystyki T. Otrzymaą wartość ozaczmy przez T 0. 3. Dla pobraej próbki zmiea Z jest losowo permutowaa. Dla tak otrzymaej próby jest obliczaa wartość statystyki T. 4. Krok 3 jest wykoyway N razy. Otrzymujemy wartości statystyki T 1, T,, T N. 5. Obliczaa jest wartość ASL. Jeżeli wartość ASL jest miejsza od przyjętego poziomu istotości α, to odrzucamy hipotezę H 0. 3. Przykład empiryczy Ideę zastosowaia propoowaej metody przedstawioo a poiższym przykładzie. Dae o współwystępowaiu trzech zmieych X, Y i Z zaprezetowao a rysuku 3. Testowaie istotości zależości cząstkowych z wykorzystaiem klasyczych metod dla tych daych przedstawia D.J. Sheski (004). Wyiki przeprowadzoych testów permutacyjych przedstawioo a rysuku 4. Moża a im rówież zaleźć empirycze rozkłady statystyki testowej T otrzymae a podstawie przeprowadzoych permutacji, a także wartość statystyki T 0. Warstwa Z = z 1 Warstwa Z = z Zmiea Zmiea Y Zmiea Zmiea Y Suma X y 1 y X y 1 y Suma x 1 10 15 5 x 1 5 15 40 x 5 45 70 x 0 5 5 Suma 35 60 95 Suma 45 0 65 Rys. 3. Dae do przykładu empiryczego Źródło: Na podstawie Sheski (004).
O TESTOWANIU ISTOTNOŚCI 47 Rys. 4. Wyiki testu permutacyjego We wszystkich przeprowadzoych testach permutacyjych przyjęto poziom istotości α = 0,05. Przeprowadzeie testu permutacyjego dla wszystkich możliwych przypadków łączego wpływu dwóch ustaloych zmieych a trzecią prowadzi do odrzuceia hipotezy H 0 przy przyjętym poziomie istotości α. Wartości ASL dla hipotez o iezależości zmieych X oraz Y i Z łączie, a także Z oraz X i Y łączie wyiosła 0. W przypadku testowaia hipotezy o iezależości zmieej Y i zmieych X i Z łączie otrzymao ASL = 0,00. Dla wszystkich rozważaych przypadków został potwierdzoy łączy wpływ dwóch zmieych a pozostałą zmieą. Podsumowaie W aalizie zależości szczególe miejsce zajmuje badaie siły wpływu pomiędzy zmieymi a skalach omialych. Zwyczajowo takie dae przedstawiae są w tablicach wielodzielczych. Klasycze metody takiej aalizy wymagają spełieia założeia dotyczącego miimalej liczebości oczekiwaej w komórkach tablicy. W opracowaiu przedstawioo propozycję testowaia istotości wpływu ustaloej zmieej a pozostałe w przypadku aalizy trójwymiarowych tablic wielodzielczych. Ze względu a zastosowaie testu permutacyjego ie jest koiecza zajomość rozkładu statystyki testowej, a weryfikację hipotezy moża przeprowadzić awet wówczas, gdy występują małe liczebości oczekiwae w komórkach tablicy. Podziękowaie Projekt został sfiasoway ze środków Narodowego Cetrum Nauki przyzaych a podstawie decyzji umer DEC-011/03/B/HS4/05630.
48 Grzegorz Kończak Literatura Aczel A. (000), Statystyka w zarządzaiu, WN PWN, Warszawa. Agresti A. (1996), A Itroductio to Categorical Data Aalysis, Joh Wiley & Sos, New York. Domański Cz. (1990), Testy statystycze, PWE, Warszawa. Efro B., Tibshirai R. (1993), A Itroductio to the Bootstrap, Chapma & Hall. New York. Good P. (005), Permutatio, Parametric ad Bootstrap Tests of Hypotheses, Spriger Sciece Busiess Media, New York. Sheski D.J. (004), Hadbook of Parametric ad Noparametric Statistical Procedures, Chapma & Hall-CRC, Boca Rato. Zar J.H. (010), Biostatical Aalysis, Pearso Educatio, New Jersey. Zeliaś A., Pawełek B., Waat S. (00), Metody statystycze, PWE, Warszawa. ON TESTING PARTIAL DEPENDENCY FOR DATA IN CONTINGENCY TABLES Summary The chi-square test of idepedece is used for data preseted i cotigecy tables. The three dimesioal cotigecy tables are aalyzed i the paper. If the idepedece test leads to a sigificat result, the a researcher should coduct additioal aalysis to clarify the ature of the relatioship betwee the three variables. The proposal of the partial idepedece test for data i cotigecy tables is preseted i the paper. The proposal is based o the permutatio test.