NR 3 (646) MARZEC 015 CZASOPISMO GŁÓWNEGO URZĘDU STATYSTYCZNEGO I POLSKIEGO TOWARZYSTWA STATYSTYCZNEGO STUDIA METODOLOGICZNE Piotr SULEWSKI Wyzaczaie obszaru krytyczego przy testowaiu iezależości w tablicach wielodzielczych Tablice wielodzielcze są podstawowym i często stosowaym arzędziem do badaia związku między cechami. Tablicę, która powstaje w wyiku podziału daych według dwóch cech azywamy dwudzielczą, trzech cech trójdzielczą,..., cech -dzielczą. Przy testowaiu iezależości cech ajbardziej popularą statystyką testową dla tablic dwudzielczych jest statystyka χ Pearsoa, która ma także swoje rozszerzeia dla tablic trójdzielczych i wyższych. W przypadku tablic i tablic w k w, k istieją jedak ograiczeia co do stosowaia statystyki Pearsoa, która ma asymptotyczy rozkład chi-kwadrat z w 1k 1 stopiami swobody. Także w przypadku tablic trójdzielczych w k p, jeżeli liczba realizacji w komórkach jest mała, rozkład statystyki testowej zacząco odbiega od rozkładu chi-kwadrat z wkp w k p stopiami swobody. W celu ziesieia tych ograiczeń w artykule propouję wyzaczaie wartości krytyczych za pomocą symulacji komputerowych metodą Mote Carlo. Także Lilliefors w teście Kołmogorowa dla rozkładu ormalego wyzaczył wartości krytycze drogą symulacyją, gdy parametry rozkładu były oszacowae z próby. Celem artykułu jest dostarczeie czytelikowi gotowej implemetacji komputerowej apisaej w edytorze VBA (Visual Basic for Applicatios) arkusza kalkulacyjego Excel, do badaia iezależości dwóch i trzech cech w formie pliku zamieszczoego w Iterecie. 1
STATYSTYKA PEARSONA DLA TABLICY DWUDZIELCZEJ Tablica dwudzielcza Najprostszą postacią tablicy dwudzielczej jest tablica, która składa się z 4 liczebości rozkładu łączego cech X i Y ozaczoych literami a, b, c, d (tabl. 1). Wówczas ogóla liczba obserwacji a b c d. TABL. 1. TABLICA DWUDZIELCZA Cecha X Y1 Cecha Y Y X 1... a b a b X... c d c d... a c b d Ź r ó d ł o: opracowaie włase. Przyjmując ozaczeia zawarte w tej tablicy statystyka χ Pearsoa ma postać: ( ad bc) X ( a b)( c d )( a c)( b d (1) ) Liczebość oczekiwaa dla tej tablicy wyosi odpowiedio: e 1 ( a b)( a c) e e 4 ( a b)( b d ) ( b d )( c d ) e 3 ( a c)( c d ) () Wzór (1) moża stosować, gdy 40 oraz e 1 5 dla każdego i 1,..., 4 (Cochra, 195). Jeżeli atomiast e 1 < 5 dla pewego i 1,..., 4, to sugeruje się stosowaie poprawki Yatesa daej wzorem (Cochra, 195): X Y ( ad bc 0, 5) ( a b)( c d )( a c)( b d ) (3) Poprawka Yatesa a ciągłość ma a celu zapewieie możliwości przyjmowaia przez statystykę testową wszystkich wartości rzeczywistych zgodie z istotą rozkładu chi-kwadrat. Należy jedak wspomieć, że poprawka Yatesa ie jest jedyym arzędziem stosowaym przez statystyków. Ie typy rozwiązań w tym zakresie podali m.i. Yates i Campbell i są oe astępujące, jeżeli: Wiadomości Statystycze r 3/015
1) e 1 < 5 dla pewego i 1,..., 4, to ależy stosować test Fishera-Yatesa (Yates, 1934). Cochra jedak zauważył, że waruek e 1 < 5 może w przyszłości wymagać modyfikacji; ) 5 > e i 1 dla pewego i 1,..., 4, to zdaiem Campbella (Campbell, 007) dla tablic ależy stosować test ' 1' chi-kwadrat w postaci (Pearso, 1947): X X 1 ( 1)( ad bc) ( a b)( c d )( a c)( b 1 d ) (4) 3) e 1 < 1 dla pewego i 1,..., 4, to ależy stosować test Fishera-Yatesa (Campbell, 007). Gdy hipoteza zerowa H 0 o iezależości cech X i Y jest słusza, statystyka X ma asymptotyczy rozkład chi-kwadrat z jedym stopiem swobody i jest miarą rozbieżości między rozkładem zaobserwowaym i hipotetyczym. Wykr. 1 przedstawia rozkład chi-kwadrat z jedym stopiem swobody oraz empiryczą fukcję gęstości rozkładu statystyki uzyskaą za pomocą metody Parzea dla tablicy i liczebości próby, gdy H 0 jest słusza. Dokłady opis tej metody zajduje się w iym opracowaiu pióra autora tegoż artykułu (Sulewski, 013). Liczebość próby dobrao w taki sposób, aby pokazać: brak zgodości rozkładu statystyki z rozkładem chi-kwadrat dla tablicy ( 50); zgodość rozkładu statystyki z rozkładem chi-kwadrat dla tablicy ( 500). Tablica dwudzielcza większa iż Tablica przedstawia tablicę dwudzielczą w k, która składa się z w k ij i 1,..., w; j 1,..., k rozkładu łączego cech X i Y. liczebości TABL.. TABLICA DWUDZIELCZA w k Cecha X Cecha Y Y1 Y Yk X 1... 11 1 1k 1 X... 1 k X w... w1 w wk w... 1 k 3 Wiadomości Statystycze r 3/015
Wykr. 1. ZGODNOŚĆ ROZKŁADU STATYSTYKI χ PEARSONA Z ROZKŁADEM CHI-KWADRAT DLA TABLICY x 1, x, =50 1,0 fukcja gęstości estymatora 0,8 0,6 0,4 χ chi-kwadrat 0, 0,0 0,0 0,5 1,0 1,5,0,5 3,0 3,5 4,0 4,5 5,0 estymator statystyki χ 1, x, =500 1,0 fukcja gęstości estymatora 0,8 0,6 0,4 χ chi-kwadrat 0, 0,0 0,0 0,5 1,0 1,5,0,5 3,0 3,5 4,0 4,5 5,0 estymator statystyki χ Ź r ó d ł o: opracowaie włase. 4 Wiadomości Statystycze r 3/015
Wartość jest sumą wszystkich liczebości tablicy dwudzielczej: w i1 i k j1 j w k i1 j1 ij (5) Statystyka Pearsoa do badaia iezależości cech X, Y w tablicy dwudzielczej w k ma postać (Pearso, 1900): gdzie: w k ij eij XY (6) e i1 j1 ij liczebość zaobserwowaa w i-tym wierszu i j-tej kolumie, e liczebość oczekiwaa i-tego wiersza i j-tej kolumy daa wzorem: ij ij e ij i j ( i 1,,..., w; j 1,,..., k) (7) W przedstawioym teście iezależości liczebość próby musi być duża, aby w każdej komórce tablicy zalazła się możliwie duża liczba obserwacji. Zdaiem m.i. Yatesa, Moore'a, McCabe'a (Yates i i., 1999) oraz Shiera (Shier, 004) wzór (6) ależy stosować, gdy e ij 1 dla każdego i 1,..., w; j 1,..., k oraz gdy ie więcej iż 0% liczebości oczekiwaej e ij jest miejsze iż 5. Zdaiem Cochraa (Cochra, 195) statystykę XY dla tablic większych iż moża stosować, gdy liczebość oczekiwaa e > 5 dla pewego i 1,..., w; j 1,..., k. ij XY Gdy hipoteza zerowa H 0 o iezależości cech X, Y jest słusza, statystyka ma asymptotyczy rozkład chi-kwadrat z df ( w 1)( k 1) stopiami swobody 1 i jest miarą rozbieżości między rozkładem zaobserwowaym i hipotetyczym. Wykr. przedstawia rozkład chi-kwadrat z df 1 stopiami swobody oraz empiryczą fukcję gęstości rozkładu statystyki uzyskaą za pomocą metody Parzea dla tablicy 4 4 i liczebości próby, gdy H 0 jest słusza. Dokłady opis tej metody zajduje się w opracowaiu Sulewskiego (013). Liczebość próby w tym przypadku jest większa iż dla tablicy, gdyż tym razem dyspoujemy większą liczbą komórek. Liczebość próby dobrao w taki sposób, aby pokazać: brak zgodości rozkładu statystyki z rozkładem chi-kwadrat dla tablicy 4 4 ( 160); zgodość rozkładu statystyki z rozkładem chi-kwadrat dla tablicy 4 4 ( 1000). Wiadomości Statystycze r 3/015 5
Wykr.. ZGODNOŚĆ ROZKŁADU STATYSTYKI χ PEARSONA Z ROZKŁADEM CHI-KWADRAT DLA TABLICY 4x4 0,14 4x4, =160 0,1 fukcja gęstości estymatora 0,10 0,08 0,06 0,04 χ chi-kwadrat 0,0 0,00 0 5 10 15 0 5 estymator statystyki χ 4x4, =1000 0,1 0,10 fukcja gęstości estymatora 0,08 0,06 0,04 χ chi-kwadrat 0,0 0,00 0 5 10 15 0 5 30 estymator statystyki χ Ź r ó d ł o: jak w wykr. 1. 6 Wiadomości Statystycze r 3/015
GENEROWANIE ZAWARTOŚCI TABLIC DWUDZIELCZYCH METODĄ SŁUPKOWĄ W celu geerowaia zawartości tablicy dwudzielczej w k, gdy między cechami X, Y ie ma związku, przedział ( 0;1 podzieloo a w k podprzedziałów o szerokościach rówych wartości prawdopodobieństwa 1/( w k)( i 1,,..., w; j 1,,..., k), które spełiają waruek ormalizacji: p ij w k p ij i1 j1 1 (8) Każda z wygeerowaych liczb losowych o rozkładzie rówomierym w przedziale 0 ; 1 wpada do jedego z w k podprzedziałów i tym samym liczba obiektów w odpowiadającej temu podprzedziałowi komórce tablicy zostaje zwiększoa o jedą. Wielkości ij spełiające rówość: w k i1 j1 ij (9) są liczebością obiektów w poszczególych komórkach tablicy. Na schemacie (1) przedstawioo wypełiaie komórek tablicy dla liczebości próby 00, a tabl. 3 przedstawia odpowiadającą temu schematowi tablicę. SCHEMAT (1) WYPEŁNIANIA KOMÓREK TABLICY x =00 liczb losowych rówomierych p 11 p 1 p 1 p 0,00 0,5 0,50 0,75 1,00 Ź r ó d ł o: jak przy wykr. 1. 11 =56 1 =57 1 =47 =40 7 Wiadomości Statystycze r 3/015
TABL. 3. TABLICA DWUDZIELCZA WYGENEROWANA ZA POMOCĄ METODY SŁUPKOWEJ Cecha X Y1 Cecha Y Y X 1... 56 57 113 X... 47 40 87... 103 97 00 WYZNACZANIE WARTOŚCI KRYTYCZNYCH DLA TABLIC DWUDZIELCZYCH Wcześiej przedstawioo waruki, jakie muszą być spełioe, aby moża było w testach iezależości dla tablic dwudzielczych stosować statystykę opisaą wzorami (1), (3), (4) i (6). W dobie coraz to szybszych komputerów moża za pomocą stosowego oprogramowaia zieść te ograiczeia i za pomocą symulacji wyzaczyć wartości krytycze. Wyzaczoo je tu odwołując się do oszacowań kwatyli, którymi są wartości stosowej statystyki pozycyjej (David, 1970). W celu ustaleia wartości krytyczych metodą Mote Carlo dla 5 daej tablicy dwudzielczej oraz liczebości próby, wyzaczoo R 10 wartości statystyki testowej (6) i za wartość krytyczą przyjęto 1 R statystykę pozycyją, gdzie jest poziomem istotości oraz ozacza część całkowitą liczby rzeczywistej. Tak duża liczba powtórzeń w obliczeiach statystyki testowej zapewia uzyskaie dokładego wyiku. Przy wyzaczaiu wartości krytyczych, gdy między cechami ie ma związku, zawartość tablic dwudzielczych geerowao za pomocą metody słupkowej. Geerowaie zawartości tych tablic iymi metodami, przy założeiu że między cechami ie ma związku, ie miało wpływu a uzyskae wielkości wartości krytyczych. Przykład 1 Na podstawie daych przedstawioych w tablicach dwudzielczych (tabl. 4) i 3 3 (tabl. 5), zbadao a poziomie istotości 0,05 istieie związku między cechami X i Y korzystając ze statystyki Pearsoa. TABL. 4. TABLICA DWUDZIELCZA Z ROZKŁADEM ŁĄCZNYM CECH X i Y Waga Dieta iestosowaa stosowaa Bez zmia... 1 9 10 Utrata wagi... 17 3 40... 18 3 50 8 Wiadomości Statystycze r 3/015
TABL. 5. TABLICA DWUDZIELCZA 3 3 Z ROZKŁADEM ŁĄCZNYM CECH X i Y Pochodzeie społecze uiwersytet Uczelie wyższe politechika akademia medycza Chłopskie... 18 7 7 Roboticze... 1 7 17 36 Iteligeckie... 33 3 87... 5 47 51 150 ZESTAWIENIE (1) PROCEDUR I FUNKCJI WYKORZYSTANYCH DO PRZEPROWADZENIA TESTU NIEZALEŻNOŚCI DLA TABLICY DWUDZIELCZEJ Wyszczególieie Typ Realizowae zadaia TestD... procedura realizacja testu iezależości dla tablicy dwudzielczej Rozmiar... fukcja ustalaie liczby kategorii cech X, Y GNij... fukcja pobraie liczebości tablicy dwudzielczej ExpNij... fukcja wyzaczaie liczebości oczekiwaej SX... fukcja obliczaie sum brzegowych w wierszach SY... fukcja obliczaie sum brzegowych w kolumach GeTab... fukcja geerowaie zawartości tablicy dwudzielczej Kwatyle... fukcja wyzaczaie wartości krytyczej Sortu... fukcja sortowaie ChiKw... fukcja obliczaie wartości statystyki χ Implemetację komputerową testu iezależości Pearsoa dla tablicy dwudzielczej utworzoą w edytorze VBA arkusza kalkulacyjego Excel przedstawioo w pliku TestyChi, który umieszczoo w Iterecie pod adresem http://www.utogim.eu/testychi.xlsm. Składają się a ią procedury i fukcje przedstawioe w zestawieiu 1. Po utworzeiu tablicy dwudzielczej w arkuszu tablicad (tabl. 4) (począwszy od komórki B) wprowadzoo wartość poziomu istotości testu 0, 05 w arkuszu wyiki oraz uruchomioo procedurę TestD. Efektem końcowym działaia procedury jest tablica umieszczoa w arkuszu wyiki ukazująca wyiki działaia testu iezależości cech X i Y (tabl. 6). TABL. 6. WYNIKI DZIAŁANIA TESTU NIEZALEŻNOŚCI CECH X i Y NA PODSTAWIE DANYCH Z TABL. 4 Hipoteza zerowa Nie ma związku między cechami Poziom istotości... 0,05 Wartość krytycza... 3,848 Wartość statystyki... 3,668 U w a g a. Nie ma podstaw do odrzuceia hipotezy zerowej. Czas działaia algorytmu 1 sekud. 9 Wiadomości Statystycze r 3/015
W uwadze (tabl. 6) poday jest czas działaia algorytmu, a który główy wpływ ma sortowaie 10 5 wartości statystyki testowej (6). Powtarzając te czyości dla tablicy dwudzielczej 3 3 (tabl. 5) otrzymao tablicę pokazującą wyiki działaia testu iezależości cech X i Y (tabl. 7). TABL. 7. WYNIKI DZIAŁANIA TESTU NIEZALEŻNOŚCI CECH X i Y NA PODSTAWIE DANYCH Z TABL. 5 Hipoteza zerowa Nie ma związku między cechami Poziom istotości... 0,05 Wartość krytycza... 9,43 Wartość statystyki... 0,951 U w a g a. Są podstawy do odrzuceia hipotezy zerowej. Czas działaia algorytmu 5 sekud. STATYSTYKA PEARSONA DLA TABLICY TRÓJDZIELCZEJ Tablicę, która gromadzi wyik podziału próby według trzech cech X, Y, Z azywamy tablicą trójdzielczą. Moża sobie ją wyobrazić jako kostkę z w wierszami, k kolumami i p płaszczyzami. Tablicę trójdzielczą moża także zilustrować rozkładając płaszczyzy p obok siebie (tabl. 8 i 9). Tablica trójdzielcza ułatwia odczytywaie zależości między cechami ilościowymi i jakościowymi. Najprostszą jej postacią jest tablica (tabl. 8), która składa się z 8 liczebości ijt ( i, j, t 1, ) rozkładu łączego cech X, Y, Z. TABL. 8. TABLICA TRÓJDZIELCZA Cecha Z Cecha X Z1 cecha Y Z Y1 Y Y1 Y X 1... 111 11 11 1 1 X... 11 1 1... 11 1 1 Tabl. 9 przedstawia tablicę trójdzielczą w k p, która składa się z w k p liczebości ( i 1,..., w; j 1,..., k; t 1,..., p) rozkładu łączego cech X, Y, Z. 10 ijt Wiadomości Statystycze r 3/015
Cecha X TABL. 9. TABLICA TRÓJDZIELCZA w k p Cecha Z Z1... Zp cecha Y Y1 Y... Yk... Y1 Y... Yk X 1... 111 11 1k1... 11p 1p 1kp 1 X... 11 1 k1... 1p p kp......... X w... w11 w1 wk1... w1p wp wkp w... 11 1... k1... 1p p... kp Wartość jest sumą wszystkich liczebości tablicy trójdzielczej, czyli: w k p w k i j t ij it jt i1 j1 t1 i1 j1 i1 t1 j1t 1 i1 j1t 1 w p k p w k p ijt (10) W aalizie iezależości trzech cech moża badać m.i. iezależość pełą, czyli czy cechy są parami iezależe. Statystyka Pearsoa do badaia pełej iezależości cech X, Y, Z w tablicy trójdzielczej w k p ma postać: w k p ( ijte ) ijt T 3 (11) e i1 j1 t 1 ijt gdzie: ijt liczebość zaobserwowaa w i-tym wierszu, j-tej kolumie, t-tej płaszczyźie; e ijt liczebość oczekiwaa i-tego wiersza, j-tej kolumy, t-tej płaszczyzy daa wzorem: e ijt i j t (1) 11 Wiadomości Statystycze r 3/015
3 T Gdy hipoteza zerowa H 0 o iezależości cech X, Y, Z jest słusza, statystyka ma asymptotyczy rozkład chi-kwadrat z df wkp w k p stopiami swobody i jest miarą rozbieżości między rozkładem zaobserwowaym i hipotetyczym. Wykr. przedstawia rozkład chi-kwadrat z df stopiami swobody oraz empiryczą fukcję gęstości rozkładu statystyki uzyskaą za pomocą metody Parzea dla tablicy i liczebości próby. Dokłady opis tej metody zajduje się w (Sulewski, 013). Liczebość próby zależy oczywiście od liczby komórek tablicy i dobrao ją w taki sposób, aby pokazać: brak zgodości rozkładu statystyki z rozkładem chi-kwadrat dla tablicy ( 80); zgodość rozkładu statystyki z rozkładem chi-kwadrat dla tablicy ( 1000). GENEROWANIE ZAWARTOŚCI TABLIC TRÓJDZIELCZYCH METODĄ SŁUPKOWĄ W celu geerowaia zawartości tablicy w k p, gdy między cechami X, Y, Z ie ma związku, przedział 0 ; 1 podzieloo a w k p podprzedziałów o szerokościach rówych wartości prawdopodobieństwa p ij 1/ w k pi 1,,..., w; j 1,,..., k; t 1,,..., p, które spełiają waruek ormalizacji: w k p p ijt i1 j1t 1 1 (13) Każda z wygeerowaych liczb losowych o rozkładzie rówomierym w przedziale 0 ; 1 wpada do jedego z w k p podprzedziałów i tym samym liczba obiektów w odpowiadającej temu podprzedziałowi komórce tablicy zostaje zwiększoa o jedą. Wielkości ijt spełiające rówość: w k p i1 j1t 1 ijt (14) są liczebością obiektów w poszczególych komórkach tablicy. 1 Wiadomości Statystycze r 3/015
SCHEMAT () WYPEŁNIANIA KOMÓREK TABLICY xx =00 liczb losowych rówomierych p 111 p 11 p 11 p 1 p 11 p 1 p 1 p 0,000 0,15 0,50 0,375 0,500 0,65 0,750 0,875 1,000 111 =3 11 =9 11 =8 1 =5 11 =16 1 =6 1 =9 =4 Ź r ó d ł o: jak przy wykr. 1. Schemat () przedstawia wypełiaie komórek tablicy dla liczebości próby 00, a tabl. 10 przedstawia odpowiadającą temu schematowi tablicę. TABL. 10. TABLICA TRÓJDZIELCZA WYGENEROWANA ZA POMOCĄ METODY SŁUPKOWEJ Cecha Z Cecha X Z1 cecha Y Z Y1 Y Y1 Y X 1... 3 8 9 5 105 X... 16 9 6 4 95... 39 57 55 49 00 WYZNACZANIE WARTOŚCI KRYTYCZNYCH DLA TABLIC TRÓJDZIELCZYCH Z wykr. 3 wyika, że jeżeli próba ie jest dostateczie duża, statystyka (11) ie ma rozkładu chi-kwadrat z df stopiami swobody. Podobie jak to miało miejsce w tablicach dwudzielczych moża zrezygować z rozkładu asymptotyczego i za pomocą symulacji wyzaczyć wartości krytycze. Wiadomości Statystycze r 3/015 13
Wykr. 3. ZGODNOŚĆ ROZKŁADU STATYSTYKI χ PEARSONA Z ROZKŁADEM CHI-KWADRAT DLA TABLICY xx 0,5 xx, =80 0,0 fukcja gęstości estymatora 0,15 0,10 0,05 χ chi-kwadrat 0,00 0 4 6 8 10 1 14 16 18 0 estymator statystyki χ 0,0 0,18 0,16 xx, =1000 fukcja gęstości estymatora 0,14 0,1 0,10 0,08 0,06 0,04 χ chi-kwadrat 0,0 0,00 0 4 6 8 10 1 14 16 18 0 estymator statystyki χ Ź r ó d ł o: jak przy wykr. 1. 14 Wiadomości Statystycze r 3/015
Wartości te wyzaczoo odwołując się do oszacowań kwatyli, którymi są wartości stosowej statystyki pozycyjej (David, 1970). W celu ustaleia wartości krytyczych metodą Mote Carlo dla daej tablicy trójdzielczej oraz liczebości próby wyzaczoo R 10 wartości statystyki testowej (11) i za wartość 5 krytyczą przyjęto 1 R statystykę pozycyją, gdzie jest poziomem istotości oraz. jest częścią całkowitą liczby. Przy wyzaczaiu wartości krytyczych, gdy między cechami ie ma związku, tablice trójdzielcze geerowao za pomocą metody słupkowej. Przykład Na podstawie daych przedstawioych w tablicach trójdzielczych (tabl. 11) i 4 3 (tabl. 1) zbadao a poziomie istotości 0,01 iezależość cech X, Y, Z korzystając ze statystyki Pearsoa. TABL. 11. TABLICA TRÓJDZIELCZA Z ROZKŁADEM ŁĄCZNYM CECH X, Y, Z Płeć Miasta Wieś grupy wiekowe mieszkańców 0 18 19 65 0 18 19 65 Mężczyźi... 3 15 11 33 6 Kobiety... 10 16 10 38... 13 31 13 43 100 TABL. 1. TABLICA TRÓJDZIELCZA 4 3 Z ROZKŁADEM ŁĄCZNYM CECH X, Y, Z Grupy krwi Mężczyźi Kobiety wzrost w cm 160 170 171 180 181 190 160 170 171 180 181 190 A... 3 5 6 5 7 8 B... 3 6 7 4 3 5 AB... 4 6 1 9 6 5 31 0... 0 4 1 7 16... 10 19 18 16 15 100 Wiadomości Statystycze r 3/015 15
ZESTAWIENIE () PROCEDUR I FUNKCJI WYKORZYSTANYCH DO PRZEPROWADZENIA TESTU NIEZALEŻNOŚCI DLA TABLICY TRÓJDZIELCZEJ Wyszczególieie Typ Realizowae zadaie Test3D... procedura realizacja testu iezależości dla tablicy trójdzielczej Rozmiar3... fukcja ustalaie liczby kategorii cech X, Y, Z GNijt... fukcja pobraie liczebości tablicy trójdzielczej ExpNijt... fukcja wyzaczaie liczebości oczekiwaej SX3... fukcja obliczaie sum brzegowych w wierszach SY3... fukcja obliczaie sum brzegowych w kolumach SZ3... fukcja obliczaie sum brzegowych w płaszczyzach GeTab3... fukcja geerowaie zawartości tablicy trójdzielczej Kwatyle3... fukcja wyzaczaie wartości krytyczej Sortu... fukcja sortowaie ChiKw3... fukcja obliczaie wartości statystyki χ Implemetację komputerową testu iezależości Pearsoa dla tablicy trójdzielczej utworzoą w edytorze VBA arkusza kalkulacyjego Excel przedstawioo w pliku TestyChi, który moża zaleźć w Iterecie pod adresem http://www.utogim.eu/testychi.xlsm. Składają się a ią procedury i fukcje przedstawioe w zestawieiu. Po utworzeiu tablicy trójdzielczej w arkuszu tablica3d (Tabl. 9) (począwszy od komórki B) wprowadzoo wartość poziomu istotości testu 0, 01 w arkuszu wyiki oraz uruchomioo procedurę Test3D. Efektem końcowym działaia procedury jest tablica umieszczoa w arkuszu wyiki ukazująca wyiki działaia testu iezależości cech X, Y, Z (tabl. 13). TABL. 13. WYNIKI DZIAŁANIA TESTU NIEZALEŻNOŚCI CECH X, Y, Z NA PODSTAWIE DANYCH Z TABL. 11 Hipoteza zerowa Nie ma związku między cechami Poziom istotości... 0,01 Wartość krytycza... 13,17 Wartość statystyki... 18,971 U w a g a. Są podstawy do odrzuceia hipotezy zerowej. Czas działaia algorytmu 0 sekud. W uwadze (tabl. 13) poday jest czas działaia algorytmu, a który główy wpływ ma sortowaie 10 5 wartości statystyki testowej (11). 16 Wiadomości Statystycze r 3/015
Powtarzając czyości dla tablicy trójdzielczej 4 3 (tabl. 1) otrzymao tablicę ukazującą wyiki działaia testu iezależości cech X, Y, Z (tabl. 14). TABL. 14. WYNIKI DZIAŁANIA TESTU NIEZALEŻNOŚCI CECH X, Y, Z NA PODSTAWIE DANYCH Z TABL. 1 Hipoteza zerowa Nie ma związku między cechami Poziom istotości... 0,05 Wartość krytycza... 3,984 Wartość statystyki...,959 U w a g a. Nie ma podstaw do odrzuceia hipotezy zerowej. Czas działaia algorytmu 36 sekud. Podsumowaie Wraz z rozwojem auki pojawiają się w statystyce coraz to owsze możliwości badaia iezależości cech. Mimo to ajważiejszą w tym kotekście jest adal zapropoowaa przez Pearsoa w 1900 r. statystyka, tym bardziej że ma oa swoje rozszerzeia także dla tablic trójdzielczych i wyższych. W przypadku tablic dwudzielczych w k istieją jedak ograiczeia co do stosowalości statystyki, która ma asymptotyczy rozkład chi-kwadrat w 1k 1 stopiami swobody. Także dla tablic trójdzielczych w k p, jeżeli liczba reali- zacji w komórkach jest mała, rozkład statystyki testowej zacząco odbiega od rozkładu chi-kwadrat z wkp w k p stopiami swobody. W obecej dobie szybkiego rozwoju moża zieść te ograiczeia wyzaczając wartości krytycze dzięki symulacjom komputerowym geerującym zawartość tablic wielodzielczych. Lektura przedstawioej teorii dotyczącej tablic wielodzielczych oraz aaliza zamieszczoych przykładów pozwoli wikliwemu czytelikowi przeprowadzić testy iezależości z wykorzystaiem statystyki Pearsoa przy dowolej liczebości obiektów w poszczególych komórkach tablicy wielodzielczej. dr Piotr Sulewski Akademia Pomorska w Słupsku LITERATURA Campbell I. (007), Chi-squared ad Fisher-Irwi tests of two-by-two tables with small sample recommedatios, Statistics i Medicie, Vol. 6 Cochra W. G. (195), The χ test of goodess of fit, Aals of Mathematical Statistics, Vol. 3, No. 3 Wiadomości Statystycze r 3/015 17
David H. A. (1970), Order statistics, Wiley, New York Pearso E. S. (1947), The choice of statistical tests illustrated o the iterpretatio of data classed i a table, Biometrika, Vol. 34 Pearso K. (1900), O the criterio that a give system of deviatios from the probable i the case of a correlated system of variables is such that it ca be reasobly supposed to have arise from radom samplig, Philosophy Magazie Series, Series 5, Vol. 50 Shier R. (004), The Chi-squared test for two-way tables, Mathematics Learig Support Cetre Sulewski P. (013), Modyfikacja testu iezależości, Wiadomości Statystycze, r 10, GUS Yates F. (1934), Cotigecy table ivolvig small umbers ad the χ test, Joural of the Royal Statistical Society (Supplemet), No. 1 Yates D., Moore D., McCabe G. (1999), The Practice of Statistics (1st Ed.), New York, W. H. Freema SUMMARY I the study of the idepedece of characteristics i the multi-feature tables Pearso s statistics are the most popular. For multi-feature arrays, there are certai limitatios as to the applicability of the Pearso s statistics, but i a era of rapidly developig computer settig ca be abolished with the critical value of computer simulatio to geerate the cotets of multi-feature tables. The aim of the study is to provide the reader with a ready computer implemetatio, writte i VBA editor (Visual Basic for Applicatios). Readig the preseted theory for multi-feature tables ad aalysis of the examples allow the reader to carry out idepedet tests usig Pearso's statistics at ay umber of objects i each multi-feature table cells. 18 РЕЗЮМЕ В обследовании независимости признаков в многоразделительных таблицах самым популярным является статистика χ Пирсона. Для многоразделительных таблиц существуют определенные ограничения в области возможностей использования статистики χ Пирсона, но во время быстро развивающегося компьютерного оборудования можно их отменить определяя критические значения с помощью компьютерного моделирования генерируя содержание многоразделительных таблиц. Целью статьи является предоставление готовой компьютерной имплементации написанной в программе VBA (Visual Basic for Applicatios). Представленная теория касающаяся многоразделительных таблиц и анализ примеров позволят провести тесты независимости с использованием статистики χ Пирсона для любого числа объектов в отдельных местах многоразделительной таблицы. Wiadomości Statystycze r 3/015