Wielowymiarowe uogólnienie testu niezależności

Podobne dokumenty
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Wykład 3 Hipotezy statystyczne

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

Sterowanie wielkością zamówienia w Excelu - cz. 3

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Sposoby prezentacji problemów w statystyce

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykład 9 Testy rangowe w problemie dwóch prób

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Zawartość. Zawartość

Analiza wariancji. dr Janusz Górczyński

166 Wstęp do statystyki matematycznej

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

POLITECHNIKA OPOLSKA

Statystyka matematyczna dla leśników

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Testowanie hipotez statystycznych

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 10 Testy jednorodności rozkładów

Spis treści 3 SPIS TREŚCI

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Badanie zależności pomiędzy zmiennymi

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Kilka uwag o testowaniu istotności współczynnika korelacji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wybrane statystyki nieparametryczne. Selected Nonparametric Statistics

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez statystycznych

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 8 Dane kategoryczne

Przykład 1. (A. Łomnicki)

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 12 Testowanie hipotez dla współczynnika korelacji

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka matematyczna i ekonometria

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

WYKŁAD 8 ANALIZA REGRESJI

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testowanie hipotez statystycznych.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Kolokwium ze statystyki matematycznej

Analiza korespondencji

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Statystyka matematyczna Test χ 2. Wrocław, r

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Transkrypt:

Piotr SULEWSKI Wielowymiarowe uogólnienie testu niezależności W literaturze statystycznej znajdujemy głównie metody wnioskowania dotyczące jednej zmiennej. Jednak w badaniach statystycznych obiekty opisywane są za pomocą większej liczby cech. Podstawowym i często stosowanym narzędziem do badania związku między cechami są tablice wielodzielcze. Tablicę, która powstaje w wyniku podziału danych według dwóch cech nazywamy tablicą dwudzielczą. Kiedy uwzględniamy liczbę cech większą niż dwie, wówczas tworzymy tablice trójdzielcze, czterodzielcze,..., n-dzielcze (Oktaba, 974). W publikacji Sulewskiego (006) opisano procedurę generowania tablic dwudzielczych o zadanym związku między badanymi cechami oraz przedstawiono implementację komputerową testu niezależności dla dwóch cech zrealizowaną w edytorze VBA (Visual Basic for Application) arkusza kalkulacyjnego Excel. W innym opracowaniu (Sulewski, 007) zbadano moc testu, czyli zdolność tablicy dwudzielczej do wykrywania związku między badanymi cechami oraz obliczono jego siłę wykorzystując współczynnik V Cramera. Porównano rzeczywisty rozkład statystyki testowej dla tablic dwudzielczych z rozkładem teoretycznym, jakim jest rozkład chi-kwadrat o (w ) (k ) stopniach swobody. Dzięki tej publikacji czytelnik może samodzielnie modelować tablice o rozmiarach, z którymi ma do czynienia w praktyce i może badać ich moc. Obecnie bardzo popularne wśród użytkowników komputerów są arkusze kalkulacyjne, w szczególności Microsoft Excel. Główne zalety tego programu to m.in.: łatwe gromadzenie danych i na ich podstawie tworzenie tabel oraz wykresów, stosowanie różnorodnych obliczeń z zastosowaniem funkcji matematycznych i statystycznych, a także możliwość zwiększania operatywności programu za pomocą kodów VBA. Kostki OLAP, stosowane np. w Narodowym Spisie Ludności i Mieszkań czy w Powszechnym Spisie Rolnym, są w swojej istocie niczym innym, jak tablicami wielodzielczymi. W artykule przedstawiono tablicę trójdzielczą jako test niezależności chi-kwadrat wraz z jego implementacją komputerową w języku VBA. Zbadano też zdolność tablicy trójdzielczej do wykrywania związku między badanymi cechami, określaną jako moc testu. Pierwszym celem pracy tego opracowania jest przedstawienie teorii tablic wielodzielczych, ze szczególnym uwzględnieniem tablic trójdzielczych. Autorowi wydaje się to zasadne, gdyż jedynym opracowaniem w języku polskim, prezentującym rozważania matematyczne dotyczące tablic wielodzielczych, jest wydana 40 lat temu książka W. Oktaby (974). Drugim celem jest przedstawienie gotowych procedur i funkcji zapisanych w języku VBA, umożliwiających czytelnikowi samodzielne przeprowadzanie badań statystycznych w najbardziej popularnym 7

arkuszu kalkulacyjnym, jakim jest Microsoft Excel. Celem trzecim jest zbadanie zdolności tablicy trójdzielczej do wykrywania związku między cechami. TABLICA TRÓJDZIELCZA Tablicę, która gromadzi wynik podziału próby według trzech cech A, B i C, gdzie n ij jest liczebnością jednostek próby należących do i-tej kategorii cechy, A (i=,,, w), j-tej kategorii cechy B ( j=,,, k), t-tej kategorii cechy C (t=,,, p), nazywamy tablicą trójdzielczą. Można ją sobie wyobrazić jako kostkę z w wierszami, k kolumnami i p płaszczyznami (wykr. ). Wykr.. KOSTKA O WYMIARACH w x k x p JAKO TABLICA TRÓJDZIELCZA (, k, p) (, k, p) (w, k, p) (,, p) (,, p) (w,, p) (w, k, ) C (,, ) (,, ) (, w, ) (w, k, ) (,, ) (,, ) (w,, ) B Ź r ó d ł o: opracowanie własne. A Tablicę trójwymiarową można także zilustrować rozkładając płaszczyzny p obok siebie (zestawienie ). 8

ZESTAWIENIE. TABLICA TRÓJDZIELCZA O WYMIARACH w k p A/B C k k... (,, ) (,, ) (, k, ) (,, ) (,, ) (, k, )... (,, ) (,, ) (, k, ) (,, ) (,, ) (, k, ) w... (w,, ) (w,, ) (w, k, ) (w,, ) (w,, ) (w, k, ) (dok.) A/B C p k k... (,, p) (,, p) (, k, p)... (,, p) (,, p) (, k, p) w... (w,, p) (w,, p) (w, k, p) r ó d ł o: opracowanie własne. Wprowad my następujące oznaczenia liczby jednostek próby należących: k p a) Sw() i = ( i, do i-tej kategorii cechy A, j= t= w p b) Sk( j) = i= t= w k ( i, do j-tej kategorii cechy B, c) Sp() t = ( i, do t-tej kategorii cechy C. Wówczas: i= j= n = w k p i= j= t= ( i, () jest całkowitą sumą tablicy trójdzielczej. Oczekiwana liczebność podklas (i, j) w tablicy dwudzielczej AB, przy założeniu niezależności cech A i B w sumarycznym ujęciu cechy C, wynosi: Sw() i Sk( j) E AB ( i, j) i =,,..., w; j =,,..., k n = () 9

Wzór na statystykę χ dla tablicy dwudzielczej AB ma postać (Oktaba, 974): w k [ S AB ( i, j) E AB ( i, j) ] χ AB = (3) E ( i, j) i= j= AB p = gdzie SAB ( i, j) ( i, i =,,..., w; j =,,..., k t= (4) Gdy hipoteza zerowa AB H 0 o braku związku między cechami A i B jest słusz- na, statystyka χ AB ma rozkład chi-kwadrat z t= (w )(k ) stopniami swobody. Na danym poziomie istotności α wyznaczamy wartość krytyczną χ. Jeśli χ χ, to związek między cechami występuje i można wyznaczyć siłę tej AB α, t współzależności korzystając ze współczynnika zbieżności V Cramera w postaci (Jó wiak, Podgórski, 998): α, t V AB = χ AB n ( m ) (5) gdzie m = min( w, k ). W zestawieniu autor proponuje pewne zakresy wartości analizowanego współczynnika i przypisuje im odpowiednie stopnie współzależności cech. ZESTAWIENIE. STOPNIE WSPÓŁZALEŻNOŚCI CECH Zakresy wartości współczynnika V Cramera Stopnie współzależności cech 30 ( 0, 0, 33... niski ( 0,33, 0, 66... średni ( 0,66, 0, 99... wysoki... funkcyjny r ó d ł o: jak przy zestawieniu. Oczekiwana liczebność podklas (i, w tablicy dwudzielczej AC, przy założeniu niezależności cech A i C w sumarycznym ujęciu cechy B, wynosi: Sw() i Sp() t E AC ( i, i =,,..., w; t =,,..., p n = (6)

Wzór na statystykę χ dla tablicy dwudzielczej AC ma postać: w p [ S AC ( i, E AC ( i, ] χ AC = (7) E ( i, i= t= AC k = gdzie S AC ( i, ( i, i =,,..., w; t =,,..., p j= (8) Gdy hipoteza zerowa AC H 0 o braku związku między cechami A i C jest słusz- na, statystyka χ AC ma rozkład chi-kwadrat z q =(w )(p ) stopniami swobody. Na danym poziomie istotności α wyznaczamy wartość krytyczną χ. α, q Jeśli χ χ, to interakcja cech występuje i można wyznaczyć siłę tej AC α, q współzależności (zestawienie ) korzystając ze współczynnika zbieżności V Cramera (5). Oczekiwana liczebność podklas ( w tablicy dwudzielczej BC, przy założeniu niezależności cech B i C w sumarycznym ujęciu cechy A, wynosi: Sk( j) Sp( E BC ( j =,,..., k; t =,,..., p n = (9) Wzór na statystykę χ dla tablicy dwudzielczej BC ma postać: k p [ SBC ( EBC ( ] χ BC = (0) E ( j= t= BC w gdzie SBC ( = ( i, j =,,..., k; t =,,..., p i= () Gdy hipoteza zerowa BC H 0 o braku związku między cechami B i C jest słusz- na, statystyka χ BC ma rozkład chi-kwadrat z q =(k )(p ) stopniami swobody. Na danym poziomie istotności α wyznaczamy wartość krytyczną χ. α, q Jeśli χ χ, to interakcja cech występuje i można wyznaczyć siłę tej BC α, q współzależności (zestawienie ) korzystając ze współczynnika zbieżności V Cramera (5). Oczekiwana liczebność podklas (i, w tablicy trójdzielcze przy założeniu niezależności cech A, B i C, wynosi: Sw() i Sk( j) Sp() t E( i, = i =,,..., w; j =,,..., k; t =,,..., p () n 3

Na mocy tej formuły wzór na statystykę χ dla tablicy trójdzielczej ma postać (Oktaba, 974): w k p [ ( i, E( i, ] χ = χ E( i, AB + χ BC + χ i= j= t= ( ) AC (3) Gdy hipoteza zerowa H 0 o braku związku między cechami A, B i C jest słuszna, statystyka χ ma rozkład chi-kwadrat z q 3 =(w )(k )(p ) stopniami swobody. Na danym poziomie istotności α wyznaczamy wartość krytyczną χ. Jeśli χ χ, to interakcja między cechami występuje α, q3 α, q 3 i można wyznaczyć siłę tej współzależności (zestawienie ). Współczynnik zbieżności V Cramera (5) dotyczy tylko tablic dwudzielczych, dlatego proponuję jego zmodyfikowaną postać: V = χ n ( m ) (4) gdzie m = min( w, k, p). Badanie współzależności trzech cech można uogólnić na dowolną liczbę m cech. Wówczas odjemnik we wzorze (3) jest sumą wartości χ wszystkich interakcji cech, 3 cech,... cech, (m ) cech. Odpowiednie liczby stopni swobody dla interakcji cech to np. q=(w )(k ), dla 3 cech q=(w )(k )(p ),..., gdzie w, k, p, r, s, oznaczają liczby kategorii odpowiednich cech. Odjemna we wzorze (3) to m sum rozciągniętych na kategorie. Oczekiwaną liczebność E(.) wyznacza się z relacji: 3 iloczyn m sum brzegowychtablicy dwudzielczej (). = m n E (5) gdzie n liczebność próby. Tak więc w przypadku tablicy czterodzielczej 3 3 z cechami A, B, C i D oczekiwana liczebność podklas (i, t, u), przy założeniu niezależności cech, wynosi: Sw() i Sk( j) Sp() t Sr( u) ( i, = i =, ; j =,, 3; t =,, 3; u =, n3 E (6)

Na mocy powyższego wzór na statystykę χ dla tablicy 3 3 ma postać: 3 3 [ ( i j E( i j ] χ,,,, D = χt E( i, i= j= t= u= (7) gdzie χ ( χ + χ + χ + χ + χ + χ + χ + χ + χ + χ ) T = (8) AB AC Gdy hipoteza zerowa AD BC BD CD ABD ACD BCD D H 0 o braku związku między cechami A, B, C i D jest słuszna, statystyka χ ma rozkład chi-kwadrat z q=( )(3 )(3 )( )=4 D stopniami swobody. Na danym poziomie istotności α wyznaczamy wartość krytyczną χ α, 4. Jeśli χ D χ α, 4, to interakcja między cechami występuje i można wyznaczyć siłę tej współzależności korzystając ze współczynnika zbieżności V Cramera. Implementację komputerową tablicy trójdzielczej jako testu niezależności utworzoną w edytorze VBA arkusza kalkulacyjnego Excel przedstawiono w pliku test_3d.xls, który umieszczono w Internecie pod adresem http://www.utogim.eu/tablica.xls. Składa się na nią procedura TabTro, która odwołuje się do funkcji ChiKw, ChiKw3, Cramer. Aby ułatwić czytelnikowi zrozumienie użytych kodów zostały one wzbogacone o liczne komentarze umieszczone po apostrofach i zapisane kursywą, a ponadto w zestawieniu 3 zawarto opis zmiennych wykorzystanych przy tworzeniu implementacji komputerowej VBA. ZESTAWIENIE 3. ZMIENNE WYKORZYSTYWANE W IMPLEMENTACJI KOMPUTEROWEJ WRAZ Z ICH LOKALIZACJĄ Zmienne Opis zmiennych Lokalizacja zmiennych TabTro ChiKw ChiKw3 Cramer... liczebność komórek w tablicy dwudzielczej lub trójdzielczej x x x i... indeks wiersza x x x w... liczba wierszy x x x x j... indeks kolumny x x x k... liczba kolumn x x x x t... indeks płaszczyzny x x p... liczba płaszczyzn x x x n... liczebność próby x x x x Sk... suma realizacji w kolumnach tablicy dwudzielczej lub trójdzielczej x s Sw... suma realizacji w wierszach tablicy dwudzielczej lub trójdzielczej x s E... liczebność oczekiwana w komórkach tablicy dwudzielczej lub trójdzielczej x s m... min (w, k) lub min (w, k, p) x 33

ZESTAWIENIE 3. ZMIENNE WYKORZYSTYWANE W IMPLEMENTACJI KOMPUTEROWEJ WRAZ Z ICH LOKALIZACJĄ (dok.) Zmienne Opis zmiennych Lokalizacja zmiennych TabTro ChiKw ChiKw3 Cramer v... współczynnik V Cramera x Chi... statystyka chi-kwadrat x x x Sp... suma realizacji w płaszczyznach tablicy trójdzielczej x H0AB, H0AC, H0BC hipoteza zerowa dla tablic dwudzielczych x H0... hipoteza zerowa dla tablicy trójdzielczej x SwAB, SwAC, SwBC liczba stopni swobody dla tablic dwudzielczych x Sw... liczba stopni swobody dla tablicy trójdzielczej x WkAB, WkAC, WkBC wartość krytyczna dla tablic dwudzielczych x Wk... wartość krytyczna dla tablicy trójdzielczej x SAB... suma realizacji według kategorii cechy C x SAC... suma realizacji według kategorii cechy B x SBC... suma realizacji według kategorii cechy A x ChiAB, ChiAC, ChiBC statystyka chi-kwadrat dla tablic dwudzielczych x Chi... statystyka chi-kwadrat dla tablicy trójdzielczej x Okno... okno dialogowe x Wyniki... wyniki wyświetlane z tabl. 5 x s... suma realizacji w komórkach tablicy trójdzielczej x Po... wartość poziomu istotności x Stopień... stopień współzależności cech x U w a g a. Znak x oznacza lokalizację. r ó d ł o: jak przy zestawieniu. 34 OBSŁUGA IMPLEMENTACJI TESTU NIEZALE NO CI Po otwarciu pliku test_3d.xls do dyspozycji użytkownika są dwa przyciski. Przycisk czyść dane usuwa informacje z tabl. 5. Przycisk start uruchamia test niezależności dotyczący tablicy trójdzielcze a zadaniem korzystającego z tego programu jest podanie w oknie dialogowym: wartości w, k, p opisujących rozmiar tablicy trójdzielcze liczebności próby n, poziomu istotności α, wartości realizacji w poszczególnych komórkach tablicy trójdzielczej.

Jeżeli suma realizacji w komórkach tablicy trójdzielczej będzie różna od liczebności próby, to pojawi się okno dialogowe informujące o tym fakcie i kończące działanie procedury. Gdy dane są wprowadzone poprawnie, procedura wypełnia tabelę umieszczoną w arkuszu test. W celu badania testów trzeba dysponować narzędziem do nadawania populacji generalnej określonej właściwości, jaką jest związek między cechami. Dlatego dane podlegające opracowaniu muszą być danymi z generatora liczb losowych, a nie danymi wziętymi z praktyki. Należy wiedzieć, jaki jest rzeczywisty związek między cechami, inaczej nie zbada się mocy testów. Realizując to zaproponowano dwa przykłady liczbowe. Przykład dotyczy generacji zawartości tablicy trójdzielczej za pomocą liczb losowych równomiernych (wylosowanych z rozkładu jednostajnego), gdy związek między cechami istnieje (losowanie zależne), natomiast przykład dotyczy sytuacji, gdy związek między cechami nie istnieje (losowanie niezależne). Przechodzenie od zmiennej ciągłej do zmiennych kategorialnych uzyskano metodą słupkową. Przykład Posługując się generatorem liczb losowych równomiernych symulowano pobieranie n=000-elementowej próby z pewnej fikcyjnej populacji generalnej. Otrzymaną próbę podzielono według trzech cech A, B i C, z których każda miała trzy warianty. Na poziomie istotności 0,05 zbadano, czy istnieje współzależność między cechami A, B i C. Wyniki symulacji zestawiono w tablicy trójdzielczej 3 3 3 (tabl. ). TABL.. WYNIKI SYMULACJI Cechy C C C 3 B B B 3 B B B 3 B B B 3 A... 83 33 37 3 3 6 37 30 36 A... 3 3 37 6 89 3 7 3 A 3... 35 9 3 5 30 3 33 9 r ó d ł o: opracowanie własne. Tablicę trójdzielczą podzielono na tablice dwudzielcze 3 3 dla następujących par cech: a) A i B (tabl. ), b) A i C (tabl. 3), c) B i C (tabl. 4). Liczebność w tych tablicach otrzymano kolejno przez sumowanie liczebności dla poszczególnych kategorii zmiennej odpowiednio C, B i A. 35

TABL.. TABLICA DWUDZIELCZA DLA CECH A I B TABL. 3. TABLICA DWUDZIELCZA DLA CECH A I C Cechy B B B 3 Razem Cechy C C C 3 Razem A... 5 94 99 345 A... 53 89 03 345 A... 85 5 90 37 A... 00 47 80 37 A 3... 89 87 5 38 A 3... 95 77 56 38 Razem... 36 333 34 000 Razem... 348 33 339 000 r ó d ł o: jak przy tabl.. r ó d ł o: jak przy tabl.. TABL. 4. TABLICA DWUDZIELCZA DLA CECH B I C Cechy C C C 3 Razem B... 50 93 05 348 B... 80 45 88 33 B 3... 96 95 48 339 Razem... 36 333 34 000 r ó d ł o: jak przy tabl.. W sytuacji poprawnie wprowadzonych danych procedura TabTro wypełnia tablicę umieszczoną w arkuszu test (tabl. 5). TABL. 5. WSPÓŁZALEŻNOŚĆ CECH A, B I C Charakterystyka A i B B i C A i C A, B i C Stopnie swobody... 4 4 4 8 Wartość krytyczna... 9,488 9,488 9,488 5,507 Wartość statystyki... 68,79 55,688 7,460 5,7 Związek między cechami... występuje występuje występuje występuje Współzależność... niska niska niska niska r ó d ł o: jak przy tabl.. Na podstawie uzyskanych wyników z prawdopodobieństwem popełnienia błędu I rodzaju równym 0,05 stwierdzono, że istnieje niska współzależność między cechami A, B i C oraz między każdą parą rozpatrywanych cech. Przykład Korzystając z generatora liczb losowych równomiernych z fikcyjnej populacji generalnej symulowano pobieranie n=500-elementowej próby. Otrzymaną próbę podzielono według cech A, B i C, z których cechy A i C miały trzy warianty, a cecha B cztery warianty. Sprawdzono na poziomie istotności 0, czy istnieje współzależność między cechami A, B i C. Wyniki symulacji zestawiono w tablicy trójdzielczej 4 (tabl. 6). 36

TABL. 6. WYNIKI SYMULACJI Cechy C C B B B 3 B 4 B B B 3 B 4 A... 4 3 4 38 4 33 35 4 A... 3 3 33 4 34 35 8 34 r ó d ł o: jak przy tabl.. W celu uzyskania odpowiedniego wniosku tablicę trójdzielczą podzielono na tablice dwudzielcze: a) 4 dla pary cech A i B (tabl. 7), b) dla pary cech A i C (tabl. 8), c) 4 dla pary cech B i C (tabl. 9). Liczebność w tych tablicach otrzymano kolejno sumując liczebność poszczególnych kategorii zmiennej C, B i A, odpowiednio: TABL. 7. TABLICA DWUDZIELCZA DLA CECH A I B TABL. 8. TABLICA DWUDZIELCZA DLA CECH A I C Cechy B B B 3 B 4 Razem Cechy C C Razem A... 48 64 76 6 50 A... 34 6 50 A... 65 66 6 58 50 A... 9 3 50 Razem... 3 30 37 0 500 Razem... 53 47 500 r ó d ł o: jak przy tabl.. r ó d ł o: jak przy tabl.. TABL. 9. TABLICA DWUDZIELCZA DLA CECH B I C Cechy C C Razem B... 55 58 3 B... 6 68 30 B 3... 74 63 37 B 4... 6 58 0 Razem... 53 47 500 r ó d ł o: jak przy tabl.. W sytuacji poprawnie wprowadzonych danych procedura TabTro wypełnia tablicę umieszczoną w arkuszu test (tabl. 0). TABL. 0. WSPÓŁZALEŻNOŚĆ CECH A, B I C Charakterystyka A i B B i C A i C A, B i C Stopnie swobody... 3 3 3 Wartość krytyczna... 6,5 6,5,706 6,5 Wartość statystyki... 4,364,30,800 3,09 Związek między cechami... nie występuje nie występuje nie występuje nie występuje r ó d ł o: jak przy tabl.. 37

Na podstawie uzyskanych wyników z prawdopodobieństwem popełnienia błędu I rodzaju równego 0, stwierdzono, że współzależność między cechami A, B i C oraz między każdą parą rozpatrywanych cech nie występuje. ZDOLNO Ć TABLICY TRÓJDZIELCZEJ DO WYKRYWANIA ZWI ZKU MIĘDZY CECHAMI Znając wartości statystyki χ dla różnej liczebności próby n można wyznaczyć moc testu M, czyli prawdopodobieństwo odrzucenia hipotezy zerowej H 0 o niezależności cech A, B i C, gdy nie jest ona prawdziwa: M = R U (9) R U określa liczbę tych przypadków R, kiedy to wartość statystyki χ jest mniejsza od wartości krytycznej χ, gdzie α jest poziomem istotności oraz α, q q=(w )(k )(p ) liczbą stopni swobody. W celu zbadania zdolności tablicy trójdzielczej do wykrywania związku między cechami A, B i C niezbędna jest generacja tablic trójdzielczych. Uwzględniając narzuconą siłę związku między cechami, do wypełnienia tablicy trójdzielczej skorzystano z metody słupkowej wykorzystującej rozkład równomierny. Metodę tę dla tablicy dwudzielczej przedstawiono w cytowanej już pracy P. Sulewskiego (007). W celu wypełnienia tablicy trójdzielczej o wymiarach w k p liczbami losowymi równomiernymi, przedział ( 0 ; podzielono na wkp podprzedziałów o szerokościach liczbowo równych prawdopodobieństwu p ijt (i=,,, w; j=,,, k; t=,,, p), które spełnia warunek normalizacji: w k p i= j= t = p = (0) Każda z n wygenerowanych liczb losowych równomiernych wpada do jednego z wkp podprzedziałów i tym samym liczba obiektów w odpowiadającej temu podprzedziałowi komórce tablicy trójdzielczej zostaje zwiększona o jeden. Wielkości ijt (i=,,, w; j=,,, k; t=,,, p) spełniające równość ijt w k p i= j = t = ijt = n () są liczebnością obiektów w poszczególnych komórkach tablicy trójdzielczej. 38

Przykład 3 Aby zbadać zdolność tablicy trójdzielczej 3 3 3 do wykrywania związku między cechami A, B i C, zaproponowano cztery grupy wartości prawdopodobieństw p ijt (i, t=,, 3) w celu generowania zawartości tablicy trójdzielczej metodą słupkową. Grupę I tworzą prawdopodobieństwa o równej wartości, co odpowiada sytuacji, gdy hipoteza zerowa H 0 o braku związku między cechami jest słuszna. Grupy II IV (tabl. ) odzwierciedlają sytuację, gdy hipoteza zerowa H 0 jest niesłuszna, zachodzi bowiem związek między cechami A, B i C. W trzech komórkach o współrzędnych (,, ), (,, ), (3, 3, 3) oznaczone pogrubioną czcionką związek wszystkich realizacji stanowi odpowiednio: 0% (grupa II), 5% (grupa III) oraz 30% (grupa IV). TABL.. WARTOŚCI PRAWDOPODOBIEŃSTW WEDŁUG GRUP I IV Cechy C C C 3 B B B 3 B B B 3 B B B 3 Grupa I A... 0,037 0,037 0,037 0,037 0,037 0,037 0,037 0,037 0,037 A... 0,037 0,037 0,037 0,037 0,037 0,037 0,037 0,037 0,037 A 3... 0,037 0,037 0,037 0,037 0,037 0,037 0,037 0,037 0,037 Grupa II A... 0,067 0,033 0,033 0,033 0,033 0,033 0,033 0,033 0,033 A... 0,033 0,033 0,033 0,033 0,067 0,033 0,033 0,033 0,033 A 3... 0,033 0,033 0,033 0,033 0,033 0,033 0,033 0,033 0,067 Grupa III A... 0,083 0,03 0,03 0,03 0,03 0,03 0,03 0,03 0,03 A... 0,03 0,03 0,03 0,03 0,083 0,03 0,03 0,03 0,03 A 3... 0,03 0,03 0,03 0,03 0,03 0,03 0,03 0,03 0,083 Grupa IV A... 0,00 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 A... 0,09 0,09 0,09 0,09 0,00 0,09 0,09 0,09 0,09 A 3... 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,00 r ó d ł o: jak przy tabl.. 0,05;8 = W przypadku każdej liczebności próby n { 00; 00; 400}, R=000 razy obliczono wartość statystyki testowej χ. Przyjmując poziom istotności α = 0,05 otrzymano dla t=(3 )(3 )(3 )=8 stopni swobody, wartość krytyczną χ 5, 507 i wyznaczono moc testu na podstawie wzoru (9). Wykres przedstawia zależność mocy testu od liczebności próby. W grupie I, gdy hipoteza zerowa H 0 jest słuszna, moc testu oscyluje wokół założonego poziomu istotności α = 0,05, co potwierdza prawidłowość przeprowadzonych 39

symulacji. W grupach II IV moc testu rośnie wraz ze wzrostem liczebności próby i największe wartości przyjmuje w grupie IV, gdy niespełnienie hipotezy zerowej H 0 jest największe. Wykr.. ZALEŻNOŚĆ MOCY TESTU OD LICZEBNOŚCI PRÓBY WEDŁUG GRUP I IV,0 0,9 0,8 0,87 0,89 0,99 0,7 moc testu M 0,6 0,5 0,4 0,3 0, 0, 0,0 0,7 0,48 0, 0,53 0, 0,049 0,05 0,048 0,46 00 00 400 liczebność próby n Grupy: I II III IV Ź r ó d ł o: opracowanie własne. Podsumowanie Na podstawie wyników przeprowadzonych badań można stwierdzić, że w zakresie analizowanych prób tablica trójdzielcza ma zdolność do wykrywania związku między badanymi cechami, aczkolwiek zdolność ta bardzo silnie zależy od liczebności próby. W sytuacji gdy hipoteza zerowa o niezależności cech nie jest słuszna, moc testu rośnie wraz ze wzrostem liczebności próby i siły związku między cechami. Dysponując próbą n=00 mamy tylko 50% szans na odrzucenie ewidentnie niesłusznej hipotezy zerowej H 0 dla IV grupy wartości prawdopodobieństw. dr Piotr Sulewski Akademia Pomorska w Słupsku LITERATURA Jó wiak J., Podgórski J. (998), Statystyka od podstaw, PWE, Warszawa Oktaba W. (974), Elementy statystyki matematycznej i metodyka do wiadczalnictwa, PWN, Warszawa Sobczyk M. (996), Statystyka, PWN, Warszawa 40

Sulewski P. (006), Test niezale no ci dwóch cech realizowany za pomoc tablicy dwudzielcze Słupskie Prace Matematyczno-Fizyczne, nr 4, Słupsk Sulewski P. (007), Moc tablicy dwudzielczej jako test niezale no ci, Wiadomości Statystyczne, nr 6, GUS SUMMARY This paper discusses the theory of contingency tables with particular emphasis on three-dimension-tables. Their use in statistical surveys is stressed in the article. The three-dimension-table is presented as a chi-square test of independence and its implementation in VBA (Visual Basic for Applications) language. In this way, users are provided ready-made procedures and functions for carrying out surveys in Microsoft Excel. It has been examined also the ability of the three-dimension-table to detect the relationship between the measured traits, referred to as the power of the test. ЕЗЮМЕ. Б. - - VBA (visual Basic for Applications). - - Microsoft Excel. Б,.