GENEROWANIE TABLIC DWUDZIELCZYCH Z WYKORZYSTANIEM DWUWYMIAROWEGO ROZKŁADU NORMALNEGO UCIĘTEGO

Podobne dokumenty
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

MOC TESTÓW NIEZALEŻNOŚCI W TABLICY TRÓJDZIELCZEJ 2 2 2

Testowanie hipotez statystycznych.

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Wielowymiarowe uogólnienie testu niezależności

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 8 Dane kategoryczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Kilka uwag o testowaniu istotności współczynnika korelacji

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Statystyka matematyczna. Wykład VI. Zesty zgodności

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Zawartość. Zawartość

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Wykład 7 Testowanie zgodności z rozkładem normalnym

Spis treści 3 SPIS TREŚCI

Prawdopodobieństwo i statystyka

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Weryfikacja hipotez statystycznych

Sposoby prezentacji problemów w statystyce

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Kolokwium ze statystyki matematycznej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Weryfikacja hipotez statystycznych testy t Studenta

Testowanie hipotez statystycznych.

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Monte Carlo, bootstrap, jacknife

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Badanie zależności skala nominalna

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

WSPÓŁCZYNNIK DWUMODALNOŚCI BC I JEGO ZASTOSOWANIE W ANALIZACH ROZKŁADÓW ZMIENNYCH LOSOWYCH

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Testowanie hipotez statystycznych

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Wykład 11 Testowanie jednorodności

STATYSTYKA

POLITECHNIKA OPOLSKA

Statystyka matematyczna dla leśników

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Wykorzystanie nowoczesnych technik prognozowania popytu i zarządzania zapasami do optymalizacji łańcucha dostaw na przykładzie dystrybucji paliw cz.

Prawdopodobieństwo i statystyka

Rozkłady statystyk z próby. Statystyka

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

DOKŁADNA METODA BOOTSTRAPOWA NA PRZYKŁADZIE ESTYMACJI ŚREDNIEJ

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Metody Ilościowe w Socjologii

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 10 Testy jednorodności rozkładów

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Metody systemowe i decyzyjne w informatyce

Testy dla dwóch prób w rodzinie rozkładów normalnych

Testowanie hipotez statystycznych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

LABORATORIUM 6 ESTYMACJA cz. 2

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Zadania ze statystyki, cz.6

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wnioskowanie statystyczne. Statystyka w 5

Pobieranie prób i rozkład z próby

PDF created with FinePrint pdffactory Pro trial version

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Analiza autokorelacji

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Prawdopodobieństwo i statystyka r.

Analiza Statystyczna

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Transkrypt:

Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 083-86 Nr 88 06 Informatyka i Ekonometria 5 Akademia Pomorska w Słupsku Wydział Matematyczno-Przyrodniczy Instytut Matematyki piotr.sulewski@apsl.edu.pl GENEROWANIE TABLIC DWUDZIELCZYCH Z WYKORZYSTANIEM DWUWYMIAROWEGO ROZKŁADU NORMALNEGO UCIĘTEGO Streszczenie: W artykule zaprezentowano procedurę generowania liczb losowych o dwuwymiarowym rozkładzie normalnym uciętym (DRNU). Opisano algorytm generowania tablicy dwudzielczej, wykorzystując próbę realizacji zmiennej losowej DRNU. Przedstawioną teorię wzbogacono konkretnymi przykładami, zrealizowanymi w edytorze VBA arkusza kalkulacyjnego Microsoft Excel. Słowa kluczowe: tablica dwudzielcza, metoda Monte Carlo, test niezależności, dwuwymiarowy rozkład normalny ucięty. Wprowadzenie Tablicę dwudzielczą (TD) w k zalicza się do podstawowych, często stosowanych narzędzi statystycznych. Wykorzystuje się ją do badania mocy testów, czyli prawdopodobieństwa odrzucenia H 0, gdy jest ona fałszywa. Do tego rodzaju badań niezbędne jest generowanie TD i określenie mocy testów za pomocą symulacji Monte Carlo. Terminem generowanie TD określono wypełnienie komórek TD liczbami pseudolosowymi. Gdy związku między badanymi cechami nie ma, generowanie TD jest rzeczą prostą. Można skorzystać z generatorów liczb o rozkładzie równomiernym i losowo generować numer wiersza oraz kolumny tablicy, określając w ten sposób przynależność danej realizacji do komórki. Zadaniem znacznie trudniejszym jest generowanie TD, gdy związek między cechami istnieje. Przystępując do badania właściwości testów statystycznych, trzeba dysponować narzędziem do modelowania populacji generalnej, czyli do nadawania

7 populacji generalnej określonej właściwości, jaką jest związek między cechami. W związku z czym dane podlegające opracowaniu, muszą być danymi pochodzącymi z generatora liczb losowych, a nie danymi wziętymi z praktyki. Należy wiedzieć, jaki jest rzeczywisty związek między cechami, inaczej zbadanie mocy testów będzie niemożliwe. W celu wyznaczenia empirycznej mocy testu niezbędne jest generowanie TD. Do generowania TD można skorzystać z: łańcuchów Markowa (ang. Markov Chain Monte Carlo) [Diaconis, Sturmfels, 998; Cryan, Dyer, 003; Chen i in., 005; Cryan i in., 006; Fishman, 0], sekwencyjnego próbkowania (ang. Sequential Importance Sampling) [Chen i in., 005; Chen, Dinwoodie, Sullivant, 006; Blitzstein, Diaconis, 0; Yoshida i in., 0], metody bootstrapowej (ang. bootstrap method) [Nandram, Bhatta, Bhadra, 03], techniki dziel i zwyciężaj (ang. probabilistic divide-and-conquer technique) [Desalvo, Zhao, 06]. Propozycję generowania TD dla ustalonych rozkładów brzegowych zaprezentowali R.B. Holmes i L.K. Jones [996]. Procedurę generowania TD za pomocą metody słupkowej, wykorzystującą liczby losowe o rozkładzie równomiernym zaproponował w swojej pracy P. Sulewski [04a]. Uogólniony rozkład gamma wykorzystano do generowania TD [Sulewski, 009] oraz TD k [Sulewski, 04b]. Przy testowaniu niezależności cech, najbardziej popularną statystyką testową dla TD jest statystyka χ Pearsona, która ma także swoje rozszerzenia dla tablic trójdzielczych i wyższych. Dla TD w k istnieją jednak ograniczenia stosowalności statystyki χ Pearsona, która ma asymptotyczny rozkład chi- w k stopniami swobody. W celu zniesienia tych ograniczeń kwadrat z ( )( ) wartości krytyczne można wyznaczać za pomocą symulacji komputerowych metodą Monte Carlo [Sulewski, 05], a do tego niezbędne jest generowanie TD. Także Lilliefors w teście Kołmogorowa dla rozkładu normalnego wyznaczał wartości krytyczne drogą symulacyjną, gdy parametry rozkładu były oszacowane z próby. Procedurę generowania TD z wykorzystaniem dwuwymiarowego rozkładu normalnego (DRN) oraz opis generatora liczb losowych o DRN przedstawiono w pracy P. Sulewskiego [04a]. Metoda ta wykorzystywana dla TD w k, w, k > posiada pewną wadę. Gdy się ją stosuje, w narożach tablicy ( ) pojawiają się komórki puste i w tej sytuacji nie można skorzystać, np. z niektórych statystyk chi-kwadrat (ang. power divergence statistics): statystyki G ilorazu wiarygodności, statystyki KL Kullbacka-Leiblera czy statystyki FT Freemana-Tukey a. Z tego też powodu w niniejszej pracy zaproponowano modyfikację wspomnianej metody, polegającą na zastosowaniu dwuwymiarowego rozkładu normalnego uciętego (DRNU). Powodem wyboru DRN do gene-

Generowanie tablic dwudzielczych... 73 rowania TD była nie tylko jego wielka popularność, ale także to, że K. Pearson [Pearson, 904] skorzystał z tego rozkładu w celu zdefiniowania współczynnika kontyngencji. Celem artykułu jest zaproponowanie narzędzia do generowania TD o ustalonym z góry związku między cechami. Przedstawiono w nim funkcję gęstości dwuwymiarowego rozkładu normalnego zarówno pełnego, jak i uciętego. Wyznaczono wartość współczynnika korelacji DRNU. Zaprezentowano procedurę gene- w k w, k >, rowania liczb losowych o DRNU. Opisano generowanie TD ( ) wykorzystując n elementową próbę realizacji zmiennej losowej DRNU. Przedstawioną teorię wzbogacono przykładami. Implementację komputerową wykonano w edytorze VBA arkusza kalkulacyjnego Excel.. Funkcja gęstości dwuwymiarowego rozkładu normalnego Zmienna losowa ( X, Y ) ma DRN, jeżeli jej funkcja gęstości dana jest wzorem [Kendall, Buckland, 986]: f ( x, y) = exp( Q) Q = πσ σ r x μ r x μ y μ y μ r + ( ) r σ σ σ σ gdzie r jest współczynnikiem korelacji liniowej Pearsona. Rozkład brzegowy zmiennej losowej X jest rozkładem normalnym N ( μ,σ ), zaś rozkład brzegowy zmiennej losowej Y rozkładem normalnym N ( μ,σ ). Rysunek przedstawia wykres funkcji gęstości DRN, gdy zmienne X oraz Y są nieskorelowane ( r = 0 ), natomiast rys. gdy zmienne X i Y są skorelowane ( r = 0, 4 ). Wartości pozostałych parametrów tego rozkładu to μ = μ = 0, σ = σ. = ()

74 Rys.. Wykres funkcji gęstości dwuwymiarowego rozkładu normalnego dla μ = μ 0, σ = σ =, r = 0 = Rys.. Wykres funkcji gęstości dwuwymiarowego rozkładu normalnego dla μ = μ 0, σ σ = σ =, r = 0,4 = Niech f ( x, y) będzie funkcją gęstości () dwuwymiarowej zmiennej losowej normalnej ( X, Y ). Wówczas funkcja gęstości zmiennej losowej ( X, Y ) uciętej do obszaru a, b c, d ma postać [Cramer, 958]: f u ( x, y, a, b, c, d ) = b d a c f f ( x, y) ( x, y) dxdy ()

Generowanie tablic dwudzielczych... 75 dla wszystkich ( x, y) a, b c, d Wartości i jest równa zeru poza tym obszarem. a, b, c, d mogą być także nieskończone. Na rys. 3 i 4 przedstawiono wykresy funkcji gęstości DRNU dla zestawów A i B wartości parametrów (tab. ). Tabela. Zestawy wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Zestaw μ σ μ σ r a b c d A 0 0 0,4 - - B 0 0 0,4 - -0,5 0,5 Rys. 3. Wykres funkcji gęstości dwuwymiarowego rozkładu normalnego uciętego dla zestawu A wartości parametrów Rys. 4. Wykres funkcji gęstości dwuwymiarowego rozkładu normalnego uciętego dla zestawu B wartości parametrów

76. Współczynnik korelacji dwuwymiarowego rozkładu normalnego uciętego We wzorze () r jest współczynnikiem korelacji liniowej Pearsona, gdyż [Cramer, 958]: Jeżeli = 0 V ( X, Y ) ( X ) V ( Y ) cov = r r, to funkcja gęstości DRNU ma postać f ( x y) = f ( x) f ( y),, czyli zmienne losowe X i Y są niezależne. Badając testy niezależności, należy dysponować narzędziem do nadawania populacji generalnej określonej właściwości, jaką jest związek między cechami. Związek ten można różnicować za pomocą współczynnika korelacji, który dla DRNU wyraża się wzorem [Cramer, 958]: gdzie b d x y f ( x, y) ( x, y) α α α 0 0 r u = (3) α 0 α0 α 0 α 0 ( x) ( x) ( y) ( y) ( k, ) a c a a α =, α k 0 =, α0 = = b d b k d f dxdy f dx. f dy. a c dxdy b a x k Dla zestawów wartości parametrów (tab. ) obliczono na podstawie (3) wartość współczynnika korelacji DRNU. Uzyskane wyniki przedstawiono w tab. 3. Tabela. Zestawy wartości parametrów dwuwymiarowego rozkładu normalnego uciętego μ σ μ Zestaw C 0 0 0,5 - - D 0 0 0,5 - - E 0 0 0,5 -,5,5 -,5,5 F 0 0 0,7 -,5,5 -,5,5 f dx b c y k f dy σ r a b c d Tabela 3. Wartości współczynnika korelacji rozkładu uciętego dla różnych zestawów wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Zestaw r u C 0,407 D 0,78 E 0,0 F 0,07

Generowanie tablic dwudzielczych... 77 Z tab. i 3 wynika, że wraz ze wzrostem wartości parametrów σ i σ (zestaw C i D) przy stałej wartości pozostałych parametrów, korelacja rozkładu maleje. Zwiększając cięcie, czyli zmniejszając pole obszaru a, b c, d (zestaw D i E), korelacja rozkładu maleje. Oczywiście wraz ze wzrostem korelacji rozkładu pełnego (zestaw E i F), rośnie także korelacja rozkładu uciętego. 3. Generowanie liczb losowych o dwuwymiarowym rozkładzie normalnym uciętym Do generowania liczb losowych o DRNU niezbędne są liczby losowe o rozkładzie normalnym N ( 0; ). Na podstawie centralnego twierdzenia granicznego zmienna losowa [Zieliński, Wieczorkowski, 997]: X = R i i= 6 ma w przybliżeniu N ( 0; ), gdzie R jest niezależną zmienną losową o rozkładzie równomiernym na przedziale (0;). Zauważmy, że E ( X ) = 0, V ( X ) =. Bardziej współczesnym sposobem jest generowanie liczb losowych o rozkładzie normalnym z wykorzystaniem transformacji Boxa-Mullera [Box, Muller, 958]. Jeżeli R, R są niezależnymi zmiennymi losowymi o rozkładzie równomiernym na przedziale (0;), to: U = ln( R ) cos( πr ), V ln( R ) sin( πr ) są niezależne i mają N ( 0,). Jeżeli zmienna losowa X ma rozkład N ( 0,) zmienna losowa X s + m ma rozkład N ( m, s). = (4) W celu otrzymania realizacji dwuwymiarowej zmiennej losowej normalnej (X, Y) o gęstości () należy skorzystać ze wzorów [Zieliński, Wieczorkowski, 997]: X = σ U + μ, = rσ U + σ V r + μ, to Y (5) gdzie V N 0;. W celu otrzymania realizacji dwuwymiarowej zmiennej losowej normalnej ( X, Y ), uciętej do obszaru a X b c Y d o gęstości () należy skorzystać z metody rejection sampling opisanej algorytmem [Zieliński, Wieczorkowski, 997]: U, są zmiennymi niezależnymi o ( )

78. Generuj U i V na podstawie (4).. Generuj X i Y na podstawie (5). 3. Jeżeli a X b oraz c Y d, to zwróć ( X, Y ). W sytuacji przeciwnej wróć do pkt.. Implementację komputerową metody rejection sampling generowania prób z wielowymiarowego rozkładu normalnego uciętego w języku R przedstawiono w pracy S. Wilhelma i B.G. Manjunatha [009]. Jeżeli tylko niewielki procent próbek wpada do obszaru a ; b c; d, to można skorzystać z metody Gibbs sampling, w której 00% próbek wpada do obszaru a ; b c; d [Kotecha, Djuric, 999; Horrace, 005]. Główną wadą Gibbs sampling jest to, że próbki nie są niezależne, lecz skorelowane. Badając właściwości testów statystycznych, należy nadać populacji generalnej określoną właściwość, jaką jest związek między cechami. Do wyznaczenia empirycznej mocy testów w dobie szybko rozwającej się komputeryzacji metoda rejection sampling jest wystarczająca. 4. Generowanie tablic dwudzielczych w k (w, k > ) W celu utworzenia TD w k ( w, k > ), wygenerowano n realizacji zmiennej losowej o DRNU za pomocą wzorów (5) i metody rejection sampling. Otrzymane w ten sposób wartości ( X i, Yi ) ( i =,,..., n) zapisano w układzie współrzędnych i na powstały w ten sposób obszar naniesiono TD w k. Rysunek 5 przedstawia próbę n = 00 elementową, uzyskaną odpowiednio dla zestawu A wartości parametrów, natomiast rys. 6 dla zestawu B (tab. ). Próba ta tworzy obszar wartości dwuwymiarowej zmiennej losowej normalnej uciętej, który został nałożony na TD o wymiarach 4.

Generowanie tablic dwudzielczych... 79 Y 0 - - - 0 X Rys. 5. 00-elementowy obszar wartości zmiennej losowej o dwuwymiarowym rozkładzie normalnym uciętym dla zestawu A wartości parametrów, nałożony na TD 4 0,5 Y 0-0,5 - -0,5 0 0,5 X Rys. 6. 00-elementowy obszar wartości zmiennej losowej o dwuwymiarowym rozkładzie normalnym uciętym dla zestawu B wartości parametrów, nałożony na TD 4

80 W następnym kroku dla w wierszy i k kolumn obliczono szerokości poszczególnych klas za pomocą wzorów: h x b a =, w h y c d = k oraz wyznaczono punkty podziału osi układu współrzędnych tworzące klasy: Q = a + j h ( j = 0 w), P = c + i h ( i = 0 k) j x, i y, Następnie stwierdzono, ile punktów o współrzędnych X, ) ( i,,..., n) ( i Yi = należy do każdej z w k klas TD. Dla tak wypełnionej TD wyznaczono rozkłady brzegowe. TD 4 odpowiadającą rys. 5 przedstawiono w tab. 4, natomiast TD 4 odpowiadającą rys. 6 w tab. 5. Tabela 4. Tablica dwudzielcza 4 dla zestawu A wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Y Y Y 3 Y 4 Razem X 9 39 49 0 7 X 3 7 36 7 83 Razem 66 85 7 00 Tabela 5. Tablica dwudzielcza 4 dla zestawu B wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Y Y Y 3 Y 4 Razem X 9 7 4 0 X 8 6 9 6 99 Razem 57 53 50 40 00 Z tab. 4 i 5 wynika, że najmniej realizacji mają skrajne kolumny, natomiast liczebność wierszy jest podobna. Dla tab. 5 obszar wartości zmiennej losowej o DRNU został zmniejszony i dzięki stałej wartości r = 0, 4 w komórkach narożnych pojawiło się więcej realizacji niż w tab. 4. Przykład Korzystając z DRNU, opisanego zestawami G i H wartości parametrów (tab. 6) wygenerowano TD 4 4 złożoną z 300 elementów. Wartości parametrów dobrano w taki sposób, by każda z 6 komórek TD była większa od zera.

Generowanie tablic dwudzielczych... 8 Tabela 6. Zestawy wartości parametrów dwuwymiarowego rozkładu normalnego uciętego μ σ μ σ r a b c d Zestaw G 0 0 0,4 - - H 0 0 0,8 - - 300 realizacji zmiennej losowej o DRNU, uzyskanych dla zestawów G i H wartości parametrów, naniesiono na układ współrzędnych (rys. 7A zestaw G; rys. 7B zestaw H). Następnie obliczono, ile realizacji wypełnia każdą z 6 klas, tworzących TD 4 4. Dla tak wypełnionej TD wyznaczono rozkłady brzegowe. Uzyskane wyniki prezentują tab. 7 i 8. 0,5 0,5 Y 0 Y 0-0,5-0,5 A - - -0,5 0 0,5 X B - - -0,5 0 0,5 X Rys. 7. 300-elementowy obszar wartości zmiennej losowej o dwuwymiarowym rozkładzie normalnym uciętym nałożony na TD 4 4 Tabela 7. Tablica dwudzielcza 4 4 dla zestawu G wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Y Y Y 3 Y 4 Razem X 6 9 5 9 59 X 7 0 80 X 3 8 34 9 9 X 4 3 7 6 3 69 Razem 59 9 87 63 300 Tabela 8. Tablica dwudzielcza 4 4 dla zestawu H wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Y Y Y 3 Y 4 Razem X 0 3 4 67 X 5 8 8 3 93 X 3 3 3 4 5 83 X 4 9 6 0 57 Razem 39 95 93 73 300

8 Dla tab. 7 i 8 obszar wartości zmiennej losowej o DRNU jest stały, jednak różne są wartości współczynnika korelacji. Wraz z jego wzrostem zmniejsza się liczba realizacji w lewym górnym oraz prawym dolnym narożu. Przykład Korzystając z DRNU, opisanego wartościami parametrów (tab. 9), wygenerowano zawartość TD 4 8 złożoną z 750 elementów. Wartości parametrów dobrano w taki sposób, by każda z 3 komórek TD była większa od zera. Tabela 9. Zestawy wartości parametrów dwuwymiarowego rozkładu normalnego uciętego μ σ μ σ r a b c d Zestaw I 0 0 0,9-0,5 0,5-0,5 0,5 J 0 0-0,9-0,5 0,5-0,5 0,5 750 realizacji zmiennej losowej o DRNU naniesiono na układ współrzędnych (zestaw I rys. 8A, zestaw J rys. 8B). Następnie obliczono, ile realizacji wypełnia każdą z 3 klas tworzących TD 4 8. Dla tak wypełnionej TD, wyznaczono rozkłady brzegowe. Uzyskane wyniki prezentują tab. 0 i. 0,5 0,5 0,5 0,5 Y 0 Y 0-0,5-0,5-0,5-0,5-0,375-0,5-0,5 0 0,5 0,5 0,375 0,5 X A -0,5-0,5-0,375-0,5-0,5 0 0,5 0,5 0,375 0,5 X Rys. 8. 750-elementowy obszar wartości zmiennej losowej o dwuwymiarowym rozkładzie normalnym uciętym nałożony na TD 4 8. B Tabela 0. Tablica dwudzielcza 4 8 dla zestawu I wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Y Y Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Razem X 8 9 6 9 9 4 40 67 X 5 8 3 30 9 34 6 6 0 X 3 5 7 44 30 38 30 07 X 4 35 33 6 4 7 0 8 75 Razem 83 77 09 3 06 03 74 85 750

Generowanie tablic dwudzielczych... 83 Tabela. Tablica dwudzielcza 4 8 dla zestawu J wartości parametrów dwuwymiarowego rozkładu normalnego uciętego Y Y Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Razem X 37 34 7 0 7 9 4 70 X 6 3 30 49 3 3 6 0 00 X 3 0 3 3 35 9 34 6 34 3 X 4 6 8 4 5 4 30 9 3 57 Razem 69 88 03 9 03 99 80 89 750 Z tab. 0 i wynika, iż mimo silnej korelacji między zmiennymi X i Y komórki TD nie są puste, co miało miejsce w przypadku, gdy do generacji TD wykorzystano DRN. W tab. 9 najmniejsze wartości realizacji zmiennej losowej znajdują się w narożu lewym górnym oraz prawym dolnym (korelacja dodatnia). W tab. 0 najmniejsze wartości realizacji zmiennej losowej znajdują się w narożu lewym dolnym i prawym górnym (korelacja ujemna). Przykład 3 Wyznaczono empiryczną moc testów na poziomie istotności α = 0, dla tablicy dwudzielczej 3 3 oraz 4 4, liczebności próby odpowiednio n = 300 oraz n = 500, korzystając ze statystyk chi-kwadrat. Tablice dwudzielcze generowano za pomocą dwuwymiarowego rozkładu normalnego uciętego dla zestawu K wartości parametrów (tab. ). Wartości krytyczne wyznaczono symulacyjnie metodą Monte Carlo. Tabela. Wartości parametrów dwuwymiarowego rozkładu normalnego uciętego σ a b c d r μ σ μ Zestaw K 0 0 - - 0; 0,05;...;0,7 Postaci statystyk chi-kwadrat [Cressie, Read, 984] przedstawia tab. 3. Jak już to zostało wspomniane wcześniej, trzy z tych statystyk nie tolerują warunku n = 0 i =,..., w; j =,..., k. ( ) Tabela 3. Statystyki chi-kwadrat (ang. power divergence statistics) χ Pearsona G ilorazu wiarygodności Nazwa statystyki Postać statystyki w k n e χ = e i= j= w G = k i= j= ( ) n n ln e

84 cd. tabeli 3 N Neymanna KL Kullbacka-Leiblera N = KL = w k ( n e ) i= j= w k i= j= n e e ln n w k FT Freemana-Tukeya FT = 4 ( n e ) D Cressiego-Reada Oznaczenia: e liczebność oczekiwana i= j= /3 w k 9 n CR = n 5 i= j= e Rysunki 9 i 0 przedstawiają empiryczne moce testów dla danych wartości parametrów DRNU (tab. ). Wynika z nich, że testy niezależności wykorzystujące statystyki chi-kwadrat charakteryzują się podobną mocą dla wszystkich wartości współczynnika korelacji r i dla różnych rozmiarów TD. Analogiczna sytuacja miała miejsce w pracy P. Sulewskiego [06], gdzie TD generowano metodą słupkową, a do wyznaczenia mocy testów skorzystano z innej miary nieprawdziwości H 0.,0 0,9 χ G n=300; 3x3; α=0, 0,8 N KL 0,7 0,6 FT D Moc testu M 0,5 0,4 0,3 0, 0, 0,0 0 0, 0, 0,3 0,4 0,5 0,6 0,7 Współczynnik korelacji r Rys. 9. Empiryczne moce testów na poziomie istotności α = 0,, dla tablicy dwudzielczej 3 3 i liczebności próby n = 300

Generowanie tablic dwudzielczych... 85,0 0,9 χ G n=500; 4x4; α=0, 0,8 N KL 0,7 0,6 FT D Moc testu M 0,5 0,4 0,3 0, 0, 0,0 0 0, 0, 0,3 0,4 0,5 0,6 0,7 Współczynnik korelacji r Rys. 0. Empiryczne moce testów na poziomie istotności α = 0,, dla tablicy dwudzielczej 4 4 i liczebności próby n = 500 Podsumowanie Badając moc testów, należy wiedzieć, jaki jest rzeczywisty związek między cechami. W celu wyznaczenia empirycznej mocy testu niezbędne jest generowanie TD. Generowanie TD, gdy nie ma związku między badanymi cechami, nie przysparza trudności. Zadaniem niewątpliwie trudniejszym jest generowanie TD w sytuacji, gdy zachodzi związek między cechami. Generowanie TD z wykorzystaniem DRN napotyka na trudności związane z tym, iż jej komórki narożnikowe są puste. Zastosowanie DRNU sprawia, że nawet w sytuacji silnej korelacji między cechami, komórki TD nie są puste i zawierają wystarczającą liczbę realizacji. Z przykładu 3 wynika, że zaproponowana metoda generacji TD jest alternatywą dla metody słupkowej i nie tylko. Literatura Blitzstein J., Diaconis P. (0), A Sequential Importance Sampling Algorithm for Generating Random Graphs with Prescribed Degrees, Internet Mathematics, No. 6, s. 489-5. Box G.E.P., Muller M.E. (958), A Note on the Generation of Random Normal Deviates, The Annals of Mathematical Statistics, Vol. 9().

86 Chen Y., Diaconis P., Holmes S.P., Liu J.S. (005), Sequential Monte Carlo Methods for Statistical Analysis of Tables, Journal of the American Statistical Association, No. 00, s. 09-0. Chen Y., Dinwoodie I.H., Sullivant S. (006), Sequential Importance Sampling for Multiway Tables, The Annals of Statistics, s. 53-545. Cramer H. (958), Metody matematyczne w statystyce, PWN, Warszawa. Cressie N., Read T. (984), Multinomial Goodness-of-Fit Tests, Journal of the Royal Statistical Society: Series B (Statistical Methodology), No. 46, s. 440-464. Cryan M., Dyer M. (003), A Polynomial-time Algorithm to Approximately Count Contingency Tables When the Number of Rows is Constant, Journal of Computer and System Sciences, No. 67, s. 9-30. Cryan M., Dyer M., Goldberg L.A., Jerrum M., Martin R. (006), Rapidly Mixing Markov Chains for Sampling Contingency Tables with a Constant Number of Rows, SIAM Journal on Computing, No. 36, s. 47-78. Desalvo S., Zhao J.Y. (06), Random Sampling of Contingency Tables via Probabilistic Divide-and-Conquer, ArXiv preprint, arxiv:507.00070v4. Diaconis P., Sturmfels B. (998), Algebraic Algorithms for Sampling from Conditional Distributions, The Annals of Statistics, No. 6, s. 363-397. Fishman G.S. (0), Counting Contingency Tables via Multistage Markov Chain Monte Carlo, Journal of Computational and Graphical Statistics, No., s. 73-738. Holmes R.B., Jones L.K. (996), On Uniform Generation of Two-way Tables with Fixed Margins and the Conditional Volume test of Diaconis and Efron, The Annals of Statistics, Vol. 4(). Horrace W.C. (005), Some Results on the Multivariate Truncated Normal Distribution, Journal of Multivariate Analysis, No. 94. Kendall M.G., Buckland W.R. (986), Słownik terminów statystycznych, PWE, Warszawa. Kotecha J.H., Djuric P.M. (999), Gibbs Sampling Approach for Generation of Truncated Multivariate Gaussian Random Variables, IEEE Computer Society. Nandram B., Bhatta D., Bhadra D. (03), A Likelihood Ratio Test of Quasiindependence for Sparse Two-way Contingency Tables, Journal of Statistical Computation and Simulation, Vol. 85(), s. 84-304. Pearson K. (904), On the Theory of Contingency and its Relation to Association and Normal Correlation, K. Pearson, Early Papers. Sulewski P. (009), Two-by-two Contingency Table as a Goodness-of-fit test, Computational Methods in Science and Technology, Vol. 5(). Sulewski P. (04a), Statystyczne badanie współzależności cech typu dyskretne kategorie, Wydawnictwo Naukowe Akademii Pomorskiej, Słupsk. Sulewski P. (04b), Wykorzystanie uogólnionego rozkładu gamma do generowania tablicy dwudzielczej, Śląski Przegląd Statystyczny, nr (8).

Generowanie tablic dwudzielczych... 87 Sulewski P. (05), Wyznaczanie obszaru krytycznego przy testowaniu niezależności w tablicach wielodzielczych, Wiadomości Statystyczne, nr 3. Sulewski P. (06), Moc testów niezależności w tablicy dwudzielczej większej niż, Przegląd Statystyczny, nr 63(), s. 9-09. Wilhelm S., Manjunath B.G. (009), tmvtnorm: A Package for the Truncated Multivariate Normal Distribution, The R Journal, Vol. (). Yoshida R., Xi J., Wei S., Zhou F., Haws D. (0), Semigroups and Sequential Importance Sampling for Multiway Tables, arxiv preprint, arxiv:.658. Zieliński R., Wieczorkowski R. (997), Komputerowe generatory liczb losowych, WN-T, Warszawa. GENERATING THE TWO-WAY CONTINGENCY TABLES USING THE TRUNCATED TWO-DIMENSIONAL NORMAL DISTRIBUTION Summary: The procedure to generate random numbers of the truncated two-dimensional normal distribution (DRNU) was presented. The generating of two-way contingency table using random variable of DRNU was described. The presented theory has been enriched with specific examples, that were implemented in the VBA editor of spreadsheet Microsoft Excel. Keywords: two-way contingency tables, generating of Monte Carlo, independence test, truncated two-dimensional normal distribution.