POJĘCIE MIARY ODEJŚCIA OD RÓWNOMIERNOŚCI ORAZ JEJ WPŁYW NA TESTOWANIE NIEZALEŻNOŚCI W TABLICACH DWUDZIELCZYCH ŚREDNICH ROZMIARÓW

Podobne dokumenty
STUDIA METODOLOGICZNE

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

Parametryczne Testy Istotności

Statystyka. Katarzyna Chudy Laskowska

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

ANALIZA DANYCH DYSKRETNYCH

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

STATYSTYKA I ANALIZA DANYCH

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

1 Testy statystyczne. 2 Rodzaje testów

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

16 Przedziały ufności

Estymacja przedziałowa

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

H brak zgodności rozkładu z zakładanym

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

obie z mocy ustawy. owego.

Statystyka matematyczna dla leśników

Statystyczny opis danych - parametry

Statystyka Wzory I. Analiza struktury

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

Estymacja przedziałowa:

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

STATYSTYKA MATEMATYCZNA

Przejście światła przez pryzmat i z

STATYSTYKA MATEMATYCZNA

Elementy modelowania matematycznego

Metoda łączona. Wykład 7 Dwie niezależne próby. Standardowy błąd dla różnicy dwóch średnich. Metoda zwykła (niełączona) n2 2

Estymacja parametrów populacji

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Zeszyty naukowe nr 9

d wymiarowy wektor losowy Niech (Ω, S, P) przestrzeń probabilistyczna Definicja Odwzorowanie X: Ω R nazywamy 1-wymiarowym wektorem

θx θ 1, dla 0 < x < 1, 0, poza tym,

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Estymacja przedziałowa - przedziały ufności

MOC TESTÓW NIEZALEŻNOŚCI W TABLICY TRÓJDZIELCZEJ 2 2 2

O TESTOWANIU ISTOTNOŚCI WSPÓŁCZYNNIKÓW KORELACJI CZĄSTKOWEJ I WIELORAKIEJ DLA WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Wykład 11 ( ). Przedziały ufności dla średniej

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności)

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Podstawowe testy statystyczne i analiza zależności zjawisk

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Prawdopodobieństwo i statystyka r.

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

ZSTA LMO Zadania na ćwiczenia

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

Lista 6. Estymacja punktowa

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

Rozkład χ 2 = + 2π 2. Niech zmienna losowa x ma rozkład normalnyn(x; µ,σ). Znajdziemy rozkład zmiennej:

MIANO ROZTWORU TITRANTA. Analiza statystyczna wyników oznaczeń

Zestaw II Odpowiedź: Przeciętna masa ciała w grupie przebadanych szczurów wynosi 186,2 g.

SKUTKI ZAWODNOŚCI TRANSFORMATORÓW ROZDZIELCZYCH W SPÓŁCE DYSTRYBUCYJNEJ

POLITECHNIKA OPOLSKA

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Statystyka powtórzenie (I semestr) Rafał M. Frąk

L.Kowalski zadania ze statystyki matematycznej-zestaw 3 ZADANIA - ZESTAW 3

ZADANIA NA ĆWICZENIA 3 I 4

8 Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

µ = Test jest następujący: jeŝeli X > 0.01 to odrzucamy H. 0

O pewnych zastosowaniach rachunku różniczkowego funkcji dwóch zmiennych w ekonomii

COLLEGIUM MAZOVIA INNOWACYJNA SZKOŁA WYŻSZA WYDZIAŁ NAUK STOSOWANYCH. Kierunek: Finanse i rachunkowość. Robert Bąkowski Nr albumu: 9871

n n X n = σ σ = n n n Ponieważ zmienna losowa standaryzowana ma rozkład normalny N(0, 1), więc

Ćwiczenie: Test chi 2 i miary na nim oparte.

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

2.1. Studium przypadku 1

O liczbach naturalnych, których suma równa się iloczynowi

BADANIA DOCHODU I RYZYKA INWESTYCJI

D. Miszczyńska, M.Miszczyński KBO UŁ, Badania operacyjne (wykład 6 _ZP) [1] ZAGADNIENIE PRZYDZIAŁU (ZP) (Assignment Problem)

Prawdopodobieństwo i statystyka r.

1 Przedziały ufności. ). Obliczamy. gdzie S pochodzi z rozkładu B(n, 1 2. P(2 S n 2) = 1 P(S 2) P(S n 2) = 1 2( 2 n +n2 n +2 n ) = 1 (n 2 +n+2)2 n.

Jak obliczać podstawowe wskaźniki statystyczne?

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Wykład 8 Dane kategoryczne

Słowniczek Hipoteza statystyczna Hipoteza parametryczna Hipoteza nieparametryczna Hipoteza zerowa Hipoteza alternatywna Błąd pierwszego rodzaju

VII MIĘDZYNARODOWA OLIMPIADA FIZYCZNA (1974). Zad. teoretyczne T3.

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Transkrypt:

METODY ILOŚCIOWE W BDNICH EKONOMICZNYCH Tom XVII/, 016, s. 111 1 POJĘCIE MIRY ODEJŚCI OD RÓWNOMIERNOŚCI ORZ JEJ WPŁYW N TESTOWNIE NIEZLEŻNOŚCI W TBLICCH DWUDZIELCZYCH ŚREDNICH ROZMIRÓW Piotr Sulewski Istytut Matematyki, kademia Pomorska w Słupsku e-mail: piotr.sulewski@apsl.edu.pl Streszczeie: Gdy hipoteza H 0 o iezależości cech jest słusza, bardzo często wówczas za sprawą małych próbek rozkład statystyki testowej odbiega od rozkładu chi-kwadrat. Kwatyl rozkładu chi-kwadrat ie jest zatem właściwą wartością krytyczą. Obecie ie jest problemem wyzaczaie wartości krytyczej, lecz modelowaie H 0. Modelowaie H 0 to wypełiaie tablic, tórych wartości cechy przypisae wierszom są iezależe od wartości cechy przypisaej kolumom. W pracy zdefiiowao miarę odejścia od rówomierości (m). Gdy H 0 jest słusza, rozkład statystyki testowej zależy od m. Wartość krytyczą ależy ustalać z uwzględieiem m. Słowa kluczowe: tablica dwudzielcza, test iezależości, miara ieprawdziwości H 0, metoda słupkowa, metoda Mote Carlo WPROWDZENIE W każdym popularym podręcziku ze statystyki zajdują się iformacje o m. i. takich testach, jak: iezależości, t Studeta, Kołmogorowa czy Behresa - Fishera. Nie sposób ie zgodzić się zatem z tezą, że testy - obok wspomiaych wcześiej testów - są zapewe ajczęściej stosowaymi arzędziami statystyczymi. Dae do testów iezależości arażuje się w postaci tablic dwudzielczych wk (TD). Statystyka testowa ma asymptotyczy rozkład chi-kwadrat. Takie zdaie często pojawia się w literaturze statystyczej. W praktyce jedak bardzo często rozkład statystyki testowej ie podlega rozkładowi chi-kwadrat, co wyika z małych próbek. Rachuek prawdopodobieństwa ie oferuje metod pozwalających a wyzaczeie dokładych rozkładów. Tak aprawdę, zajomość postaci aalitycz-

11 Piotr Sulewski ej tych rozkładów ie jest am potrzeba. Jedye, co chcemy zać, to wartości kwatyli z tzw. ogoa tych rozkładów, ajczęściej 90% i 95%. Do ich uzyskaia służy metoda modelowaia komputerowego Mote Carlo (MC), dzięki której moża wyzaczać wartość kwatyla a podstawie 10 5 powtórzeń testu zgodości Iteresuje as tutaj rozkład statystyki testowej, gdy hipoteza zerowa H 0 o iezależości cech jest słusza. Przy obecej wydajości komputerów ie staowi problemu wyzaczeie kwatyla, lecz modelowaie H 0. Modelowaie H 0 to wypełiaie takich TD, tórych wartości cechy przypisaej wierszom są iezależe od wartości cech przypisaych kolumom. Odpowiedia do takiego modelowaia jest TD rówomiera, o jedakowym prawdopodobieństwie przyależości do komórek. Jedak w modelowaiu ie moża się ograiczyć tylko do iej. Zjawisko iezależości może wystąpić ażdej TD ierówomierej, gdy prawdopodobieństwo według kolum jest jedakowe we wszystkich wierszach lub prawdopodobieństwo według wierszy jest jedakowe we wszystkich kolumach. Do pokazaia wpływu ierówomierości wypełieia TD a wartość krytyczą wykorzystao ajbardziej zaą i powszechie stosowaą statystykę χ. TD posiada ograiczeia w zakresie stosowaia tej statystyki, która ma asymptotyczy rozkład chi-kwadrat z (w-1)(k-1) stopiami swobody. W celu ziesieia tych ograiczeń zapropoowao wyzaczaie wartości krytyczych a podstawie symulacji komputerowych metodą MC. Także Lilliefors w teście Kołmogorowa dla rozkładu ormalego wyzaczał wartości krytycze za pomocą symulacji, gdy parametry rozkładu były oszacowae z próby. W [Sulewski 016a] pokazao, że wartość krytycza w teście iezależości dla TD - gdy między cechami ie ma związku - zależy ie tylko od liczebości próby i poziomu istotości, ale także od stopia ierówomierości daych. rtykuł obecy jest kotyuacją tamtych rozważań. TD ie są ajmłodszym zagadieiem, dlatego praca [Sulewski 016a] miała charakter sodażowy, a poieważ tematyka w iej zawarta została pozytywie odebraa i zrecezowaa, autor postaowił pójść dalej i rozszerzył swoje badaia a TD wk (w,k=,3) większe iż. Celem artykułu jest przypomieie teorii dotyczącej testów iezależości dla TD, wprowadzeie miary ierówomierości daych oraz aaliza wyików modelowaia statystyczego. aliza ta ujawiła, że - awet gdy H 0 o iezależości cech jest słusza - rozkład statystyki testowej w istoty sposób zależy od ierówomierości wypełieia TD. Zatem wartość krytyczą ależy ustalać z uwzględieiem miary ierówomierości daych. TBLIC DWUDZIELCZ Tabela 1 przedstawia TD wk, która składa się z w k wartości (i=1,,...,w; j=1,,...,k) rozkładu łączego cech X i Y takich, że i 1 j1.

Pojęcie miary odejścia od rówomierości... 113 Tabela 1. Tablica dwudzielcza wk Cecha X Y 1 Cecha Y Y... Y k Razem X 1 11 1... 1 k 1 X 1... k................. X w w1 Razem 1 Źródło: opracowaie włase w... wk... k 11 Komórki TD wk moża także wypełić prawdopodobieństwami i 1 j 1 (i=1,,...,w; j=1,,...,k) takimi, że p 1. W odiesieiu do tabeli 1 wartości te wyzaczae są ze wzoru p * * /. Liczebość oczekiwaą komórki w i-tym wierszu i j-tej kolumie wyzacza się ze wzoru i j e pi p j i 1,,..., w; j 1,,..., k, (1) wówczas statystyka χ dla TD wk ma postać e p pi p j e p p w p p p i1 j1 i1 j1 i j i1 j1 i j k p. () Przeprowadzając badaie populacji geeralej istota jest ie tylko zależość istiejąca między cechami, ale także jej siła. Teorię poświęcoą miarom siły związku moża spotkać praktyczie ażdej książce statystyczej. Część z tych miar wykorzystuje statystykę χ i są to współczyiki V Cramera, T Czuprowa oraz C Pearsoa. Na szczególą uwagę zasługuje jedak asymetrycza miara siły związku między cechami, a miaowicie współczyik τ Goodmaa Kruskala [Goodma, Kruskal 1979]. Niewątpliwym atutem tej miary jest także to, że ma swoje rozszerzeia dla tablic trójdzielczych [Gray, Williams 1975] oraz dla tablic czterodzielczych [D mbra, Crisci 013]. Bazując a klasyczej defiicji iezależości cech autor propouje miarę ieprawdziwości H 0 przyjmującą postać mu i1 j1 p p i p j. (3) Hipoteza zerowa H 0 mówiąca o tym, że między cechami X i Y w TD wk ie ma związku jest słusza, gdy p pi p j i 1,,..., w; j 1,,..., k. Zatem miara (3) przyjmuje wartość 0, gdy hipoteza zerowa H 0 jest słusza. Im większe są wartości mu, tym bardziej ieprawdziwa jest H 0.

114 Piotr Sulewski W pracy [Sulewski 015] wartości krytycze dla TD wyzaczao metodą MC. Pierwszym etapem tego procesu jest wypełiaie TD iezbęde do przeprowadzeia symulacji, którą wykoao metodą słupkową. W tym celu przedział 0 ;1 podzieloo a wk podprzedziałów o szerokościach rówych wartościom prawdopodobieństw p w taki sposób, że pierwszy podprzedział ma szerokość p 11, drugi - p 1,,k-ty - p 1 k,,ostati - p wk. by uzyskać zerową wartość miary mu wielkości p wyzaczoo ze wzoru 1 / w k. Prawdopodobieństwa te spełiają oczywiście waruek ormalizacji p 1. p i 1 j 1 Każda z wygeerowaych liczb losowych rówomierych wpada do jedego z podprzedziałów i tym samym zostaje o jedą zwiększoa liczba obiektów w odpowiadającej temu podprzedziałowi komórce TD. Wielkości spełia- j jące rówość i 1 1 są liczebością obiektów w poszczególych komórkach TD. Rysuek 1 przedstawia schemat wypełiaia komórek TD 3 dla liczebości próby =1000 i miary mu 0, gdy p 1/ 6 dla każdego i=1,,3; j=1,. Tabela prezetuje odpowiadającą temu schematowi TD 3. Rysuek 1. Schemat wypełiaia komórek TD 3 wk =1000 liczb losowych rówomierych p 11 p 1 p 1 p p 31 p 3 0 1/6 /6 3/6 4/6 5/6 1 11 =169 1 =16 1 =148 =175 31 =160 3 =186 Źródło: opracowaie włase

Pojęcie miary odejścia od rówomierości... 115 Tabela. Tablica dwudzielcza 3 otrzymaa metoda słupkową Cecha X Cecha Y Y 1 Y Razem X 1 169 16 331 X 148 175 33 X 3 160 186 346 Razem 477 53 1000 Źródło: opracowaie włase MIR NIERÓWNOMIERNOŚCI DNYCH Wcześiejsze badaia symulacyje autora wykazały, że wartości krytycze zależą od wartości prawdopodobieństw p (i=1,,...,w; j=1,,...,k), dla których miara ieprawdziwości H 0 (3) przyjmuje wartość zero (H 0 o iezależości cech jest słusza). W związku z tym autor propouje miarę ierówomierości daych dla TD w postaci: m wk w k w k i1 j 1 p 1, (4) w k która - w zależości od rozmiaru TD - przyjmuje wartości w przedziale 0, d, gdzie d max 1. W wyrażeiu (4) widocze jest pewe podobieństwo do statystyki χ (). WYZNCZNIE WRTOŚCI KRYTYCZNYCH Istieją pewe ograiczeia w zakresie stosowalości statystyki χ dla TD, w 1 k 1 stopiami swobody. która ma asymptotyczy rozkład chi-kwadrat z W odiesieiu do TD większych iż ze statystyki χ moża korzystać, gdy liczebości oczekiwae (1) e 1oraz gdy ie więcej iż 0% tych wartości jest miejsze iż 5 [Yates, Moore, McCabe 1999, Shier 004]. Natomiast zdaiem Cochra'a [195] statystykę χ dla TD większych iż moża stosować, gdy przyajmiej jeda z liczebości oczekiwaych e 5. W dobie coraz to szybszych komputerów moża za pomocą stosowego oprogramowaia zieść te ograiczeia i drogą symulacyją stosując metodę MC i uwzględiając ierówomierość wypełieia TD - wyzaczyć wartości krytycze. W celu uzyskaia bardziej dokładych wyików wartość krytyczą końcową cv wyzaczoo jako wartość średią kilkudziesięciu wyików, p. u=50. lgorytm wyzaczaia wartości krytyczych dla TD jest astępujący: 1. Sformułowaie hipotezy zerowej H 0 : ie ma związku między cechami.. Ustaleie rozmiaru TD, liczebości próby i poziomu istotości α. max

116 Piotr Sulewski 3. Wybór schematu prawdopodobieństw lub B, gdy w k. 4. Dla przyjętej wartości miary ierówomierości mw k, ustaleie wartości prawdopodobieństw p (i=1,,...,w; j=1,,...,k), dla których miara ieprawdziwości mu 0. wk 5. Wypełiaie TD metodą słupkową a podstawie wartości p (i=1,,...,w; j=1,,...,k) ustaloych roku 4. 6. Wyzaczeie wartości statystyki χ (). 7. R=10 5 krote powtórzeie pkt. 5 i 6. 8. Uporządkowaie olejości rosącej wartości statystyk i i 1,..., R * 9. Obliczeie wartości dystrybuat empiryczych F i i / R 1.. 10. Ustaleie wartości krytyczej cv 1 jako i-tej statystyki pozycyjej, dla której * wartość dystrybuaty empiryczej wyosi F i 1 lub jest bardzo bliska tej wartości. 11. u=50 - krote powtórzeie pkt. 5-10. 50 i 1 i 1. Wyzaczeie wartości krytyczej cv1 / 50 cv. W dalszej części tego puktu wyzaczoo wartości krytycze dla TD w k (w,k=,3,4) większych iż przy poziomie istotości α=0,05 z uwzględieiem miary ierówomierości daych (4) i liczebości próby. Miimalą liczebość próby dla daej TD dobrao tak, aby prawdopodobieństwa brzegowe były róże od zera. Maksymalą liczebość próby ustaloo tak, aby pokazać jak z jej wzrostem maleje wpływ ierówomierości daych w TD a wartość krytyczą. Związek między liczbą komórek w k w aalizowaych TD, a liczebością próby, określają zależości (5) z pewym zaokrągleiem dla TD 3 oraz TD 33 1 w k 3, 75; w k 5; 3 w k 6, 5; (5) w k 7, 5; w k 1, 5; w k 5. 4 5 Stałe liczbowe występujące w (5) mają ścisły związek z liczebością próby dla TD [Sulewski 016b]. Wioski jakie wyikają z uzyskaych wyików dla każdej aalizowaej TD są takie same. Żeby ich ie powielać, zostaą oe przedstawioe a końcu tego puktu. W celu uzyskaia żądaej wartości miary ierówomierości m (4), wartości prawdopodobieństw p i 1,,..., w; j 1,,..., k - dla których miara ieprawdziwości H 0 mu wk 0 - uzyskao ze wzorów: TD 3 schemat : p i 1 1/ 6 q p, p i 1/ 6 q p TD 3 schemat B: p j 6 i 1,,3, 1, 3 1 1/ 6 q p, p j 1/ 6, p j 1/ 6 q p j,

Pojęcie miary odejścia od rówomierości... 117 TD 33: p i gdzie p / w k 1 1/ 9 q p, p i 1/ 9, p i 1/ 9 q p 10 3 oraz 3 q 0,10. 3 1,,3 i, Dla każdego z tych schematów wartość miimala m wk 0, atomiast wartości maksymale to m 1 (schemat ) i m / 3 (schemat B) oraz 3 3 m 33 /3.Jeżeli mw k przyjmuje wartość maksymalą, to ie moża policzyć wartości statystyki (), gdyż prawdopodobieństwa brzegowe są zerowe. Dlatego symulacje komputerowe przeprowadzoo dla wartości m 0,max, gdzie max /3 dla TD 3 (schemat B) i 33 oraz max 1 dla TD 3 (schemat ). Dokłade wartości miary mw k, dla których korzystając z metody MC wyzaczoo wartości krytycze cv 0, 05 to m 3 0,0.1,...,0. 9 (schemat ), m 0,0.1,...,0.5 (schemat B) oraz m 0,0.1,...,0. 6. 3 33 Otrzymae wartości krytycze dla daej wartości miary mw k oraz liczebości próby przedstawioo graficzie a rysukach i 3. Rysuek. Wartości krytycze i wartości miary ierówomierości odoszące się do schematu (po lewej) i do schematu B (po prawej) w TD 3 wk 6,1 5,9 5,9915 6,1 6,0 5,9915 5,7 5,9 5,5 5,8 Wartość krytycza cv 0,05 5,3 5,7 5,1 5,6 chi-kwadrat chi-kwadrat 4,9 5,5 =0 =0 4,7 =30 5,4 =30 =40 =40 4,5 =50 5,3 =50 =75 4,3 5, =75 =150 =150 4,1 5,1 0 0,1 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 0,1 0, 0,3 0,4 0,5 Miara ierówomierości m Miara ierówomierości m Źródło: opracowaie włase Rysuek 3. Wartości krytycze i wartości miary ierówomierości w TD 33 Wartość krytycza cv 0,05 9,6 9,4877 9,4 9, Wartość krytycza cv 0,05 9,0 8,8 chi-kwadrat =40 8,6 =50 =60 =70 8,4 =100 =00 8, 0 0,1 0, 0,3 0,4 0,5 0,6 Miara ierówomierości m Źródło: opracowaie włase

118 Piotr Sulewski Z rysuków i 3 wyika, że w TD dla daej liczebości próby, wartość krytycza cv 0, 05 zmieia się wraz ze wzrostem stopi ierówomierości daych m i przyjmuje ajmiejsze wartości, gdy ta ierówomierość jest ajwiększa. Odchyleia od wartości krytyczej 0,05; w1 k1 wyzaczaej rutyowo z rozkładu chi-kwadrat są zacze i maleją wraz ze wzrostem liczebości próby. Do badań empiryczych iezbędy jest także wskaźik kieruku zmiay ierówomierości (WKZN), którego zadaiem - dla tablic o różej liczbie wierszy i kolum - jest wskazaie odpowiediego schematu prawdopodobieństw do wyzaczaia wartości krytyczych. Schematowi odpowiada WKZN w postaci m, atomiast schematowi B - WKZN w postaci m B. m k j1 p j w 1, mb k pi Wskaźiki (6) przyjmują jedocześie wartość zero, gdy dae w TD są rozłożoe rówomierie. Przykładowe ie wartości tych wskaźików dla TD 3 przedstawia tabela 3. Tabela 3. Wartości WKZN w tablicy dwudzielczej 3 prawdopodobieństw m 0,5, m 0 Y 1 Y X 1 1/1 1/4 1/3 X 1/1 1/4 1/3 X 3 1/1 1/4 1/3 1/4 3/4 1 m 0, m 1 Y 1 Y X 1 0 0 0 X 1/1 1/1 1/6 X 3 5/1 5/1 5/6 1/ 1/ 1 Źródło: opracowaie włase B B i1 1 w m 1, m 0 1 Y 1 Y X 1 0 1/3 1/3 X 0 1/3 1/3 X 3 0 1/3 1/3 0 1 1 m 0, m 1, 1 Y 1 Y X 1 0 0 0 X 1/30 1/30 1/15 X 3 7/15 7/15 14/15 1/ 1/ 1 Jeżeli dla daych empiryczych przedstawioych w postaci TD w k w k m m B, to do wyzaczaia wartości krytyczych ależy skorzystać ze schematu prawdopodobieństw. Jeżeli m m, to ależy skorzystać ze schematu B. B B B (6)

Pojęcie miary odejścia od rówomierości... 119 PRZYKŁDY LICZBOWE Przykład 1 Wśród 1000 klietów PZU mieszkających w województwie Pomorskiem oceioo stopień opaowaia języka ojczystego (cecha X) oraz wyiki w uczeiu się języka obcego (cecha Y). Uzyskae wyiki przedstawia TD 33, wartości p zapisao w awiasach (tabela 4). Za pomocą statystyki χ zbadao iezależość cech X i Y a poziomie istotości 0, 05 z uwzględieiem stopia ierówomierości daych. Tabela 4. Tablica dwudzielcza 33 Cecha X Cecha Y Słabe Przecięte Wysokie Razem Niski 10 (0,050) 19 (0,095) (0,110) 51 (0,55) Przecięty 9 (0,045) 47 (0,35) 1 (0,060) 68 (0,340) Bardzo dobry 58 (0,90) 13 (0,065) 10 (0,050) 81 (0,405) Razem 77 (0,385) 79 (0,395) 44 (0,0) 00 (1) Źródło: dae umowe Do wyzaczeia wartości krytyczych skorzystao z algorytmu opisaego w pukcie 4 i otrzymao astępujące wyiki: H 0 : ie ma związku między cechami. w 3, k 3, 00, 0, 05, m 0, 51. 33 Wartość m 33 0, 51 uzyskao dla ideksu ierówomierości q 884. Wartości prawdopodobieństw dla których m 0, 51 oraz mu 0 to: p 1 0,013; pi 0,111; pi3 0,09 i 1,,3 i. 33 50 Wyzaczeie wartości krytyczej: cv 0,05 1 /50 9, 67 cv i 1 i. 33 Poieważ wartość statystyki testowej 79, 877 jest większa od wartości krytyczej cv 9, 67, zatem są podstawy do odrzuceia H 0. Wartość krytycza 0,05 odczytaa z tablic rozkładu chi-kwadrat to cv 9, 4877. Przykład 0,05;4 W populacji geeralej przeprowadzoo badaie statystycze. Uzyskae wyiki przedstawia TD 3, wartości p zapisao w awiasach (tabela 5). Za pomocą statystyki χ zbadao iezależość cech X i Y a poziomie istotości 0,05 wyzaczając wartość krytyczą testu trzema sposobami: (sposób 1) wartość krytyczą odczytao z tablic rozkładu chi-kwadrat; (sposób ) wartość krytyczą wyzaczoo symulacyjie metodą MC bez uwzględieia ierówomiero-

10 Piotr Sulewski ści daych; (sposób 3) wartość krytyczą wyzaczoo symulacyjie metodą MC z uwzględieiem ierówomierości daych. Tabela 5. Tablica dwudzielcza 3 Źródło: dae umowe Cecha X Y 1 Cecha Y Y Razem X 1 13(0,11) 35(0,37) 48(0,449) X 3(0,08) 38(0,355) 41(0,383) X 3 3(0,08) 15(0,14) 18(0,168) Razem 19(0,178) 88(0,8) 107(1) Do wyzaczeia wartości krytyczych skorzystao z algorytmu opisaego wcześiej i otrzymao astępujące wyiki: H 0 : ie ma związku między cechami. w 3, k, 107, 0, 05, m 3 0 (sposób II), m 3 0, 615 (sposób III). Poieważ WKZN m 0,645 mb 0, 33, więc do wyzaczaia wartości krytyczej ależy skorzystać ze schematu prawdopodobieństw (sposób 3). Wartość m 0 uzyskao dla ideksu ierówomierości q 0 (sposób ), 3 3 wartość m 0, 615 - dla ideksu ierówomierości q 784 (sposób 3). Wartości prawdopodobieństw dla których m mu 0 to: p 1/ 6 1,,3; j 1, mu 0 to: p,036; p 0,97i 1,,3 3 3 i. Wartości prawdopodobieństw dla których m 0, 615 oraz 3 i 1 0 i. Wyzaczeie wartości krytyczych: 50 0,05 i 1 i (sposób ) cv1 /50 6, 01 cv, 50 0,05 i 1 i (sposób 3) cv1 /50 5, 849 cv. 3 Sposób I. Statystyka testowa dla aalizowaych daych wyzaczoa ze wzoru () ma wartość 5, 933, a wartość krytycza odczytaa z tablic rozkładu chi-kwadrat to cv 0,05; 5, 991. Poieważ cv0,05;, zatem ie ma podstaw do odrzuceia H 0. Sposób II. Wartość krytycza wyzaczoa symulacyjie metodą MC bez uwzględieia ierówomierości daych wyosi cv 6, 01 i jest większa od 0,05 wartości statystyki 5, 933, zatem ie ma podstaw do odrzuceia H 0.

Pojęcie miary odejścia od rówomierości... 11 Sposób III. Wartość krytycza wyzaczoa symulacyjie metodą MC z uwzględieiem ierówomierości daych wyosi cv 5, 849 i jest miejsza 0,05 od wartości statystyki 5, 933, zatem są podstawy do odrzuceia H 0. PODSUMOWNIE W badaiu iezależości cech za pomocą TD w k bardzo popularą i często stosowaą miarą jest zapropoowaa przez Pearsoa statystyka χ. W celu ziesieia ograiczeń w stosowaiu tej statystyki wymieioych w pkt. 4, dla TD wartości krytycze wyzaczoo symulacyjie. Godym uwagi jest, że wartości krytycze wyzaczoe symulacyjie metodą MC zależą ie tylko od liczebości próby i poziomu istotości, ale także od zapropoowaej w iiejszej pracy miary ierówomierości daych. Zbieżość rozkładu statystyki testowej do rozkładu chi-kwadrat jest tym woliejsza, im bardziej ierówomiera jest TD. Oczywiście wraz ze wzrostem liczebości próby symulacyje wartości krytycze dążą do tych wyzaczoych z rozkładu chi-kwadrat. Główym przesłaiem tego artykułu jest to, że wartość krytyczą ależy ustalać z uwzględieiem miary ierówomierości wypełieia TD. BIBLIOGRFI Cochra W. G. (1954) Some Methods for Stregtheig the Commo χ Tests. Biometrics, 10(4), 417 451. D mbra., Crisci. (013) Multiple TU decompositio i mea effect ad iteractio term. SIS Statistical Coferece, dvaces i Latet Variables. Methods, Models ad pplicatios, Brescia. Goodma L.., Kruskal W. H. (1979) Measures of ssociatio for Cross Classificatios. Measures of ssociatio for Cross Classificatios. Spriger Series i Statistics, 34. Gray L. N., Williams J. S. (1975) Goodma ad Kruskal s tau b: multiple ad partial aalogs. Proceedigs of the Social Statistics Sectio, merica Statistical ssociatio, 444 448. Shier R. (004) The Chi-squared test for two-way tables. Mathematics Learig Support Cetre. Sulewski P. (015) Wyzaczaie obszaru krytyczego przy testowaiu iezależości w tablicach wielodzielczych. Wiadomości Statystycze, 3, 1 18. Sulewski P., Drapella. (016a) Wpływ ierówomierości wypełieia tablicy dwudzielczej a wartość krytyczą statystyki testowej. Wiadomości Statystycze, 4, 1-16. Sulewski P. (016b) Moc testów iezależości w tablicy dwudzielczej większej iż. Przegląd Statystyczy, oddaa do druku. Yates D. S., Moore D. S., McCabe G. P. (1999) The practice of statistics: TI-83 graphig calculator ehaced. New York, W. H. Freema.

1 Piotr Sulewski CONCEPT OF DEPRTURE-FROM-UNIFORMITY MESURE ND ITS IMPCT ON THE TESTING FOR INDEPENDENCE IN TWO-WY CONTINGENCY TBLES OF MEDIUM DIMENSIONS bstract: Eve whe ull hypothesis H 0 is true, test statistics may ot follow the chi-square distributio. It takes place whe the cotigecy table is filled with a small sample. The relevat quatile of the chi-square distributio is o loger a proper critical value. gai ad agai, also i this case, the Mote Carlo method turs out to be irreplaceable. Modelig H 0 meas geeratig such tables i which values ascribed to rows are idepedet of values ascribed to colums. I paper a departure-from-uiformity measure m was defied. Whe H 0 is true measure m has a strog impact o distributio of the test statistics. So, determiig test critical values oe has to take m ito accout. Keywords: two-way cotigecy table, test of idepedece, utruthfuless measure, bar method, Mote Carlo method