EMPIRYCZNA OCENA MOCY TESTÓW DLA WIELU WARIANCJI

Podobne dokumenty
Weryfikacja hipotez dla wielu populacji

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Nieparametryczne Testy Istotności

Natalia Nehrebecka. Zajęcia 4

65120/ / / /200

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Parametry zmiennej losowej

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Analiza struktury zbiorowości statystycznej

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Procedura normalizacji

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Statystyka matematyczna dla leśników

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Statystyka. Zmienne losowe

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

UWAGI O TESTACH JARQUE A-BERA

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

ANALIZA WARIANCJI (ANOVA) Spis treści

Prawdopodobieństwo i statystyka r.

Natalia Nehrebecka. Zajęcia 3

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

1 Estymacja przedziałowa

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE


Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Proces narodzin i śmierci

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

SYMULACJA KOMPUTEROWA NAPRĘŻEŃ DYNAMICZNYCH WE WRĘGACH MASOWCA NA FALI NIEREGULARNEJ

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

ZASTOSOWANIE ANALIZY HARMONICZNEJ DO OKREŚLENIA SIŁY I DŁUGOŚCI CYKLI GIEŁDOWYCH

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Rozwiązania (lub wskazówki do rozwiązań) większości zadań ze skryptu STATYSTYKA: MATERIAŁY POMOCNICZE DO ZAJĘĆ oraz EGZAMINÓW Z LAT

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

Statystyka Inżynierska

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

Trzecie laboratoria komputerowe ze Staty Testy

STATYSTYKA. Zmienna losowa skokowa i jej rozkład

Proste modele ze złożonym zachowaniem czyli o chaosie

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

STATYSTYKA REGIONALNA

Wydział Matematyki. Testy zgodności. Wykład 03

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Określanie mocy cylindra C w zaleŝności od ostrości wzroku V 0 Ostrość wzroku V 0 7/5 6/5 5/5 4/5 3/5 2/5 Moc cylindra C 0,5 0,75 1,0 1,25 1,5 > 2

ZAJĘCIA 3. Pozycyjne miary dyspersji, miary asymetrii, spłaszczenia i koncentracji

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Zastosowanie hierarchicznej estymacji bayesowskiej w szacowaniu wartości dochodów ludności dla powiatów

Analiza ryzyka jako instrument zarządzania środowiskiem

Funkcje i charakterystyki zmiennych losowych

Sterowanie wielkością zamówienia w Excelu - cz. 3

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Analiza regresji modele ekonometryczne

Zaawansowane metody numeryczne

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Wykład 3 Hipotezy statystyczne

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Zadania ze statystyki, cz.6

WPROWADZENIE DO ANALIZY KORELACJI I REGRESJI

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Transkrypt:

PRZEGLĄD STATYSTYCZNY R. LVI ZESZYT 3-4 009 SABINA DENKOWSKA, KAMIL FIJOREK, MARCIN SALAMAGA, ANDRZEJ SOKOŁOWSKI EMPIRYCZNA OCENA MOCY TESTÓW DLA WIELU WARIANCJI 1. WPROWADZENIE Testy dla welu warancj ne są zbyt popularne wśród testów statystycznych. Może dlatego, że rzadko wykorzystywane są jako procedura docelowa. Raczej służą do weryfkowana założena o równośc warancj wymaganego przez nne procedury przede wszystkm analzę warancj. Mogą być też wykorzystywane do oceny jednorodnośc źródeł danych, które chcemy połączyć dla uzyskana lepszych ocen warancj. Testy dla welu warancj też zazwyczaj same wymagają spełnena pewnych założeń. Najczęścej chodz tu o założene normalnośc rozkładu w populacjach lub przynajmnej rozkładu tego samego typu. Oczywśce, zagadnene porównywana rzeczywstego prawdopodobeństwa błędu perwszego rodzaju oraz mocy testów dla welu warancj było już podejmowane w lteraturze statystycznej. Chyba najbardzej wyczerpującym dośwadczenem były symulacje, których wynk przedstawl Conover, Johnson, Johnson (1981) 1. Poddal on analze m.n. następujące testy: Neymana Pearsona (1931), Bartletta (1937), Cochrana (1941), Scheffego (1959), Levene a (1960), Browna Forsythe a (1974). Zasadnczym celem artykułu jest zbadane zachowana sę wybranych testów dla welu warancj w warunkach prawdzwośc neprawdzwośc założena o normalnośc rozkładu, małych dużych prób, prób równolcznych prób o zróżncowanych lczebnoścach. Badana te przeprowadzono metodam symulacyjnym. Z bogatego zboru testów dla welu warancj do analzy wybrano testy wyróżnone w badanach Conovera, Johnsona, Johnsona z 1981 r. (test Levene a test Flngera- -Klleena), test Browna-Forsythe a, który jest często stosowany ze względu na dostępność w komputerowych paketach statystycznych oraz relatywne nową propozycję O Brena z 1981 r.. WYBRANE TESTY JEDNORODNOŚCI WARIANCJI Założene jednorodnośc (równośc) warancj w obrębe grup jest jednym z wymogów ważnych procedur wnoskowana statystycznego. Spełnene tego założena jest wymagane m.n. w przypadku stosowana jednoczynnkowej analzy warancj ANOVA. 1 Por. []. Por. [1], s. 1.

Empryczna ocena mocy testów dla welu warancj 7 Do bardzej znanych testów jednorodnośc warancj obok testów Hartleya, Cochrana Bartletta należy procedura Levene a 3. W teśce homogencznośc warancj weryfkujemy następujące hpotezy statystyczne: H0: v1 = v = v3 = f = v k H 1 : v! v j przynajmnej dla jednej pary (, j). Założena procedury Levene a (1960) są następujące: 1. Cecha X ma w -tej populacj rozkład normalny N_ n, v, gdze = 1,,, k,. Wartośc przecętne m w k populacjach są neznane. W teśce Levene a dla każdej obserwacj X j wyznaczane jest odchylene absolutne względem wartośc średnej w -tej grupe: Z j = X j, j = 1,,, n, =1,,, k. (1) Statystyka testowa zaproponowana przez Levene a ma postać 4 : N - 1 W = k - 1 k = 1 k n / / = 1 j = 1 n _ rz - rz / _ Z j - rz, () k przy czym: N = / n, natomast Zr oraz Zr oznaczają odpowedno średną wewnątrzgrupową średną mędzygrupową. Przy założenu prawdzwośc hpotezy zerowej = 1 statystyka W ma rozkład Fshera o k 1 oraz N k stopnach swobody. Jeżel na pozome stotnośc a empryczna wartość statystyk W przekracza wartość krytyczną F a;k 1;N k, to hpotezę zerową odrzucamy. Test Levene a został potem zmodyfkowany przez Browna Forsythe a (1974) poprzez zastąpene średnej wewnątrzgrupowej w przekształcenu (1) medaną lub średną ucętą. Autorzy modyfkacj testu Levene a zalecają przede wszystkm stosowane procedury z medaną grupową, gdyż zapewna ona, ch zdanem, test o dość wysokej mocy, który jest odporny na brak normalnośc w rozkładze danych. Kolejną procedurą zaproponowaną do testowana jednorodnośc warancj w k-populacjach jest test Flgnera-Klleena (1974). Ta procedura wymaga utworzena rankngu bezwzględnych wartośc cechy X j. Uporządkowanym nemalejąco wartoścom X j przypsuje sę następne wskaźnk a N oblczane następująco 5 : a N 1 1 = U - c +. ] N + 1g m (3) 3 Por. [5], s. 78-9. 4 Por. [7], s. 49. 5 Por. [6], s. 3.

8 Sabna Denkowska, Kaml Fjorek, Marcn Salamaga, Andrzej Sokołowsk Warto zaznaczyć, że Conover, Johnson, Johnson (1981) zaproponowal rangowane wartośc bezwzględnych cechy X j po uprzednm odjęcu medan grupowych. Statystyka testowa w procedurze Flgnera-Klleena (1974) ma postać: k n_ Ar - ar = /, (4) V = 1 przy czym jest średną wewnątrzgrupową, jest średną mędzygrupową oraz V jest warancją mędzygrupową. Statystyka (4) ma asymptotyczny rozkład ch-kwadrat o k 1 stopnach swobody. Jeżel na pozome stotnośc a empryczna wartość statystyk c przekracza wartość krytyczną a,k - 1, to hpotezę zerową (głoszącą równość warancj w k populacjach) odrzucamy. Neco nne podejśce w testowanu jednorodnośc warancj zaproponował O Bren (1979, 1981). Procedura O Brena wykorzystuje jednoczynnkową analzę warancj ANOVA, która jest stosowana dla przekształconych wartośc cechy X j zgodne ze wzorem 6 : Z j n_ n-15, _ Xj-Xr -05, _ Xj-Xr j = 1 =, _ n -1_ n - n / (5) przy czym: n lczebność -tej grupy, wartośc średnej w -tej grupe. j = 1,,, n, = 1,,, k, Do weryfkacj hpotezy o równośc warancj stosowany jest potem test F Fshera: ] N- kg n _ Zr - Zr = 1 F = k n, ] k - g / / _ Z - Zr k / 1 j = 1 j = 1 (6) k przy czym: N = / n, natomast Zr oraz Zr oznaczają odpowedno średną wewnątrzgrupową mędzygrupową. = 1 Statystyka (6) ma rozkład F o k 1 N k stopnach swobody. Jeżel empryczna wartość statystyk (6) przekracza wartość krytyczną F a;k 1;N k, to hpotezę zerową o równośc warancj w k populacjach odrzucamy. 6 Por. [1], s. 3.

Empryczna ocena mocy testów dla welu warancj 9 3. METODOLOGIA BADAŃ SYMULACYJNYCH Celem przeprowadzena badań symulacyjnych było określene zachowana sę wybranych testów jednorodnośc warancj rozumanego jako zdolność (lub jej brak) do utrzymana nomnalnego prawdopodobeństwa popełnena błędu I rodzaju oraz zdolność do uzyskwana wysokego prawdopodobeństwa odrzucena fałszywej hpotezy zerowej (moc testu) w warunkach zmenających sę lczebnośc prób oraz zmenających sę konfguracj welkośc warancj w poszczególnych próbach. W badanu rozważono cztery testy jednorodnośc warancj: Levene a, Browna-Forsythe a, Flgnera-Klleena oraz O Brena. Wykorzystane symulacj komputerowych jest podyktowane praktyczną nemożlwoścą analtycznego wyznaczena krzywych mocy dla wybranych testów jednorodnośc warancj. W przeprowadzonym badanu rozważono trzy rozkłady prawdopodobeństwa (mechanzmy generujące próby): rozkład normalny, rozkład logarytmczno-normalny, rozkład jednostajny. W przypadku testów jednorodnośc warancj welkość wartośc oczekwanej ne ma wpływu na wynk analzy. W badanach przyjęto arbtralne dla rozkładu logarytmczno- -normalnego oraz normalnego wartość oczekwaną równą 10. W przypadku rozkładu jednostajnego arbtralne przyjęto wartość 0 jako dolną grancę rozkładu. Uzyskane pożądanych wartośc odchylena standardowego było możlwe poprzez odpowedne sterowane górną grancą przedzału, na którym jest określony rozkład jednostajny. W przeprowadzonej symulacj założono, że obserwacje pochodzą z czterech populacj. Ponadto zbudowano trzy mechanzmy określana welkośc odchylena standardowego w każdej z czterech populacj (oznaczonych dolnym subskryptam): s 1 = s = s 3 =1, s 4 = 1,0 + 3* (współczynnk wzrostu odchylena standardowego), s 1 = s = 1, s 3 = s 4 = 1,0 + 3* (współczynnk wzrostu odchylena standardowego), s = 1,0 + ( 1)* (współczynnk wzrostu odchylena standardowego), = 1,, 3, 4. Współczynnk wzrostu odchylena standardowego przyjmuje wartośc od 0 do 0,35 z krokem 0,05. W badanu założono następujące sześć możlwych konfguracj lczebnośc prób: (10, 10, 10, 10), (40, 40, 40, 40), (5, 10, 15, 0), (0, 15, 10, 5), (30, 40, 50, 60), (60, 50, 40, 30). Wykorzystane zarówno prób równolcznych, jak nerównolcznych jest podyktowane chęcą zbadana wpływu tego czynnka na zachowane sę rozważanych testów statystycznych. Ponadto uwzględnene lczebnośc prób (5, 10, 15, 0), (0, 15, 10, 5), (30, 40, 50, 60), (60, 50, 40, 30) pozwala zbadać łączny wpływ welkośc odchylena standardowego w danej próbe oraz lczebnośc tej próby na rozważane testy jednorodnośc warancj. Wszystke symulacje przeprowadzono w środowsku statystycznym R (www.r-project.org) w oparcu o autorske skrypty oblczenowe.

30 Sabna Denkowska, Kaml Fjorek, Marcn Salamaga, Andrzej Sokołowsk 4. WYNIKI BADAŃ 4.1. KONTROLA BŁĘDU PIERWSZEGO RODZAJU W sytuacj prawdzwośc hpotezy zerowej badana symulacyjne pozwolły oszacować rozmary rozpatrywanych testów 7 jednorodnośc warancj. W celu oszacowana prawdopodobeństwa popełnena błędu I rodzaju dzesęć tysęcy razy generowano cztery próby o różnej lcznośc z wybranych rozkładów za każdym razem badano, która z procedur ne rozpozna stanu faktycznego, czyl równośc warancj we wszystkch grupach. W tabelach 1-3 przedstawone są wynk otrzymane w zależnośc od lczebnośc podgrup. Ważnym założenem wększośc testów jednorodnośc warancj jest założene mówące o normalnośc populacj, z których losujemy próby. W prowadzonych badanach symulacyjnych szacowano prawdopodobeństwo błędu I rodzaju w sytuacj, gdy założene o normalnośc jest spełnone (patrz: tabela 1), ale równeż badano wrażlwość tych procedur na nespełnene tego założena. Tabela prezentuje wynk dla prób generowanych z rozkładu lognormalnego, a tabela 3 z rozkładu jednostajnego. Tabela 1 Oceny prawdopodobeństw odrzucena prawdzwej hpotezy zerowej równe odchylena standardowe, rozkłady normalne Lczebnośc grup TEST I II III IV Levene a B-F F-K O Brena 10 10 10 10 0,0694 0,0346 0,0358 0,0389 40 40 40 40 0,0547 0,0430 0,044 0,0453 5 10 15 0 0,0814 0,0368 0,0379 0,0608 30 40 50 60 0,0616 0,0501 0,0511 0,054 Źródło: opracowane własne. W tabel 1 przedstawono wynk uzyskane, gdy próby były losowane z populacj normalnych o równych warancjach. Najgorzej wypadł test Levene a, który dla wszystkch rozpatrywanych warantów lczebnośc przekroczył przyjęty na wstępe badań pozom stotnośc 0,05. Szczególne wysoke prawdopodobeństwo błędnego odrzucena prawdzwej hpotezy zerowej można zauważyć dla małych, nerównolcznych prób. Procedura ta ne wypada dobrze równeż w przypadku dużych, ale nerównolcznych próbek. Najlepej w tej częśc badań wypadają procedury Browna-Forsythe a oraz Flgnera-Klleena. Obe zapewnają kontrolę błędu I rodzaju na pozome 0,05, neznaczne przekraczając to prawdopodobeństwo w przypadku dużych, nerównolcznych prób. Pomędzy proceduram Browna-Forsythe a oraz Flgnera-Klleena uplasowała sę 7 Patrz [4], s. 3.

Empryczna ocena mocy testów dla welu warancj 31 procedura O Brena, która zapewna kontrolę błędu I rodzaju dla prób równolcznych, równeż małych. W przypadku próbek o różnej lcznośc oszacowane prawdopodobeństwa, mmo ż wększe od 0,05, są jednak znaczne nższe od prawdopodobeństw otrzymanych przy zastosowanu testu Levene a. Tabele 3 przedstawają wynk w przypadku, gdy nespełnone są założena o normalnośc rozkładów. W tabel przedstawone są wynk symulacj prowadzonych dla prób generowanych z rozkładu lognormalnego. Zaskakują bardzo złe wynk testu Levene a. Oszacowane prawdopodobeństwa popełnena błędu I rodzaju przekraczają 0,3! Okazuje sę, że zastosowane tego testu do prób z rozkładu lognormalnego powoduje odrzucene co najmnej 30% prawdzwych hpotez zerowych. Najbardzej odporny okazał sę test Browna-Forsythe a, który jedyne w sytuacj małych, nerównolcznych prób przekroczył założony na wstępe pozom stotnośc 0,05. W marę odporny okazał sę równeż test O Brana, który kontrolę prawdopodobeństwa odrzucena hpotezy prawdzwej zapewnał w przypadku dużych prób. Nestety, prawdopodobeństwo błędu I rodzaju dwukrotne przekracza dopuszczalny pozom stotnośc w przypadku zastosowana tego testu do małych nerównolcznych próbek. Test Flgnera-Klleena we wszystkch rozpatrywanych warantach lczebnośc ponad dwukrotne przekraczał a. Tabela Oceny prawdopodobeństw odrzucena prawdzwej hpotezy zerowej równe odchylena standardowe, rozkłady lognormalne Lczebnośc grup TEST I II III IV Levene a B-F F-K O Brena 10 10 10 10 0,3438 0,039 0,105 0,0584 40 40 40 40 0,3013 0,048 0,1533 0,0344 5 10 15 0 0,338 0,057 0,1175 0,1044 30 40 50 60 0,3059 0,0485 0,1654 0,0405 Źródło: opracowane własne. Tabela 3 przedstawa wynk uzyskane dla prób losowanych z rozkładu jednostajnego. I w tym przypadku najgorzej wypadła procedura Levene a, która dla wszystkch czterech warantów lczebnośc dała oszacowana przekraczające 0,05. Uzyskane przez tę procedurę wynk są zblżone do rezultatów uzyskanych dla rozkładu normalnego (por. tabela 1) potwerdza sę spostrzeżene, że procedura ta ne wypada dobrze w przypadku małych, nerównolcznych prób, jak równeż w przypadku dużych, ale nerównolcznych prób. W sytuacj rozkładu prostokątnego zarówno procedura Browna- Forsythe a, jak Flgnera-Klleena wypadły w badanach bardzo dobrze, uzyskując prawdopodobeństwa błędnej decyzj ponżej 0,05. Dla testu O Brena, podobne jak w przypadku rozkładu normalnego, otrzymano neznaczne przeszacowane prawdopodobeństwa błędu I rodzaju w przypadku prób nerównolcznych.

3 Sabna Denkowska, Kaml Fjorek, Marcn Salamaga, Andrzej Sokołowsk Tabela 3 Oceny prawdopodobeństw odrzucena prawdzwej hpotezy zerowej równe odchylena standardowe, rozkłady jednostajne Lczebnośc grup TEST I II III IV Levene a B-F F-K O Brena 10 10 10 10 0,0709 0,05 0,03 0,0411 40 40 40 40 0,056 0,033 0,033 0,0471 5 10 15 0 0,097 0,0374 0,0309 0,0665 30 40 50 60 0,0607 0,0389 0,0379 0,053 Źródło: opracowane własne. W prowadzonych badanach rozważano trzy rozkłady, z których generowano próby losowe. Okazało sę, że wynk jake uzyskano dla rozkładu jednostajnego tylko neznaczne różną sę od wynków otrzymanych dla rozkładu normalnego, który stanow kluczowe założene wększośc procedur służących do badana jednorodnośc warancj. Natomast bardzo stotne różnce wystąpły w przypadku zastosowana testów do prób wygenerowanych z rozkładu lognormalnego. W przypadku gdy s ³ 1 rozkład lognormalny charakteryzuje sę slną prawostronną asymetrą wydaje sę, że właśne to odejśce od symetr jest powodem tak znacznego pogorszena oszacowań błędów I rodzaju procedur Levene a Flgnera-Klleena. Podsumowując część badań dotyczącą kontrol błędu I rodzaju możemy stwerdzć, że pod tym względem zdecydowane najgorzej wypadła procedura Levene a. Okazała sę neodporna w przypadku nerównych lub nelcznych prób, nawet tych losowanych z rozkładu normalnego. W przypadku rozkładu asymetrycznego jakm jest rozkład lognormalny, wynk tej procedury pogarszają sę tak drastyczne, że jej stosowane wydaje sę wręcz nedopuszczalne. Najlepej spośród rozważanych testów wypadł test Browna- -Forsythe a. Test ten okazał sę znaczne bardzej od nnych procedur odporny na nerównolczność prób, czy też odchylena od normalnośc. Stosunkowo dobrze wypadł on równeż w przypadku slnej asymetr rozkładu lognormalnego, przekraczając zaledwe o 0,007 założony pozom stotnośc dla prób małych nerównolcznych. Z pozostałych testów cekawe wypada test O Brena, dla którego oszacowane prawdopodobeństwa testowe oscylują koło 0,05, neznaczne przekraczając tę wartość dla prób nerównolcznych. W przypadku slnej asymetr rozkładu lognormalnego test ten okazał sę neodporny tylko w przypadku małych prób, w przecweństwe do testu Flgnera-Klleena, dla którego wszystke oszacowane prawdopodobeństwa odrzucena prawdzwej hpotezy zerowej okazały sę ponad dwukrotne wększe od przyjętego pozomu stotnośc. 4.. BADANIE MOCY PROCEDUR Mocą testu nazywamy prawdopodobeństwo podjęca słusznej decyzj polegającej na odrzucenu fałszywej hpotezy zerowej. Druga część badań mała na celu porów-

Empryczna ocena mocy testów dla welu warancj 33 nane mocy wybranych testów służących do badana równośc welu warancj. W tym przypadku tysąc razy generowano cztery próby o różnej lczebnośc z wybranych rozkładów za każdym razem badano, która z procedur rozpozna stan faktyczny, czyl brak równośc warancj we wszystkch grupach. Dla każdej z procedur szacowano prawdopodobeństwa wykryca nejednorodnośc warancj. Istotnym założenem welu testów jednorodnośc warancj jest założene dotyczące normalnośc rozkładów, z których poberane są próby. Nestety, w praktyce często założene to ne jest spełnone, a mmo to procedury są stosowane. W badanach sprawdzano węc moc procedur ne tylko w sytuacj, gdy próby są generowane z rozkładów normalnych. Generowano równeż próby z rozkładu jednostajnego lognormalnego. Tak węc symulacje mały na celu równeż ocenę odpornośc wybranych testów w przypadku nespełnena założena o normalnośc. Na wstępe, w celu porównana mocy procedur w sytuacj spełnonych założeń, eksperymenty przeprowadzono dla prób generowanych z rozkładów normalnych. Wszystke cztery rozpatrywane testy osągały porównywalne rezultaty w przypadku dużych prób. Oczywśce, prawdopodobeństwa rozpoznana nejednorodnośc warancj rosły wraz ze wzrostem różnc pomędzy warancjam. Jednak wykrywalność nejednorodnośc warancj okazała sę wyraźne lepsza, gdy rosła warancja tylko w jednej lub dwóch grupach. Dla obu tych sytuacj oszacowane prawdopodobeństwa różnły sę neznaczne. Welkość próby: 10 10 10 10 1.0 0.8 Test Levene B-F F-K O Bren Moc testu 0.0 0. 0.4 0.6 0.00 0.05 0.10 0.15 0.0 0.5 0.30 0.35 Współczynnk wzrostu odchylena standardowego Rysunek 1. Oceny mocy testów dla prób z rozkładu normalnego. Odchylena standardowe wynoszą odpowedno: s 1 = s = s 3 =1 s 4 = 1 + 3* (współczynnk wzrostu odchylena standardowego) Źródło: opracowane własne.

34 Sabna Denkowska, Kaml Fjorek, Marcn Salamaga, Andrzej Sokołowsk Wyraźne różnce pomędzy testam dało sę zaobserwować w wykrywalnośc nejednorodnośc warancj w przypadku małych prób. W przypadku prób równolcznych 10-elementowych zdecydowane najlepszym rozpoznanem nejednorodnośc wykazała sę procedura Levene a. Procedura ta jednak ne zapewna kontrol błędu I rodzaju na założonym pozome stotnośc, co stanow jej poważny mankament. Dla pozostałych trzech procedur różnce w oszacowanych prawdopodobeństwach były neznaczne, ale wyraźne gorsze od prawdopodobeństw otrzymanych dla procedury Levene a. Tylko w sytuacj, gdy warancja rosła w jednej grupe (patrz: rys. 1) różnce medzy testam były wyraźnejsze spośród testów kontrolujących prawdopodobeństwo błędu I rodzaju najlepej wypadł test O Brena, trochę gorzej test Browna-Forsythe a, a najgorzej test Flgnera-Klleena. Oczywśce, różnce pomędzy testam rosły wraz ze wzrostem warancj w grupe. W przypadku małych nerównolcznych prób okazało sę, ż stotny wpływ na rozpoznane nejednorodnośc warancj przez różne testy ma fakt, czy mnejszym próbom w eksperymence odpowadały mnejsze czy wększe warancje. I tak np. procedura O Brena była najlepsza, gdy wększym lczebnoścom odpowadały mnejsze warancje, podczas gdy w sytuacj odwrotnej wypadała ona najgorzej w rankngu testów jednorodnośc warancj (patrz: rys. ). Welkość próby: 5 10 15 0 1.0 0.8 Test Levene B-F F-K O Bren Moc testu 0.0 0. 0.4 0.6 0.00 0.05 0.10 0.15 0.0 0.5 0.30 0.35 Współczynnk wzrostu odchylena standardowego Rysunek. Oceny mocy testów dla prób z rozkładu normalnego. Odchylena standardowe w poszczególnych grupach wynoszą odpowedno: s 1 = s = 1 s 3 = s 4 = 1 + 3* (współczynnk wzrostu odchylena standardowego) Źródło: opracowane własne.

Empryczna ocena mocy testów dla welu warancj 35 Podsumowując, eksperymenty symulacyjne przeprowadzone na próbach generowanych z rozkładów normalnych, można stwerdzć, ż w przypadku dużych prób wszystke badane procedury mały zblżone wynk rozpoznana nejednorodnośc podgrup. W przypadku małych prób sytuacja była bardzej skomplkowana. Najlepsze prawdopodobeństwa rozpoznana nejednorodnośc mał test Levene a, który jednak ne zapewnał kontrol błędu I rodzaju na założonym pozome stotnośc. W przypadku procedury O Brena wynk, w porównanu do pozostałych testów, wahały sę od bardzo dobrych do bardzo słabych, a zależało to od tego, czy lcznejszym próbom odpowadały mnejsze czy wększe warancje. Wydaje sę, że taka nestablność dyskwalfkuje procedurę O Brena w badanach praktycznych w przypadku małych prób. Dobre, stablne wynk mała procedura Browna-Forsythe a, która w przecweństwe do procedury Levene a kontrolowała prawdopodobeństwo odrzucena prawdzwej hpotezy zerowej na przyjętym w eksperymence pozome stotnośc 0,05. Poneważ w badanach praktycznych ne mamy możlwośc rozpoznana, czy mnejszym próbom odpowada wększa czy mnejsza warancja (chyba, że oprzemy sę na obserwacjach dla prób) wydaje sę węc, że najbezpecznej w przypadku małych, nerównolcznych prób decyzję o nejednorodnośc warancj przeprowadzać za pomocą np. testu Browna-Forsythe a. Kolejne eksperymenty symulacyjne polegały na losowanu prób z rozkładu lognormalnego jednostajnego o zadanych parametrach badanu wrażlwośc testów na odejśce od założena o normalnośc. Welkość próby: 10 10 10 10 Moc testu 0.0 0. 0.4 0.6 0.8 1.0 Test Levene B-F F-K O Bren 0.00 0.05 0.10 0.15 0.0 0.5 0.30 0.35 Współczynnk wzrostu odchylena standardowego Rysunek 3. Oceny mocy testów dla prób z rozkładu lognormalnego. Odchylena standardowe wynoszą odpowedno dla -tej grupy: s 4 = 1 + ( 1)* (współczynnk wzrostu odchylena standardowego) Źródło: opracowane własne.

36 Sabna Denkowska, Kaml Fjorek, Marcn Salamaga, Andrzej Sokołowsk Interesująco, ale zarazem nepokojąco wypadły badana, w których próby były generowane z rozkładu lognormalnego. Zdecydowane najlepej nejednorodność warancj wykrywała procedura Levene a (por. rys. 3). W przypadku małych, nerównolcznych prób z rozkładu lognormalnego okazało sę, że stotna jest zależność pomędzy lczebnoścą próby welkoścą warancj. I tak, w przypadku gdy lcznejszej próbe odpowada wększa warancja (bez znaczena jest fakt, czy zmany warancj zachodzły w jednej, dwóch czy w trzech grupach) procedura Flgnera-Klleena wydaje sę jedynym rozwązanem. Natomast gdy mnejszej próbe odpowada wększa warancja, wyraźne poprawa sę moc pozostałych procedur (Browna-Forsythe a O Brena). W przypadku dużych prób generowanych z rozkładów jednostajnych wszystke testy uzyskały prawdopodobeństwa rozpoznana nejednorodnośc warancj co najmnej tak dobre, jak w analogcznym eksperymence z próbam generowanym z rozkładu normalnego. Wśród rozważanych testów najlepej wypadła procedura O Brena. Procedura O Brena równeż w przypadku małych prób dała najlepsze oszacowana prawdopodobeństw rozpoznana nejednorodnośc warancj. Szczególne duży kontrast w stosunku do pozostałych procedur pojawał sę wtedy, gdy próby były równolczne lub gdy mnejszej próbe odpowadała wększa warancja (rys. 4). Welkość próby: 0 15 10 5 Moc testu 0.0 0. 0.4 0.6 0.8 1.0 Test Levene B-F F-K O Bren 0.00 0.05 0.10 0.15 0.0 0.5 0.30 0.35 Współczynnk wzrostu odchylena standardowego Rysunek 4. Oceny mocy testów dla prób z rozkładu jednostajnego, w przypadku gdy mnejszej próbe odpowada wększa warancja. Odchylena standardowe wynoszą dla -tej grupy odpowedno: s 4 = 1 + ( 1)* (współczynnk wzrostu odchylena standardowego) Źródło: opracowane własne.

Empryczna ocena mocy testów dla welu warancj 37 W najgorszym przypadku, gdy najmnejszej próbe odpowadała najmnejsza warancja, procedura O Brena mała wynk zblżone do wynków pozostałych procedur: Browna-Forsythe a Flgnera-Klleena. Najlepej w tym eksperymence wypadła procedura Levene a, należy jednak wspomneć, że równeż w tym eksperymence test ten dał prawe dwukrotne przeszacowane przyjętego na wstępe pozomu stotnośc. 5. PODSUMOWANIE Przeprowadzone badana symulacyjne potwerdzły, że ne ma jednego najlepszego, czy też unwersalnego testu jednorodnośc warancj. Zalecena autorów, wynkające z przeprowadzonych badań, odnośne wyboru najwłaścwszego testu jednorodnośc w zależnośc od rozważanych czynnków, takch jak m.n. rozkład, czy lczebnośc prób, przedstawone są w tabelach 4-5. W kolumne zalecena wymenone są procedury w zalecanej kolejnośc stosowana. Tabela 4 Zalecena odnośne wyboru testu jednorodnośc warancj w przypadku losowana prób z rozkładów co najmnej zblżonych do rozkładu normalnego lub do rozkładu jednostajnego Lczebnośc prób Zalecena (rozkłady zblżone do rozkładu normalnego) Zalecena (rozkłady zblżone do rozkładu jednostajnego) Małe Równolczne Nerównolczne 1. Test O Brena. Test Browna-Forsythe a 3. Test Flgnera-Klleena 4. Test Levene a (p = 0,0694) 1. Test Browna-Forsythe a. Test Flgnera-Klleena 3. Test Levene a (p = 0,0814) 4. Test O Brena (p = 0,0608) 1. Test O Brena. Test Levene a (p = 0,0709) 3. Test Browna-Forsythe a 4. Test Flgnera-Klleena 1. Test O Brena (p = 0,0665). Test Levene a (p = 0,097) 3. Test Browna-Forsythe a 4. Test Flgnera-Klleena Duże Równolczne Nerównolczne 1. Test O Brena. Test Levene a (p = 0,0547) 3. Test Browna-Forsythe a 4. Test Flgnera-Klleena 1. Test O Brena (p = 0,054). Test Levene a (p = 0,0616) 3. Test Browna-Forsythe a (p = 0,0501) 4. Test Flgnera-Klleena (p = 0,0511) 1. Test O Brena. Test Flgnera-Klleena 3. Test Levene a (p = 0,056) 4. Test Browna-Forsythe a 1. Test O Brena (p = 0,053). Test Flgnera-Klleena 3. Test Levene a (p = 0,0607) 4. Test Browna-Forsythe a Źródło: opracowane własne (w nawasach obok nazw procedur podano oszacowane dla tych procedur prawdopodobeństwa popełnena błędu I rodzaju wększe od 0,05).

38 Sabna Denkowska, Kaml Fjorek, Marcn Salamaga, Andrzej Sokołowsk Część z zalecanych testów ne zapewna kontrol błędu I rodzaju. Poneważ dla rozpatrywanych procedur różnce w oszacowanach prawdopodobeństw błędu I rodzaju były znaczne w zależnośc od rodzaju procedury, czy też rozważanej sytuacj badawczej, w nawase obok nazwy procedury podano oszacowane prawdopodobeństwa popełnena błędu I rodzaju, wtedy gdy jest ono wększe od 0,05. Kolejność zalecanych testów zależała od klku czynnków. Oczywśce, autorzy staral sę wyróżnć testy o najwększej mocy, zapewnające kontrolę błędu I rodzaju. W nektórych sytuacjach badawczych wybór najlepszych procedur był szczególne trudny, gdy np. procedury dobrze rozpoznające nejednorodność warancj, mały zbyt wysoke prawdopodobeństwa błędu I rodzaju. Prawdopodobeństwa popełnena błędu I rodzaju zostały węc podane, by badacz korzystający z tego opracowana mał orentację, na jak błąd I rodzaju sę naraża dokonując wyboru procedury ewentualne rozważył, czy jest to dopuszczalne w prowadzonych przez nego badanach. Jeśl ne dopuszcza takego pozomu błędu I rodzaju, może rozważyć zastosowane testu na odpowedno nższym pozome stotnośc lub też zastosować kolejny test z lsty zaleceń. Tabela 5 Zalecena odnośne wyboru testu jednorodnośc warancj w przypadku losowana prób z rozkładów o wyraźnej asymetr umarkowanej Lczebnośc prób Zalecena Równolczne Test Flgnera-Klleena (p = 0,105) Małe Duże Nerównolczne Równolczne nerównolczne Żaden z testów ne zasługuje na rekomendację, ale najmnejszym złem wydaje sę test Flgnera-Klleena (p = 0,1175). 1. Test Flgnera-Klleena (p = 0,1700). Test Browna-Forsythe a Źródło: opracowane własne (w nawasach obok nazw procedur podano oszacowane dla tych procedur prawdopodobeństwa popełnena błędu I rodzaju wększe od 0,05). W tabel 4 podane są zalecena w sytuacj, gdy próby są losowane z rozkładów normalnych (lub rozkładów co najmnej zblżonych do normalnych) oraz dla prób losowanych z rozkładów lognormalnych. W badanach rozważano odchylena standardowe, dla których rozkład lognormalny charakteryzuje sę wyraźną asymetrą prawostronną. Wydaje sę, że zalecena z tej częśc badań można odneść ne tylko do rozkładu lognormalnego, ale do szerszej klasy rozkładów umarkowane asymetrycznych. Unwersytet Ekonomczny w Krakowe LITERATURA [1] Abd H., [007], O Bren test for homogenety of varance, [w:] N.J. Salknd (red.), Encyclopeda of Measurement and Statstcs, Thousand Oaks (CA), Sage, pp. 701-704.

Empryczna ocena mocy testów dla welu warancj 39 [] Conover W.J., Johnson M.E., Johnson M.M., [1981], A Comparatve Study of Tests for Homogenety of Varances, wth Applcatons to the Outer Contnental Shelf Bddng Data, Technometrcs, Vol. 3, No. 4, s. 351-361. [3] Domańsk Cz., [1986], Teoretyczne podstawy testów neparametrycznych ch zastosowane w naukach ekonomczno-społecznych, Acta Unverstats Lodzenss, Wyd. UŁ, s. 33-40. [4] Domańsk Cz., [1990], Testy statystyczne, PWE. [5] Domańsk Cz., Pruska K., [000], Neklasyczne metody statystyczne, PWE. [6] Flnger M.A., Klleen T.J., [1976], Dstrbuton-Free Two-Sample Tests for Scale, Journal of the Amercan Statstcal Assocaton, 71, 10-13. [7] Lehmann E.L., (1959), Testng Statstcal Hypothess, New York, John Wley. [8] Levene, H., [1960], In Contrbutons to Probablty and Statstcs: Essays n Honor of Harold Hotellng, I. Olkn et al. (red.), Stanford Unversty Press, s. 78-9. [9] Xu-Feng N., [004], Statstcal Procedures for Testng Homogenety of Water Qualty Parameters, Department of Statstcs Florda State Unversty Tallahassee. [10] Zelńsk W., [1999], Wybrane testy statystyczne, Fundacja Rozwój SGGW, Warszawa. Praca wpłynęła do redakcj w kwetnu 009 r. EMPIRYCZNA OCENA MOCY TESTÓW DLA WIELU WARIANCJI Streszczene Testy dla welu warancj stosuje sę zwykle do weryfkowana założena o równośc warancj wymaganego przez nne procedury przede wszystkm analzę warancj. Mogą być też wykorzystywane do oceny jednorodnośc źródeł danych, które chcemy połączyć dla uzyskana lepszych ocen warancj. Testy dla welu warancj też zazwyczaj same wymagają spełnena pewnych założeń. Najczęścej chodz tu o założene normalnośc rozkładu w populacjach lub przynajmnej rozkładu tego samego typu. Celem artykułu jest zbadane zachowana sę wybranych testów dla welu warancj w warunkach prawdzwośc neprawdzwośc założena o normalnośc rozkładu, małych dużych prób, prób równolcznych prób o zróżncowanych lczebnoścach. Badana te przeprowadzono metodam symulacyjnym. W badanu rozważono cztery testy jednorodnośc warancj: Levene a, Browna-Forsythe a, Flgnera-Klleena oraz O Brena. Słowa kluczowe: testy dla welu warancj, symulacje Monte Carlo, test Levene a, test Browna-Forsythe a, test Flgnera-Klleena, test O Brena. A COMPARATIVE STUDY OF TESTS POWER FOR HOMOGENEITY OF VARIANCES Summary Some statstcal tests, for example the analyss of varance, assume that varances are equal across groups or samples. Tests for homogenety of varances can be used to verfy that assumpton and for poolng of data from dfferent sources to yeld an mproved estmated varance. Tests for homogenety of varances can be used usually under assumpton of normal dstrbutons or nearly normal dstrbutons. In ths paper some tests for homogenety of varances are examned under the null hypothess and under the alternatve, for varous sample szes, for varous symmetrc and asymmetrc dstrbutons. Monte Carlo smulatons has been used for ths. In ths paper the followng procedures have been analyzed: Levene a test, Brown-Forsythe test, Flgner-Klleen test and O Bren test. Key words: tests for homogenety of varances, Monte Carlo, Levene s test, Brown-Forsythe test, Flgner- Klleen test, O Bren test.