( x ) jest dystrybuantą cechy x dla i-tej grupy.

Podobne dokumenty
Testy nieparametryczne

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka matematyczna dla leśników

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wykład 10 Testy jednorodności rozkładów

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Badania eksperymentalne

to odpowiednio średnie z próby dla pierwszej i drugiej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Weryfikacja hipotez statystycznych

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 9 Testy rangowe w problemie dwóch prób

Statystyka Matematyczna Anna Janicka

to odpowiednio średnie z próby dla pierwszej i drugiej

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testy post-hoc. Wrocław, 6 czerwca 2016

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Kolokwium ze statystyki matematycznej

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Metody Statystyczne. Metody Statystyczne

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

STATYSTYKA

166 Wstęp do statystyki matematycznej

Wykład 11 Testowanie jednorodności

Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych. Laboratorium VI: Testy nieparametryczne

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Przykład 1. (A. Łomnicki)

Testowanie hipotez statystycznych.

Statystyka matematyczna i ekonometria

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Spis treści 3 SPIS TREŚCI

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Analiza wariancji i kowariancji

Jednoczynnikowa analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Własności statystyczne regresji liniowej. Wykład 4

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wybrane statystyki nieparametryczne. Selected Nonparametric Statistics

Analiza wariancji. dr Janusz Górczyński

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka matematyczna i ekonometria

Elementarne metody statystyczne 9

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Hipotezy statystyczne

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Hipotezy statystyczne

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Wykład 3 Hipotezy statystyczne

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

STATYSTYKA MATEMATYCZNA

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Testowanie hipotez statystycznych

Zadania ze statystyki cz.8. Zadanie 1.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Przekształcenia zmiennych (cd) Testowanie hipotez część I

Transkrypt:

Testy nieparametryczne porównujące więcej niż dwie grupy Nie wspominaliśmy do tej pory o możliwości porównywania więcej niż dwóch grup w ramach testów parametrycznych. Możliwość taka istnieje (realizowana przykładowo przez jednoczynnikową i wieloczynnikową analizę wariancji), o czym będziemy mówić później. Analiza wariancji, jak większość narzędzi wykorzystujących parametryczne testy (istotności), wymaga jednak spełnienia dość restrykcyjnych założeń. W przypadku braku ich spełnienia, wykorzystywane są testy nieparametryczne, które dodatkowo rozszerzają możliwość analizy na przypadek zmiennych porządkowych. Testy nieparametryczne dla więcej niż dwóch grup niezależnych Najpowszechniej wykorzystywanym nieparametrycznym testem porównującym kilka grup niezależnych jest test Kruskala-Wallisa. Ideą testu jest badanie miar położenia (rozkładu) cechy we wszystkich porównywanych grupach. Hipotezami testu (ogólnie: tej grupy testów nieparametrycznych) są więc: H0 : F1 ( x) = F2 ( x) =... = Fk ( x), gdzie Fi ( x ) jest dystrybuantą cechy x dla i-tej grupy. H1 : m n; m, n [1; k ] Fm ( x) Fn ( x) Aby wyznaczyć statystykę testową testu Kruskala-Wallisa, obserwacje ze wszystkich grup łącznie ranguje się ( r i ) oraz dla każdej grupy ( k grup) wyznacza sumę rang: n i R = r i = 1, 2,..., k i m m= 1 Statystyka testowa przyjmuje postać: k 2 12 Ri H = n + k n( n + 1) n i= 1 i 2 3( 1) ~ χ ( 1) Rozkład statystyki wyprowadzony jest przy mało restrykcyjnym założeniu, że k 3 oraz ini 3, a więc porównujemy przynajmniej trzy grupy, z których wszystkie mają liczebność równą co najmniej 3. Jeśli wartości liczbowe analizowanej cechy (x) są powiązane rangą, to statystyka testu wyznaczana jest z uwzględnieniem tej sytuacji i zwykle oznaczana H *. Przykład1: Za pomocą danych zgromadzonych w bazie gss93 możemy się zastanawiać, czy jazz jest muzyką tak samo lubianą, niezależnie od znaku zodiaku respondenta. Zmienną będącą przedmiotem naszej analizy będzie stopień sympatii do muzyki jazzowej ( jazz ). Jest to zmienna porządkowa, więc nie można w jej przypadku stosować testu parametrycznego, należy użyć jego nieparametrycznego odpowiednika. Zmienna grupująca to zmienna dzieląca na niezależne grupy ze względu na znak zodiaku respondenta ( zodiac ). Zmienna grupująca przyjmuje dwanaście kategorii (dzieli na dwanaście grup). Odpada więc możliwość przeprowadzenia testu Manna-Whitneya, gdyż ten przeznaczony był do porównywania dwóch grup niezależnych. W związku z tym, wybierzemy test Kruskala-Wallisa. W SPSSie test nieparametryczny dla kilku grup niezależnych przeprowadzamy wybierając: Analiza Testy nieparametryczne K prób niezależnych (Analyze Nonparametric Tests K Independent Samples).

Wyskakujące okno wypełniamy w następujący sposób: Proszę zwrócić uwagę, że w przypadku tego testu również definiujemy zakres wartości zmiennej grupującej. Zwraca uwagę również, że zakres definiowany jest od najmniejszej do największej wartości, więc aby wyłączyć kategorie spomiędzy wyznaczonych przez operację definiowania zakresu, należałoby albo wrzucić je (tymczasowo) w braki danych, albo odfiltrować. W wyniku przeprowadzenia testu otrzymujemy:

2 2 Ponieważ χ = 8,382 ~ χ (11); p = 0, 679 > 0, 05 to nie mamy podstaw do odrzucenia hipotezy zerowej. Konkludujemy więc stwierdzeniem, że preferencje odnośnie muzyki jazzowej nie są pochodną konkretnego znaku zodiaku. Przykład2: Za pomocą tych samych, co w poprzednim przykładzie danych, zastanówmy się, czy heavy metal jest muzyką tak samo lubianą, niezależnie od przynależności do grupy wiekowej. Zmienną będącą przedmiotem naszej analizy będzie, tym razem, stopień sympatii do muzyki heavy metal ( hvymetal ). Jest to znowu zmienna porządkowa, więc podobnie jak wcześniej, nie można by w jej przypadku stosować testu parametrycznego, tylko jego nieparametryczny odpowiednik. Zmienna grupująca to zmienna dzieląca na niezależne grupy wiekowe ( agecat4 ). Widzimy, że zmienna ta przyjmuje cztery kategorie (dzieli na cztery grupy). Ponownie więc wybierzemy więc test Kruskala-Wallisa. W wyniku przeprowadzenia testu otrzymujemy:

2 2 A więc χ = 177, 420 ~ χ (3); p < 0, 05, czyli odrzucamy hipotezę zerową o równości dystrybuant w porównywanych podgrupach. O ile w poprzednim przykładzie, brak możliwości odrzucenia hipotezy zerowej był ostatecznym wynikiem testu (równość dystrybuant w porównywanych grupach), o tyle przy przyjmowaniu hipotezy alternatywnej wiemy jedynie, że istnieją statystycznie istotne różnice pomiędzy porównywanymi grupami. Ale pomiędzy którymi? Pomiędzy wszystkimi? Jedynie pomiędzy kilkoma? Odpowiedzi na to pytanie może udzielić wykonanie dla par grup testu Manna-Whitneya/Kolmogorowa- Smirnowa. Należy przy tym pamiętać, że wielokrotne przeprowadzanie tego samego testu może nieść ze sobą dużo większe ryzyko pomyłki (tzw. wielokrotne testowanie przy wnioskowaniu statystycznym nigdy nie jesteśmy pewni wyniku uznajemy za właściwy ten, który w danym przypadku wydaje się być najbardziej prawdopodobny. Jeśli w ramach jednego testu wielokrotnie testujemy tę samą hipotezę, to prawdopodobieństwo popełnienia błędu kumuluje się formalnie: prawdziwy poziom istotności zaczyna przewyższać przyjęty (α )), dlatego też opcja testowania istotności różnic parami za pomocą testu Manna-Whitneya/Kolmogorowa-Smirnowa, powinna być stosowana (i to ze świadomością zagrożenia dla wyniku) tylko przy potrzebie wykonania niewielkiej ilości tych testów. W naszym przypadku wykonamy testy dla par 1-2, 1-3, 1-4, 2-3, 2-4, 3-4 (zmienna agecat4 przyjmuje cztery kategorie) a więc już dla 4 poziomów zmiennej grupującej, istotne statystycznie różnice pomiędzy grupami ze względu na jakąś cechę (czyli przyjęcie hipotezy alternatywnej w teście K-W), zmuszają do wykonania dodatkowo sześciu testów. Ilość ta rosła będzie wykładniczo wraz ze wzrostem ilości kategorii zmiennej grupującej. W naszym przypadku wynikami testów (tylko test Manna-Whitneya, żeby wnioskowanie było bardziej przejrzyste) są:

W naszym przypadku (nie jest to oczywiście reguła), okazuje się, że wszystkie grupy różnią się między sobą w poziomie sympatii dla muzyki heavy metalowej (każdorazowo p<0,05 więc przyjmowaliśmy hipotezę alternatywną o istotnych różnicach). Przykładowo, analizując test Manna-Whitneya porównujący grupy 18-29 i 50+, odczytujemy: Z = 12,555; p < 0,05 czyli różnice w analizowanej cesze (sympatia do heavy metalu zmienna hvymetal ) są istotne statystycznie. Ponieważ dodatkowo widzimy, że grupa 18-29 ma niższą średnią rangę (264,24) niż grupa 50+ (457,35), to ponieważ wyższa wartość zmiennej hvymetal odpowiada niższej (!!!) sympatii do heavy metalu (sprawdź sposób kodowania zmiennej), konkludujemy, że osoby 50+ (co najmniej 50-cio letnie) mniej lubią heavy metal niż osoby 18-29. /Gdyby większa wartość zmiennej hvymetal odpowiadała większej sympatii do muzyki heavy metal, to wyższa średnia ranga wskazywałaby na osoby bardziej z tą muzyką sympatyzujące/. ZADANIE1 ( PGSS_2002_pr ) Czy osoby będące w różnym stanie cywilnym ( q41a ) w podobny sposób lubią Anglię ( q2d )? Jeżeli nie, to jak się układają ich preferencje? ZADANIE2 ( PGSS_2002_pr ) Czy osoby o wykształceniu zasadniczym zawodowym, niepełnym wykształceniu średnim oraz nieukończonym wyższym ( q131a ), tak samo oceniają dochody swojego gospodarstwa w stosunku do jego potrzeb ( q137 )? Jeżeli nie, to pomiędzy którymi grupami są różnice i jakie? /uważaj na kategorie analizowanej zmiennej!/ ZADANIE3 ( PGSS_2002_pr ) Czy osoby, które widują swojego najlepszego przyjaciela kilka razy w tygodniu, mniej więcej raz w tygodniu oraz kilka razy w miesiącu ( sn19 ), tak samo bardzo czują się szczęśliwe ( q95 )? Jeśli nie, to które z tych grup czują się szczęśliwsze od innych? /uważaj na kategorie analizowanej zmiennej!/ ZADANIE4 ( PGSS_2002_pr ) Czy wśród osób pozostających w związku małżeńskim ( q41a ), osoby z grup uważających, że sytuacja na świecie poważnie zagraża Polsce, zagraża tylko w pewnym stopniu i w ogóle nie zagraża ( q3 ), pochodzą z podobnie dużych miast ( size )? Jeśli nie, to pomiędzy którymi grupami zachodzą istotne statystycznie różnice i jakie?

Testy nieparametryczne dla więcej niż dwóch grup zależnych/powiązanych Idea testu jest (mam nadzieję) jasna. Należy jednak dodać, że testy z tej grupy wykonywane są z reguły jedynie dla zmiennych porządkowych, co ogranicza możliwość ich stosowania. Dodatkowo, to co można o nich powiedzieć, to że testy te są nieparametrycznymi odpowiednikami jednoczynnikowej analizy wariancji z powtarzalnym pomiarem albo dwuczynnikowej z klasyfikacją pojedynczą. Praktycznie wykorzystywane testy z tej grupy to najczęściej test rang Friedmana oraz test Kendala. Hipotezy tych testów są takie same jak dla testów nieparametrycznych dla kilku grup niezależnych, czyli: H0 : F1 ( x) = F2 ( x) =... = Fk ( x) H1 : m n; m, n [1; k ] Fm ( x) Fn ( x), gdzie Fi ( x ) jest dystrybuantą cechy x dla i-tej grupy. Przykład: Korzystając z bazy danych gss93, zastanówmy się, czy respondenci w podobny sposób lubią muzykę blues, blugrass i folk. Grupy są zależne, bo każdy z respondentów udzielił odpowiedzi na pytanie o swoje preferencje odnośnie każdego rodzaju muzyki, z czego stworzone zostały trzy zmienne. W SPSSie wybierzemy Analiza Testy nieparametryczne K prób zależnych (Analyze Nonparametric Tests K Related Samples) i wypełnimy wyskakujące okno: W wyniku dostajemy:

Ponieważ p<0,05 to przyjmujemy hipotezę alternatywną, mówiącą o istotnych statystycznie różnicach w dystrybuantach cech dla badanych grup czyli odpowiedzią na nasze pytanie badawcze jest stwierdzenie, że respondenci nie lubili w równy sposób muzyki blues, bluegrass i folk. Którą muzykę woleli od innych można sprawdzić przy użyciu np. testu par rangowanych znaków Wilcoxona (z podobnym jak poprzednio zastrzeżeniem odnośnie wielokrotnego testowania). ZADANIE1 ( PGSS_2002_pr ) Czy społeczeństwo było, jest i będzie w podobnym stopniu szczęśliwe ( q95, q96 i q97 )? /uważaj na kategorie zmiennej (braki danych)/ ZADANIE2 Czy osoby z wykształceniem wyższym ( q131a ) podobną sympatią darzą USA ( q2c ), Anglię ( q2d ) i Czechy ( q2f )?