to odpowiednio średnie z próby dla pierwszej i drugiej



Podobne dokumenty
to odpowiednio średnie z próby dla pierwszej i drugiej

( x ) jest dystrybuantą cechy x dla i-tej grupy.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Testy nieparametryczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

Jednoczynnikowa analiza wariancji

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Statystyka matematyczna dla leśników

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 3 Hipotezy statystyczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

1 Estymacja przedziałowa

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Testowanie hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wykład 9 Testy rangowe w problemie dwóch prób

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka Matematyczna Anna Janicka

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Badania eksperymentalne

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Żródło:

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

166 Wstęp do statystyki matematycznej

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Testowanie hipotez statystycznych

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Weryfikacja hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Metody Statystyczne. Metody Statystyczne

STATYSTYKA MATEMATYCZNA

Zadanie 1. Analiza Analiza rozkładu

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Statystyka matematyczna i ekonometria

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Rozkłady statystyk z próby

STATYSTYKA

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Wykład 11 Testowanie jednorodności

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

STATYSTYKA MATEMATYCZNA

Wykład 10 Testy jednorodności rozkładów

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Statystyka matematyczna

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Kolokwium ze statystyki matematycznej

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

KORELACJE I REGRESJA LINIOWA

Weryfikacja hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Elementarne metody statystyczne 9

Testowanie hipotez statystycznych cd.

Szkice rozwiązań z R:

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Transkrypt:

Test równości dwóch średnich (test dla dwóch prób) Test ten weryfikuje równość średnich dla dwóch zmiennych. Można to zapisać za pomocą zestawu hipotez: H : m = m H : m m zmiennej. 0 2 2, gdzie m, m 2 to odpowiednio średnie z próby dla pierwszej i drugiej Z uwagi na możliwość zdefiniowania grup, których owe zmienne się tyczą, wyróżnia się dwa przypadki:. Test na równość średnich dla grup niezależnych 2. Test na równość średnich dla grup zależnych (powiązanych) UWAGA! Zastosowanie testu dwóch średnich wymaga spełnienia przez zmienne warunku normalności rozkładu (w każdej analizowanej podgrupie). Uwaga ta jest szczególnie istotna dla grup, których liczność nie przekracza 30 dla tych grup, w przypadku braku spełnienia założenia o normalności rozkładu, nie jest uzasadnione korzystanie z testu t na równość dwóch średnich. W przypadku braku spełnienia założenia o normalności (można je sprawdzić np. testem Kołmogorowa-Smirnowa), równość średnich można weryfikować analogicznym testem nieparametrycznym. Test na równość średnich dla dwóch grup niezależnych Grupy niezależne, to takie, których jednostki się między sobą nie mieszają. W badanej próbie mogą to być takie grupy, na które dzieli tę próbę dychotomiczna (binarna) zmienna. Przykładowo (otwórzmy zbiór diagnoza2005 ) zmienna odpowiedzialna za płeć ( ac7 ) dzieli próbę (populację) na rozłączne grupy kobiet i mężczyzn, zaś zmienna odpowiadająca na pytanie, czy respondent ma w domu internet ( cf9p_8 ) dzieli tę próbę na rozłączne grupy osób posiadających w domu dostęp do internetu i tych, którzy nie posiadają. W ramach testu równości dwóch średnich dla grup niezależnych, zastanawiamy się, czy średnia danej zmiennej (mierzonej na skali ilorazowej zmiennej ilościowej) jest dla obydwu podgrup taka sama, czy też występują dla nich statystycznie istotne różnice w średniej. Przykładowo, korzystając z podziału próby na osoby mające w domu dostęp do internetu i go nie posiadające, możemy zastanawiać się, czy osoby z tych grup różnią się (średnio) dochodem (zmienna ilościowa). Postać statystyki testowej zależy od tego, czy wariancja analizowanej zmiennej (dochód bp07 ) jest w porównywanych grupach jednorodna (taka sama), czy nie. Jeśli ma miejsce 2 2 jednorodność wariancji ( σ = σ ), to statystyka testowa przyjmuje postać: 2 X X 2 t = ~ t( n + n2 2) S( X ) + n n 2 Jeśli jednak wariancja w porównywanych grupach jest różna ( σ wyznaczana jest ze wzoru: σ ), to statystyka 2 2 2

X X S S t t lss lss n n 2 2 2 2 = ~ ( ) = ( + 2 2) + 2 2 4 4 S 2 ( X ) S2 ( X ) S + S2 n + n 2 Kontynuując przykład zweryfikowania równości średnich dochodów osób posiadających w domu internet i nie posiadających go, przeprowadźmy stosowny test w SPSSie. Wybieramy do tego Analiza Porównywanie średnich Testy t dla prób niezależnych. Wyświetla się okno: Jako zmienną testowaną wstawiamy zmienną, która jest przedmiotem analizy (dochód), zaś Zmienna grupująca, to zmienna, która dzieli próbę na niezależne podgrupy. Dodatkowo musimy zdefiniować, jakie kategorie zmiennej grupującej dzielą populację na podgrupy. Zmienna grupująca może więc mieć więcej niż dwie kategorie, a do analizy użyjemy grupy wyróżnione przez zdefiniowane dwie z nich. Wynik testu jest następujący: Pierwszym naszym zadaniem jest interpretacja testu Levene a na jednorodność wariancji (standardowo wykonywanego przy okazji testu t dla dwóch średnich w próbach niezależnych). Odczytujemy: F = 263, 203; p < 0, 05 - możemy więc odrzucić hipotezę zerową o równości wariancji w porównywanych grupach. Wynik testu Levene a pozwala nam wybrać prawidłową postać testu na równość średnich jest nią postać, w której nie zakładano równości wariancji, a więc postać reprezentowana przez dolny wiersz zaprezentowanego wyniku.

Odczytujemy: t = 2, 326 ~ t(27); p < 0, 05 - w przypadku tego testu znowu możemy odrzucić hipotezę zerową (mówiącą o równości średnich) i przyjąć hipotezę alternatywną, czyli uznać, że różnica w średnich jest istotna statystycznie. Kto zarabia więcej? Spójrzmy na pierwszą część wyniku testu: Średni dochód osób mających dostęp do internetu w domu jest w próbie wyższy niż dochód osób takiego dostępu nie posiadających, wiemy również, że różnica ta jest istotna statystycznie, możemy więc wnioskować o wyższych zarobkach osób posiadających w domu dostęp do internetu. Założenie o normalności rozkładu dochodu w badanych podgrupach było mało w tym przypadku istotne, z uwagi na dużą liczebność podgrup. Czy osoby z wyższym poziomem wykształcenia ( ac9 ) mają średnio większe mieszkania ( ah8 ) niż osoby posiadające wykształcenie średnie ogólnokształcące? Podaj wyniki wszystkich potrzebnych do odpowiedzi na to pytanie testów. Czy wśród osób urodzonych przed rokiem 980 ( ac6r ), osoby modlące się o pomoc do Boga i te, które się nie modlą ( bp54_7 ) spodziewają się średnio takiego samego dochodu za dwa lata ( bp08 )? Test równości dwóch frakcji Omówiony test jest łatwo rozszerzyć na przypadek porównywania frakcji (odsetków; wskaźników struktury) w dwóch niezależnych grupach. Dajmy na to, że chcemy sprawdzić, czy w grupie kobiet i mężczyzn ( ac7 ) taki sam jest odsetek osób palących papierosy ( ap83_ ). Zmienną która dzieli na podgrupy (niezależne) jest płeć, zaś zmienną, która wyznacza odsetek jest ap83_. Żeby móc zastosować test t do zweryfikowania istotności różnic dwóch odsetków, zmienna wyznaczająca odsetki musi być zmienną zerojedynkową i (najlepiej) przyjmować wartość dla interesującej nas kategorii (badamy odsetek osób palących, więc powinna przyjmować dla tych waśnie osób i 0 dla niepalących). Nasza zmienna ap83_ nie jest zmienną zerojedynkową, zrekodujmy ją więc na 0- zmienną pali, która wartość przyjmie dla palących. Dalej test przebiega według schematu: H : p = p H : p p 0 2 2, gdzie p, p 2 to odpowiednio odsetki dla pierwszej i drugiej grupy. Statystyka testowa obliczana jest ze wzoru:

k k2 n n2 nn 2 k + k2 Z = n = p = q = p p q n + n2 n + n2 n W SPSSie test przeprowadzamy analogicznie do poprzedniego: Analiza Porównywanie średnich Testy t dla prób niezależnych. W wyniku dostajemy: W wyniku testu Levene a decydujemy, że wariancja odsetka osób palących nie jest jednorodna w grupie kobiet i mężczyzn (F=574,264; p<0,05), interpretujemy więc dolny wiersz testu t. t = 4,27 ~ t(340); p < 0,05 Odrzucamy hipotezę zerową i przyjmujemy alternatywną, twierdzimy więc, że są istotne statystycznie różnice w odsetku osób palących wśród kobiet i mężczyzn. Analizując dodatkowo odsetki w dwóch porównywanych grupach: dochodzimy do wniosku, że wśród mężczyzn jest istotnie większy procent palących niż wśród kobiet. Czy można przyjąć, że w grupie osób, których partner/ka często rozrzutnie wydawał/a pieniądze oraz w grupie osób, w której nie zdarzało się to nigdy ( ap6 ), taka sama była frakcja osób, które zażywają środki uspokajające ( ap66_6 )? Która grupa zażywała je częściej? Czy wśród osób, które z wielką trudnością wiążą koniec z końcem ( ae4 ), taki sam jest odsetek osób, które wzięły kredyt na kształcenie ( cf8_2 ) w grupie osób uważających, że

najważniejszym warunkiem udanego życia są dzieci ( ap2_a ), jak i w grupie osób uważających, że tym warunkiem są pieniądze? Test na równość dwóch średnich dla dwóch grup zależnych Grupy zależne to takie, których jednostki się mieszają najczęściej są to dokładnie te same jednostki, które obserwujemy ze względu na dwie (lub więcej) różne charakterystyki. Jeśli charakterystyki te dotyczą tej samej lub bardzo zbliżonej cechy, to jest sens stawiania pytania o to, czy ewentualna różnica w ich średnich jest istotna statystycznie. Przykładowo mamy pacjentów, których czas reakcji na jakiś bodziec obserwujemy przed podaniem im leku i po jego podaniu. Każdy z pacjentów dostarcza nam obserwacji dla dwóch różnych zmiennych (wartości jednej to czas reakcji przed podaniem leku, a drugiej - po). Analizowane grupy są więc zależne/powiązane. Zapytać możemy: czy podanie leku zmienia czas reakcji pacjentów, co w języku statystyki brzmiałoby: czy czas reakcji przed podaniem leku jest średnio równy czasowi reakcji po jego podaniu? Przykładem z naszej bazy danych może być odpowiedź na pytanie o optymizm respondentów w kontekście ich antycypacji własnych przyszłych dochodów. Respondenci odpowiadają na pytanie o własnych zarobkach ( bp07 ) oraz na pytanie o dochody, których spodziewają się za dwa lata ( bp08 ). Osoby, które odpowiedziały na obydwa pytania stanowią, oczywiście, grupy zależne, za pomocą których możemy odpowiedzieć na pytanie, czy średnie obecne zarobki są w statystycznie istotny sposób różne od średnich zarobków spodziewanych za dwa lata, a co za tym idzie, będziemy w stanie ocenić, czy respondenci z ufnością patrzą na wzrost dochodów. Test przebiega w następujący sposób (zakładamy, że weryfikujemy istotność różnicy średnich dla zmiennych X i Y): H H 0 : m = 0 d : m 0 d, gdzie m d to średnia różnica w średnich dla porównywanych grup. Statystyka testowa jest postaci: n d t = n ~ t( n ), gdzie d = ( xi yi ) S( d) n i = W SPSSie test ten przeprowadzamy wybierając: Analiza Porównywanie średnich Test t dla prób zależnych. Otwiera się okno:

Wybieramy obydwie testowane zmienne i dopiero potem przenosimy je do stosownego pola. Wynik testu jest następujący: Zapiszemy: t = 32, 038 ~ t(5958); p < 0, 05 - mamy więc podstawy do odrzucenia hipotezy zerowej i przyjęcia alternatywnej. Średnie obecne dochody są istotnie różne od średnich dochodów, których spodziewają się respondenci za dwa lata. Dodatkowo patrząc na pierwszy panel wyniku: widać, że obecny dochód jest znacznie mniejszy niż antycypowany. Kończymy nasze wnioskowanie stwierdzając, że ludzie raczej optymistycznie zapatrują się na wysokość swoich zarobków w przyszłości w stosunku do ich obecnej wielkości. Otwórz bazę danych przykl. Czy zebrane informacje pozwalają twierdzić, że trening asertywności, jakiemu zostali poddani respondenci był efektywny w krótkim okresie ( asert asert2 )? Czy był on również efektywny w dłuższym okresie ( asert asert3 )? Jakie wnioski odnośnie skuteczności treningu można wyciągnąć z wyniku tych analiz?

Weryfikacja hipotez nieparametrycznych W literaturze przedmiotu znaleźć można wiele argumentów potwierdzających nadrzędność testów parametrycznych nad nieparametrycznymi. Jeśli tylko możliwe jest zastosowanie testu parametrycznego, to należy to zrobić, gdyż ma on lepsze własności niż jego nieparametryczny odpowiednik. Niestety, testy możliwość zastosowania testów parametrycznych obwarowana jest dość restyrykcyjnymi założeniami. Wymaga się normalności rozkładu zmiennych (które to założenie łagodzone jest w dużych próbach), często również jednorodności wariancji w porównywanych podgrupach oraz, co w znacznej mierze ogranicza stosowalność tych testów, analizowane zmienne muszą być mierzone na skali ilorazowej (odsetek spełnia ten warunek), czyli muszą być zmiennymi ilościowymi. Testy nieparametryczne wolne są od założeń o rozkładzie zmiennej, dodatkowo pozwalają na analizę zmiennych mierzonych na skali już porządkowej (zmienne, które wyrażane są za pomocą liczb naturalnych oznaczających uporządkowane kategorie), co niejednokrotnie wzbogaca analizę. Testy nieparametryczne dla jednej zmiennej W ramach tej grupy testów weryfikuje się zazwyczaj losowość zmiennych (test serii) oraz zgodność ich rozkładu z danym rozkładem teoretycznym (test zgodności). Test serii Weryfikuje losowość zmiennej (hipoteza zerowa), czyli brak systematycznego występowania jej wartości powyżej/poniżej ustalonej stałej (losowość reszt z regresji liniowej polegałaby w tym kontekście na równomiernym (losowym) rozłożeniu ich w okolicy zera). Test w SPSSie wykonujemy wybierając Analiza Testy nieparametryczne Serii. Testy zgodności Testy zgodności porównują empiryczną dystrybuantę zmiennej do określonej dystrybuanty teoretycznej. Przykładem testu zgodności może być test Kołmogorowa-Smirnowa H0 : F( x) = F0 ( x) ( ), który wykorzystywaliśmy do ustalenia, czy zmienna ma rozkład H : F( x) F0 ( x) normalny, a może być również wykorzystywany do testowania innych rozkładów zmiennej (w SPSSie możemy testować, czy dystrybuanta empiryczna istotnie różni się od dystrybuantu rozkładu normalnego, Poissona, jednostajnego i wykładnicznego). Innym testem zgodności jest test chi2. Test ten weryfikuje (dla zmiennych porządkowych lub nominalnych), czy kategorie zmiennej pochodzą z ustalonego rozkładu skokowego (hipoteza zerowa). Domyślnie SPSS za ustalony rozkład skokowy przyjmuje po prostu rozkład równomierny punktowy, co pozwala na sprawdzenie równoliczności katgorii zmiennej. Przykładowo, korzystając z informacji z bazy PGSS_2002_pr, możemy być ciekawi, czy społeczeństwo jest podzielone odnośnie opnii, że praca matki szkodzi dziecku ( q7c ), czy może jest dominujący pogląd w tym względzie. W języku statystyki, spytalibyśmy się odpowiednio: czy kategorie zmiennej q7c są równoliczne (czyli jest tyle samo osób udzielających różnych odpowiedzi, czyli społeczeństwo jest podzielone), czy liczebności

poszczególnych z nich różnią się w sposób istotny statystycznie (któraś z kategorii jest liczniej rezprezentowana, a więc któraś z odpowiedzi ma więcej zwolenników). W SPSSie test ten przeprowadzimy wybierając: Analiza Testy nieparametryczne Chikwadrat. Wyskakuje okno, które wypełniamy: Gdybyśmy chcieli sprawdzać nie tyle równoliczność kategorii, co ich ustalony procentowy udział, to użylibyśmy opcji Wartości. W wyniku otrzymamy:

Widać, że liczebności empiryczne odbiegają od takich liczebności teoretycznych, które stanowiłyby o równomiernym rozkładzie zmiennej. Proszę zwrócić uwagę, że do analizy brana jest również pod uwagę kategoria NIE WIEM. Można wykluczyć ją z analizy wrzucając ją do braków danych. 2 2 Wynik testu zapiszemy: χ = 722, 75 ~ χ (4); p < 0, 05. Należy więc odrzucić hipotezę zerową o równoliczności kategorii zmiennej q7c i skonkludować, że społeczeństwo nie jest do końca podzielone w opinii o szkodliwości pracy matki (należy pamiętać o tym, że odrzucenie hipotezy zerowej o równoliczności kategorii nie implikuje faktu występowania jednej dominującej!). Żeby sprawdzić nie tyle równoliczność kategorii, ale czy ich liczebności występują w jakimś określonym stosunku, zamiast zaznaczania opcji Wszystkie kategorie są równe, wybierzemy opcję Wartości, gdzie ustalimy porównywany stosunek. Zrekodujmy, przykładowo, zmienną wykształcenie ojca ( q4a ) tak, żeby przyjmowało trzy kategorie: conajwyżej wykształcenie niepełne średnie (do kategorii 4 zmiennej q4a ); 2 od wykształcenia średniego do średniego zawodowego włącznie (kategorie 5 i 6 zmiennej q4a ); 3 wykształcenie pomaturalne, niepełne wyższe i wyższe (kategoria 7, 8 i 9 zmiennej q4a ). Nie zapomnijmy przy tym wyłączyć z analizy kategorii Nie wiem oznaczanej liczbą 98 (włączmy ją do braków danych). Niech nowostworzona zmienna nosi nazwę wyk_oj. Wiadomo, że dawniej zdobywanie wykształcenia nie było tak powszechną praktyką, jak jest dzisiaj. Dajmy na to, że chcemy zweryfikować przypuszczenie, że tak dwa razy liczniejsza była kategoria 2 niż 3 zmiennej wyk_oj, a więc dwa razy większa ilość ojców respondentów miała wykształcenie reprezentowane przez 2 niż przez 3 oraz, że kategoria reprezentująca wykształcenia conajwyżej niepełne średnie, była 6-cio krotnie liczniejsza niż kategoria 2. Oznacza to, że aby nasze przypuszczenie uznać za trafne, liczebności kategorii, 2 i 3 zmiennej wyk_oj, powinny rozłożyć się w stosunku 2:2:. W SPSSie wybierzemy teraz Analiza Testy nieparametryczne Chi-kwadrat, a wyskakujące okno wypełnimy: Testujemy zmienną wyk_oj, dla której testujemy, że liczebności jej trzech kategorii rozłożą się w określonym stosunku (proszę zwrócić uwagę, że kolejność liczb zgodna jest z odpowiadającą im kolejnością kategorii).

W wyniku dostaniemy: 2 2 Ponieważ χ = 0,584 ~ χ (2); p = 0, 747 > 0, 05 to nie ma podstaw do odrzucenia hipotezy zerowej. Twierdzimy więc, że rzeczywiście było 6 razy więcej ojców respondentów, który mieli conajwyżej wyształcenie niepełne średnie, niż tych co mieli wykształcenie reprezentowane przez kategorię 2 i 2 razy więcej, niż tych reprezentowanych przez kategorię 3 zmiennej wyk_oj. Otwórz bazę gss93. Czy można powiedzieć, że miesiąc urodzenia respondenta jest czysto losowy (zmienna birthmo ) (w sensie równoliczności obserwacji ze wszystkich miesięcy). Czy podobnie jest ze znakiem zodiaku ( zodiac )? Z czego mogą wynikać różnice w tych testach? Korzystając z bazy danych do poprzedniego zadania, zrekoduj zmienną classicl tak, by dzieliła respondentów na kategorie lubiących muzykę klasyczną, będących wobec niej neutralnymi i nielubiących (połączenie kategorii i 2 oraz 4 i 5 zmiennej classicl i pozostawienie kategorii 3). Wykorzystując test zgodności chi2, zweryfikuj hipotezę, że osób lubiących muzykę klasyczną jest dwa razy więcej zarówno niż tych, którzy traktują ją neutralnie, jak i nielubiących jej. Testy nieparametryczne dla dwóch zmiennych Podobnie jak w przypadku testów parametrycznych, w testach nieparametrycznych dla dwóch zmiennych wyróżniamy sytuację, gdy porównywane grupy są niezależne i gdy są one zależne. Testy nieparametryczne dla dwóch grup Testy nieparametryczne dla dwóch grup niezależnych można wykorzystywać do weryfikowania równości średnich, gdyż testują one następujące hipotezy: H0 : F ( x) = F2 ( x), gdzie F i F 2 to dystrybuanty w populacji zmiennych X i X 2. H : F ( x) F2 ( x)

Test Manna-Whitney a oraz test sumy rang Wilcoxona to przykłady testów nieparametrycznych dość powszechnie stosowanych w kontekście nieparametrycznego porównywania średnich dla dwóch grup niezależnych. Testy te wymagają porangowania wartości zmiennych. Do grupy testów, które porównują zarówno położenie, jak i kształt rozkładów zmiennych, zaliczamy test Kołmogorowa-Smirnowa. Wszystkie te testy mamy możliwość wybrać przez Analiza Testy nieparametryczne Dwie próby niezależne. W bazie PGSS_2002_pr możemy przykładowo analizować, czy osoby będące za usunięciem książek komunistycznych z bibliotek i te, które są przeciwko ich usuwaniu ( q53c) deklarują (średnio) taki sam poziom sympatii dla Rosji ( q2j ). Analizowana zmienna w tym przypadku to poziom sympatii dla Rosji, q2j, zaś zmienna dzieląca na grupy to określone dwie z kategorii zmiennej q53c. Analizując rodzaj zmiennej q2j, widzimy, że jest to zmienna porządkowa, przyjmująca wartości od do 0 (zmienna ta przyjmuje również inne wielkości, które należy umieścić w brakach danych, żeby nie były brane pod uwagę. Przykładowo, taką wartością jest 98 oznaczające odpowiedź Nie wiem. Jeśli nie włączy się tej wartości do braku danych, to zostanie ona potraktowana w analizie jako równoprawna, choć mocno odstająca od reszty, wartość, co zaburzy porządkowość zmiennej i zniekształci wyniki). Skoro analizowana zmienna jest porządkowa, to nie można zastosować testu parametrycznego. Można natomiast użyć któregoś z testów nieparametrycznych. Grupy, które badamy są, oczywiście, niezależne, dlatego wybierzemy: Analiza Testy nieparametryczne Dwie próby niezależne Wyświetlające się okno wypełnimy: Podobnie jak w przypadku analogicznego testu parametrycznego, należy zdefiniować kategorie zmiennej grupującej ( q53c ), które wyznaczają porównywane podgrupy. Wybierzmy wspomniane testy nieparametryczne służące do porównywania średnich dla dwóch prób niezależnych i zinterpretujmy wyniki:

Wartość p w obydwu przypadkach wynosi ponad 5%, więc odrzucając hipotezę zerową popełnimy błąd z większym niż przez nas dopuszczalne prawdopodobieństwem. Nie odrzucamy hipotezy zerowej (dystrybuanty zmiennej qj2 w populacji są dla porównywanych grup równe) i konkludujemy, że niezależnie od chęci usunięcia z biblioteki książki komunisty, poziom sympatii respondenta dla Rosji jest podobny.

Czy kobiety i mężczyźni ( q8 ) tak samo często widują się z najlepszym przyjacielem/przyjaciółką ( sn9 )? Odp. Tak. M-W: Z=-0,03, p=0,99>0,05; K-S: Z=0,558; p=0,94>0,05 Otwórz bazę danych sample. Korzystając z niej odpowiedz na pytanie: czy osoby jeżdżące samochodami osobowymi i terenowymi ( auto ) w statystycznie istotny sposób różnią się pod względem średnich wydatków na paliwo w sierpniu ( sr_w_sie ). Odp. Norm: K-S: p<0,05 brak rozkł. norm. Więc: M-W: Z=-,64, p=0,0>0,05; Z=,93, p=0,00<0,05. Wynik niejednoznaczny. ( sample ) Czy od sierpnia do września paliwo podrożało (zmienne pal_sie i pal_wrz )? Odp: Tak. t=-8,253; p<0,05 ( sample ) Czy osoby, które wezmą udział w wyborach prezydenckich i te, które tego nie zrobią ( wybor_prez ) tak samo oceniały sytuację w kraju we wrześniu ( oc_gosp09 )? Jeśli nie, to która grupa oceniała ją lepiej? Odp. Nie. Lepiej oceniali ci, którzy nie wzięli udziału: M-W: Z=-4,38; p<0,05; K-S: Z=3,23; p<0,05. Testy nieparametryczne dla dwóch grup zależnych Testy te wykonujemy w przypadku gdy grupy są zależne oraz gdy nie ma podstaw do przeprowadzenia analogicznego testu parametrycznego (nieodpowiednia skala pomiarowa zmiennej, niespełnienie innych założeń testu parametrycznego). W zbiorze sample możemy, przykładowo, zastanawiać się, czy zmieniła się ocena partii politycznych pomiędzy siepniem, a wrześniem (zmienne sonda08 i sonda09 )? Oczywiście, na obydwa pytania odpowiadali ci sami respondenci, więc analizowane próby są w tym przypadku zależne. Dodatkowo zmienne, które badamy są zmiennymi porządkowymi, co z miejsca dyskwalifikuje testy t. Najpowszechniej używanymi nieparametrycznymi odpowiednikami testu t dla dwóch prób zależnych są:. test znaków analizowane są różnice badanych zmiennych (dokładniej ilość dodatnich i ilość ujemnych różnic), 2. test par rangowanych znaków Wilcoxona (test kolejności par Wilcoxona; często nazywany po prostu testem Wilcoxona) mocniejszy od testu znaków W SPSSie testy nieparametryczne dla dwóch grup zależnych przeprowadzamy wybierając: Analiza Testy nieparametryczne Dwie próby zależne. W naszym przypadku wyskakujące okno wypełnimy w następujący sposób:

oraz przerzucimy wybrane zmienne do odpowiedniego pola. W wyniku dostajemy: Ponieważ wartość p jest stosunkowo duża, to nie odrzucimy hipotezy zerowej i uznamy, że podobnie respondenci oceniali partie polityczne w sierpniu i we wrześniu. Czy zmieniła się ocena sytuacji dospodarczej kraju pomiędzy siepniem, a wrześniem (zmienne oc_gosp08 i oc_gosp09 )? Czy osoby, które oceniły sytuację gospodarczą w kraju we wrześniu, jako złą ( oc_gosp09, kategoria 2 ), przeciętnie wydawały na komunikację miejską tyle samo w sierpniu, co we wrześniu (zmienne komunikacja08 i komunikacja09 )? Czy osoby, które brały udział w ostatnich wyborach ( czy_ostatnio ) miały takie same średnie wydatki na paliwo w sierpniu i we wrześniu ( sr_w_sie i sr_w_wrz )? ( PGSS_2002_pr ) Czy można powiedzieć, że społeczeństwo jest coraz szczęśliwsze (na bazie zmiennych q95 i q96 )? Czy społeczeństwo przewiduje, że będzie szczęśliwsze w przyszłości ( q95, q97 )?