to odpowiednio średnie z próby dla pierwszej i drugiej

Podobne dokumenty
to odpowiednio średnie z próby dla pierwszej i drugiej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

( x ) jest dystrybuantą cechy x dla i-tej grupy.

Testy nieparametryczne

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

1 Estymacja przedziałowa

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Wykład 3 Hipotezy statystyczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Jednoczynnikowa analiza wariancji

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

166 Wstęp do statystyki matematycznej

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wykład 9 Testy rangowe w problemie dwóch prób

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wykład 11 Testowanie jednorodności

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

STATYSTYKA

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Badania eksperymentalne

Wykład 10 Testy jednorodności rozkładów

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Przykład 1. (A. Łomnicki)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Metody Statystyczne. Metody Statystyczne

Statystyka Matematyczna Anna Janicka

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Elementarne metody statystyczne 9

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Żródło:

Testowanie hipotez statystycznych. Wprowadzenie

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Zadanie 1. Analiza Analiza rozkładu

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wprowadzenie do analizy korelacji i regresji

Testowanie hipotez statystycznych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Przekształcenia zmiennych (cd) Testowanie hipotez część I

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Test t-studenta dla jednej średniej

Rozkłady statystyk z próby

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Hipotezy statystyczne

Hipotezy statystyczne

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Transkrypt:

Test równości dwóch średnich (test dla dwóch prób) Test ten weryfikuje równość średnich dla dwóch zmiennych. Można to zapisać za pomocą zestawu hipotez: H : m = m H : m m zmiennej. 0, gdzie m, m to odpowiednio średnie z próby dla pierwszej i drugiej Z uwagi na możliwość zdefiniowania grup, których owe zmienne się tyczą, wyróżnia się dwa przypadki:. Test na równość średnich dla grup niezależnych. Test na równość średnich dla grup zależnych (powiązanych) UWAGA! Zastosowanie testu dwóch średnich wymaga spełnienia przez zmienne warunku normalności rozkładu (w każdej analizowanej podgrupie). Uwaga ta jest szczególnie istotna dla grup, których liczność nie przekracza 30 dla tych grup, w przypadku braku spełnienia założenia o normalności rozkładu, nie jest uzasadnione korzystanie z testu t na równość dwóch średnich. W przypadku braku spełnienia założenia o normalności (można je sprawdzić np. testem Kołmogorowa-Smirnowa), równość średnich można weryfikować analogicznym testem nieparametrycznym. Test na równość średnich dla dwóch grup niezależnych Grupy niezależne, to takie, których jednostki się między sobą nie mieszają. W badanej próbie mogą to być na przykład takie grupy, na które dzieli tę próbę dychotomiczna (binarna) zmienna. Przykładowo (otwórzmy zbiór diagnoza005 ) zmienna odpowiedzialna za płeć ( ac7 ) dzieli próbę (populację) na rozłączne grupy kobiet i mężczyzn, zaś zmienna odpowiadająca na pytanie, czy respondent ma w domu internet ( cf9p_8 ) dzieli tę próbę na rozłączne grupy osób posiadających w domu dostęp do internetu i tych, którzy nie posiadają. Na dwie grupy niezależne może również dzielić zmienna dyskretna o więcej niż dwóch kategoriach (na grupy takie dzielą wtedy dwie spośród jej wartości np. wartości 3 i 5 zmiennej ac8 dzielące na wdowy/wdowców i osoby w separacji ). W ramach testu równości dwóch średnich dla grup niezależnych, zastanawiamy się, czy średnia danej zmiennej (mierzonej na skali ilorazowej zmiennej ilościowej) jest dla obydwu podgrup taka sama, czy też występują dla nich statystycznie istotne różnice w średniej. Przykładowo, korzystając z podziału próby na osoby mające w domu dostęp do internetu i go nie posiadające, możemy zastanawiać się, czy osoby z tych grup różnią się (średnio) dochodem (zmienna ilościowa). Postać statystyki testowej zależy od tego, czy wariancja analizowanej zmiennej (dochód bp07 ) jest w porównywanych grupach jednorodna (taka sama), czy nie. Jeśli ma miejsce jednorodność wariancji ( σ = σ ), to statystyka testowa przyjmuje postać: X X t = ~ t( n + n ) S( X ) + n n Jeśli jednak wariancja w porównywanych grupach jest różna ( σ wyznaczana jest ze wzoru: σ ), to statystyka

X X S S t t lss lss n n = ~ ( ) = ( + ) + 4 4 S ( X ) S ( X ) S + S n + n Kontynuując przykład zweryfikowania równości średnich dochodów osób posiadających w domu internet i nie posiadających go, przeprowadźmy stosowny test w SPSSie. Wybieramy do tego Analiza Porównywanie średnich Testy t dla prób niezależnych (Analyze Compare Means Independent Sample T-Test). Wyświetla się okno: Jako zmienną testowaną ( Test Variable ) wstawiamy zmienną, która jest przedmiotem analizy (dochód), zaś Zmienna grupująca ( Grouping Variable ), to zmienna, która dzieli próbę na niezależne podgrupy. Dodatkowo musimy zdefiniować, jakie kategorie zmiennej grupującej dzielą populację na podgrupy ( Define groups ). Zmienna grupująca może więc mieć więcej niż dwie kategorie, a do analizy użyjemy grupy wyróżnione przez zdefiniowane dwie z nich. Wynik testu jest następujący: Pierwszym naszym zadaniem jest interpretacja testu Levene a na jednorodność wariancji (standardowo wykonywanego przy okazji testu t dla dwóch średnich w próbach niezależnych). Odczytujemy: F = 63, 03; p < 0, 05 - możemy więc odrzucić hipotezę zerową o równości wariancji w porównywanych grupach.

Wynik testu Levene a pozwala nam wybrać prawidłową postać testu na równość średnich jest nią postać, w której nie zakładano równości wariancji, a więc postać reprezentowana przez dolny wiersz zaprezentowanego wyniku. Odczytujemy: t =, 36 ~ t(7); p < 0, 05 - w przypadku tego testu znowu możemy odrzucić hipotezę zerową (mówiącą o równości średnich) i przyjąć hipotezę alternatywną, czyli uznać, że różnica w średnich jest istotna statystycznie. Kto zarabia więcej? Spójrzmy na pierwszą część wyniku testu: Średni dochód osób mających dostęp do internetu w domu jest w próbie wyższy niż dochód osób takiego dostępu nie posiadających, wiemy również, że różnica ta jest istotna statystycznie, możemy więc wnioskować o wyższych zarobkach osób posiadających w domu dostęp do internetu. Założenie o normalności rozkładu dochodu w badanych podgrupach było mało w tym przypadku istotne, z uwagi na dużą liczebność podgrup. Czy osoby z wyższym poziomem wykształcenia ( ac9 ) mają średnio większe mieszkania ( ah8 ) niż osoby posiadające wykształcenie średnie ogólnokształcące? Podaj wyniki wszystkich potrzebnych do odpowiedzi na to pytanie testów. Czy wśród osób urodzonych przed rokiem 980 ( ac6r ), osoby modlące się o pomoc do Boga i te, które się nie modlą ( bp54_7 ) spodziewają się średnio takiego samego dochodu za dwa lata ( bp08 )? Test na równość dwóch średnich dla dwóch grup zależnych Grupy zależne to takie, których jednostki się mieszają najczęściej są to dokładnie te same jednostki, które obserwujemy ze względu na dwie (lub więcej) różne charakterystyki. Jeśli charakterystyki te dotyczą tej samej lub bardzo zbliżonej cechy, to jest sens stawiania pytania o to, czy ewentualna różnica w ich średnich jest istotna statystycznie. Przykładowo mamy pacjentów, których czas reakcji na jakiś bodziec obserwujemy przed podaniem im leku i po jego podaniu. Każdy z pacjentów dostarcza nam obserwacji dla dwóch różnych zmiennych (wartości jednej to czas reakcji przed podaniem leku, a drugiej po podaniu). Analizowane grupy są więc zależne/powiązane. Zapytać możemy: czy podanie leku zmienia czas reakcji pacjentów, co w języku statystyki brzmiałoby: czy czas reakcji przed podaniem leku jest średnio równy czasowi reakcji po jego podaniu? Przykładem z naszej bazy danych może być odpowiedź na pytanie o optymizm respondentów w kontekście ich antycypacji własnych przyszłych dochodów. Respondenci odpowiadają na pytanie o własnych zarobkach ( bp07 ) oraz na pytanie o dochody, których spodziewają się za dwa lata ( bp08 ). Osoby, które odpowiedziały na obydwa pytania stanowią, oczywiście,

grupy zależne, za pomocą których możemy odpowiedzieć na pytanie, czy średnie obecne zarobki są w statystycznie istotny sposób różne od średnich zarobków spodziewanych za dwa lata, a co za tym idzie, będziemy w stanie ocenić, czy respondenci z ufnością patrzą na wzrost dochodów. Test przebiega w następujący sposób (zakładamy, że weryfikujemy istotność różnicy średnich dla zmiennych X i Y): H H 0 : m = 0 d : m 0 d, gdzie m d to średnia różnica w średnich dla porównywanych grup. Statystyka testowa jest postaci: n d t = n ~ t( n ), gdzie d = ( xi yi ) S( d) n i = W SPSSie test ten przeprowadzamy wybierając: Analiza Porównywanie średnich Test t dla prób zależnych (Analyze Compare Means Paired Samples T-Test). Otwiera się okno: Wybieramy obydwie testowane zmienne i dopiero potem przenosimy je do stosownego pola. Wynik testu jest następujący: Zapiszemy: t = 3, 038 ~ t(5958); p < 0, 05 - mamy więc podstawy do odrzucenia hipotezy zerowej i przyjęcia alternatywnej. Średnie obecne dochody są istotnie różne od średnich dochodów, których spodziewają się respondenci za dwa lata. Dodatkowo patrząc na pierwszy panel wyniku:

widać, że obecny dochód jest znacznie mniejszy niż antycypowany. Kończymy nasze wnioskowanie stwierdzając, że ludzie raczej optymistycznie zapatrują się na wysokość swoich zarobków w przyszłości w stosunku do ich obecnej wielkości. Otwórz bazę danych przykl. Czy zebrane informacje pozwalają twierdzić, że trening asertywności, jakiemu zostali poddani respondenci był efektywny w krótkim okresie ( asert asert )? Czy był on również efektywny w dłuższym okresie ( asert asert3 )? Jakie wnioski odnośnie skuteczności treningu można wyciągnąć z wyniku tych analiz? Weryfikacja hipotez nieparametrycznych W literaturze przedmiotu znaleźć można wiele argumentów potwierdzających nadrzędność testów parametrycznych nad nieparametrycznymi. Jeśli tylko możliwe jest zastosowanie testu parametrycznego, to należy to zrobić, gdyż ma on lepsze własności niż jego nieparametryczny odpowiednik (jest z reguły mocniejszy). Niestety, możliwość stosowania testów parametrycznych obwarowana jest dość restyrykcyjnymi założeniami. Wymaga się normalności rozkładu zmiennych (które to założenie łagodzone jest w dużych próbach), często również jednorodności wariancji w porównywanych podgrupach oraz, co w znacznej mierze ogranicza stosowalność tych testów. Dodatkowo, analizowane zmienne muszą być mierzone na skali ilorazowej bądź przedziałowej, czyli muszą być zmiennymi ilościowymi. Testy nieparametryczne wolne są od założeń o rozkładzie zmiennej, dodatkowo pozwalają na analizę zmiennych mierzonych już na skali porządkowej (zmienne, które wyrażane są za pomocą liczb naturalnych oznaczających uporządkowane kategorie), co niejednokrotnie wzbogaca analizę. Testy nieparametryczne dla jednej zmiennej W ramach tej grupy testów weryfikuje się zazwyczaj losowość zmiennych (test serii) oraz zgodność ich rozkładu z danym rozkładem teoretycznym (test zgodności). Test serii Weryfikuje losowość zmiennej (hipoteza zerowa), czyli brak systematycznego występowania jej wartości powyżej/poniżej ustalonej stałej (losowość reszt z regresji liniowej polegałaby w tym kontekście na równomiernym (losowym) rozłożeniu ich w okolicy zera). Test w SPSSie wykonujemy wybierając Analiza Testy nieparametryczne Serii (Analyze Nonparametric Tests Runs).

Testy zgodności Testy zgodności porównują empiryczną dystrybuantę zmiennej do określonej dystrybuanty teoretycznej. Przykładem testu zgodności może być test Kołmogorowa-Smirnowa H0 : F( x) = F0 ( x), który wykorzystywaliśmy do ustalenia, czy zmienna ma rozkład H : F( x) F0 ( x) normalny. Jednak ten test może być również wykorzystywany do testowania, czy rozkład empiryczny zmiennej podąża za innym niż normalny rozkładem teoretycznym (w SPSSie możemy testować, czy dystrybuanta empiryczna istotnie różni się od dystrybuanty rozkładu normalnego, Poissona, jednostajnego i wykładnicznego). Innym testem zgodności jest test chi. Test ten weryfikuje (dla zmiennych porządkowych lub nominalnych), czy kategorie zmiennej pochodzą z ustalonego rozkładu skokowego (hipoteza zerowa). Domyślnie SPSS za ustalony rozkład skokowy przyjmuje po prostu rozkład równomierny punktowy, co pozwala na sprawdzenie równoliczności katgorii zmiennej. Przykładowo możemy być ciekawi, czy społeczeństwo jest podzielone odnośnie opnii, że praca matki szkodzi dziecku ( q7c ), czy może jest dominujący pogląd w tym względzie. W języku statystyki, spytalibyśmy się odpowiednio: czy kategorie zmiennej q7c są równoliczne (czyli jest tyle samo osób udzielających różnych odpowiedzi, czyli społeczeństwo jest podzielone), czy liczebności poszczególnych z nich różnią się w sposób istotny statystycznie (któraś z kategorii jest liczniej rezprezentowana, a więc któraś z odpowiedzi ma więcej zwolenników). W SPSSie test ten przeprowadzimy wybierając: Analiza Testy nieparametryczne Chikwadrat (Analyze Nonparametric Tests Chi Square). Wyskakuje okno, które wypełniamy: Gdybyśmy chcieli sprawdzać nie tyle równoliczność kategorii, co ich ustalony procentowy udział, to użylibyśmy opcji Wartości.

W wyniku otrzymamy:

Widać, że liczebności empiryczne odbiegają od takich liczebności teoretycznych, które stanowiłyby o równomiernym rozkładzie zmiennej. Wynik testu zapiszemy: χ = 7, 75 ~ χ (4); p < 0, 05. Należy więc odrzucić hipotezę zerową o równoliczności kategorii zmiennej q7c i skonkludować, że społeczeństwo nie jest do końca podzielone w opinii o szkodliwości pracy matki (należy pamiętać o tym, że przy tak sformułowanym teście, odrzucenie hipotezy zerowej o równoliczności kategorii nie implikuje faktu występowania jednej dominującej!). Można się również zastanowić nad sensownością wprowadzenia do analizy kategorii NIE WIEM i ewentualnie wykluczyć ją z analizy. Żeby sprawdzić nie tyle równoliczność kategorii, ale czy ich liczebności występują w jakimś określonym stosunku, zamiast zaznaczania opcji Wszystkie kategorie są równe, wybierzemy opcję Wartości, gdzie ustalimy porównywany stosunek. Zrekodujmy, przykładowo, zmienną wykształcenie ojca ( q4a ) tak, żeby przyjmowało trzy kategorie: conajwyżej wykształcenie niepełne średnie (od kategorii 0 do kategorii 4 zmiennej q4a ); od wykształcenia średniego do pomaturalnego włącznie (od kategorii 5 do kategorii 7 zmiennej q4a ); 3 wykształcenie niepełne wyższe i wyższe (kategoria 8 i 9 zmiennej q4a ). Nie zapomnijmy przy tym wyłączyć z analizy kategorii Nie wiem oznaczanej liczbą 98 (włączmy ją do braków danych). Niech nowostworzona zmienna nosi nazwę wyk_oj. Wiadomo, że dawniej zdobywanie wykształcenia nie było tak powszechną praktyką, jak jest dzisiaj. Dajmy na to, że chcemy zweryfikować przypuszczenie, że tylko co szósty ojciec, który zdobył wykształcenie co najwyżej średnie (wartość zmiennej wyk_oj ), kształcił się dalej, zaś tylko połowa, z tych którzy zdobyli conajwyżej wyształcenie pomaturalne (wartość zmiennej wyk_oj ) zdobyła również wykształcenie wyższe lub niepełne wyższe (wartość 3 zmiennej wyk_oj ). Oznacza to, że aby nasze przypuszczenie uznać za trafne, liczebności kategorii, i 3 zmiennej wyk_oj, powinny rozłożyć się w stosunku ::. W SPSSie wybierzemy teraz Analiza Testy nieparametryczne Chi-kwadrat (Analyze Nonparametric Tests Chi Square).), a wyskakujące okno wypełnimy:

Testujemy zmienną wyk_oj, dla której testujemy, że liczebności jej trzech kategorii rozłożą się w określonym stosunku (proszę zwrócić uwagę, że kolejność liczb zgodna jest z odpowiadającą im kolejnością kategorii). W wyniku dostaniemy: Ponieważ χ =,596 ~ χ (); p = 0,73 > 0,05 to nie ma podstaw do odrzucenia hipotezy zerowej. Twierdzimy więc, że rzeczywiście było 6 razy więcej ojców respondentów, który mieli conajwyżej wyształcenie niepełne średnie, niż tych co mieli wykształcenie reprezentowane przez kategorię zmiennej wyk_oj. Dodatkowo, tylko połowa ojców, którzy zdobyli wykształcenie conajwyżej pomaturalne, poszła na studia. Otwórz bazę gss93. Czy można powiedzieć, że miesiąc urodzenia respondenta jest czysto losowy (zmienna birthmo ) (w sensie równoliczności obserwacji ze wszystkich miesięcy). Czy podobnie jest ze znakiem zodiaku ( zodiac )? Z czego mogą wynikać różnice w tych testach? Korzystając z bazy danych do poprzedniego zadania, zrekoduj zmienną classicl tak, by dzieliła respondentów na kategorie lubiących muzykę klasyczną, będących wobec niej neutralnymi i nielubiących (połączenie kategorii i oraz 4 i 5 zmiennej classicl i pozostawienie kategorii 3). Wykorzystując test zgodności chi, zweryfikuj hipotezę, że osób lubiących muzykę klasyczną jest dwa razy więcej zarówno niż tych, którzy traktują ją neutralnie, jak i nielubiących jej.

Test dla wskaźnika struktury Teste ten stosowany jest, żeby ocenić, czy można przyjąć, że odsetek wystąpień kategorii jakiejś zmiennej jest równy odsetkowi testowanemu. Oznaczając odsetek z próby przez p, a testowaną wartość przez p 0, mamy zestaw hipotez: H : p = p H : p p 0 0 0 Statystyka testowa dana jest wzorem: k p0 Z = n ~ N(0,), gdzie k to ilość wystąpień interesującej nas cechy w próbie, zaś k k n n n n to liczność tej próby. W SPSSie test odsetka realizowany jest przez Analyze Nonparametric Tests Binomial Przykładowo, chcemy odpowiedzieć na pytanie: czy analizując naszą próbkę (cały czas PGSS_00_pr ), możemy przyjąć, że mężczyźni stanowią 45% populacji. Analizowana zmienna powinna być zmienną, która przyjmuje dwie wartości, zaś pytanie badawcze sformułowane powinno być tak, żeby testować odsetek dla grupy, która pojawia się w danych jako pierwsza ważna obserwacja dla analizowanej zmiennej (to chyba jakieś niedociągnięcie SPSSa..). Czyli w naszym przypadku testujemy, czy można przyjąć, że kobiet jest 55% (kobieta stanowi pierwszą obserwację; czyli pytamy, czy odsetek kobiet wynosi 0.55), a nie czy można przyjąć, że mężczyzn jest 45% (czy z kolei odsetek dla nich wynosi 0.55). Dla nas te pytania się nie różnią dla SPSSa tak. Po wywołaniu testu należy wypełnić wyskakujące okno dialogowe: Jeśli analizowana zmienna przyjmuje tylko dwie ważne wartości (czyli inne możliwe to albo missingi, albo do missingów dołączone), to należy pozostawić SPSSowi rozpoznanie dychotomii tej zmiennej. Jeśli jest to zmienna ciągła, zaś testować chcemy, czy pewien odsetek populacji przymuje wartości powyżej (lub poniżej) określonej wartości zmiennej, to należy ustalić punkt podziału. No i podać testowany odsetek.

W wyniku dostajemy: Wynik testu to: p = 0,005 < 0,05, a więc odrzucamy hipotezę zerową, mówiącą o tym, że mężczyźni stanowią 45% populacji. Sprawdź, czy wśród osób, które odpowiadają Za usunięciem lub Przeciw usunięciu na pytanie o potrzebę usunięcia antyreligijnej książki z biblioteki (zmienna q5c ), jedna czwarta osób jest za usunięciem. Czy na podstawie próby, którą dysponujemy, można przyjąć, że 78% populacji to osoby żyjące na wsi i w miastach do 50 tysięcy mieszkańców ( size )? /UWAGA, wspomniana zasada wybierania do analizy odpowiedniej kategorii zmiennej, uwzględniająca pojawienie się pierwszej ważnej obserwacji dla tej zmiennej, nie obowiązuje przy wyborze opcji Cut point / Testy nieparametryczne dla dwóch zmiennych Podobnie jak w przypadku testów parametrycznych, w testach nieparametrycznych dla dwóch zmiennych wyróżniamy sytuację, gdy porównywane grupy są niezależne i gdy są one zależne. Testy nieparametryczne dla dwóch grup Testy nieparametryczne dla dwóch grup niezależnych można wykorzystywać do weryfikowania równości średnich, gdyż testują one następujące hipotezy: H0 : F ( x) = F ( x), gdzie F i F to dystrybuanty w populacji zmiennych X i X. H : F ( x) F ( x) Test Manna-Whitney a oraz test sumy rang Wilcoxona to przykłady testów nieparametrycznych dość powszechnie stosowanych w kontekście nieparametrycznego porównywania średnich dla dwóch grup niezależnych. Testy te wymagają porangowania wartości zmiennych. Do grupy testów, które porównują zarówno położenie, jak i kształt rozkładów zmiennych, zaliczamy test Kołmogorowa-Smirnowa.

UWAGA! Nie jest przedmiotem tych zajęć prezentowanie kompletnych sposobów przeprowadzania omawianych testów (opisywania statystyk testowych, ich rozkładów, itp.). Więcej uwagi poświęcone będzie umiejętności doboru odpowiedniego testu do danego pytania badawczego i prawidłowej interpretacji wyniku. Tym niemniej, od czasu do czasu, prezentowane będą np. statystyki testowe, w celu ewentualnego zaspokojenia Państwa ciekawości oraz pokazania, że wyniki nie biorą się z nieba. Np. statystyka testowa testu Manna-Whitneya wyznaczana jest ze wzoru: U = min( U, U ) Gdzie: n ( n + ) U = nn + R n ( n + ) U = nn + R zaś n i n to liczebności porównywanych grup, a R i R to suma rang w tych grupach (wartości zmiennych są rangowane). Wszystkie te testy mamy możliwość wybrać przez Analiza Testy nieparametryczne Dwie próby niezależne (Analyze Nonparametric Tests Independent Samples). W bazie PGSS_00_pr możemy przykładowo analizować, czy osoby będące za usunięciem książek komunistycznych z bibliotek i te, które są przeciwko ich usuwaniu ( q53c) deklarują (średnio) taki sam poziom sympatii dla Rosji ( qj ). Analizowana zmienna w tym przypadku to poziom sympatii dla Rosji, qj, zaś zmienna dzieląca na grupy to określone dwie z kategorii zmiennej q53c. Analizując rodzaj zmiennej qj, widzimy, że jest to zmienna porządkowa, przyjmująca wartości od do 0 (zmienna ta przyjmuje również inne wielkości, które należy umieścić w brakach danych, żeby nie były brane pod uwagę. Przykładowo, taką wartością jest 98 oznaczające odpowiedź Nie wiem. Jeśli nie włączy się tej wartości do braku danych, to zostanie ona potraktowana w analizie jako równoprawna, choć mocno odstająca od reszty, wartość, co zaburzy porządkowość zmiennej i zniekształci wyniki). Skoro analizowana zmienna jest porządkowa, to nie można zastosować testu parametrycznego. Można natomiast użyć któregoś z testów nieparametrycznych. Grupy, które badamy są, oczywiście, niezależne, dlatego wybierzemy: Analiza Testy nieparametryczne Dwie próby niezależne (Analyze Nonparametric Tests Independent Samples)

Wyświetlające się okno wypełnimy: Podobnie jak w przypadku analogicznego testu parametrycznego, należy zdefiniować kategorie zmiennej grupującej ( q53c ), które wyznaczają porównywane podgrupy. Wybierzmy wspomniane testy nieparametryczne służące do porównywania średnich dla dwóch prób niezależnych i zinterpretujmy wyniki:

Wartość p w obydwu przypadkach wynosi ponad 5%, więc odrzucając hipotezę zerową popełnimy błąd z większym niż przez nas dopuszczalne prawdopodobieństwem. Nie odrzucamy hipotezy zerowej (dystrybuanty zmiennej qj w populacji są dla porównywanych grup równe) i konkludujemy, że niezależnie od chęci usunięcia z biblioteki książki komunisty, poziom sympatii respondenta dla Rosji jest podobny. Czy kobiety i mężczyźni ( q8 ) tak samo często widują się z najlepszym przyjacielem/przyjaciółką ( sn9 )? Odp. Tak. M-W: Z=-0,03, p=0,99>0,05; K-S: Z=0,558; p=0,94>0,05 Otwórz bazę danych sample. Korzystając z niej odpowiedz na pytanie: czy osoby jeżdżące samochodami osobowymi i terenowymi ( auto ) w statystycznie istotny sposób różnią się pod względem średnich wydatków na paliwo w sierpniu ( sr_w_sie ). Odp. Norm: K-S: p<0,05 brak rozkł. norm. Więc: M-W: Z=-,64, p=0,0>0,05; Z=,93, p=0,00<0,05. Wynik niejednoznaczny. ( sample ) Czy od sierpnia do września paliwo podrożało (zmienne pal_sie i pal_wrz )? Odp: Tak. t=-8,53; p<0,05 ( sample ) Czy osoby, które wezmą udział w wyborach prezydenckich i te, które tego nie zrobią ( wybor_prez ) tak samo oceniały sytuację w kraju we wrześniu ( oc_gosp09 )? Jeśli nie, to która grupa oceniała ją lepiej?

Odp. Nie. Lepiej oceniali ci, którzy nie wzięli udziału: M-W: Z=-4,38; p<0,05; K-S: Z=3,3; p<0,05. Testy nieparametryczne dla dwóch grup zależnych Testy te wykonujemy w przypadku gdy grupy są zależne oraz gdy nie ma podstaw do przeprowadzenia analogicznego testu parametrycznego (nieodpowiednia skala pomiarowa zmiennej, niespełnienie innych założeń testu parametrycznego). W zbiorze sample możemy, przykładowo, zastanawiać się, czy zmieniła się ocena partii politycznych pomiędzy siepniem, a wrześniem (zmienne sonda08 i sonda09 )? Oczywiście, na obydwa pytania odpowiadali ci sami respondenci, więc analizowane próby są w tym przypadku zależne. Dodatkowo zmienne, które badamy są zmiennymi porządkowymi, co z miejsca dyskwalifikuje testy t. Najpowszechniej używanymi nieparametrycznymi odpowiednikami testu t dla dwóch prób zależnych są:. test znaków analizowane są różnice badanych zmiennych (dokładniej ilość dodatnich i ilość ujemnych różnic),. test par rangowanych znaków Wilcoxona (test kolejności par Wilcoxona; często nazywany po prostu testem Wilcoxona) mocniejszy od testu znaków W SPSSie testy nieparametryczne dla dwóch grup zależnych przeprowadzamy wybierając: Analiza Testy nieparametryczne Dwie próby zależne (Analyze Nonparametric Tests Related Samples). W naszym przypadku wyskakujące okno wypełnimy w następujący sposób: oraz przerzucimy wybrane zmienne do odpowiedniego pola.

W wyniku dostajemy: Ponieważ wartość p jest stosunkowo duża, to nie odrzucimy hipotezy zerowej i uznamy, że podobnie respondenci oceniali partie polityczne w sierpniu i we wrześniu. Statystyka testowa wielu nieparametrycznych testów, m.in. testu Wilcoxona (ale również np. Manna-Whitneya), normalizowana jest w taki sposób, żeby przy założeniu prawdziwości hipotezy zerowej posiadała rozkład normalny standardowy (takie statystyki testowe często oznacza się literą z ). Na przykład statystyka testowa testu Wilcoxona, którą przyjęło się oznaczać T (opis testu np. P.Francuz, R.Mackiewicz, Liczby nie wiedzą skąd pochodzą, Wydawnictwo KUL, 005), aby miała rozkład normalny standardowy normalizowana jest w następujący sposób: n( n + ) 4T z = n ( n + )( n + ) 3 Czy zmieniła się ocena sytuacji dospodarczej kraju pomiędzy siepniem, a wrześniem (zmienne oc_gosp08 i oc_gosp09 )? Czy osoby, które oceniły sytuację gospodarczą w kraju we wrześniu, jako złą ( oc_gosp09, kategoria ), przeciętnie wydawały na komunikację miejską tyle samo w sierpniu, co we wrześniu (zmienne komunikacja08 i komunikacja09 )? Czy osoby, które brały udział w ostatnich wyborach ( czy_ostatnio ) miały takie same średnie wydatki na paliwo w sierpniu i we wrześniu ( sr_w_sie i sr_w_wrz )? ( PGSS_00_pr ) Czy można powiedzieć, że społeczeństwo jest coraz szczęśliwsze (na bazie zmiennych q95 i q96 )? Czy społeczeństwo przewiduje, że będzie szczęśliwsze w przyszłości ( q95, q97 )?