TESTY I KORELACJE cz.2

Podobne dokumenty
Jednoczynnikowa analiza wariancji

ANALIZY WIELOZMIENNOWE

TESTY I KORELACJE cz.1

Testy nieparametryczne

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

JEDNOCZYNNIKOWA ANOVA

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Analiza wariancji - ANOVA

Badanie zależności skala nominalna

Analizy wariancji ANOVA (analysis of variance)

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Metodologia badań psychologicznych. Wykład 12. Korelacje

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Analiza wariancji jednej zmiennej (UNIANOVA)

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

KORELACJE I REGRESJA LINIOWA

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Przykład 1. (A. Łomnicki)

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Wykład 5: Statystyki opisowe (część 2)

Analiza wariancji i kowariancji

PDF created with FinePrint pdffactory Pro trial version

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Porównanie wyników grupy w odniesieniu do norm Test t dla jednej próby

Analiza wariancji. dr Janusz Górczyński

Zadanie 1. Analiza Analiza rozkładu

Zadania ze statystyki cz.8. Zadanie 1.

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Gimnastyka artystyczna

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Żródło:

ISSN PL INSTYTUT CHEMII I TECHNIKI JĄDROWEJ INSTITUTE OF NUCLEAR CHEMISTRY AND TECHNOLOGY WARSZAWA 7BM 1

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

WNIOSKOWANIE STATYSTYCZNE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Statystyka i Analiza Danych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Analiza wariancji - ANOVA

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. laboratoria 30 zaliczenie z oceną

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Elementy statystyki STA - Wykład 5

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Metody Statystyczne. Metody Statystyczne

Statystyka matematyczna dla leśników

Badania eksperymentalne

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Opracowywanie wyników doświadczeń

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Analiza korelacji

Testowanie hipotez statystycznych

R-PEARSONA Zależność liniowa

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Testy post-hoc. Wrocław, 6 czerwca 2016

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Jedzenie w kawiarni KLASYCZNE PRZEBOJE

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Transkrypt:

TESTY I KORELACJE cz.2 1. JEDNOCZYNNIKOWA ANALIZA WARIANCJI ANOVA W SCHEMACIE MIĘDZYGRUPOWYM Analizę wariancji można podzielić na dwa typy: a) Ze względu na liczbę czynników: Jednoczynnikowa gdy po stronie zmiennych niezależnych jest jedna zmienna; Wieloczynnikowa gdy po stronie zmiennych niezależnych jest ich więcej niż jedna; b) Ze względu na relacje pomiędzy porównywanymi grupami: Schemat międzygrupowy porównywane grupy są względem siebie niezależne (badane jednostki przynależą tylko do jednej z tych grup); Schemat wewnątrzgrupowy porównywane grupy są od siebie zależne, co oznacza w praktyce, że mamy tę samą grupę badanych jednostek, a dane pochodzą z kolejnych pomiarów (np. jak w klasycznym eksperymencie: pretest bodziec posttest). Mamy więc w sumie cztery możliwości: Analiza wariancji jednoczynnikowa w schemacie międzygrupowym; Analiza wariancji jednoczynnikowa w schemacie wewnątrzgrupowym; Analiza wariancji wieloczynnikowa w schemacie międzygrupowym; Analiza wariancji wieloczynnikowa w schemacie wewnątrzgrupowym. My zajmiemy się tylko pierwszą możliwością: analizą wariancji jednoczynnikową w schemacie międzygrupowym, dalej zwaną skrótowo ANOVA. Czyli po stronie zmiennych niezależnych będzie jedna zmienna (jeden czynnik), a dane porównywanych grup nie będą ze sobą powiązane. ANOVA to: Test parametryczny; Porównywanym parametrem jest średnia; ANOVA porównuje średnie z więcej niż dwóch grup. Przypominam, że testem parametrycznym porównującym średnie z dokładnie dwóch grup jest test t-studenta. W przypadku ANOVY grup ma być więc więcej niż 2. Wyznaczać można je podobnie jak w przypadku testu t-studenta: albo zmienna niezależna jest oryginalnie wielowartościowa i w tym stanie ją pozostawiamy; albo zmienna niezależna jest oryginalnie wielowartościowa i dla celów analitycznych rekodujemy ją tak, by zmniejszyć liczbę wartości (i co za tym idzie: porównywanych grup), ale wciąż będzie to więcej niż 2 grupy. 1

Układ hipotez: Hipoteza zerowa: nie różnic pomiędzy średnimi w porównywanych grupach; zmienna niezależna nie różnicuje średnich; nie ma związku pomiędzy zmiennymi H 0 : μ 1 = μ 2 = = μ k Hipoteza alternatywna: jest różnica pomiędzy średnimi w porównywanych grupach; zmienna niezależna różnicuje średnie; jest związek pomiędzy zmiennymi; H 1 : ~ H 0 => średnie różnią się, tzn. przynajmniej jedna średnia różni się od pozostałych Logika działania testu Porównanie dwóch typów wariancji Wariancji wewnątrzgrupowych (tzw. wariancje błędu) czyli wewnątrz każdej z porównywanych grup -> tu nie powinno być różnic, grupy w środku mają być jak najbardziej homogeniczne; Wariancji międzygrupowych czyli pomiędzy porównywanymi grupami -> tu, jeśli mamy mówić o zależności pomiędzy zmiennymi, to różnice powinny być, czyli grupy między sobą mają być heterogeniczne. Z ww. logiki działania testu wynikają wymagania, których spełnienia domaga się ANOVA: a) Rozkład zmiennej zależnej w każdej z porównywanych grup ma być normalny: Dla sprawdzenia rozkładu należy wykonać test Kołmogorowa-Smirnowa/test Shapiro-Wilka; Jeśli warunek jest niespełniony, to można rozważać zastąpienie ANOVY jej nieparametrycznym odpowiednikiem: testem Kruskala-Wallisa; W praktyce ten warunek się pomija, bo przyjęto, że ANOVA jest całkiem nieźle odporna na jego niespełnienie. b) Porównywane grupy mają być równoliczne Równość rozkładu sprawdza test chi-kwadrat dla jednej zmiennej; Jeśli warunek jest niespełniony, to można: o rozważać zastąpienie ANOVY jej nieparametrycznym odpowiednikiem: testem Kruskala- Wallisa; o zdekodować zmienną niezależną tak, by grupy były równoliczne może pomóc; W praktyce często równoliczność grup ocenia się na oko i dopuszcza różnice od kilku do kilkudziesięciu jednostek. Należy po prostu pilnować, by dysproporcje w liczebności grup nie były zbyt duże (np. 30 : 200). c) Porównywane grupy mają mieć homogeniczne wariancje Warunek najważniejszy; Homogeniczność wariancji sprawdza test Levene a (jeśli jego istotność jest mniejsza niż 0,05 to wariancje nie są homogeniczne); 2

W przypadku niespełnienia warunku homogeniczności wariancji: o Najlepiej zastąpić ANOVĘ jej nieparametrycznym odpowiednikiem: testem Kruskala- Wallisa; o Ewentualnie policzyć ANOVĘ z poprawką, czyli testy Welcha (bardziej konserwatywny) Brown-Forsythe a (bardziej liberalny) Przykład Filtr: rok badania 2010; Zmienna niezależna: wiek w przedziałach -> jej wartości będą stanowiły porównywane grupy; Zmienna zależna: re6 Mężczyzna zarabiać, kobieta w domu Przedstawię wzorcowy sposób przeprowadzania ANOVY. W praktyce najczęściej od razu wykonuje się test analizy wariancji z testem Levene a i ew. potem sprawdza równoliczność grup i rozkład normalny zmiennej zależnej w grupach. Krok 1: Sprawdzamy, czy zmienna zależna w porównywanych grupach ma rozkład normalny. Test Kołmogorowa-Smirnowa Interpretacja wyniku testu: Testy normalności rozkładu Wiek respondenta (Podzielone) Kołmogorow-Smirnow a Statystyka df Istotność <= 25,211 188,000 26-35,238 251,000 Mężczyz zarabiać, kobieta w domu 36-45,234 209,000 46-55,234 212,000 a. Z poprawką istotności Lillieforsa 56-65,214 204,000 66+,253 167,000 W każdej z grup istotność testu jest mniejsza niż 0,05, co oznacza, że wszędzie rozkład zmiennej zależnej nie jest normalny. 3

Aby ocenić jak bardzo rozkłady odstają od rozkładu normalnego należy: przyjrzeć się wygenerowanym histogramom albo dla każdej z grup dokonać następujących obliczeń: o wartość kurtozy przez jej błąd standardowy o wartość skośności przez jej błąd standardowy jeśli wynik mieści się między -2 a 2 to rozkład jest w miarę blisko rozkładu normalnego. Z tabelki Statystyki opisowe można więc wyciągnąć następujące dane (ostatnia kolumna została dodana przeze mnie w Excelu) Statystyki opisowe (DESCRIPTIVES) statystyka Wiek respondenta (Podzielone) Statystyka Błąd standardowy przez błąd stand. Mężczyz <= 25 Skośność -,270,177-1,52 zarabiać, Kurtoza kobieta w -,820,353-2,32 domu 26-35 Skośność -,276,154-1,80 Kurtoza -,982,306-3,21 36-45 Skośność -,298,168-1,77 Kurtoza -,908,335-2,71 46-55 Skośność,152,167 0,91 Kurtoza -1,060,332-3,19 56-65 Skośność,194,170 1,14 Kurtoza -1,099,339-3,24 66+ Skośność,659,188 3,51 Kurtoza -,262,374-0,70 Jak widać w przypadku wszystkich grup poza ostatnią wartość większą niż -2 przyjmuje iloraz kurtozy przez jej błąd standardowy. Rozkład zmiennej w tych grupach jest więc nadmiernie spłaszczony w stosunku do rozkładu normalnego. Z kolei w grupie ostatniej rozkład jest zbyt mocno asymetryczny (przesunięty w prawo). Przeprowadzona powyżej analiza rozkładów powinna nas odwieść od wykonywania ANOVY. Jednakże, jak już wcześniej wspomniałam, ANOVA jest dość odporna na niespełnienie warunku normalności rozkładu. Możemy więc przyjąć, że był to jednak bardzo słaby argument przeciw i nadal rozważamy wykonanie analizy wariancji. 4

Krok 2 Sprawdzamy, czy porównywane grupy są równoliczne. Najłatwiej ocenić to na oko, czyli po prostu wygenerować rozkład analizowanej zmiennej Wiek respondenta (Podzielone) Częstość Procent Procent ważnych Procent skumulowany <= 25 196 15,5 15,5 15,5 26-35 257 20,4 20,4 35,9 36-45 212 16,8 16,8 52,7 Ważne 46-55 218 17,3 17,3 70,0 56-65 208 16,5 16,5 86,4 66+ 171 13,6 13,6 100,0 Ogółem 1263 100,0 100,0 Wyróżnione przez nas grupy nie są idealnie równoliczne. Najmniejsza z nich to przedział 66 lat i wyżej (171 osób), a największa to przedział 26-35 lat (257 osób). Różnica między tymi dwiema grupami to 86 osób. Czy to dużo czy mało? Trudno jednoznacznie orzec. Dlatego, gdy nie jesteśmy pewni, czy stwierdzone różnice w liczebności grup są istotne, warto posłużyć się odpowiednim testem. Test chi-kwadrat dla jednej zmiennej Statystyki testu Wiek respondenta (Podzielone) Chi-kwadrat 15,573 a df 5 Istotność asymptotyczna,008 a. 0 komórek (0,0%) ma liczebność oczekiwaną mniejszą od 5. Minimalna liczebność oczekiwana w komórce wynosi 220,0. Interpretacja testu: Istotność testu jest mniejsza niż 0,05 co daje nam podstawy do odrzucenia hipotezy zerowej o losowości rozkładu. W naszym przypadku rozkład zmiennej nie jest losowy i stwierdzone różnice w liczebności grup są istotne (ważne). 5

Warunek równoliczności grup także nie został spełniony. Mamy więc już dwa argumenty za rezygnacją z ANOVY. Tyle, że: Przy braku rozkładu normalnego wiemy, że analiza wariancji jest na to odporna. Dysproporcja w liczebności grup nie jest rażąca. Przyjrzyjmy się więc ostatniemu i najważniejszemu warunkowi: homogeniczności wariancji. Jeśli i on nie zostanie spełniony na pewno będziemy musieli zrezygnować z ANOVY na rzecz testu Kruskala-Wallisa. Jeśli wariancje będą homogeniczne, to możemy zostać przy ANOVIE jedynie traktując jej wynik z lekką dozą nieufności. Krok 3: Sprawdzamy homogeniczność wariancji. Test Levene a sprawdzający homogeniczność wariancji wykonamy równocześnie z testem ANOVY. ANALIZA -> PORÓWNYWANIE ŚREDNICH -> JEDNOCZYNNIKOWA ANOVA Zmienna zależna: re6 Mężczyzna zarabiać, kobieta w domu Czynnik (zmienna niezależna): wiek w przedziałach Opcje: o Statystyki opisowe o Test jednorodności wariancji o Brown-Forsythe (na wszelki wypadek, gdyby wyszła niehomogeniczność wariancji) o Welch (na wszelki wypadek, gdyby wyszła niehomogeniczność wariancji) Syntax ONEWAY re6 BY q9age_rek /STATISTICS DESCRIPTIVES HOMOGENEITY BROWNFORSYTHE WELCH /MISSING ANALYSIS. W linii kodu jest ONEWAY [zmienna zależna] BY [zmienna niezależna] Po wykonaniu polecenia najpierw zaglądamy do tabeli testu jednorodności wariancji: Test jednorodności wariancji Mężczyz zarabiać, kobieta w domu Test Levene'a df1 df2 Istotność 1,449 5 1224,204 6

Przypominam, że test ten sprawdza homogeniczność wariancji (jego H o zakłada równość wariancji): Gdy istotność testu Levene a jest mniejsza niż 0,05 -> test jest istotny, a wariancje nie są homogeniczne; Gdy istotność testu Levene a jest większa niż 0,05 -> test jest nieistotny, a wariancje są homogeniczne; W naszym przypadku istotność testu Levene a jest większa niż 0,05, co oznacza, że wariancje są homogeniczne. Tym samym ostatni i najważniejszy warunek ANOVY został spełniony. Nie musimy więc ani rezygnować z ANOVY na rzecz testu Kruskala-Wallisa, ani zamiast ANOVY interpretować wyników testów Welcha i Brown-Forsythe a. Skoro już wiemy, że ANOVA będzie (w miarę) wiarygodnym testem, to jaki jest jej wynik? Istotność testu analizy wariancji jest mniejsza niż 0,05 co oznacza, że jest zależność pomiędzy zmiennymi. Mężczyz zarabiać, kobieta w domu Jednoczynnikowa ANOVA Suma kwadratów df Średni kwadrat F Istotność Między grupami 96,812 5 19,362 14,180,000 Wewnątrz grup 1671,308 1224 1,365 Ogółem 1768,121 1229 F(df 1, df 2 ) = [wartość]; [istotność] < 0,05 F(5, 1224) = 14,180; p<0,05 [gdyby nie było zależności opis wyglądałby tak: F(5, 1224) = 14,180; p>0,05 ] Interpretacja: Aby sprawdzić, czy odpowiedzi respondentów na pytanie Mężczyzna powinien zarabiać, a kobieta powinna siedzieć w domu są zróżnicowane ze względu na wiek, wykonano jednoczynnikową analizę wariancji ANOVA. Test F(5, 1224) = 14,180; p<0,05 wykazał, że wiek różnicuje opinie. W tym miejscu trzeba pamiętać, że ANOVA mówi nam tylko o tym, czy są różnice w średnich pomiędzy porównywanymi grupami. Nie wskazuje natomiast, w jaki sposób porównywane grupy różnią się od siebie np. u nas która kategoria wiekowo mocniej optuje za tradycyjnym podziałem ról w rodzinie. 7

Przybliżoną odpowiedź daje analiza średnich w poszczególnych grupach, którą mamy w tabelce Statystyki opisowe : Mężczyz zarabiać, kobieta w domu Statystyki opisowe N Średnia Odchylenie standardowe Błąd standardowy 95% przedział ufności dla średniej Minimum Maksimum Dolna granica Górna granica <= 25 188 3,12 1,158,085 2,96 3,29 1 5 26-35 251 3,19 1,202,076 3,04 3,34 1 5 36-45 209 3,08 1,144,079 2,93 3,24 1 5 46-55 212 2,78 1,156,079 2,62 2,93 1 5 56-65 204 2,65 1,207,085 2,48 2,82 1 5 66+ 167 2,39 1,126,087 2,22 2,56 1 5 Ogółem 1230 2,89 1,199,034 2,83 2,96 1 5 Widać w niej, że im wyższa kategoria wiekowe, tym średnia ocen niższa (czyli wzrasta akceptacja dla badanego twierdzenia, bo kafeteria ułożona jest odwrotnie: 1 to zdecydowanie się zgadza, a 5 zdecydowanie się nie zgadza ). Czy jednak różnice w średnich pomiędzy poszczególnymi grupami są istotne statystycznie? ANOVA powiedziała tylko tyle, że tam gdzieś są takie ważne statystycznie różnice, nie wskazała zaś gdzie dokładnie. Do szczegółowej analizy służą w tym miejscu testy post hoc. Wariancje homogeniczne Wariancje niehomogeniczne Test Uwagi Test Uwagi S-N-K Bardzo liberalny Games-Howell Nierówne grupy Bonferroni Konserwatywny Mała liczba grup Tukey Konserwatywny Duża liczba grup C Dunnett T2 Konserwatywny Scheffe Bardzo konserwatywny Gabriel Dość liberalny Nierówne grupy Mamy homogeniczne wariancje, więc wybór zawęża się do testów S-N-K, Bonferroniego, Tukey a, Scheffe go i Gabriela. Odrzucimy S-N-K jako bardzo liberalny i Scheffe go jako bardzo konserwatywny. Bardzo liberalny test mógłby nam pokazać, że istnieją różnice tam, gdzie ich nie ma; z kolei bardzo 8

konserwatywny może wykazać, że nie ma różnic tam, gdzie faktycznie są. Odrzucimy też Bonferroniego, ponieważ mamy dużo porównywanych grup (dokładnie to 6). Zostaje nam więc konserwatywny Tukey i dość liberalny Gabriel. I te dwa testy post hoc wykonamy, licząc, że ich wynik nie będzie się za bardzo różnił. Jeszcze raz wywołujemy ANOVĘ, tym razem w zakładce Post hoc zaznaczamy Tukey i Gabriel. Przy okazji w zakładce Opcje możemy wszystko poodhaczać. Syntax ONEWAY re6 BY q9age_rek /MISSING ANALYSIS /POSTHOC=TUKEY GABRIEL ALPHA(0.05). Przy korzystaniu z innych testów post hoc w linii kodu /POSTHOC= można wpisać zaraz za znakiem równości, bez przecinków pomiędzy ale ze spacjami, ich nazwy SNK -> dla testu S-N-K TUKEY -> dla testu Tukey a SCHEFFE -> dla testu Scheffe go BONFERRONI -> dla testu Bonferroniego GABRIEL -> dla testu Gabriela T2 -> dla testu T2 GH -> dla testu Games-Howella C -> dla testu C Dunnetta Po nazwach wybranych testów musi pozostać w tej samej linii wpisane ALPHA(0.05). 9

Po wykonaniu polecenia dostajemy dwie tabele. Najpierw bardzo dużą opisaną jako Post hoc Porównania wielokrotne Zmienna zależna: Mężczyz zarabiać, kobieta w domu (I) Wiek respondenta (Podzielone) <= 25 26-35 36-45 Test Tukey'a HSD 46-55 56-65 66+ <= 25 Test Gabriela 26-35 (J) Wiek respondenta Różnica Błąd Istotność (Podzielone) średnich standardowy (I-J) 95% przedział ufności Dolna Górna granica granica 26-35 -,065,113,993 -,39,26 36-45,043,118,999 -,29,38 46-55,347 *,117,036,01,68 56-65,476 *,118,001,14,81 66+,735 *,124,000,38 1,09 <= 25,065,113,993 -,26,39 36-45,108,109,923 -,20,42 46-55,412 *,109,002,10,72 56-65,541 *,110,000,23,86 66+,800 *,117,000,47 1,13 <= 25 -,043,118,999 -,38,29 26-35 -,108,109,923 -,42,20 46-55,305,114,081 -,02,63 56-65,433 *,115,002,10,76 66+,692 *,121,000,35 1,04 <= 25 -,347 *,117,036 -,68 -,01 26-35 -,412 *,109,002 -,72 -,10 36-45 -,305,114,081 -,63,02 56-65,129,115,872 -,20,46 66+,387 *,121,017,04,73 <= 25 -,476 *,118,001 -,81 -,14 26-35 -,541 *,110,000 -,86 -,23 36-45 -,433 *,115,002 -,76 -,10 46-55 -,129,115,872 -,46,20 66+,259,122,278 -,09,61 <= 25 -,735 *,124,000-1,09 -,38 26-35 -,800 *,117,000-1,13 -,47 36-45 -,692 *,121,000-1,04 -,35 46-55 -,387 *,121,017 -,73 -,04 56-65 -,259,122,278 -,61,09 26-35 -,065,113 1,000 -,39,26 36-45,043,118 1,000 -,30,39 46-55,347 *,117,045,00,69 56-65,476 *,118,001,13,82 66+,735 *,124,000,37 1,10 <= 25,065,113 1,000 -,26,39 36-45,108,109,997 -,21,43 10

46-55,412 *,109,002,09,73 56-65,541 *,110,000,22,86 66+,800 *,117,000,46 1,14 <= 25 -,043,118 1,000 -,39,30 26-35 -,108,109,997 -,43,21 36-45 46-55,305,114,108 -,03,64 56-65,433 *,115,003,10,77 66+,692 *,121,000,34 1,05 <= 25 -,347 *,117,045 -,69,00 26-35 -,412 *,109,002 -,73 -,09 46-55 36-45 -,305,114,108 -,64,03 56-65,129,115,989 -,21,46 66+,387 *,121,020,03,74 <= 25 -,476 *,118,001 -,82 -,13 26-35 -,541 *,110,000 -,86 -,22 56-65 36-45 -,433 *,115,003 -,77 -,10 46-55 -,129,115,989 -,46,21 66+,259,122,404 -,10,62 <= 25 -,735 *,124,000-1,10 -,37 26-35 -,800 *,117,000-1,14 -,46 66+ 36-45 -,692 *,121,000-1,05 -,34 46-55 -,387 *,121,020 -,74 -,03 56-65 -,259,122,404 -,62,10 *. Różnica średnich jest istotna na poziomie 0.05. Testy post hoc to w gruncie rzeczy nic innego niż seria testów t dla dwóch grup. Jak można się zorientować po budowie tabeli każda grupa jest konfrontowana z każdą. Jeśli różnica średnich dwóch grup jest istotna (w kolumnie Istotność mamy mniej 0,05), to SPSS dodatkowo sygnalizuje to * w kolumnie Różnica średnich. Dla ułatwienia oznaczyłam kolorami istotne różnice pomiędzy grupami. Widać, że po pierwsze oba testy i konserwatywny, i liberalny dały taki sam obraz. Po drugie, że: a) Różnice pomiędzy najmłodszymi grupami respondentów ( do 25 lat, 26-35 lat oraz 36-45 lat ) są nieznaczne i nieistotne statystycznie. b) Zdecydowanie odróżnia się grupa najstarszych respondentów: 66 lat i wyżej. 11

Te same informacje niesie druga z tabel wygenerowanych przez testy post hoc: Grupy jednorodne. Mężczyz zarabiać, kobieta w domu Wiek respondenta N Podzbiór dla alfa = 0.05 (Podzielone) 1 2 3 4 66+ 166 2,39 56-65 203 2,65 2,65 46-55 212 2,78 2,78 Test Tukey'a HSD a,b 36-45 208 3,08 3,08 <= 25 187 3,12 26-35 251 3,19 Istotność,227,879,093,940 66+ 166 2,39 56-65 203 2,65 2,65 46-55 212 2,78 2,78 Test Gabriela a,b 36-45 208 3,08 3,08 <= 25 187 3,12 26-35 251 3,19 Istotność,329,991,126,999 Wyświetlane są średnie dla grup jednorodnych. a. Użyto średniej harmonicznej wielkości próby = 201,917. b. Liczebności grup nie są równe. Została użyta średnia harmoniczna liczebności grup. Poziomy błędów pierwszego rodzaju nie są zagwarantowane. Tabela pokazuje istotne podobieństwa pomiędzy porównywanymi grupami (czyli między kim a kim brak jest różnic). Ponownie wyniki obu testów (Tukey a i Gabriela) nie różnią się. Z tabeli zaś można wywnioskować, że można by wyłonić 4 podzbiory podobnych grup. Byłyby to jednak podzbiory nierozłączne są takie grupy, które należą do dwóch podzbiorów ( 56-65 lat, 46-55 lat, 36-45 lat ). Ta płynność granic pomiędzy podzbiorami oznacza, że opinie wraz z wiekiem nie zmieniają się radykalnie, ale ewoluują. Wyjątek stanowią tu najstarsi i najmłodsi respondenci te kategorie należą tylko do max jednego podzbioru. Są więc w swoich opiniach najbardziej zdecydowani. 12

2. WSPÓŁCZYNNIK KORELACJI RANG RHO SPEARMANA Współczynnik stosowany, gdy obie zmienne są na poziomie porządkowym lub ilościowym. Przykład dla zmiennych: Filtr: rok 2010 re6 - Mężczyzna zarabiać, kobieta w domu (zmienna zależna) re31 Resp osobą religijną/niereligijną (zmienna niezależna) Zanim sprawdzimy czy i jak silna jest korelacja między zmiennymi re6 i re31, trzeba sprawdzić dwie rzeczy: a) braki danych w obu przypadkach odpowiedź z kodem 8 czyli trudno powiedzieć powinna trafić do braków danych; b) kierunek zmiennych kody dla zmiennej re6 ułożone są tak, że im wyższy kod, tym mniejsza akceptacja stwierdzenia (5 zdecydowanie się nie zgadzam ) kody dla zmiennej re31 ułożone są tak, że im wyższy kod, tym mniejsza deklarowana religijność (7 osoba wyjątkowo niereligijna ) Kierunek zmiennych jest ważny, by później bez błędu orzec o kierunku samej zależności. ANALIZA -> KORELACJE -> PARAMI w okienku po prawej stronie umieścić obie analizowane zmienne (w dowolnej kolejności) w opcjach na dole okna zaznaczyć Spearman, a odznaczyć domyślnego Pearsona test istotności zostawić jako dwustronna Syntax NONPAR CORR /VARIABLES=re6 re31 /PRINT=SPEARMAN TWOTAIL NOSIG /MISSING=PAIRWISE. 13

Po wywołaniu polecenia otrzymujemy następującą tabelę: Korelacje Mężczyz Resp osobą zarabiać, religijną/niereligij kobieta w domu ną Współczynnik korelacji 1,000,158 ** Mężczyz zarabiać, kobieta w Istotność (dwustronna).,000 domu N 1287 1268 rho Spearmana Współczynnik korelacji,158 ** 1,000 Resp osobą Istotność (dwustronna),000. religijną/niereligijną N 1268 1297 **. Korelacja jest istotna na poziomie 0.01 (dwustronnie). Korelacja została policzona w obie strony, tzn. każda zmienna została potraktowana raz jako zależna, a raz jako niezależna. Można było wcześniej poprosić o test istotności jednostronny, ale wówczas ważna by była kolejność zmiennych na liście. Tak jak zrobiliśmy jest prościej. Dla nas zmienną niezależną jest religijność respondenta, więc czytamy drugi wiersz tabeli: istotność jest mniejsza niż 0,05 (a nawet mniejsza niż 0,01), co oznacza, że korelacja jest istotna statystycznie; wartość współczynnika korelacji r s = 0,158 co oznacza, że jest to korelacja słaba; znak współczynnika (+) wskazuje, że jest to korelacja wprost proporcjonalna: wzrastającym wartościom (a raczej: kodom odpowiedzi) jednej zmiennej towarzyszą rosnące wartości (kody odpowiedzi) drugiej zmiennej. Interpretacja: Na podstawie wartości współczynnika korelacji rang Spearmana stwierdzono, że istnieje słaba zależność pomiędzy deklaratywną religijnością respondenta a jego opinią nt. podziału ról w rodzinie (r s = 0,158). Korelacja jest wprost proporcjonalna, im mniej religijny respondent, tym częściej odrzucał twierdzenie, że kobieta powinna zajmować się domem, a mężczyzna na dom zarabiać. 14

3. WSPOŁCZYNNIK KORELACJI LINIOWEJ R-PEARSONA Współczynnik stosowany, gdy obie zmienne są na poziomie ilościowym. Przykład dla zmiennych: Filtr: rok 2010 re6 - Mężczyzna zarabiać, kobieta w domu (zmienna zależna) q9age Wiek (zmienna niezależna) Zanim sprawdzimy czy i jak silna jest korelacja między zmiennymi re6 i q9age, trzeba sprawdzić dwie rzeczy: c) braki danych w przypadku zmiennej re6 odpowiedź z kodem 8 czyli trudno powiedzieć powinna trafić do braków danych; w przypadku wieku nie ma braków danych; d) kierunek zmiennych kody dla zmiennej re6 ułożone są tak, że im wyższy kod, tym mniejsza akceptacja stwierdzenia (5 zdecydowanie się nie zgadzam ) w przypadku wieku kod jest jednocześnie liczbą lat respondenta. Kierunek zmiennych jest ważny, by później bez błędu orzec o kierunku samej zależności. ANALIZA -> KORELACJE -> PARAMI w okienku po prawej stronie umieścić obie analizowane zmienne (w dowolnej kolejności) w opcjach na dole okna pozostawić domyślnego Pearsona test istotności zostawić jako dwustronna Syntax CORRELATIONS /VARIABLES=re6 q9age /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. 15

Po wywołaniu polecenia otrzymujemy następującą tabelę: Korelacje Mężczyz zarabiać, Wiek respondenta kobieta w domu Korelacja Pearsona 1 -,228 ** Mężczyz zarabiać, kobieta w domu Istotność (dwustronna),000 N 1230 1230 Korelacja Pearsona -,228 ** 1 Wiek respondenta Istotność (dwustronna),000 N 1230 1263 **. Korelacja jest istotna na poziomie 0.01 (dwustronnie). Korelacja została policzona w obie strony, tzn. każda zmienna została potraktowana raz jako zależna, a raz jako niezależna. Można było wcześniej poprosić o test istotności jednostronny, ale wówczas ważna by była kolejność zmiennych na liście. Tak jak zrobiliśmy jest prościej. Dla nas zmienną niezależną jest wiek respondenta, więc czytamy drugi wiersz tabeli: istotność jest mniejsza niż 0,05 (a nawet mniejsza niż 0,01), co oznacza, że korelacja jest istotna statystycznie; wartość współczynnika korelacji r xy = -0,228 co oznacza, że jest to korelacja słaba; znak współczynnika (-) wskazuje, że jest to korelacja odwrotnie proporcjonalna: wzrastającym wartościom (a raczej: kodom odpowiedzi) jednej zmiennej towarzyszą malejące wartości (kody odpowiedzi) drugiej zmiennej. Interpretacja: Na podstawie wartości współczynnika korelacji liniowej r-pearsona stwierdzono, że istnieje umiarkowana zależność pomiędzy wiekiem respondenta a jego opinią nt. podziału ról w rodzinie (r xy = -0,228). Korelacja jest odwrotnie proporcjonalna, im starszy respondent, tym częściej akceptował twierdzenie, że kobieta powinna zajmować się domem, a mężczyzna na dom zarabiać. 16

Przy współczynniki korelacji liniowej r-pearsona trzeba pamiętać o jeszcze jednej rzeczy. To współczynnik, który świetnie radzi sobie z wykrywaniem zależności prostoliniowych: a) wprost proporcjonalnych b) odwrotnie proporcjonalnych Natomiast ten współczynnik nie radzi sobie z korelacjami krzywoliniowymi. Widzi wówczas nakładające się na siebie dwie linie korelacji liniowej: jedną wprost i jedną odwrotnie proporcjonalną: I w efekcie może wskazać na brak lub bardzo słabą korelację. Dlatego warto przy słabej korelacji liniowej policzyć jeszcze współczynnik eta ( ). Mając wartości współczynników r-pearsona i eta można obliczyć miernik stopnia krzywoliniowości: m = 2 2 r xy Jeśli wynik: m 0,2 to mamy korelacje prostoliniową i interpretację opieramy na r-pearsona m > 0,2 to mamy korelację krzywoliniową i interpretację opieramy na eta. W naszym przypadku: r xy = -0,228 xy = 0,306 m = 2 r 2 xy = (0,306) 2 (-0,228) 2 = 0,094 0,052 = 0,042 miernik krzywoliniowości jest mniejszy niż 0,2, co oznacza, że naszą korelację możemy traktować jako prostoliniową i orzekać o niej na podstawie wartości współczynnika r-pearsona 17