2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali nominalnej. Liczba porównywanych grup (czyli liczba kategorii zmiennej niezależnej) nie ma znaczenia Można go również stosować jeśli zmienna zależna mierzona jest na skali porządkowej, ale nie powinna mieć ona zbyt wielu wartości. Pomimo, że jest to test z grupy najsłabszych (prawdopodobieństwo, że test nie pozwoli odrzucić hipotezy zerowej jeśli jest ona fałszywa ( badacz popełnia błąd beta), jest większe niż w przypadku testów dla zmiennych porządkowych i ilościowych) jednak często jest to jedyny test, który można zastosować. 1
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? H: Studiujący i niestudiujący różnią się miejscem robienia zakupów internetowych H 0: Studiowanie nie różnicuje preferencji dotyczących sklepów internetowych Sklep Studiujący Niestudiujący Razem Amazon 50 (33%) 70 (50%) 120 (41%) Zalando 40 (27%) 40 (29%) 80 (28%) Allegro 60 (40%) 30 (21%) 90 (31%) Rozkład empiryczny obserwowany (z badań) Rozkład empiryczny obserwowany (z badań) Nie wiadomo co pokazuje Rozkład teoretyczny oczekiwany (obliczony) Pomiędzy zmiennymi nie ma zależności Stud Niestud Razem Amazon 50 (33%) 70 (50%) 120 (41%) Zalando 40 (27%) 40 (29%) 80 (28%) Allegro 60 (40%) 30 (21%) 90 (31%) Amazon (41%) (41%) 120 (41%) Zalando (28%) (28%) 80 (28%) Allegro (31%) (31%) 90 (31%) Liczebności w tabeli rozkładu empirycznego uzyskuje się na podstawie badań Liczebności w tabeli wartości oczekiwanych są obliczane 2
Rozkład empiryczny obserwowany (z badań) Nie wiadomo co pokazuje Rozkład teoretyczny oczekiwany (obliczony) Pomiędzy zmiennymi nie ma zależności Amazon 50 (33%) 70 (50%) 120 (41%) Zalando 40 (27%) 40 (29%) 80 (28%) Allegro 60 (40%) 30 (21%) 90 (31%) Suma 150 (100%) 140 (100%) 290 (100%) Często 62 (41%) 58 (41%) 120 (41%) Czasami 41 (28%) 39 (28%) 80 (28%) Nigdy 47 (31%) 43 (31%) 90 (31%) Rozkład empiryczny obserwowany (z badań) Nie wiadomo co pokazuje Rozkład teoretyczny oczekiwany (obliczony) Pokazuje brak związku! Pytamy czy rozkłady się od siebie różnią (T? E) TAK (T E) NIE (T = E) istnieje związek/zależność między zmiennymi hipotezę zerową można odrzucić czyli przyjąć hipotezę przeciwną różnice są istotne statystycznie nie ma podstaw do odrzucenia hipotezy zerowej różnice są nieistotne statystycznie nie istnieje związek/zależność między zmiennymi (w badaniach nie udało się takiego związku wykazać!) 3
Rozkład empiryczny obserwowany (z badań) Rozkład teoretyczny oczekiwany (obliczony) Amazon 50 (33%) 70 (50%) 120 (41%) Zalando 40 (27%) 40 (29%) 80 (28%) Allegro 60 (40%) 30 (21%) 90 (31%) Amazon 62 (41%) 58 (41%) (41%) Zalando 41 (28%) 39 (28%) (28%) Allegro 47 (31%) 43 (31%) (31%) Jak obliczyć różnicę między tabelami? Obliczenie jak bardzo różnią się od siebie tabele rozkładów polega na wyznaczeniu statystyki 2 Test chi kwadrat wyznacza wielkość różnicy między rozkładem empirycznym i teoretycznym Wartość statystyki chi Pearsona ( Im większa wartośc 2 ) jest informacją jak bardzo rozkład empiryczny różni się od teoretycznego Im większa wartość 2 tym większa szansa na stwierdzenie różnicy między rozkładami czyli istnienie związku między zmiennymi Im mniejsza próba tym silniejszy musi być związek, aby okazał się istotny statystycznie, dla dużych prób nawet słaby związek może być istotny statystycznie W tradycyjny sposób ustalamy oszacowanie wielkości statystyki na podstawie tablic statystycznych - odczytujemy czy przy założonym poziomie istotności wartość 2 pozwala na odrzucenie hipotezy zerowej W przypadku korzystania z programów statystycznych wartość 2 ma znaczenie informacyjne. Decyzję o odrzuceniu (lub nie) hipotezy zerowej podejmujemy na podstawie p-wartości (znajdującej się w tabeli Testu chi-kwadrat kolumnie Istotność asymptotyczna dwustronna) 4
P-wartość (prawdopodobieństwo popełnienia błędu przy odrzuceniu prawdziwej hipotezy zerowej ) p<0,05 hipotezę zerową odrzucamy (wynik można uogólnić na populację!) p>0,05 - nie ma podstaw do odrzucenia hipotezy zerowej Wartość statystki 2 Liczba stopni swobody (n-1)*(k-1) Określa wielkość tabeli P-wartość w tabeli testu chi-kwadrat równą zero (,000 ) należy interpretować jako prawdopodobieństwo bardzo bliskie zeru Liczebności empiryczne Liczebności teoretyczne (oczekiwane) Ocena Dz. Chł. Niedostateczny 1 1% 1 1% Dopuszczający 32 26% 32 26% Dopuszczający plus 4 4% 4 4% Dostateczny 35 28% 36 28% Dostateczny plus 7 6% 7 6% Dobry 27 21% 27 21% Dobry plus 3 3% 3 3% Bardzo dobry 14 11% 14 11% 123 100% 124 100% Ograniczenia testu chi kwadrat wynikające z liczebności teoretycznych Procent komórek z liczebnością mniejszą niż 5 Minimalna liczebność oczekiwana 6 komórek z 16 czyli 37,5% komórek (6) ma liczebność mniejszą niż 5. Minimalna liczebność oczekiwana 1 5
Wyniki analiz uzyskane w programie statystycznym przyjmujemy jeżeli spełnione są dwa warunki: - co najwyżej 20% komórek ma liczebność oczekiwana mniejsza niż 5 - minimalna liczebność oczekiwana jest większa od 1 Powyższe informacje znajdują się pod tabelą Testu Chi-kwadrat NIE TAK Test chi kwadrat nie mierzy ani siły ani kierunku związku Kierunek zależności odczytujemy z tabeli krzyżowej Siła związku na ile poprawnie można w przybliżeniu oszacować wartości w poszczególnych polach tabeli krzyżowej Siłę związku możemy zinterpretować na podstawie wartości współczynników korelacji nominalnej/porządkowej <0 brak związku,1 całkowita zależność> C kontyngencji (tabele n x n) Maksymalna wartość górna zależy od rozmiaru tabeli. Dla n= 2 C max =0,707, dla n=3 C max =0,816, dla n=4 C max =0,866 phi Yula (tabele 2 x 2) Jest miarą koncentracji przypadków na przekątnej V Cramera (k x n) 6
P: Czy płeć różnicuje Plany edukacyjne? H: Płeć różnicuje plany edukacyjne Różnice między dziewczętami i chłopcami w zakresie precyzji planów edukacyjnych są istotne statystycznie. Hipoteza nie została potwierdzona w badaniach. P: Czy wykształcenie ojca różnicuje wybór szkoły przez dziecko? H: Im wyższe wykształcenie ojca tym częściej uczniowie wybierają kształcenie ogólne. Poziom wykształcenia ojca istotnie statystycznie różnicuje wybór szkoły przez dziecko (chi=11,26, df=4, p<0,05). Im wyższe wykształcenie ojca tym częściej (wyższe odsetki) uczniowie wybierają kształcenie w liceach ogólnokształcących. Istotnie statystycznie częściej kształcenie w liceach wybierają uczniowie, których ojcowie mają wyższe wykształcenie (76,0%) Im wyższe wykształcenie ojca tym niższe odsetki uczniów wybierających kształcenie w technikum. Wśród uczniów, których ojcowie mają wykształcenie wyższe tylko 12,0% planuje kontynuować naukę w technikum. Kształcenie zawodowe jest wybierane przez uczniów tak samo często bez względu na wykształcenie ojca. Korelacja między wykształceniem ojca a wyborem szkoły jest słaba C=0,26 (p<0,05) Wyniki badań wzmacniają/potwierdzają hipotezę. 7
P: Czy płeć różnicuje ocenę przygotowania do egzaminu gimnazjalnego? H: Dziewczynki i chłopcy różnią się oceną przygotowania do egzaminu gimnazjalnego. Płeć różnicuje ocenę przygotowania do egzaminu gimnazjalnego (chi=23,33, df=1, p<0,001). Prawie 4 na pięciu chłopców (79,0%) dobrze oceniło swoje przygotowanie do egzaminu, podczas gdy taką opinię ma połowa dziewcząt (49,6%). Korelacja między płcią a ocena przygotowania do egzaminu gimnazjalnego jest przeciętna (Phi=0,31, p<0,001) Hipoteza została potwierdzona w badaniach. P: Czy po przeprowadzeniu egzaminu zmieniła się ocena przygotowania do testu gimnazjalnego? H: Ocena przygotowania do egzaminu zmienia się po jego przeprowadzeniu. Przeprowadzenie egzaminu gimnazjalnego nie powoduje zmiany oceny o przygotowaniu się do testu. 84% uczniów pozostało przy swojej ocenie. Istnieje wysoka korelacja pomiędzy oceną przygotowania przed i po egzaminie (Phi=0,67, p<0,001). Ocenę przygotowania po teście w 44,89% można przewidzieć na podstawie znajomości opinii przed testem. Hipoteza nie została potwierdzona w badaniach. 16 8
P: Czy gotowość do działań na rzecz szkoły zmienia się w kolejnych latach nauki w gimnazjum? H: Gotowość do działań na rzecz szkoły zmienia się w kolejnych latach nauki w gimnazjum. Analiza danych z wykorzystaniem testu Q Cochrana dla prób zależnych pozwoliła stwierdzić, że gotowość do działań na rzecz szkoły zmieniła się. W kolejnych latach rosną odsetki badanych gotowych podjąć taką działalność. Na podstawie dalszych analiz (porównań wielokrotnych pomiędzy latami nauki z wykorzystaniem testu McNemara) ustalono, że różnica pomiędzy gotowością deklarowaną w klasie czwartej i piątej jest nieistotna statystycznie. Częstość deklarowania gotowości do działań na rzecz szkoły w klasie 6 różni się istotnie statystycznie od deklaracji z klasy piątej (chi=12,81, df=1 *, p<0,001) i czwartej (chi=13,02, df=1, p<0,001) Badania potwierdziły hipotezę. * W wynikach SPPS dla testu McNemaranie jest podawane df, ale tabele są zawsze 2x2 więc łatwo policzyć, że df=(2-1)x(2-1)=1 17 9