(autor Piotr Kwiatkowski)



Podobne dokumenty
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Zawartość. Zawartość

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Testy nieparametryczne

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Zadania ze statystyki, cz.6

Badanie zależności skala nominalna

Instrukcja obsługi programu SWWS autorstwa Michała Krzemińskiego

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Jak korzystać z przeglądarki danych ESS SoftReport

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Przypomnienie: Ćwiczenie 1.

x y

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Edytor materiału nauczania

Sposoby prezentacji problemów w statystyce

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Analiza korespondencji

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Statystyka matematyczna dla leśników

TABELE WIELODZIELCZE

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Wprowadzenie do analizy korelacji i regresji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Jak utworzyć plik SIO dla aktualnego spisu?

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

Metody Statystyczne. Metody Statystyczne

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

ZARZĄDZANIE DANYMI W STATISTICA

Niestandardowa tabela częstości

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Abacus Tychy, ul. Pod Lasem 20 tel

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

166 Wstęp do statystyki matematycznej

Wykład 3 Hipotezy statystyczne

Porównanie wyników grupy w odniesieniu do norm Test t dla jednej próby

Analizy wariancji ANOVA (analysis of variance)

Wnioskowanie statystyczne. Statystyka w 5

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza wariancji. dr Janusz Górczyński

WNIOSKOWANIE STATYSTYCZNE

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

Wykład 2: Arkusz danych w programie STATISTICA

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych

Zadanie 1. Analiza Analiza rozkładu

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 9 Wnioskowanie o średnich

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Arkusza obserwacji

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Biblioteki publiczne

Biblioteki publiczne

Badanie normalności rozkładu

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Kancelaria zmiany w programie czerwiec 2011

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Transkrypt:

Test chi-kwadrat (autor Piotr Kwiatkowski) W badaniach z zakresu nauk społecznych analizowane zmienne często występują w postaci jakościowej (nominalnej). Zmienność polega na tym, że w badanej populacji poszczególne osoby można przypisać do różnych i rozłącznych kategorii (np. zmienność płci sprowadza się do występowania dwóch kategorii - mężczyzna, kobieta zaś zmienność rodzaju wykształcenia sprowadzic można do czterech kategorii - humanistyczne, matematycznoprzyrodnicze, techniczne, artystyczne). Wiele problemów badawczych w naukach społecznych to pytania o zależności między takim właśnie zmiennymi. Co oznacza termin zależność (określenia bliskoznaczne to związek między zmiennymi albo korelacja)? W opisywanym tu kontekście oznacza on, że istnieje taka prawidłowość w układzie danych, że pewnym wartościom zmiennej A częściej da się przypisać pewne wartości zmiennej B. Inaczej mówiąc, jeśli określone osoby różnią się wartością zmiennej A, to w pewien sposób różnią się także wartościami zmiennej B. Trzymając się podanego przykładu - jeśli poklasyfikujemy ludzi jednocześnie wg płci i wg wykształcenia, to o zależności wykształcenia od płci powiemy, jeżeli pewne rodzaje wykształcenia częściej pojawiają się wśród kobiet a inne rodzaje wykształcenia częściej pojawiają się u mężczyzn. Gdyby poszczególne kategorie wykształcenia z jednakową częstością pojawiały się wśród kobiet i wśród mężczyzn, to nie byłoby podstaw do wnioskowania o istnieniu zależności. W praktyce z reguły stwierdza się jakieś różnice tego rodzaju większe lub mniejsze. Im są one większe, tym mniej jest prawdopodobne, że powstały w wyniku działania czynników losowych. W badaniach statystycznych jakie by one nie były zawsze dążymy do uzyskania odpowiedzi na pytanie jakie jest prawdopodobieństwo, że wykryty w badanym zbiorze układ danych powstał w wyniku działania czynnika losowego (prawdopodobieństwo błędnego czy - jak ktoś woli - niesłusznego odrzucenia tzw. hipotezy zerowej). Zwróćmy uwagę, że określając prawdopodobieństwo przypadkowości uzyskanych wyników wyznaczamy automatycznie prawdopodobieństwo ich nieprzypadkowości, ponieważ prawdopodobieństwa obu wykluczających się alternatyw sumują się do jedności (lub do 100%). Jeśli uznamy, że losowy rozkład danych w populacji generalnej jest mało prawdopodobny, to musimy przyjąć, że istnienie prawidłowości jest wysoce prawdopodobne. W statystyce mówimy w tym kontekście o istotności rezultatów badań (istotne statystycznie oznacza więc tyle, co z niewielkim prawdopodobieństwem losowe ). Zanim przystąpimy do omawiania technicznej strony obliczeń chi-kwadrat, jeszcze jedna uwaga ogólna. Dotyczy ona tego czym są badania statystyczne i na jakich założeniach się opierają. Wnioskowanie statystyczne ma charakter indukcyjny, czyli polega na uogólnianiu wyników (z tzw. próby na populację generalną). Zakładamy, że jeśli próba została pobrana w sposób losowy, to dane z próby są odzwierciedleniem wszelkich prawidłowości obecnych w populacji generalnej, zaś wszelkie odchylenia od tych prawidłowości występujące w próbie mają charakter losowy (nazywamy je błędem losowym). Jeśli próba jest duża, to mówiąc obrazowo owe odchylenia giną w masie.

Każdy test statystyczny prowadzi do określenia istotności czyli do ustalenia prawdopodobieństwa słuszności hipotezy zerowej. Hipotezę zerową możemy w wyniku testu odrzucić (jako mało pradopodobną) albo stwierdzić, że brak jest podstaw do odrzucenia hipotezy zerowej (jeśli prawdopodobieństwo jej słuszności jest zbyt duże). W statystyce przyjmuje się, że do odrzucenia hipotezy zerowej upoważnia jej prawdopodobieństwo mniejsze niż 0,05. Granica ta jest jednak umowna i w pewnych okolicznościach może być przesunięta (ale raczej w dół, tzn. możemy wyznaczyć ją na 0,02 albo 0,01 czy 0,001 a uzasadnieniem dla takiego zabiegu może być na przykład bardzo duża liczebność próby). Na marginesie uwaga hipotezy zerowej nie da się udowodnić, bowiem na gruncie indukcji nie można udowodnić nieistnienia czegokolwiek (w tym niestnienia zależności). Jeśli w badanej próbie nie zaobserwowano zakładanej hipotetycznie zależności między zjawiskami lub innej właściwośc,i to nie oznacza, że nie występuje ona w populacji generalnej choćby w niewielkim zakresie. Hipotezę zerową można odrzucić, gdy przemawiają za tym wyniki uzyskane w próbie ale nie można jej potwierdzić w takich badaniach. Dlatego hipotez badawczych nigdy nie formułujemy w brzmieniu hipotezy zerowej, gdyż były one nieweryfikowalne - nie da się udowodnić tezy o równości inteligencji kobiet i mężczyzn, gdyż próbowalibyśmy udowodnić nieistnienie różnic w populacji generalnej na podstawie danych z próby czyli wycinka tej populacji. Gdybyśmy jednak uzyskali pewne różnice i w wyniku testowania statystycznego danych z próby (pobranej w sposób losowy!!!) uznali, że przypadkowość tychże różnic jest mało prawdopodobna, to mielibyśmy prawo odrzucić hipotezę zerową, mówiącą o równości inteligencji obu płci. Teraz przejdźmy do konkretów. W przypadku testu chi-kwadrat będziemy testować hipotezę zerową, która mówi w populacji generalnej rozkład poszczególnych kombinacji wartości dwóch zmiennych ma charakter losowy. Przyjmiemy na wstępie, że kryterium istotności będzie wartość prawdopodobieństwa hipotezy zerowej mniejsza niż 0,05 (zapisujemy to prawdopodobieństwo symbolem p albo grecką literą alfa - czyli p<0,05). Przyjmijmy też do wiadomości, że stosowanie testu chi-kwadrat wymaga spełnienia pewnych warunków co do liczby analizowanych przypadków - ale o tym za chwilę. Na początek będzie nam potrzebna tabela z wynikami badań. Tabela pokaże nam ile osób zbadano w próbie, jak często w próbie pojawiały się poszczególne wartości jednej i drugiej zmiennej oraz jak często w próbie pojawiały się wszystkie możliwe kombinacje wartości obu zmiennych. Tabela musi zawierać liczebności bezwzględne (nazywane czasem liczebnościami surowymi). Pomijamy liczebności względne czyli np. rozkład procentowy, gdyż do obliczeń używamy dane surowe. Przykładowa tabelka poniżej. Rodzaj preferowanego wykształcenia Płeć Humanistyczne Matemat-przyrod. Techniczne Artystyczne Razem Mężczyźni 41 69 80 20 210 Kobiety 112 45 35 34 226 Razem 153 114 125 54 436 Teraz sprawdzimy, czy zasadne jest posłużenie się testem chi-kwadrat. Przyjmuje się, że żadna z liczebności brzegowych w tabeli nie może być mniejsza niż 20. W naszym przykładzie wszystkie wartości są wyższe niż 20 a zatem nic nie stoi na przeszkodzie, by dokonać dalszych obliczeń.

Test chi-kwadrat opiera się na porównaniu liczebności bezwzględnych uzyskanych w badaniu empirycznym z liczebnościami, które ujawniłyby się, gdyby dane w tabeli odzwierciedlały losowe przyporządkowanie wartości jednej zmiennej do wartości drugiej zmiennej. Porównanie dotyczy zatem tzw. liczebności empirycznych i liczebności teoretycznych. Liczebności empiryczne mamy już gotowe po zliczeniu danych z próby, zaś liczebności teoretyczne trzeba dopiero obliczyć. Obliczenia te wykonywane sa osobno dla każdego pola w tabeli (z wyjątkiem brzegowych), czyli dla każdej liczebności empirycznej wyznaczamy jej teoretyczny odpowiednik. Obliczenie liczebności teoretycznej polega na wymnożeniu dwóch sum brzegowych odpowiadających danemu polu tabeli i podzieleniu uzyskanej wartości przez całkowitą liczebność próby. Liczebności teoretyczne zaokrąglamy do dwóch miejsc po przecinku. Teraz powinniśmy sprawdzic poprawność wyliczeń sumy brzegowe liczebności teoretycznych powinny być równe sumom brzegowym liczebności empirycznych. Bardzo drobne różnice mogą wynikać z faktu zaokrąglania. Przystępujemy do obliczania cząstowych wartości chi-kwadrat dla każdej pary liczebności teoretycznych i empirycznych (czyli dla każdego pola naszej tabeli roboczej). Korzystamy z następującego wzoru: (E T) 2 /T czyli podniesioną do kwadratu różnicę liczebności teoretycznej i empirycznej dzielimy przez liczebność teoretyczną. Wyniki zaokrąglamy do 3 miejsc po przecinku. Sumujemy teraz wszystkie wartości cząstkowe otrzymując wartość testu chi-kwadrat. Wartość testu chi-kwadrat posłuży nam teraz do określenia istotności statystycznej - poprzez ustalenie prawdopodobieństwa hipotezy zerowej dla naszych danych. Można to prawdopodobieństwo wyliczyć dokładnie, korzystając z dostępnego programu (kalkulator testu w darmowym pakiecie GRETL) albo korzystając z tzw. tablic statystycznych określić czy jest ono mniejsze niż ustalona na wstępie wartość (np. p<0,05). Oba warianty wymagają dodatkowego obliczenia. Trzeba określić tzw. liczbę stopni swobody dla naszej tabeli z danymi. Wzór jest prosty df = (w-1)(k-1) czyli iloczyn pomniejszonej o 1 liczby wierszy i pomniejszonej o 1 liczby kolumn w tabeli (nie licząc brzegowych i nagłówków). W naszym przykładzie df = (2-1)(4-1) = 3. Znając wartość df i przyjmując wartość p=0,05 odczytujemy z tablicy statystycznej jaka odpowiada im wartość krytyczna chi-kwadrat. Porównany teraz obliczoną z danych empirycznych wartość chi-kwadrat dla naszej tabeli z wydobytą z tablicy wartościa krytyczną. Możliwe są dwie alternatywy: 1) Wartość empiryczna jest mniejsza bądź równa wartość krytycznej, co prowadzi do konkluzji o braku podstaw do odrzucenia hipotezy zerowej (badania nie potwierdzają zależności) albo 2) wartość empiryczna jest większa od wartości krytycznej, co oznacza że istnieją podstawy do odrzucenia hipotezy zerowej z prawdopodobieństwem błędu mniejszym niż 0,05 (badania potwierdzają istnienie zależności).

Tablica statystyczna. Wartości krytyczne chi-kwadrat dla wybranych poziomów istotności. Założony poziom istotności (p) Stopnie 0,100 0,050 0,025 0,010 0,005 swobody (df) 1 2,7055 3,8415 5,0239 6,6349 7,8794 2 3 4 5 6 7 8 9 10 11 12 13 14 4,6052 5,9915 7,3778 9,2104 10,5965 6,2514 7,8147 9,3484 11,3449 12,8381 7,7794 9,4877 11,1433 13,2767 14,8602 9,2363 11,0705 12,8325 15,0863 16,7496 10,6446 12,5916 14,4494 16,8119 18,5475 12,0170 14,0671 16,0128 18,4753 20,2777 13,3616 15,5073 17,5345 20,0902 21,9549 14,6837 16,9190 19,0228 21,6660 23,5893 15,9872 18,3070 20,4832 23,2093 25,1881 17,2750 19,6752 21,9200 24,7250 26,7569 18,5493 21,0261 23,3367 26,2170 28,2997 19,8119 22,3620 24,7356 27,6882 29,8193 21,0641 23,6848 26,1189 29,1412 31,3194 Teraz możemy dokonać prezentacji wyniku w postaci edytowalnej tabeli. Dla lepszej ilustracji uwzględniamy w niej oprócz surowych liczebności zestawienie procentowe. Bezpośrednio pod tabelą umieszczamy wynik testu statystycznego składający się z trzech informacji: wartość chi-kwadrat, df oraz wartość p. Na koniec jeszcze jedna ważna uwaga. Wartość testu chi-kwadrat jest zależna od wielkości zbioru. Identyczne proporcje w tabeli dla próby pięciokrotnie większej przyniosą pięć razy większą wartość testu. Zatem wartość ta nie może być wykorzystana dla porównania siły związku między zmiennymi w próbach różniących się liczebnością. Z kolei uzależnienie wartości krytycznych testu od liczby stopni swobody czyni nieporównywalnymi wyniki uzyskane w tabelach różniących się liczbą kolumn lub wierszy. Aby takie porównania były możliwe należy przeliczyć wartość chi-kwadrat na adekwatny do rodzaju danych współczynnik siły związku. Może to być na przykład współczynnik V-Cramera. Współczynniki tego rodzaju są po prostu miarami korelacji między zmiennymi nominalnymi i pozwalają zorientować się w mocy predykcyjnej jednaj zmiennej względem drugiej. Im bliżej zera, tym mniejsza możliwość przewidywania wartości jednej zmiennej na podstawie znanej wartości drugiej zmiennej, im bliżej 1, tym możliwość trafnego przewidywania jest większa.

Zadania 1. Oblicz samodzielnie wartość chi-kwadrat i oceń istotność zależności z podanej wyżej przykładowej tabeli (odpowiedź: wartość obliczona w kalkulatorze pakietu statystycznego wynosi 58,731 - czy tyle wyszło w Twoich obliczeniach?). 2. Oblicz współczynnik V Cramera (odpowiedź: 0,37) W kolejnym materiale pokażę, jak wykonać obliczenia za pomocą darmowych pakietów MyStat i GRETL. VERTE.

Chi-kwadrat dla leniwych Jeśli dysponujesz gotową tabelą wielodzielczą z danymi uzyskanymi z próby, to zamiast liczyć chi-kwadrat na piechotę skorzystaj z dostępnego w internecie kalkulatora. Link do dobrego kalkulatora ze strony amerykańskiego uniwersytetu http://people.ku.edu/~preacher/chisq/chisq.htm Na podanej stronie masz najpierw krótkie wyjaśnienia a potem kalkulator. Są to puste ramki, w które wpisujesz liczebności. Zwyczajnie przepisujesz pola swojej tabeli z danymi (pomijając sumy brzegowe, bo kalkulator sam je obliczy). Potem jedno kliknięcie (Calculate) i w ramkach na dole pojawią się obliczenia. Zwróć uwagę na poprawkę Yatesa. Jeśli pojawi się chi-kwadrat z uwzlędnieniem tej poprawki, to znaczy, że dane zawierały zbyt małe liczebności i stąd konieczne było zastosowanie tej korekty. W tej sytuacji do wnioskowania o zależności między zmiennymi wykorzystaj tylko obliczenia poprawione (tylko te podaj w legendzie pod tabelą).

Może zaskoczyć Cię formuła wyniku jeśli liczba p-value zawierałaby dużo zer po przecinku, to wyświetla się wyrażenie, oznaczające pewną liczbę wymnożoną przez dziesięć do ujemnej potęgi. Inny, prosty kalkulator znajdziesz w programie GRETL (program do ściągnięcia z internetu - legalny i darmowy a do tego spolszczony). Niestety kalkulator służy tylko do obliczenia istotności. W okienka programu musisz wpisać obliczoną wartość chi-kwadrat i liczbę stopni swobody (df). Jedno kliknięcie i wyświetli się poziom istotności. Wchodzisz do programu. Klikasz na górnym pasku pole Narzędzia. Z menu wybierz Wyznaczanie wartości p. W okienku pojawi się pasek narzędziowy - wybierz w nim opcję opcję chi-kwadrat. Zobaczysz dwie ramki do wypełnienia - df oraz wartość chi-kwadrat. Klikasz OK i gotowe. Istotność czyli p jest tu nazwana prawostronny obszar krytyczny.

Powyższe sposoby mają tę wadę, że trzeba najpierw samodzielnie zbudować tabelę z wynikami. Przy dużej ilości tabel oznacza to bardzo dużo pracy. Do zbudowania tabel krzyżowych lepiej skorzystać z funkcji arkusza kalkulacyjnego albo - jeszcze lepiej - arkusz taki zaimportować do programu statystycznego. Ta ostatnia opcja jest najlepsza, bo wystarczy tu oznaczyć zmienne do analizy i wskazać potrzebne współczynniki (oraz ewentualnie dodatkowe informacje, które się mogą przydać w analizie np. procenty w tabeli itp.), aby program wykonał potrzebne nam obliczenia i jeszcze wydrukował roboczą wersję tabeli do tekstu. W kolejnym tekście opiszę, jak taką analizę wykonać za pomocą darmowych pakietów GRETL i MyStat.

Obliczanie chi-kwadrat w pakiecie statystycznym MyStat 12 (darmowa wersja studencka komercyjnego pakietu SYSTAT, wymaga rejestracji na stronie producenta) Podobnie jak w innych programach tego rodzaju najpierw musisz stworzyć w nim albo wygodniej zaimportować z Excela zbiór danych. Import zbioru z excela polega na wyklikaniu ścieżki: File Open Data aż otworzy się okienko Otwieranie i w nim musisz wybrać format pliku (ramka na dole) i określić jego lokalizację (ramka Szukaj w) oraz wybrać plik do ramki Nazwa pliku. Teraz wystarczy kliknąć Otwórz i wyświetli się arkusz z danymi (prawie identyczny jak nasz Excel).

Dalej musisz zdefiniować potrzebną Ci procedurę statystyczną i wytypować zmienne do analizy. Test chi-kwadrat znajdujesz z paska górnego wchodząc w ścieżkę: Analyze Tables Two-Way Otworzy się okienko z domyslnie uaktywnioną pierwszą zakładką Main. Tu kolejno z lewej ramki (available variables) wybierz zmienne, po kliknięciu Add wskoczą w wiersze (row variable) oraz w kolumny (column variables) (w podanym przykładzie są to zmienne Plec i Narkoty). Teraz określ wygląd tabeli zaznaczając wybrane opcje poniżej zaznacz liczebności (Counts) oraz jak mają być sumowane procenty - albo w wierszach albo w kolumnach (row percents albo column percents). Z pozostałych opcji warto rozważyć zaznaczenie Include missing values (czyli uwzględnij brakujące dane jako odrębne wartości zmiennej). Jeśli tej opcji nie zaznaczysz, to braki danych zostaną pominięte w obliczeniach.

Zwróć uwagę, że podając zmienne do analizy możesz w jednej z ramek (w górnej) podać ich kilka. Program wyliczy wtedy kilka zależności od jednego kliknięcia. Teraz przejdź do drugiej zakładki w okienku czyli Measures zawiera ona statystyki, które program może policzyć - najważniejsze są Pearson chi-square czyli test chi-kwadrat Pearsona oraz Cramer s V czyli współczynnik siły związku V Cramera. Zaznacz je obie. Kliknij OK. Otrzymasz okienko z czterema tabelkami. Pierwsze dwie to dwudzielne tabele liczebności (pierwsza z liczebnościami bezwzględnymi a druga z procentowymi). Trzecia zawiera wartość testu chi-kwadrat, liczbę stopni swobody oraz wartość p. Czwarta zawiera współczynniki V Cramera.

Na podstawie tych danych możesz zbudować elegancką tabelę w edytorze tekstu, zaopatrzyć ją w zestawienie wyliczonych statystyk i opisać w tekście dane oraz podać decyzję o odrzuceniu albo o braku podstaw do odrzucenia hipotezy zerowej. Obliczanie chi-kwadrat z danych surowych arkusza kalkulacyjnego za pomocą programu GRETL Przygotuj sobie arkusz danych w excelu. GRETL wymaga, aby wartości zmiennych były zakodowane jako cyfry (nie toleruje liter i symboli). Przykład: kategorie nigdy czasami często należy zapisać jako 1, 2, 3 zaś płeć męska żeńska zapisz jako 0 1 albo 1 2. Zmienne ilościowe (przedziałowe lub rangowe) możesz sprowadzić do postaci nominalnej, wydzielając pewne przedziały wartości jako kategorie (np. wyniki poniżej mediany = 0 a wyniki równe lub większe od mediany = 1 albo jeśli posługujesz się normą testową, to wynik poniżej normy zapisz jako 1, wynik w przedziale normy czyli przeciętny zapisz jako 2, zaś wynik powyżej normy zapisz jako 3). W górnym wierszu excela powinna być podana nazwa każdej zmiennej (najlepiej skrót od nazwy np. kontrola rodzicielska to kontrola albo KR). Arkusz zbudowany jest z wierszy i kolumn - wiersze poziome to wyniki kolejnych osób, zaś kolumny pionowe to poszczególne zmienne. Dla przykładu fragment arkusza (płeć 0,1 i cztery zmienne przedziałowe sprowadzone do postaci nominalnej 1,2,3). Kiedy masz już prawidłowy arkusz z danymi, musisz go zaimportować do programu GRETL. Po uruchomieniu tego programu klikasz i wybierasz kolejno wg poniższej ścieżki: Plik Otwórz dane Import Excel Otworzy się okienko, w którym musisz wybrac lokalizację twojego pliku z danymi excela, zaznacz ten plik i w następnym okienku zatwierdź importowanie (domyślnie ustawione jest ono od wiersza 1 i kolumny 1). Gdy pojawi się

pytanie o ewentuaną zmianę typu danych - kliknij Nie (bo masz dane przekrojowe). Pojawi się teraz okienko w zestawem wszystkich zmiennych w twoim zaimportowanym zbiorze.

Teraz musisz zdefiniować ustawienia obliczeń. Najpierw w pasku narzędziowym na górze klikasz pole Widok a następnie z podanych Ci opcji wybierasz Tabela krzyżowa. Pojawi się okno, w którym zdefinujesz dwie zmienne do analizy zależności między nimi. Pierwsza wybrana zmienna będzie później ulokowana w wierszach tabeli, zaś druga będzie ulokowana w kolumnach. Musisz wybrać jak mają sumować się procenty (do 100%) - w wierszach czy w kolumnach? Po kliknięciu OK. komputer dokona obliczeń i wyświetli je w ramce. Zobaczysz na górze tabelę krzyżową z danymi z badań a pod spodem statystyki: chikwadrat, liczba stopni swobody i poziom istotności (czyli wartość p).