(autor Piotr Kwiatkowski)

Transkrypt

1 Test chi-kwadrat (autor Piotr Kwiatkowski) W badaniach z zakresu nauk społecznych analizowane zmienne często występują w postaci jakościowej (nominalnej). Zmienność polega na tym, że w badanej populacji poszczególne osoby można przypisać do różnych i rozłącznych kategorii (np. zmienność płci sprowadza się do występowania dwóch kategorii - mężczyzna, kobieta zaś zmienność rodzaju wykształcenia sprowadzic można do czterech kategorii - humanistyczne, matematycznoprzyrodnicze, techniczne, artystyczne). Wiele problemów badawczych w naukach społecznych to pytania o zależności między takim właśnie zmiennymi. Co oznacza termin zależność (określenia bliskoznaczne to związek między zmiennymi albo korelacja)? W opisywanym tu kontekście oznacza on, że istnieje taka prawidłowość w układzie danych, że pewnym wartościom zmiennej A częściej da się przypisać pewne wartości zmiennej B. Inaczej mówiąc, jeśli określone osoby różnią się wartością zmiennej A, to w pewien sposób różnią się także wartościami zmiennej B. Trzymając się podanego przykładu - jeśli poklasyfikujemy ludzi jednocześnie wg płci i wg wykształcenia, to o zależności wykształcenia od płci powiemy, jeżeli pewne rodzaje wykształcenia częściej pojawiają się wśród kobiet a inne rodzaje wykształcenia częściej pojawiają się u mężczyzn. Gdyby poszczególne kategorie wykształcenia z jednakową częstością pojawiały się wśród kobiet i wśród mężczyzn, to nie byłoby podstaw do wnioskowania o istnieniu zależności. W praktyce z reguły stwierdza się jakieś różnice tego rodzaju większe lub mniejsze. Im są one większe, tym mniej jest prawdopodobne, że powstały w wyniku działania czynników losowych. W badaniach statystycznych jakie by one nie były zawsze dążymy do uzyskania odpowiedzi na pytanie jakie jest prawdopodobieństwo, że wykryty w badanym zbiorze układ danych powstał w wyniku działania czynnika losowego (prawdopodobieństwo błędnego czy - jak ktoś woli - niesłusznego odrzucenia tzw. hipotezy zerowej). Zwróćmy uwagę, że określając prawdopodobieństwo przypadkowości uzyskanych wyników wyznaczamy automatycznie prawdopodobieństwo ich nieprzypadkowości, ponieważ prawdopodobieństwa obu wykluczających się alternatyw sumują się do jedności (lub do 100%). Jeśli uznamy, że losowy rozkład danych w populacji generalnej jest mało prawdopodobny, to musimy przyjąć, że istnienie prawidłowości jest wysoce prawdopodobne. W statystyce mówimy w tym kontekście o istotności rezultatów badań (istotne statystycznie oznacza więc tyle, co z niewielkim prawdopodobieństwem losowe ). Zanim przystąpimy do omawiania technicznej strony obliczeń chi-kwadrat, jeszcze jedna uwaga ogólna. Dotyczy ona tego czym są badania statystyczne i na jakich założeniach się opierają. Wnioskowanie statystyczne ma charakter indukcyjny, czyli polega na uogólnianiu wyników (z tzw. próby na populację generalną). Zakładamy, że jeśli próba została pobrana w sposób losowy, to dane z próby są odzwierciedleniem wszelkich prawidłowości obecnych w populacji generalnej, zaś wszelkie odchylenia od tych prawidłowości występujące w próbie mają charakter losowy (nazywamy je błędem losowym). Jeśli próba jest duża, to mówiąc obrazowo owe odchylenia giną w masie.

2 Każdy test statystyczny prowadzi do określenia istotności czyli do ustalenia prawdopodobieństwa słuszności hipotezy zerowej. Hipotezę zerową możemy w wyniku testu odrzucić (jako mało pradopodobną) albo stwierdzić, że brak jest podstaw do odrzucenia hipotezy zerowej (jeśli prawdopodobieństwo jej słuszności jest zbyt duże). W statystyce przyjmuje się, że do odrzucenia hipotezy zerowej upoważnia jej prawdopodobieństwo mniejsze niż 0,05. Granica ta jest jednak umowna i w pewnych okolicznościach może być przesunięta (ale raczej w dół, tzn. możemy wyznaczyć ją na 0,02 albo 0,01 czy 0,001 a uzasadnieniem dla takiego zabiegu może być na przykład bardzo duża liczebność próby). Na marginesie uwaga hipotezy zerowej nie da się udowodnić, bowiem na gruncie indukcji nie można udowodnić nieistnienia czegokolwiek (w tym niestnienia zależności). Jeśli w badanej próbie nie zaobserwowano zakładanej hipotetycznie zależności między zjawiskami lub innej właściwośc,i to nie oznacza, że nie występuje ona w populacji generalnej choćby w niewielkim zakresie. Hipotezę zerową można odrzucić, gdy przemawiają za tym wyniki uzyskane w próbie ale nie można jej potwierdzić w takich badaniach. Dlatego hipotez badawczych nigdy nie formułujemy w brzmieniu hipotezy zerowej, gdyż były one nieweryfikowalne - nie da się udowodnić tezy o równości inteligencji kobiet i mężczyzn, gdyż próbowalibyśmy udowodnić nieistnienie różnic w populacji generalnej na podstawie danych z próby czyli wycinka tej populacji. Gdybyśmy jednak uzyskali pewne różnice i w wyniku testowania statystycznego danych z próby (pobranej w sposób losowy!!!) uznali, że przypadkowość tychże różnic jest mało prawdopodobna, to mielibyśmy prawo odrzucić hipotezę zerową, mówiącą o równości inteligencji obu płci. Teraz przejdźmy do konkretów. W przypadku testu chi-kwadrat będziemy testować hipotezę zerową, która mówi w populacji generalnej rozkład poszczególnych kombinacji wartości dwóch zmiennych ma charakter losowy. Przyjmiemy na wstępie, że kryterium istotności będzie wartość prawdopodobieństwa hipotezy zerowej mniejsza niż 0,05 (zapisujemy to prawdopodobieństwo symbolem p albo grecką literą alfa - czyli p<0,05). Przyjmijmy też do wiadomości, że stosowanie testu chi-kwadrat wymaga spełnienia pewnych warunków co do liczby analizowanych przypadków - ale o tym za chwilę. Na początek będzie nam potrzebna tabela z wynikami badań. Tabela pokaże nam ile osób zbadano w próbie, jak często w próbie pojawiały się poszczególne wartości jednej i drugiej zmiennej oraz jak często w próbie pojawiały się wszystkie możliwe kombinacje wartości obu zmiennych. Tabela musi zawierać liczebności bezwzględne (nazywane czasem liczebnościami surowymi). Pomijamy liczebności względne czyli np. rozkład procentowy, gdyż do obliczeń używamy dane surowe. Przykładowa tabelka poniżej. Rodzaj preferowanego wykształcenia Płeć Humanistyczne Matemat-przyrod. Techniczne Artystyczne Razem Mężczyźni Kobiety Razem Teraz sprawdzimy, czy zasadne jest posłużenie się testem chi-kwadrat. Przyjmuje się, że żadna z liczebności brzegowych w tabeli nie może być mniejsza niż 20. W naszym przykładzie wszystkie wartości są wyższe niż 20 a zatem nic nie stoi na przeszkodzie, by dokonać dalszych obliczeń.

3 Test chi-kwadrat opiera się na porównaniu liczebności bezwzględnych uzyskanych w badaniu empirycznym z liczebnościami, które ujawniłyby się, gdyby dane w tabeli odzwierciedlały losowe przyporządkowanie wartości jednej zmiennej do wartości drugiej zmiennej. Porównanie dotyczy zatem tzw. liczebności empirycznych i liczebności teoretycznych. Liczebności empiryczne mamy już gotowe po zliczeniu danych z próby, zaś liczebności teoretyczne trzeba dopiero obliczyć. Obliczenia te wykonywane sa osobno dla każdego pola w tabeli (z wyjątkiem brzegowych), czyli dla każdej liczebności empirycznej wyznaczamy jej teoretyczny odpowiednik. Obliczenie liczebności teoretycznej polega na wymnożeniu dwóch sum brzegowych odpowiadających danemu polu tabeli i podzieleniu uzyskanej wartości przez całkowitą liczebność próby. Liczebności teoretyczne zaokrąglamy do dwóch miejsc po przecinku. Teraz powinniśmy sprawdzic poprawność wyliczeń sumy brzegowe liczebności teoretycznych powinny być równe sumom brzegowym liczebności empirycznych. Bardzo drobne różnice mogą wynikać z faktu zaokrąglania. Przystępujemy do obliczania cząstowych wartości chi-kwadrat dla każdej pary liczebności teoretycznych i empirycznych (czyli dla każdego pola naszej tabeli roboczej). Korzystamy z następującego wzoru: (E T) 2 /T czyli podniesioną do kwadratu różnicę liczebności teoretycznej i empirycznej dzielimy przez liczebność teoretyczną. Wyniki zaokrąglamy do 3 miejsc po przecinku. Sumujemy teraz wszystkie wartości cząstkowe otrzymując wartość testu chi-kwadrat. Wartość testu chi-kwadrat posłuży nam teraz do określenia istotności statystycznej - poprzez ustalenie prawdopodobieństwa hipotezy zerowej dla naszych danych. Można to prawdopodobieństwo wyliczyć dokładnie, korzystając z dostępnego programu (kalkulator testu w darmowym pakiecie GRETL) albo korzystając z tzw. tablic statystycznych określić czy jest ono mniejsze niż ustalona na wstępie wartość (np. p<0,05). Oba warianty wymagają dodatkowego obliczenia. Trzeba określić tzw. liczbę stopni swobody dla naszej tabeli z danymi. Wzór jest prosty df = (w-1)(k-1) czyli iloczyn pomniejszonej o 1 liczby wierszy i pomniejszonej o 1 liczby kolumn w tabeli (nie licząc brzegowych i nagłówków). W naszym przykładzie df = (2-1)(4-1) = 3. Znając wartość df i przyjmując wartość p=0,05 odczytujemy z tablicy statystycznej jaka odpowiada im wartość krytyczna chi-kwadrat. Porównany teraz obliczoną z danych empirycznych wartość chi-kwadrat dla naszej tabeli z wydobytą z tablicy wartościa krytyczną. Możliwe są dwie alternatywy: 1) Wartość empiryczna jest mniejsza bądź równa wartość krytycznej, co prowadzi do konkluzji o braku podstaw do odrzucenia hipotezy zerowej (badania nie potwierdzają zależności) albo 2) wartość empiryczna jest większa od wartości krytycznej, co oznacza że istnieją podstawy do odrzucenia hipotezy zerowej z prawdopodobieństwem błędu mniejszym niż 0,05 (badania potwierdzają istnienie zależności).

4 Tablica statystyczna. Wartości krytyczne chi-kwadrat dla wybranych poziomów istotności. Założony poziom istotności (p) Stopnie 0,100 0,050 0,025 0,010 0,005 swobody (df) 1 2,7055 3,8415 5,0239 6,6349 7, ,6052 5,9915 7,3778 9, ,5965 6,2514 7,8147 9, , ,8381 7,7794 9, , , ,8602 9, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,3194 Teraz możemy dokonać prezentacji wyniku w postaci edytowalnej tabeli. Dla lepszej ilustracji uwzględniamy w niej oprócz surowych liczebności zestawienie procentowe. Bezpośrednio pod tabelą umieszczamy wynik testu statystycznego składający się z trzech informacji: wartość chi-kwadrat, df oraz wartość p. Na koniec jeszcze jedna ważna uwaga. Wartość testu chi-kwadrat jest zależna od wielkości zbioru. Identyczne proporcje w tabeli dla próby pięciokrotnie większej przyniosą pięć razy większą wartość testu. Zatem wartość ta nie może być wykorzystana dla porównania siły związku między zmiennymi w próbach różniących się liczebnością. Z kolei uzależnienie wartości krytycznych testu od liczby stopni swobody czyni nieporównywalnymi wyniki uzyskane w tabelach różniących się liczbą kolumn lub wierszy. Aby takie porównania były możliwe należy przeliczyć wartość chi-kwadrat na adekwatny do rodzaju danych współczynnik siły związku. Może to być na przykład współczynnik V-Cramera. Współczynniki tego rodzaju są po prostu miarami korelacji między zmiennymi nominalnymi i pozwalają zorientować się w mocy predykcyjnej jednaj zmiennej względem drugiej. Im bliżej zera, tym mniejsza możliwość przewidywania wartości jednej zmiennej na podstawie znanej wartości drugiej zmiennej, im bliżej 1, tym możliwość trafnego przewidywania jest większa.

5 Zadania 1. Oblicz samodzielnie wartość chi-kwadrat i oceń istotność zależności z podanej wyżej przykładowej tabeli (odpowiedź: wartość obliczona w kalkulatorze pakietu statystycznego wynosi 58,731 - czy tyle wyszło w Twoich obliczeniach?). 2. Oblicz współczynnik V Cramera (odpowiedź: 0,37) W kolejnym materiale pokażę, jak wykonać obliczenia za pomocą darmowych pakietów MyStat i GRETL. VERTE.

6 Chi-kwadrat dla leniwych Jeśli dysponujesz gotową tabelą wielodzielczą z danymi uzyskanymi z próby, to zamiast liczyć chi-kwadrat na piechotę skorzystaj z dostępnego w internecie kalkulatora. Link do dobrego kalkulatora ze strony amerykańskiego uniwersytetu Na podanej stronie masz najpierw krótkie wyjaśnienia a potem kalkulator. Są to puste ramki, w które wpisujesz liczebności. Zwyczajnie przepisujesz pola swojej tabeli z danymi (pomijając sumy brzegowe, bo kalkulator sam je obliczy). Potem jedno kliknięcie (Calculate) i w ramkach na dole pojawią się obliczenia. Zwróć uwagę na poprawkę Yatesa. Jeśli pojawi się chi-kwadrat z uwzlędnieniem tej poprawki, to znaczy, że dane zawierały zbyt małe liczebności i stąd konieczne było zastosowanie tej korekty. W tej sytuacji do wnioskowania o zależności między zmiennymi wykorzystaj tylko obliczenia poprawione (tylko te podaj w legendzie pod tabelą).

7 Może zaskoczyć Cię formuła wyniku jeśli liczba p-value zawierałaby dużo zer po przecinku, to wyświetla się wyrażenie, oznaczające pewną liczbę wymnożoną przez dziesięć do ujemnej potęgi. Inny, prosty kalkulator znajdziesz w programie GRETL (program do ściągnięcia z internetu - legalny i darmowy a do tego spolszczony). Niestety kalkulator służy tylko do obliczenia istotności. W okienka programu musisz wpisać obliczoną wartość chi-kwadrat i liczbę stopni swobody (df). Jedno kliknięcie i wyświetli się poziom istotności. Wchodzisz do programu. Klikasz na górnym pasku pole Narzędzia. Z menu wybierz Wyznaczanie wartości p. W okienku pojawi się pasek narzędziowy - wybierz w nim opcję opcję chi-kwadrat. Zobaczysz dwie ramki do wypełnienia - df oraz wartość chi-kwadrat. Klikasz OK i gotowe. Istotność czyli p jest tu nazwana prawostronny obszar krytyczny.

8 Powyższe sposoby mają tę wadę, że trzeba najpierw samodzielnie zbudować tabelę z wynikami. Przy dużej ilości tabel oznacza to bardzo dużo pracy. Do zbudowania tabel krzyżowych lepiej skorzystać z funkcji arkusza kalkulacyjnego albo - jeszcze lepiej - arkusz taki zaimportować do programu statystycznego. Ta ostatnia opcja jest najlepsza, bo wystarczy tu oznaczyć zmienne do analizy i wskazać potrzebne współczynniki (oraz ewentualnie dodatkowe informacje, które się mogą przydać w analizie np. procenty w tabeli itp.), aby program wykonał potrzebne nam obliczenia i jeszcze wydrukował roboczą wersję tabeli do tekstu. W kolejnym tekście opiszę, jak taką analizę wykonać za pomocą darmowych pakietów GRETL i MyStat.

9 Obliczanie chi-kwadrat w pakiecie statystycznym MyStat 12 (darmowa wersja studencka komercyjnego pakietu SYSTAT, wymaga rejestracji na stronie producenta) Podobnie jak w innych programach tego rodzaju najpierw musisz stworzyć w nim albo wygodniej zaimportować z Excela zbiór danych. Import zbioru z excela polega na wyklikaniu ścieżki: File Open Data aż otworzy się okienko Otwieranie i w nim musisz wybrać format pliku (ramka na dole) i określić jego lokalizację (ramka Szukaj w) oraz wybrać plik do ramki Nazwa pliku. Teraz wystarczy kliknąć Otwórz i wyświetli się arkusz z danymi (prawie identyczny jak nasz Excel).

10 Dalej musisz zdefiniować potrzebną Ci procedurę statystyczną i wytypować zmienne do analizy. Test chi-kwadrat znajdujesz z paska górnego wchodząc w ścieżkę: Analyze Tables Two-Way Otworzy się okienko z domyslnie uaktywnioną pierwszą zakładką Main. Tu kolejno z lewej ramki (available variables) wybierz zmienne, po kliknięciu Add wskoczą w wiersze (row variable) oraz w kolumny (column variables) (w podanym przykładzie są to zmienne Plec i Narkoty). Teraz określ wygląd tabeli zaznaczając wybrane opcje poniżej zaznacz liczebności (Counts) oraz jak mają być sumowane procenty - albo w wierszach albo w kolumnach (row percents albo column percents). Z pozostałych opcji warto rozważyć zaznaczenie Include missing values (czyli uwzględnij brakujące dane jako odrębne wartości zmiennej). Jeśli tej opcji nie zaznaczysz, to braki danych zostaną pominięte w obliczeniach.

11 Zwróć uwagę, że podając zmienne do analizy możesz w jednej z ramek (w górnej) podać ich kilka. Program wyliczy wtedy kilka zależności od jednego kliknięcia. Teraz przejdź do drugiej zakładki w okienku czyli Measures zawiera ona statystyki, które program może policzyć - najważniejsze są Pearson chi-square czyli test chi-kwadrat Pearsona oraz Cramer s V czyli współczynnik siły związku V Cramera. Zaznacz je obie. Kliknij OK. Otrzymasz okienko z czterema tabelkami. Pierwsze dwie to dwudzielne tabele liczebności (pierwsza z liczebnościami bezwzględnymi a druga z procentowymi). Trzecia zawiera wartość testu chi-kwadrat, liczbę stopni swobody oraz wartość p. Czwarta zawiera współczynniki V Cramera.

12 Na podstawie tych danych możesz zbudować elegancką tabelę w edytorze tekstu, zaopatrzyć ją w zestawienie wyliczonych statystyk i opisać w tekście dane oraz podać decyzję o odrzuceniu albo o braku podstaw do odrzucenia hipotezy zerowej. Obliczanie chi-kwadrat z danych surowych arkusza kalkulacyjnego za pomocą programu GRETL Przygotuj sobie arkusz danych w excelu. GRETL wymaga, aby wartości zmiennych były zakodowane jako cyfry (nie toleruje liter i symboli). Przykład: kategorie nigdy czasami często należy zapisać jako 1, 2, 3 zaś płeć męska żeńska zapisz jako 0 1 albo 1 2. Zmienne ilościowe (przedziałowe lub rangowe) możesz sprowadzić do postaci nominalnej, wydzielając pewne przedziały wartości jako kategorie (np. wyniki poniżej mediany = 0 a wyniki równe lub większe od mediany = 1 albo jeśli posługujesz się normą testową, to wynik poniżej normy zapisz jako 1, wynik w przedziale normy czyli przeciętny zapisz jako 2, zaś wynik powyżej normy zapisz jako 3). W górnym wierszu excela powinna być podana nazwa każdej zmiennej (najlepiej skrót od nazwy np. kontrola rodzicielska to kontrola albo KR). Arkusz zbudowany jest z wierszy i kolumn - wiersze poziome to wyniki kolejnych osób, zaś kolumny pionowe to poszczególne zmienne. Dla przykładu fragment arkusza (płeć 0,1 i cztery zmienne przedziałowe sprowadzone do postaci nominalnej 1,2,3). Kiedy masz już prawidłowy arkusz z danymi, musisz go zaimportować do programu GRETL. Po uruchomieniu tego programu klikasz i wybierasz kolejno wg poniższej ścieżki: Plik Otwórz dane Import Excel Otworzy się okienko, w którym musisz wybrac lokalizację twojego pliku z danymi excela, zaznacz ten plik i w następnym okienku zatwierdź importowanie (domyślnie ustawione jest ono od wiersza 1 i kolumny 1). Gdy pojawi się

13 pytanie o ewentuaną zmianę typu danych - kliknij Nie (bo masz dane przekrojowe). Pojawi się teraz okienko w zestawem wszystkich zmiennych w twoim zaimportowanym zbiorze.

14 Teraz musisz zdefiniować ustawienia obliczeń. Najpierw w pasku narzędziowym na górze klikasz pole Widok a następnie z podanych Ci opcji wybierasz Tabela krzyżowa. Pojawi się okno, w którym zdefinujesz dwie zmienne do analizy zależności między nimi. Pierwsza wybrana zmienna będzie później ulokowana w wierszach tabeli, zaś druga będzie ulokowana w kolumnach. Musisz wybrać jak mają sumować się procenty (do 100%) - w wierszach czy w kolumnach? Po kliknięciu OK. komputer dokona obliczeń i wyświetli je w ramce. Zobaczysz na górze tabelę krzyżową z danymi z badań a pod spodem statystyki: chikwadrat, liczba stopni swobody i poziom istotności (czyli wartość p).

15