5. Jakich informacji o teście dostarcza testowanie? Konrad Jankowski, Marcin Zajenkowski Wydział Psychologii Uniwersytet Warszawski 84 5.1. Metody szacowania rzetelności pomiaru testem 1 Z zaprezentowanej w poprzednim rozdziale definicji rzetelności wynika, że jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Jednakże wynik prawdziwy nie jest wielkością bezpośrednio obserwowalną, więc nie można również obliczyć bezpośrednio wariancji wyników prawdziwych. Oznacza to, że ze wzoru definicyjnego nie da się obliczyć rzetelności pomiaru konkretnym testem. Aby przezwyciężyć tę trudność, opracowano szereg metod, które umożliwiają oszacowanie rzetelności, czyli udziału wariancji wyników prawdziwych w wariancji wyników otrzymanych. Operacyjnie definiuje się rzetelność jako powtarzalność wyników. Mówiąc inaczej, im wyższa rzetelność pomiaru testem, tym wyniki dwukrotnego badania testem są bardziej zbliżone do siebie, co w praktyce będzie oznaczało wysoką korelację między nimi. Należy zauważyć, że oba pomiary mogą być zależne od siebie, gdyż osoba badana podczas drugiego badania testem będzie już go znała, co może wpływać na rezultaty uzyskane w drugim badaniu, dzięki np. nabyciu wprawy lub zapamiętaniu treści pozycji testowych. Aby drugi pomiar był w pełni niezależnym pomiarem badanej cechy, należałoby zastosować jakąś inną miarę tej cechy, tak aby uniknąć efektu zapamiętywania. Miara ta jednak nie może mieć całkowicie odrębnej formy lub odwoływać się do innych źródeł informacji, chodzi przecież o sprawdzenie powtarzalności wyników uzyskanych w konkretny sposób. Najlepiej byłoby mieć dwa testy, mierzące ten sam konstrukt teoretyczny, w których treść pozycji testowych jest odmienna. Testy takie nazywane są testami równoległymi. Oprócz pomiaru jednakowej cechy, testy takie powinny spełniać szereg formalnych warunków, aby uzyskany współczynnik korelacji między pomiarami można było interpretować jako rzetelność testu. Dalej opisane są praktyczne metody szacowania rzetelności. W niniejszym rozdziale zostaną omówione takie metody, jak: dwukrotne powtarzanie pomiaru (wiarygodność testu i stabilność bezwzględna), metoda wersji alternatywnych, metoda połówkowa, zgodność wewnętrzna i metoda sędziów kompetentnych. Założenie o równoległości testów dotyczy każdej z nich. W wypadku badania wiarygodności testu i stabilności bezwzględnej istotne jest, aby założenie równoległości było spełnione dla obu pomiarów tym samym testem. Przy wykorzystaniu wersji alternatywncyh istotne jest, by założenie równoległości spełniały 1 Przygotowanie rozdziału zostało sfinansowane ze środków na badania własne Wydziału Psychologii Uniwersytetu Warszawskiego, BW 18060.
5. Jakich informacji o teście dostarcza testowanie? wersje alternatywne testów. Natomiast w badaniu rzetelności metodą połówkową jako testy równoległe traktowane są połowy testu, a w zgodności wewnętrznej poszczególne jego pozycje. Testy równoległe to takie, które spełniają następujące założenia: X A = X B średnia wyników w teście A równa się średniej wyników w teście B; S A =S B odchylenie standardowe w teście A jest takie, jak w teście B; r iaja =r ibjb interkorelacje pozycji w teście A są takie, jak w teście B; r AZ =r BZ korelacja wyników testu A z jakąś zmienną Z jest taka, jak korelacja wyników testu B z tą samą zmienną Z. Należy zauważyć, że na współczynnik rzetelności, uzyskany przez zastosowanie każdej z metod, wpływają różne czynniki. Podstawowym czynnikiem, interesującym badacza jest rzetelność pomiaru testem. Ponadto występują dodatkowe czynniki, wpływające na wielkość współczynnika rzetelności, które są związane ze specyfiką konkretnej procedury badania rzetelności. Stanowią one dodatkowe źródło błędu pomiaru, zniekształcając tym samym wielkość współczynników rzetelności. Ważne jest, aby dobierając metodę badania rzetelności, minimalizować wpływ tych dodatkowych czynników, tak by uzyskany współczynnik rzetelności związany był przede wszystkim z doskonałością samego testu. 5.1.1. Metoda powtarzanego pomiaru Metoda szacowania rzetelności za pomocą powtarzanego pomiaru polega na dwukrotnym badaniu tych samych osób tym samym testem. Miarą rzetelności jest siła związku pomiędzy wynikami z obu badań. Takie oszacowanie może być przeprowadzone na dwa sposoby, różniące się odstępem czasu między pierwszym i drugim badaniem. Pierwszy z nich nazywany jest estymacją wiarygodności testu. Polega na tym, iż badani wykonują ten sam test dwa razy z rzędu, tzn. po skończeniu pierwszego badania następuje natychmiast drugie. Miarą rzetelności jest tu współczynnik korelacji pomiędzy wynikami obu pomiarów testem grupy osób. Badacze wskazują na szereg możliwych źródeł błędu związanych z tą metodą. Na wyniki pomiaru mogą bowiem wpływać, oprócz niedoskonałości narzędzia, chwilowe oscylacje funkcji poznawczych, stanu organizmu, pamięć i nabyta wprawa w wykonaniu testu, a także zmęczenie (Choynowski, 1971). Metoda ta powinna zatem być stosowana jedynie w przypadku testów, w których powtarzanie badania nie wpływa istotnie na wyniki, np. testów motorycznych czy testów, w których wskaźnikiem jest czas reakcji. Drugi sposób szacowania rzetelności przy pomocy powtarzanego pomiaru tym samym testem polega na tym, iż pomiędzy pierwszym a drugim badaniem tej samej grupy osób wprowadza się jakiś odstęp czasowy, np. tydzień, dwa miesiące 85
Konrad Jankowski, Marcin Zajenkowski 86 itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popularnie test-retest (czasem używa się również nazwy stałość testu). Wielkość współczynnika korelacji (najczęściej r-pearsona) pomiędzy dwoma zbiorami wyników (z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czynników związanych z osobą badaną lub sytuacją badania, i na ile są stałe w czasie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części rozdziału. Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński, 1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrotnie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru mogą zatem wpływać takie czynniki, jak pamięć czy uczenie się. Może to być szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się czyjąś wiedzę ogólną (np. w podteście Wiadomości z WAIS-R) lub znajomość synonimów słów (w podteście Synonimy z APIS-Z). Należy zdawać sobie sprawę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie się, jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między pierwszym a drugim badaniem testem. W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że stosowanie metody test-retest staje się nieuzasadnione. Będzie to szczególnie zauważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykładem jest tu test DMI (Diagnoza Możliwości Intelektualnych) opracowany przez Matczak (001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium operacji konkretnych (czyli w wieku od 6 7 lat do 11 1 lat). Badając zmiany rozwojowe, Matczak porównywała poprawność wykonania DMI M w różnych grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadań mogłyby być widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą zgodności wewnętrznej (patrz punkt 5.1.4.). Podstawowym problemem staje się długość przerwy pomiędzy pomiarami. Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym proponuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może spowodować, iż cecha mierzona przez test zmieni się u badanego.
5. Jakich informacji o teście dostarcza testowanie? Biorąc pod uwagę powyższe zastrzeżenia, badacze proponują, aby przerwa między pomiarami wahała się od kilku tygodni do kilku miesięcy. Odstęp zależy zazwyczaj od specyfiki przedmiotu pomiaru. Badając styl (np. poznawczy) czy postawę, możemy oczekiwać szybszych zmian (zalecana przerwa krótsza) niż w przypadku np. cech temperamentu (zalecana przerwa dłuższa). W polskiej adaptacji Kwestionariusza Radzenia Sobie w Sytuacjach Stresowych (ang. Coping Inventory of Stressful Situations, CISS) badano stabilność bezwzględną stylów radzenia sobie ze stresem w odstępie 3 tygodni (Strelau, Jaworowska, Wrześniewski i Szczepaniak, 005). Korelacje dla poszczególnych skal były dość wysokie i wahały się od 0,73 do 0,80. Strelau i Zawadzki (1997) w badaniach nad FCZ-KT (Formalna Charakterystyka Zachowania Kwestionariusz Temperamentu), narzędziem do pomiaru cech temperamentu postulowanych przez regulacyjną teorię temperamentu, zdecydowali się oszacować stabilność bezwzględną krótkoterminową (dwutygodniowa przerwa pomiędzy badaniami) oraz długoterminową (przerwa sześciomiesięczna). Współczynniki korelacji dla stałości krótkoterminowej wahały się od 0,68 do 0,93, a dla długoterminowej od 0,55 do 0,90 (w zależności od wieku i płci badanej grupy). Warto zwrócić uwagę, że na wyniki badania metodą test-retest, oprócz pamięci i uczenia się, mogą wpływać również czynniki związane z konkretną sytuacją, w której dokonywany jest pomiar (np. pora dnia, nastawienie badacza itp.) oraz stan osoby badanej (aktualny nastrój, stan fizyczny itp.). Wybierając stabilność bezwzględną do szacowania rzetelności pomiaru testem, należy o tym pamiętać. Ma to szczególne znaczenie w przypadku narzędzi mierzących stan, a nie cechę. Przykładem może być Przymiotnikowa Skala Nastroju UMACL (ang. UWIST Mood Adjective Check List). Goryńska (005), dokonując polskiej adaptacji, zdecydowała się m.in. oszacować stabilność poszczególnych wymiarów nastroju. Oczekiwała jednak, że korelacje pomiędzy pomiarami w odstępie jednego tygodnia będą istotne, choć niezbyt wysokie. Okazało się, iż współczynniki korelacji wahały się od 0,8 do 0,47, co w tym przypadku było zgodne z teorią, ponieważ nastrój, czyli stan, inaczej niż cecha, podlega względnie szybkim zmianom. Zastosowana metoda stabilności bezwzględnej miała w tym wypadku jednak więcej wspólnego z badaniem trafności teoretycznej (patrz punkt 5...) niż rzetelności. 5.1.1.1. Stabilność czasowa a założenie o równości średnich W większości testów psychologicznych przy pomiarze stabilności testu, zarówno bezwzględnej, jak i względnej (por. rozdział 5.1..), bierze się pod uwagę współczynnik korelacji, którego wysokie wartości interpretuje się jako wysoką stałość wyników testu w czasie. Należy podkreślić, że powyższa interpretacja jest prawdziwa jedynie, jeśli spełnione są założenia równoległości pomiarów 87
Konrad Jankowski, Marcin Zajenkowski testowych, szczególnie zaś założenie o równości średnich w obu pomiarach. Korelacja sama w sobie mówi jedynie o powiązaniu wyników w obu pomiarach, ich względnym uporządkowaniu, tzn. osoby, które miały wyższe wyniki w pierwszym pomiarze, będą miały też wyższe wyniki w drugim pomiarze. Aby mówić o stałości wyników w czasie, szczególnie istotne jest spełnienie założenia o równości średnich w obu pomiarach dla danej grupy osób. W praktyce założenie to często jest pomijane, co może prowadzić do poważnych błędów interpretacyjnych współczynnika stabilności. Zilustruje to przykład zawarty w tabeli 5.1. Skonstruowano dwa testy, A i B. Zbadano stabilność bezwzględną każdego z nich dla 5 osób. Okazało się, że współczynnik korelacji dla obu pomiarów testem A wyniósł 1, i podobnie korelacja dla obu pomiarów testem B również wyniosła 1. Interpretując jedynie współczynniki korelacji (bez sprawdzenia założeń o równoległości pomiarów), można by stwierdzić, że wyniki w teście A i wyniki w teście B są tak samo, idealnie stałe w czasie. Jednak, biorąc pod uwagę średnie, można zauważyć, że powyższa interpretacja jest słuszna jedynie w wypadku testu A, gdzie w pomiarze pierwszym (A1) i drugim (A) średnie w istocie są równe. Dla pomiarów w teście B, choć korelacja również wynosi 1, średnia w drugim pomiarze (B) jest wyższa o dwie jednostki od tej w pierwszym (B1). Zatem, wyniki osób w teście B nie były stabilne w czasie, lecz nastąpiło systematyczne ich podwyższenie (może się tak zdarzyć np. przy badaniu stabilności testu inteligencji u dzieci). Inną metodą statystyczną możliwą do zastosowania w prezentowanym przykładzie jest współczynnik korelacji wewnątrzklasowej. Pozwala on na uwzględnienie różnicy w wynikach uzyskanych przez osoby badane w obu pomiarach. O ile w wypadku testu A korelacja wewnątrzklasowa będzie wynosiła 1, o tyle w teście B będzie mniejsza od 1 (ze względu na wyższe wyniki uzyskane przez osoby badane w drugim pomiarze). Tabela 5.1. Wyniki dwukrotnego badania testem A (A1,A) i testem B (B1,B) grupy pięciu osób 1 3 4 5 Nr osoby A1 A B1 B 5 4 3 1 5 4 3 1 5 4 3 1 7 6 5 4 3 Średnia 3 3 3 5 Korelacja r A1A =1 r B1B =1 88 Podsumowując, interpretacja współczynnika stabilności testu, jako niezmienności wyników w czasie, jest uprawniona tylko, jeśli są spełnione założenia o równoległości testów, szczególnie o równości średnich w obu pomiarach.
5. Jakich informacji o teście dostarcza testowanie? Wiarygodność testu służy do badania rzetelności pomiaru testem oraz wskazuje na stopień, w jakim wynik testu jest zależny od chwilowych, przypadkowych zmian. Polega na dwukrotnym badaniu tych samych osób tym samym testem. Stabilność bezwzględna służy do badania rzetelności pomiaru testem oraz pokazuje, w jakim stopniu wyniki testu są wrażliwe na przypadkowe zmiany związane z dłuższym upływem czasu. Polega na badaniu dwa razy tych samych osób tym samym testem z przerwą czasową między pomiarami. 5.1.. Metoda wersji alternatywnych W poprzednim paragrafie omówiono metody szacowania rzetelności za pomocą dwukrotnego badania tej samej grupy osób tym samym testem. Niniejsza część poświęcona jest metodom szacowania rzetelności za pomocą dwukrotnego badania tej samej grupy osób wersjami alternatywnymi testu. Można zauważyć spore podobieństwo między szacowaniem rzetelności metodą test-retest a metodą wersji alternatywnych. Jedyną różnicą między powyższymi dwoma metodami w zakresie procedury badania jest posłużenie się tym samym testem albo posłużenie się wersjami alternatywnymi testu. Badanie rzetelności metodą wersji alternatywnych ma następujący przebieg. Po pierwsze, należy skonstruować dwie wersje danego testu. Obie wersje powinny różnić się pod względem treści, tzn. składać się z innych treściowo pozycji, ale jednocześnie spełniać założenie równoległości (por. idea testów równoległych paragraf 5.3.). Następnie należy przebadać tę samą grupę osób najpierw jedną, a potem drugą wersją danego testu. Podobnie jak za pomocą metody test-retest, tak poprzez zastosowanie procedury testów alternatywnych można uzyskać dwa współczynniki rzetelności, w zależności od zastosowanej długości przerwy czasowej między pomiarem pierwszą i drugą wersją testu. Współczynnik równoważności międzytestowej pod względem zastosowanej przerwy czasowej między pomiarami jest odpowiednikiem współczynnika wiarygodności w metodzie test-retest. Inaczej mówiąc, współczynnik równoważności międzytestowej uzyskuje się korelując ze sobą wyniki z dwóch testów alternatywnych przeprowadzonych na tej samej grupie osób, przy czym między badaniem oboma testami nie ma przerwy czasowej. Po zakończeniu rozwiązywania pierwszej wersji, osoby badane natychmiast przystępują do rozwiązywania drugiej wersji testu. Uzyskany w ten sposób współczynnik korelacji, najczęściej r-pearsona, traktuje się jako współczynnik równoważności międzytestowej. Współczynnik stabilności względnej to korelacja między wynikami w dwóch testach alternatywnych uzyskanych przez tę samą grupę osób, ale pomiędzy badaniem testem pierwszym i testem drugim wprowadza się przerwę czasową. 89
Konrad Jankowski, Marcin Zajenkowski Jego długość powinna być dobrana w zależności od tego, co mierzą testy alternatywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów. Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości, jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy. Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności badawcze mogłoby być trudno dotrzeć do tych samych osób np. po upływie kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szybko ulegać zmianom, przerwa między oboma pomiarami powinna być krótsza. Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u których badana właściwość może szybko ulec zmianie ze względów rozwojowych. Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom wykonania np. testu inteligencji zmieniłby się znacznie, gdyby przebadano dzieci w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy, że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współczynnik korelacji między pomiarami testami alternatywnymi byłby zniekształcony. Nie odzwierciedlałby on zatem tego, jak dokładny jest pomiar tymi testami. W praktyce ustalanie długości przerwy czasowej między pomiarami podczas szacowania stabilności względnej wiąże się z takimi samymi problemami, jak w wypadku stabilności bezwzględnej (por. rozdział 5.1.1.) Współczynnik równoważności międzytestowej służy do badania rzetelności pomiaru testem oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu. Polega na dwukrotnym badaniu tych samych osób, po kolei dwiema wersjami testu. Współczynnik stabilności względnej służy do badania rzetelności pomiaru testem oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu i na przypadkowe zmiany wyników związane z upływem czasu. Polega na zbadaniu tych samych osób pierwszą wersją testu, a po upływie pewnego czasu drugą wersją testu. 5.1.3. Metoda połówkowa 90 W poprzednich paragrafach omówiono metody szacowania rzetelności na podstawie dwukrotnego pomiaru. Metoda połówkowa pozwala na oszacowanie rzetelności pomiaru testem na podstawie jednokrotnego badania tej samej grupy osób jednym testem. Jest to jedna z pierwszych metod badania zgodności wewnętrznej, jakie wymyślono. Technika ta opiera się na pomyśle wyodrębnienia dwóch testów równoległych w ramach tego samego testu, a następnie skorelowaniu ze sobą wyników uzyskanych w tych połówkach. Procedura badania polega na tym, że grupa osób wykonuje test, następnie test jest dzielony na dwie połówki, po czym koreluje się ze sobą zbiory wyników uzyskanych z pierwszej i drugiej połówki. Tak po-
5. Jakich informacji o teście dostarcza testowanie? wstały współczynnik korelacji mówi o rzetelności jedynie połowy testu. Dlatego też należy skorzystać ze wzoru Spearmana-Browna, który pozwala oszacować rzetelność całego testu na podstawie rzetelności jego połowy: r tt rzetelność całego testu; r pp współczynnik korelacji między połówkami testu. rpp rtt= (5.1) 1 + rpp Podstawiając w miejsce r pp wartość współczynnika korelacji między połowami testu, otrzymamy współczynnik rzetelności całego testu. Warto zauważyć, że wzór na rzetelność połówkową jest specjalnym przypadkiem ogólniejszego wzoru Spearmana-Browna na zależność między rzetelnością pomiaru testem a zmianą jego długości. r ttn nrtti = (5.) 1+ ( n 1) rtti r ttn współczynnik rzetelności testu po jego przedłużeniu; r tti współczynnik rzetelności testu przed jego przedłużeniem; n współczynnik przedłużenia testu (ile razy należy przedłużyć test). Powyższy wzór pozwala na oszacowanie rzetelności pomiaru testem (r ttn ) po jego n krotnym przedłużeniu, znając rzetelność pomiaru testem przed jego przedłużeniem (r tti ). Skoro znamy rzetelność połowy testu, rzetelność całego testu to inaczej rzetelność połowy testu po dwukrotnym przedłużeniu. W takim razie, gdy wstawimy za n wartość, otrzymamy wzór 5.1. Ze wzoru 5. wynika, że rzetelność pomiaru testem wzrasta w miarę jego wydłużania, w związku z czym rzetelność całego testu będzie zawsze większa niż rzetelność jego połówek (niż korelacja miedzy połówkami testu). Podstawowe pytanie dotyczy tego, w jaki sposób podzielić test na połowy. Podział ten powinien być przeprowadzony tak, aby połówki testu były względem siebie równoległe. Możliwych jest kilka rozwiązań. Prosty podział na połowy zachodzi wtedy, gdy m.in. narzędzie zawierające 10 pozycji testowych, podzielonoby w ten sposób, że w pierwszej połowie znajdą się te o numerach 1 5, a w drugiej o numerach 6 10. Podział taki może mieć sens w przypadku krótkich testów o podobnych wskaźnikach trudności pozycji (m.in. kwestionariuszy osobowości). Jeśli kolejne pozycje testowe miałyby rosnące wskaźniki trudności, to przy takim podziale otrzymanoby połowę łatwą i połowę trudną, a więc założenie o równoległości połówek testu byłoby złamane. Jeśli 91
Konrad Jankowski, Marcin Zajenkowski test byłby bardzo długi, nastawienie osoby badanej mogłoby być istotnie różne podczas rozwiązywania pierwszej i drugiej połowy testu (m.in. zmęczenie), a więc różnice w sytuacji badania mogłyby w efekcie doprowadzić do złamania założenia o równoległości połówek. Dobór losowy sprowadza się do podzielenia pozycji do obu połówek w sposób przypadkowy. Metoda taka jest odpowiednia, jeśli poszczególne pozycje testu nie różnią się zbytnio ze względu na ich trudność, zatem może być właściwa dla kwestionariuszy osobowości. Natomiast, jeśli trudność pozycji wzrasta, tak jak to się często zdarza w przypadku testów inteligencji, moglibyśmy otrzymać dwie połowy testu różniące się trudnością. Dobór parzyste nieparzyste polega na tym, że do jednej połówki testu włącza się pozycje testowe o numerach parzystych, a do drugiej o numerach nieparzystych. Dzięki temu, przy wzrastającej trudności kolejnych pozycji, zadania łatwe i trudne rozłożą się do obu połówek równomiernie, dzięki czemu połowy testu będą do siebie zbliżone pod względem trudności. Dobór uwzględniający właściwości pozycji testowych, polega na tym że do obu połówek przydziela się pozycje, tak aby połówki testu spełniały założenia testów równoległych. Kryterium podobieństwa może być też trudność pozycji i, w efekcie, związana z tym trudność obu połówek testu. Metoda ta będzie odpowiednia dla testów, których pozycje nie są równoległe, ale da się utworzyć równoległe połówki testu. Przykładem mogą być testy, których pozycje mają różny format odpowiedzi, tzn. w teście znajdują się pozycje posiadające dwu-, trzy-, czterokategorialny format odpowiedzi. Dobór pozycji testowych do obu połówek ma zasadnicze znaczenie dla wielkości współczynnika rzetelności. Najniższa wartość współczynnika rzetelności wystąpi, jeśli pozycje testu będą wysoko skorelowane w obrębie swojej połówki testu i nisko między połówkami testu. Przypadek taki otrzymalibyśmy, gdyby m.in. w teście o rosnącej trudności pozycji zastosować prosty podział na połowy. Wtedy odpowiedzi na pozycje w obrębie połówek testu byłyby wysoko skorelowane ze sobą, natomiast korelacja między połówkami byłaby niska. Natomiast najwyższa wartość współczynnika rzetelności w metodzie połówkowej wystąpi, jeśli wysoko skorelowane pozycje zostaną rozdzielone do oddzielnych połówek testu. Metodę połówkową zastosowano m.in. do analizy rzetelności w Teście Matryc Ravena wersja Dla Zaawansowanych (Jaworowska i Szustrowa, 199). W narzędziu tym mamy do czynienia z rosnącą trudnością zadań, a zatem autorki polskiej adaptacji zdecydowały się podzielić test na dwie połówki ze względu na pozycje parzyste i nieparzyste. Następnie oszacowały rzetelność pomiaru testem przy pomocy wzoru Spearmana-Browna, uzyskując wartość bliską 0,80. 9
5. Jakich informacji o teście dostarcza testowanie? Metoda połówkowa służy do badania rzetelności pomiaru testem oraz wskazuje na stopień podobieństwa między jego połówkami. Polega na jednokrotnym badaniu testem grupy osób. 5.1.4. Zgodność wewnętrzna Inną techniką, obok metody połówkowej, oszacowania rzetelności po jednokrotnym badaniu danym testem jest estymacja zgodności wewnętrznej (ang. internal consistency). Kuder i Richardson (005) zwrócili uwagę na niejednoznaczność wyniku procedury dzielenia na połowy. Stwierdzili, iż podział testu na dwie połówki jest arbitralny i w zależności od sposobu przepołowienia otrzymamy inne oszacowanie rzetelności. W celu uniknięcia tego problemu, przyjęli założenie, iż test składający się z n pozycji można podzielić na n części. Wynika z tego, że liczba wszystkich możliwych części testu równa jest liczbie jego pozycji. Aby otrzymać dobre oszacowanie zgodności wewnętrznej, trzeba również przyjąć, że pozycje testowe są równoległe (mają równe średnie i wariancje) oraz że wszystkie pozycje w teście mierzą ten sam czynnik (cechę). Autorzy opracowali 1 wzorów, z czego najczęściej stosowane są dwa (nazywane skrótowo od ich nazwisk KR 0 i KR 1 ). Pierwszy z nich odnosi się do przypadków, w których bierze się pod uwagę średnią wariancję wszystkich pozycji testowych. Wzór ten można przedstawić w następujący sposób: (5.3) k p i q i s c k i= 1 liczba pozycji testowych; proporcja odpowiedzi diagnostycznych (zgodnych z kluczem) na i-tą pozycję testową; proporcja odpowiedzi niediagnostycznych (niezgodnych z kluczem); wariancja wyników ogólnych testu; suma dla k pozycji. 93
Konrad Jankowski, Marcin Zajenkowski Drugi wzór (KR 1 ) wymaga założenia, że pozycje testowe mają taką samą trudność (równe proporcje odpowiedzi zgodnych i niezgodnych z kluczem). Ma on postać: KR 1 = k k 1 kpq k liczba pozycji w teście; p średnia trudność pozycji testowych; q = 1 p. (5.4) Wykazano (Cronbach, 005), że KR 0 jest równy średniej współczynników rzetelności połówkowej, policzonych dla wszystkich możliwych podziałów testu na połówki. W praktyce oznacza to, że niektóre oszacowania rzetelności metodą połówkową będą niższe, a niektóre wyższe niż współczynnik KR 0. Wzory Kudera i Richardson przełamały problem metody połówkowej, ale miały pewne ograniczenie. Można je było stosować jedynie do testów z dwukategorialnymi odpowiedziami, czyli odpowiedziami typu: tak nie, zgadzam się nie zgadzam się, poprawne niepoprawne itp. Cronbach (005) zaproponował wzór, który da się zastosować do wszelkich testów, a więc nie tylko z dychotomicznym formatem odpowiedzi. Metoda ta, obecnie najczęściej stosowana do szacowania zgodności wewnętrznej, uznawana jest za najlepszy sposób szacowania rzetelności (Hornowska, 003). Dlatego też poświęcimy jej więcej uwagi. Wzór, o którym mowa, znany jako alfa Cronbacha, przedstawia się następująco: s c s c α = k k 1 1 ( i= 1 ) k s c s i (5.5) 94 k s c k s i i= 1 liczba pozycji testowych; wariancja wyników ogólnych testu; suma wariancji pozycji testowych. Rozważmy przykład zastosowania wzoru alfa Cronbacha. W tabeli 5.. zamieszczono wyniki pięciu osób z pewnego testu, w którym zakres dostępnych odpowiedzi wyrażony był na skali Likerta (od 1 do 5). W kolejnych kolumnach przedstawiono odpowiedzi każdej osoby, obliczenia wariancji dla całego testu oraz wariancji poszczególnych pozycji testowych. W celu obliczenia wariancji, należy odjąć każdy wynik od średniej, a następnie uzyskaną wartość podnieść do kwadratu. Wariancję stanowi stosunek sumy
5. Jakich informacji o teście dostarcza testowanie? odchyleń wyników od średniej podniesionych do kwadratu do liczby osób badanych minus jeden. W tabeli 5.. przedstawiono kolejne kroki obliczania wyników wariancji całego testu i poszczególnych pozycji testowych. Kolejne kroki obliczeń oznaczono jako A, B, C, D w dolnym wierszu tabeli 5.. Wszystkie obliczenia przebiegają w ten sam sposób, zarówno jeżeli chodzi o wariancję całego testu, jak i poszczególnych pozycji. W kroku A należy zsumować wszystkie wyniki otrzymane (całego testu i kolejnych pozycji), a następnie (krok B) policzyć średnią tychże. Znając średnią wartość, możemy odjąć od niej każdy poszczególny wynik otrzymany, jak też zostało to uczynione w kolumnie oznaczonej (X X ). Otrzymane w ten sposób wartości należy podnieść do kwadratu (wynik tego działania przedstawia w tabeli 5.. kolumna (X X ) ). W kroku C należy zsumować wszystkie wartości podniesione do kwadratu, a następnie podzielić je przez liczbę osób badanych minus jeden (krok D). W ten sposób uzyskano wariancje odpowiednio dla całego testu oraz każdej kolejnej pozycji. Tabela 5.. Wyniki poszczególnych pozycji testowych oraz wyniki ogólne dla 5 osób badanych w teście składającym się z 4 pozycji Osoby 1 3 4 5 Kolejne kroki A. obliczeń: B. C. D. Pozycje testowe Cały test Pozycja 1 Pozycja Pozycja 3 Pozycja 4 1 3 4 * ΣX c (X c X c) ** (X c X c) *** * X 1 (X 1 X 1 ) ** (X 1 X 1 ) *** * X (X X ) ** (X X ) *** * X 3 (X 3 X 3 ) ** (X 3 X 3 ) *** * X 4 (X 4 X 4 ) ** (X 4 X 4 ) *** 3 1 1 7 5 5 3 0 0 1 4 1 4 1 1 4 5 4 15 3 9 1 1 4 1 1 5 4 4 1 1 5 5 4 5 19 7 49 5 4 5 4 4 1 1 5 4 4 3 11 1 1 4 1 1 1 1 1 1 3 0 0 1 3 3 1 8 4 16 1 4 3 0 0 3 0 0 1 4 Σ X c = 60 X c = 1 Σ(X c X c ) = = 100 s c = 100/4 = = 5 Σ X 1 = 15 X 1 = 3 Σ(X 1 X 1 ) = = 10 s 1 = 10/4 = =.5 Σ X = 15 X = 3 Σ(X X ) = = 10 s = 10/4 = =.5 Σ X 3 = 15 X 3 = 3 Σ( X 3 X 3 ) = = 10 s 3 = 10/4 = =.5 * 1 kolumna, ** kolumna, *** 3 kolumna. X wynik otrzymany przez daną osobę; X średnia wyników otrzymanych; ΣX suma wyników otrzymanych; (X X ) odchylenie wyniku otrzymanego przez daną osobę od średniej; (X X ) kwadrat odchylenia wyniku otrzymanego przez daną osobę od średniej; Σ(X X ) suma kwadratów odchyleń wyników otrzymanych od średniej; s wariancja wyników. Σ X 4 = 15 X 4 = 3 Σ( X 4 X 4 ) = = 10 s 4 = 10/4 = =.5 95
Konrad Jankowski, Marcin Zajenkowski W przykładzie wariancja każdej pozycji wynosi,5, zatem suma wariancji wszystkich pozycji równa się 10. Wariancja całego testu wynosi 5. Podstawiając uzyskane dane do wzoru 5.5, otrzymujemy: α = 4 ( ) 4 1 1 10 5 = 0,80 Zgodność wewnętrzna wskazuje, na ile dany test jest jednorodny (homogeniczny), czyli na ile wszystkie pozycje w teście odnoszą się do tej samej cechy (czynnika). Im bardziej jednorodny zbiór pytań (zadań) tworzących test (tzn. wysoko skorelowanych ze sobą), tym wyższą otrzyma się zgodność wewnętrzną. Założenie o jednoczynnikowej strukturze testu może być szczególnie ważne w przypadku baterii testów. Przykładem takiego testu jest narzędzie do pomiaru inteligencji APIS-Z (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 006), które składa się z ośmiu podtestów. Autorki uznały, że chcąc oszacować rzetelność dla wyniku ogólnego (sumy wyników przeliczonych z poszczególnych podtestów), należy wybrać inną metodę niż zgodność wewnętrzna, gdyż w przypadku tej baterii testów trudno mówić o jej jednorodności. Oszacowanie rzetelności metodą zgodności wewnętrznej stosowano m.in. w Inwentarzu Osobowości NEO-FFI Costy i McCrae. Narzędzie to stworzono do pomiaru tzw. Wielkiej Piątki, czyli ekstrawersji, neurotyczności, otwartości na doświadczenie, sumienności i ugodowości. Zdaniem autorów są to cechy uniwersalne, co oznacza możliwość ich wyodrębnienia, niezależnie od badanej kultury, płci i wieku itd. Autorzy polskiej adaptacji (Zawadzki, Strelau, Szczepaniak i Śliwińska, 1998) zbadali zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha. Wyniki, w zależności od skali, wahały się od 0,68 do 0,86. Dokonano także oszacowania rzetelności w grupach jednorodnych ze względu na płeć i wiek. Okazało się, że w grupie kobiet i mężczyzn wartość alfa Cronbacha jest do siebie zbliżona, ale wykazuje dużą zmienność w zależności od wieku badanych. Jednorodność skal obniża się wraz z wiekiem i jest najniższa w grupie osób z przedziału wiekowego 50 80. Współczynnik alfa Cronbacha jest szczególnie niski w przypadku skali otwartości i wynosi 0,44 dla kobiet i 0,50 dla mężczyzn. Przykład ten pokazuje, w jaki sposób współczynnik zgodności wewnętrznej może być zależny od konkretnej próby. W jednej grupie test może okazać się bardziej jednorodny, a w innej mniej. Zgodność wewnętrzna służy do badania rzetelności pomiaru testem oraz wskazuje na stopień, w jakim pozycje testowe odnoszą się do tego samego konstruktu. Polega na jednokrotnym badaniu testem grupy osób. 96
5. Jakich informacji o teście dostarcza testowanie? 5.1.5. Zgodność ocen sędziów Innym sposobem szacowania rzetelności może być stopień zgodności ocen wydawanych przez sędziów kompetentnych. Metoda ta stosowana jest najczęściej w przypadku testów, w których pytania mają charakter otwarty i nie ma klucza pozwalającego na jednoznaczną ocenę odpowiedzi badanych. Sędziowie przyznają punkty za odpowiedzi na pozycje testowe tych samych osób. W przypadku tej metody ważne jest, aby sędziowie byli dobrze zaznajomieni z przyjętymi kryteriami oceny, a także, by ich oceny były niezależne od siebie. Miarą rzetelności jest tu stopień zgodności między sędziami. Jeżeli test ocenia dwóch sędziów, najczęściej oblicza się prosty współczynnik korelacji (np. r-pearsona), w przypadku większej liczby oceniających wykorzystuje się współczynnik korelacji W-Kendalla (zob. np. Brzeziński, 1996). Wartość (od 0 do 1) współczynnika wskazuje na stopień zgodności między sędziami im wyższa wartość, tym wyższa zbieżność ocen. Warto zauważyć, że w wypadku analizy zgodności sędziów, uzyskany współczynnik w istocie informuje o rzetelności ocen dokonanych przez sędziów. Źródłem błędu omawianej metody szacowania rzetelności jest subiektywność ocen sędziów. Na współczynnik zgodności mogą bowiem wpływać różnice pomiędzy sędziami. Duża rozbieżność w ocenach wskazuje na znaczący udział czynników subiektywnych. Przykładem narzędzia, w którym zastosowano omawianą metodę jest Test Niedokończonych Zdań Rottera (Jaworowska i Matczak, 1998). Test ten składa się z początków zdań, które osoba badana ma uzupełnić zgodnie ze swoimi skojarzeniami i odczuciami. Na podstawie przyjętych kryteriów, diagnosta przyznaje punkty za każde uzupełnienie. Jak zauważają autorki polskiego opracowania, przy tego rodzaju procedurze istnieje element subiektywizmu. Problem rzetelności wiąże się z pytaniem, czy gdyby ten sam arkusz odpowiedzi oceniały różne osoby, to wynik ogólny byłby taki sam czy też nie. Badając rzetelność tego testu, wylosowano po 30 protokołów mężczyzn i kobiet z każdej z trzech wersji testu. Następnie odpowiedzi osób badanych oceniane były przez dwóch sędziów kompetentnych, dysponujących kryteriami oceny. W celu ustalenia zbieżności między sędziami, obliczono współczynnik korelacji rangowej ρ Spearmana. Wartości korelacji wahały się od 0,89 do 0,97. Zgodność ocen sędziów zastosowano również w Teście Płynności Figuralnej Ruffa (RFFT) (Łojek i Stańczak, 007). W teście tym osobie badanej prezentuje się kwadraty z rozmieszczonym w nich układem kropek oraz bodźców zakłócających. Zadaniem badanego jest połączenie linią prostą co najmniej dwóch kropek tak, aby powstała nowa figura. Badający zlicza liczbę unikalnych połączeń oraz liczbę błędów perseweracyjnych. Autorki polskiej adaptacji zwracają uwagę, że w RFFT mogą się pojawić rozbieżności w ocenianiu, wynikające z różnorodności możliwych do popełnienia pomyłek perseweracyjnych. Badacz może czasem błędnie zakwalifikować jako poprawną figurę powtórzoną lub jako niepoprawny 97
Konrad Jankowski, Marcin Zajenkowski wzór oryginalny. W związku z tym, zdecydowano się oszacować rzetelność metodą zgodności sędziów, aby określić, na ile jednoznaczny jest algorytm oceniania. Uzyskany wysoki współczynnik W-Kendalla wskazywał na dużą zbieżność ocen trzech sędziów oraz mały wpływ czynników subiektywnych. Zgodność ocen sędziów służy do badania rzetelności pomiaru testem oraz wskazuje, na ile obiektywna jest ocena odpowiedzi osób badanych. Polega na tym, że te same arkusze odpowiedzi są oceniane przez sędziów kompetentnych. 5.1.6. Porównanie metod szacowania rzetelności Przed wybraniem metody estymacji rzetelności, należy uwzględnić specyfikę testu oraz czynniki wpływające na wartość danego współczynnika. Każdy z nich bowiem, mówi o innym, specyficznym źródle błędu. Poniżej prezentujemy skrótowe zestawienie wszystkich metod szacowania rzetelności (tabela 5.3.). Tabela 5.3. Zestawienie metod szacowania rzetelności Metoda Najczęstsze zastosowanie Testy, w których uczenie się nie ma wpływu na wyniki np. testy motoryczne; testy na czas reakcji Wiarygodność testu 1 3 4 Stabilność bezwzględna Równoważność międzytestowa Stabilność względna Źródło błędu specyficzne dla metody Losowe zmiany związane ze stanem osoby badanej i sytuacją badania Losowe zmiany związane z upływem czasu Dobór pozycji do wersji testu Dobór pozycji do wersji testu Informacje o teście W jakim stopniu test jest wrażliwy na przypadkowe zmiany związane z osobą badaną i sytuacją testowania W jakim stopniu wyniki testu są stałe w czasie Stopień podobieństwa między wersjami alternatywnymi testu Stopień podobieństwa między wersjami alternatywnymi testu. W jakim stopniu pomiar jest stały w czasie Przy pomiarze cech np. kwestionariusze osobowości, testy inteligencji Rzadko stosowana metoda Przy pomiarze cech np. kwestionariusze osobowości, testy inteligencji 98
5. Jakich informacji o teście dostarcza testowanie? Tabela 5.3. c.d. Metoda połówkowa Zgodność wewnętrzna 1 3 4 Zgodność ocen sędziów Dobór pozycji do połówek testu Niejednorodność pozycji testu Niejasne kryteria oceny odpowiedzi; rozbieżność ocen sędziów W jakim stopniu test jest jednorodny W jakim stopniu test jest jednorodny W jakim stopniu na ocenę odpowiedzi osób badanych wpływają czynniki subiektywne związane z oceniającymi Testy, w których pozycje mają różną trudność np. testy inteligencji Testy, w których pozycje są równoległe np. kwestionariusze osobowości; testy mierzące style, stany Testy, w których brak jednoznacznych kryteriów oceny odpowiedzi, np. metody swobodne 5.1.7. Metody szacowania rzetelności w SPSS W części tej zostaną zaprezentowane procedury obliczania wcześniej omówionych współczynników rzetelności, za pomocą pakietu statystycznego SPSS. Każda omówiona metoda zawiera przykład, który został policzony na danych znajdujących się na dołączonej do podręcznika płycie. W tekście, w nawiasach, znajdują się nazwy plików zawierających dane, na których był liczony konkretny przykład. 5.1.7.1. Metody dwukrotnego badania tej samej grupy osób W części tej zostanie opisany sposób obliczania wiarygodności testu, stabilności bezwzględnej, równoważności międzytestowej i stabilności względnej w SPSS. W metodach tych jako współczynnik rzetelności traktowana będzie wartość korelacji r-pearsona między pierwszym a drugim pomiarem danym testem (dla wiarygodności testu i stabilności bezwzględnej) albo między pomiarem testem pierwszym a drugim (dla równoważności międzytestowej i stabilności względnej). Mówiąc inaczej, miarą rzetelności pomiaru testem będzie wielkość korelacji między dwoma zbiorami wyników danej grupy osób. Wymienione metody zostaną omówione razem, gdyż sposób postępowania w przypadku każdej z nich jest identyczny. Procedura postępowania zostanie omówiona na przykładzie. W pierwszym kroku należy uzyskać dwa zbiory wyników testu na danej grupie osób i policzyć dla każdej osoby wynik otrzymany (sumaryczny wynik w teście). 99
Konrad Jankowski, Marcin Zajenkowski Rysunek 5.1. Okienko arkusza danych z wynikami testu przygotowanymi do analizy stabilności bezwzględnej W prezentowanym przykładzie (plik danych: stabilnosc.sav) przebadano 100 osób dwa razy tym samym testem z tygodniową przerwą między pomiarami (czyli przeprowadzono badanie stabilności bezwzględnej). Test, którego rzetelność sprawdzono, składa się z 10 pozycji. W sumie można było uzyskać od 10 do 0 punktów. Obliczono wyniki całkowite dla każdej osoby, w pierwszym i drugim pomiarze tym testem, które następnie wprowadzono do arkusza danych SPSS. Wiersze reprezentują kolejne osoby badane, a kolumny wyniki otrzymane w pierwszym i drugim badaniu (rys. 5.1.). W następnej kolejności należy obliczyć korelację między oboma zbiorami wyników. Jak wspomnieliśmy wcześniej, istotne jest również sprawdzenie równości średnich z obu pomiarów. W tym celu należy wejść w: Analiza -> Porównywanie średnich -> Test t dla prób zależnych (rys. 5..). Rysunek 5.. Okienko wyboru testu t dla prób zależnych 100
5. Jakich informacji o teście dostarcza testowanie? Rysunek 5.3. Okienko testu t dla prób zależnych Po przerzuceniu zmiennych pomiar1 i pomiar, należy kliknąć OK (rys. 5.3.). Rysunek 5.4. Wydruk analizy testu t dla prób zależnych Ukaże się wydruk analizy (rys. 5.4.). Z tabeli dolnej Test dla prób zależnych można odczytać istotność dwustronną, która wskazuje, czy wystąpiły różnice między średnimi pomiaru 1 i pomiaru. W prezentowanym przykładzie różnice nie wystąpiły, gdyż istotność dwustronna jest większa od wartości 0,05. Skoro spełnione jest założenie o równości średnich między pomiarami, możemy odczytać wartość korelacji r-pearsona z tabeli Korelacje dla prób zależnych. Wynosi ona 0,98 przy poziomie istotności p<0,001. Zatem rzetelność naszego testu badana metodą stabilności bezwzględnej wynosi 0,98. Ponieważ nie wystąpił żaden efekt, który powodowałby podwyższenie lub obniżenie wyników (średnie pomiarów nie różnią się), uprawnione jest stwierdzenie, że wyniki tego testu są stałe w czasie. 101
Konrad Jankowski, Marcin Zajenkowski 5.1.7.. Metoda połówkowa w SPSS W części tej zostanie przedstawiony sposób obliczania rzetelności metodą połówkową Spearmana-Browna w SPSS na poniższym przykładzie. Skonstruowano kwestionariusz osobowości, składający się z 0 pytań. Zbadano jego rzetelność za pomocą metody połówkowej. Przebadano w tym celu 60 studentów. Ich wyniki zapisano w arkuszu danych programu SPSS (plik danych: połówkowa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach p1, p,..., p0 znajdują się odpowiedzi na kolejne pytania (rys. 5.5.). Rysunek 5.5. Okienko arkusza danych z wynikami testu przygotowanymi do analizy rzetelności metodą połówkową Aby obliczyć rzetelność należy wejść do: Analiza->Skalowanie->Analiza rzetelności (rys. 5.6.). Następnie należy zaznaczyć model połówkowy oraz przerzucić wszystkie pozycje testu do okna Elementy (rys. 5.7.). 10 Rysunek 5.6. Okienko wyboru analizy rzetelności
5. Jakich informacji o teście dostarcza testowanie? Rysunek 5.7. Okienko analizy rzetelności z zaznaczonym modelem połówkowym Wydruk analizy rzetelności metodą połówkową prezentuje rys. 5.8. Rysunek 5.8. Wydruk analizy rzetelności metodą połówkową Rzetelność powyższego testu zbadana metodą połówkową wynosi 0,703. Współczynnik Spearmana-Browna w tym przykładzie jest taki sam przy założeniu równej i nierównej długości testu. Wartości te różniłyby się nieznacznie, gdyby test składał się, inaczej niż w powyższym przykładzie, z nieparzystej liczby pozycji. Korelacja międzypołówkowa to współczynnik korelacji r-pearsona między wyodrębnionymi połowami testu. Po podstawieniu tej wartości (0,54) do wzoru 5.1, w miejsce r pp uzyskalibyśmy wyliczoną wartość współczynnika Spearmana- -Browna przy założeniu o równej długości. 103
Konrad Jankowski, Marcin Zajenkowski Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą połówkową dla wcześniejszego przykładu. RELIABILITY /VARIABLES=p1 p p3 p4 p5 p6 p7 p8 p9 p10 p11 p1 p13 p14 p15 p16 p17 p18 p19 p0 /SCALE( ALL VARIABLES ) ALL/MODEL=SPLIT. Podział na połowy dokonuje się w taki sposób, że do pierwszej części zalicza się pozycje od p1 do p10 a do drugiej pozostałe. Aby zbadać rzetelność połówkową przy innym podziale testu na połowy, np. dzieląc go na pozycje parzyste i nieparzyste, należałoby w polu Elementy (rys. 5.7.) wprowadzić najpierw pozycje o numerach nieparzystych (czyli 1, 3, 5 itd.), a następnie o numerach parzystych (czyli, 4, 6 itd.). Wiersz poleceń wyglądałby wtedy następująco: RELIABILITY /VARIABLES=p1 p3 p5 p7 p9 p11 p13 p15 p17 p19 p p4 p6 p8 p10 p1 p14 p16 p18 p0 /SCALE( ALL VARIABLES ) ALL/MODEL=SPLIT. 5.1.7.3. Alfa Cronbacha w SPSS 104 W części tej zostanie przedstawiony sposób obliczania zgodności wewnętrznej za pomocą alfy Cronbacha w SPSS na poniższym przykładzie. Skonstruowano kwestionariusz osobowości, składający się z 0 pytań, i zaplanowano zbadać jego zgodność wewnętrzną. Przebadano w tym celu 60 osób, a ich wyniki zapisano w arkuszu danych programu SPSS (alfa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach p1,p,...,p0 znajdują się odpowiedzi na kolejne pytania. Aby policzyć alfę Cronbacha, należy wejść do: Analiza-> Skalowanie-> Analiza rzetelności (rys. 5.6.). Wszystkie pozycje, składające się na skalę, której zgodność będzie badana, należy przerzucić do okna Elementy: (rys. 5.9.). Należy zwrócić uwagę, czy w okienku Model: zaznaczona jest Alfa. Po kliknięciu przycisku Statystyki, pokaże się okno (rys. 5.10.), w którym warto zaznaczyć opcję Skala przy wykluczeniu pozycji. Opcja ta umożliwia przewidzenie wartości alfy, jeśli usunięto by daną pozycję z analizy rzetelności. Po kliknięciu Dalej i OK, pojawią się wydruki przeprowadzonej analizy (rys. 5.11.). Wartość alfy należy odczytać z okna Alfa Cronbacha. Dla analizowanego kwestionariusza wynosi ona 0,715. Z tabeli Statystyki pozycji Ogółem można odczytać, że zgodność wewnętrzna tego kwestionariusza wzrosłaby najbardziej, gdyby usunąć pozycję p13, i wyniosłaby wtedy 0,78. Zatem, można zwiększać
5. Jakich informacji o teście dostarcza testowanie? zgodność wewnętrzną poprzez eliminowanie pozycji testu, które zmniejszają jego rzetelność. Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą alfy Cronbacha dla powyższego przykładu. RELIABILITY /VARIABLES=p1 p p3 p4 p5 p6 p7 p8 p9 p10 p11 p1 p13 p14 p15 p16 p17 p18 p19 p0 /SCALE( ALL VARIABLES ) ALL/MODEL=ALPHA /SUMMARY=TOTAL. Rysunek 5.9. Okienko analizy rzetelności z zaznaczoną alfą Cronbacha Rysunek 5.10. Okienko statystyki w analizie rzetelności 105
Konrad Jankowski, Marcin Zajenkowski Rysunek 5.11. Wydruk analizy rzetelności metodą alfy Cronbacha 5.1.7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS W części tej zostanie przedstawiony sposób obliczania zgodności sędziów w SPSS na poniższym przykładzie. Skonstruowano test rysunkowy do badania nasilenia depresyjności u dzieci. Polega on na poproszeniu dziecka o narysowanie domu na czystej kartce A4, standardowym, dwunastokolorowym zestawem kredek. Przebadano nim dziesięcioro dzieci. Ponieważ nie ma prostego klucza przyznawania punktów za wykonanie tego testu (tzn. nie ma szablonu, który można by przyłożyć do rysunku i zliczyć punkty), poproszono trzech sędziów o ocenę wykonania każdego testu i przyznanie odpowiedniej liczby punktów w zależności od nasilenia depresyjności. Sędziowie dysponują kryteriami do przyznawania punktów, gdzie 0 oznacza brak depresji, a 10 jej wysokie nasilenie. Oceny testów zostały przedstawione na rys. 5.1. 106 Rysunek 5.1. Okienko arkusza danych z wynikami przygotowanymi do analizy zgodności sędziów
5. Jakich informacji o teście dostarcza testowanie? Każdy wiersz reprezentuje sędziego, a kolumny kolejne dzieci, których testy były oceniane. Zaznaczona komórka reprezentuje ocenę przeprowadzoną przez trzeciego sędziego testu wykonanego przez dziecko numer 10. Tak przygotowane dane można podać analizie zgodności sędziów (zgodnosc_sedziow.sav). W tym celu należy wejść do: Analiza-> Testy nieparametryczne-> K prób zależnych (rys. 5.13.) i przenieść wszystkie zmienne do okna Zmienne testowane oraz zaznaczyć na dole test W Kendalla (jednocześnie odznaczając Friedman, dla przejrzystości wydruku analiz) (rys. 5.14.). Rysunek 5.13. Okienko wyboru analizy zgodności sędziów Rysunek 5.14. Okienko testów dla kilku prób zależnych z zaznaczonym W-Kendalla 107
Konrad Jankowski, Marcin Zajenkowski Rysunek 5.15. Wydruk analizy W-Kendalla Rys. 5.15. przedstawia wydruk analiz. Najbardziej interesujący jest współczynnik W-Kendalla, który wynosi 0,919, przy poziomie istotności 0,003 (W = 0,913; chi (9) = 4,811; p<0,01). Oznacza to, że sędziowie dość zgodnie ocenili testy wykonane przez poszczególne dzieci, co oznacza wysoką rzetelność tego testu. Poniżej znajduje się wiersz poleceń do obliczenia współczynnika W-Kendalla dla zaprezentowanego przykładu. NPAR TESTS /KENDALL = os1 os os3 os4 os5 os6 os7 os8 os9 os10 /MISSING LISTWISE. 108 Pytania sprawdzające 1. Wyjaśnij, w jaki sposób założenie o równoległości testów odnosi się do wszystkich omówionych metod szacowania rzetelności.. Wskaż podobieństwa i różnice między współczynnikiem stabilności bezwzględnej a współczynnikiem stabilności względnej. 3. Zbadano dwukrotnie 100 osób pewnym kwestionariuszem osobowości w odstępie tygodni. Uzyskano korelację pomiędzy pomiarami równą 0,8 oraz istotne statystycznie różnice w średnich w obu badaniach. Czy na podstawie
5. Jakich informacji o teście dostarcza testowanie? uzyskanych wyników możemy powiedzieć, że kwestionariusz ten jest stabilny czasowo? Uzasadnij odpowiedź. 4. Od czego zależy długość przerwy czasowej w badaniu stabilności względnej? 5. Skonstruowano test inteligencji płynnej, w którym poziom trudności zadań wzrasta stopniowo. Jakiej metody szacowania rzetelności w grupie dzieci należałoby użyć w tym przypadku? Uzasadnij wybór. 6. W pewnym teście ocenia się osobowość osób badanych na podstawie ich skojarzeń z określonymi słowami. Badani mają zapisywać wszystkie skojarzenia, jakie przychodzą im do głowy w związku z danym słowem. W celu oszacowania rzetelności tego testu, arkusze odpowiedzi osób badanych przedstawiono trzem kompetentnym psychologom. Poproszono ich, aby na podstawie określonych kryteriów ocenili każdą odpowiedź badanych na skali od 1 do 3. Następnie obliczono współczynnik W-Kendalla i uzyskano wartość 0,1. O czym świadczy ten wynik? Zadania 1. W pewnym teście inteligencji postanowiono obliczyć rzetelność metodą połówkową. Po zbadaniu odpowiedniej grupy osób, podzielono test na dwie połówki. W jednej znajdowały się pozycje parzyste a w drugiej nieparzyste. Następnie obliczono współczynnik korelacji między połówkami, który wynosił 0,6. Oblicz rzetelność tego testu.. Poniżej, w tabeli 5.4., przedstawiono wyniki pięciu osób uzyskane w pewnym kwestionariuszu osobowości. Kwestionariusz składał się z pięciu pozycji, a zakres możliwych odpowiedzi wyrażony był na trójstopniowej skali (od 1 do 3). Oblicz jego zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha na podstawie przedstawionych danych. Tabela 5.4. Wyniki pięciu osób w kolejnych, czterech pozycjach testowych Osoby 1 3 4 5 Pozycje testowe 1 3 4 1 1 1 3 3 3 1 3 109