Rozdział 14 Zastosowanie modelu Rascha na przykładzie testu inteligencji 1 Anna Hawrot, Instytut Badań Edukacyjnych Teoria odpowiedzi na pozycje testowe (item response theory, IRT) jest w Polsce niezbyt popularna i znacznie mniej znana w porównaniu do klasycznej teorii testu (classical test theory, KTT). Zaczyna jednak pojawiać się w pomiarze psychologicznym i edukacyjnym. Wykorzystuje się ją do weryfikacji właściwości egzaminów zewnętrznych (Szaleniec, 2009), dostępne są też pierwsze testy skonstruowane na jej podstawie (np. testy osiągnięć szkolnych, Jasińska i Modzelewski, 2012; Graficzno-werbalny test wyobraźni twórczej, Dziedziewicz i Karwowski, 2012). Zaawansowane zastosowania IRT pojawiają się w na przykład testowaniu adaptatywnym (Test umiejętności na starcie szkolnym, Karwowski i Dziedziewicz, 2012; zob. rozdział 20) i procedurach zrównywania wyników egzaminów zewnętrznych (Szaleniec, Grudniewska, Kondratek, Kulon i Pokropek, 2012). Wciąż jednak są to nieliczne przykłady wykorzystania tej metodologii w polskiej praktyce badawczej i diagnostycznej, a większość narzędzi pomiarowych nadal konstruuje i adaptuje się w ramach KTT. Tymczasem wykorzystanie IRT przynosi korzyści warte wysokiej ceny złożonych statystycznie analiz. W tym rozdziale przedstawimy jedno z podstawowych i stosunkowo najprostszych zastosowań IRT jednoparametryczny model IRT (tzw. modelu Rascha) na przykładzie analizy właściwości psychometrycznych testu. Omówimy i porównamy ją do analiz prowadzonych w ramach KTT 2. W pierwszej kolejności pokażemy wady i zalety wykorzystania modelu Rascha w analizach właściwości psychometrycznych testów. Następnie przedstawimy podstawowe informacje o analizowanym narzędziu, przebadanej próbie oraz wykorzystanym modelu IRT. Na koniec zinterpretujemy uzyskane wyniki. 14.1. Wady i zalety zastosowania modelu Rascha Jedną z niewątpliwych zalet klasycznej teorii testu jest jej prostota, dotycząca także analiz statystycznych, które proponuje. Jednak porównanie KTT z IRT (zwłaszcza z modelem jednoparametrycznym IRT) ujawnia wiele korzyści wynikających ze stosowania tej drugiej metody. Zali- 1 W rozdziale wykorzystano fragmenty artykułu: Hawrot, A. (2012). Wybór ma znaczenie, czyli problem miar dopasowania pozycji do modelu pomiarowego w tworzeniu testów za pomocą metody IRT. W: B. Niemierko i M. K. Szmigel (red.), Regionalne i lokalne diagnozy edukacyjne (s. 223 231). Kraków: PTDE. 2 Podstawowe informacje na temat teorii odpowiedzi na pozycje testowe zostały przedstawione w rozdziale 1, natomiast modelu Rascha w rozdziale 2. Nie będą więc one omawiane. Informacje na temat klasycznej teorii testu znajdzie czytelnik w licznych publikacjach na ten temat, np. w pracy Elżbiety Hornowskiej (2005). 293
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii czyć do nich można: niezależność parametrów zadań, rozkładu mierzonej cechy w próbie oraz oszacowań poziomu cechy od puli pozycji testu; możliwość szacowania precyzji pomiaru dla różnych poziomów cechy; łatwość interpretacyjną parametru trudności i skali, na której została wyrażona mierzona cecha; cechy tej skali; koncentracja na funkcjonowaniu poszczególnych pozycji testu; falsyfikowalność modelu IRT. Korzyści te zostaną omówione w kolejnych akapitach. Pierwszą zaletą wynikającą ze stosowania jednoparametrycznego modelu IRT jest niezależność estymowanych parametrów trudności od próby, na podstawie której je szacowano, oraz niezależność oszacowań poziomu cechy od puli pozycji, z której składa się test (Ayala, 2009; DeMars, 2010; Swaminathan, Hambelton i Rogers, 2007). W klasycznej teorii testu podstawowe parametry zadań trudność pozycji (obliczana jako proporcja poprawnych odpowiedzi) oraz ich moc dyskryminacyjna (obliczana jako korelacja między pozycją a wynikiem w całym teście) są zawsze zależne od rozkładu cechy w próbie. Jeżeli przeciętny poziom cechy jest wysoki, test okazuje się łatwiejszy niż wtedy, gdy poziom ten jest niski (DeMars, 2010; Swaminathan i in., 2007). Zależność ta ogranicza użyteczność informacji uzyskiwanych z oszacowań parametrów w sytuacji, gdy test będzie przeprowadzany na innej próbie niż ta, na podstawie której je szacowano, szczególnie gdy próby różnić się będą rozkładami mierzonej cechy. Ponadto, oszacowania poziomu cechy zależne są od puli pozycji tworzących test wynik prawdziwy osoby badanej (czyli poziom cechy) określony jest zawsze w ramach testu, którym jest mierzony. Definiuje się go jako wynik testu nieobciążony błędem pomiaru (Hornowska, 2005). W konsekwencji wyniki poszczególnych osób badanych zależne są od pozycji testowych, z których składa się narzędzie, i jednocześnie wyrażone są na jego skali. Jeżeli test jest trudny, wynik prawdziwy jest niski, jeżeli jest łatwy wysoki. Innymi słowy, rozkład cechy w próbie zależy od puli pozycji, z których test się składa. Od tych niekorzystnych cech do pewnego stopnia wolne są oszacowania parametrów zadań oraz poziomu cechy osób badanych w ramach IRT. Nie oznacza to jednak, że na przykład oszacowania parametrów tych samych zadań uzyskane z dwóch prób pozostaną jednakowe będą różnić się błędem oszacowania, mogą także wymagać liniowego przekształcenia. Osiągnięcie wspomnianej inwariancji wymaga jednak odpowiednio licznych i heterogenicznych prób oraz bardzo dobrego dopasowania modelu do danych (Ayala, 2009; DeMars, 2010) 3. W modelach IRT trudności pozycji wyrażone są na tej samej skali co poziom mierzonej cechy ukrytej. Umożliwia to łatwą interpretację tego parametru (w powiązaniu z poziomem cechy) oraz łatwe formułowanie przewidywań, jak osoba o przeciętnym poziomie cechy poradzi sobie z zadaniem (Ayala, 2009). Takiej możliwości brakuje w klasycznej teorii testu, w której parametry pozycji oraz wyniki osób badanych wyrażone są na różnych skalach (odpowiednio: proporcje i współczynniki korelacji oraz wynik surowy w postaci na przykład sumy punktów). Co więcej, KTT w niewielkim stopniu skupia się na poszczególnych pozycjach, niemal cały nacisk kładzie na ogólny wynik w teście. Tymczasem IRT umożliwia analizę poszczególnych 3 Więcej informacji na temat niezależności parametrów od próby oraz poziomu cechy od puli zadań znajdzie czytelnik w rozdziale 2. 294
Zastosowanie modelu Rascha na przykładzie testu inteligencji zadań, przewidywanie szans udzielenia na nie poprawnej odpowiedzi przy danym poziomie umiejętności, pozwala też na podejmowanie trafnych decyzji dotyczących zastosowania określonego narzędzia do konkretnej grupy osób. Inne zastosowania to na przykład dostosowanie trudności zadań podczas konstrukcji narzędzia do przewidywanego poziomu cechy w próbie. W przypadku istniejącego już testu standardowego otrzymujemy przydatne w przyszłości informacje o poziomie cechy w próbie, do jakiego narzędzie jest przystosowane. Inną ważną korzyścią wynikającą z zastosowania IRT jest możliwość uzyskania informacji o precyzji pomiaru dla różnych poziomów cechy ukrytej. W klasycznej teorii testu zakłada się, że błąd pomiaru (ściślej standardowy błąd pomiaru) jest jednakowy na wszystkich poziomach mierzonej cechy i w taki sposób wykorzystuje się go do tworzenia przedziałów ufności (Hornowska, 2005). Założenie to jest jednak nierealistyczne (Swaminathan i in., 2007). W IRT standardowy błąd oszacowania jest różny dla różnych poziomów cechy ukrytej (DeMars, 2010; Swaminathan i in., 2007). Dzięki temu możliwe jest budowanie przedziałów ufności w sposób bardziej adekwatny, niż ma to miejsce w ramach klasycznej teorii testu. Możliwe są także inne zastosowania, na przykład konstruowanie narzędzia w taki sposób, aby osiągnąć satysfakcjonujący nas poziom precyzji pomiaru w danym przedziale cechy ukrytej. Korzyści z zastosowania jednoparametrycznego modelu IRT są widoczne także w obszarze właściwości skali pomiarowej cecha ukryta zostaje wyrażona na skali interwałowej (Perline, Wright i Wainter, 1979). Co istotne, zalety tej nie mają modele IRT z większą liczbą parametrów. Ponadto, wykorzystując IRT, otrzymujemy możliwość testowania dopasowania modelu do danych. W klasycznej teorii testu model wyniku prawdziwego jest niefalsyfikowalny; zakłada się więc po prostu, że jest prawdziwy (np. Borshboom, 2005). Jednak założenia modelu jednoparametrycznego (jednakowe dyskryminacje, brak znaczenia zgadywania) są trudne do spełnienia, podobnie jak wspólne dla modeli IRT założenia o jednowymiarowości konstruktu i lokalnej niezależności (rozdział 2). W konsekwencji model ten często jest niedopasowany. Z drugiej strony, problemy te interpretować można nie w kategoriach wad modelu, lecz wad danych. Narzędzia badawcze, służące do ich zbierania, są niewystarczająco dobre. W konsekwencji otrzymujemy dane, które nie spełniają wymogów stawianych obiektywnemu pomiarowi. Odrzucić należy więc dane, a nie model (np. Andrich, 2004; Wright, 1997). Jeżeli jednak model okaże się dobrze dopasowany, możemy wierzyć, że zastosowane przez nas narzędzie będzie miało bardzo dobre właściwości, a przeprowadzony pomiar wysoką jakość. Wśród zalet analiz prowadzonych na podstawie IRT wymienić należy możliwość testowania adaptatywnego, zrównywania wyników testów czy stosowania złożonych schematów testowania. Nie wiążą się one bezpośrednio z przedstawionym w tekście przykładem, dlatego nie będą bliżej omawiane (zob. Kondratek i Pokropek, 2013; por. też rozdziały 16 i 20). Analizy oparte na IRT mają jednak wady. Po pierwsze, estymacja parametrów zadań wymaga dużych prób, liczących co najmniej kilkaset obserwacji, odpowiednio zróżnicowanych pod względem mierzonej cechy (np. DeMars, 2010). Zwiększa to zarówno koszty badania, wynikające z konieczności dotarcia do większej liczby respondentów, zakupienia większej liczby arkuszy 295
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii testowych oraz ich zakodowania, jak i jego złożoność logistyczną. Natomiast zastosowanie niewystarczająco licznych i zróżnicowanych prób podważa wiarygodność wyników analiz. Niewątpliwym ograniczeniem są również wymagania techniczne i sprzętowe. Niezbędne jest bowiem specjalistyczne oprogramowanie, a w przypadku bardzo dużych zbiorów danych (np. wyników egzaminu zewnętrznego całej kohorty uczniów) komputery o odpowiedniej mocy obliczeniowej. Wprawdzie dostępne jest oprogramowanie bezpłatne (np. MIRT, pakiety w R), jednak aplikacje udostępniane bez opłat są niejednokrotnie uboższe, mniej przyjazne w obsłudze i oferują ograniczony wybór opcji. Samodzielne pokrycie koszów zakupu oprogramowania przez badacza może nie być możliwe. 14.2. Analiza Analizie poddano Test Matryc Ravena wersję standardową, w formie klasycznej (TMS-K; Jaworowska i Szustrowa, 2007). Jest to niewerbalny test służący do diagnozy intelektu. Uznaje się, że jego wynik nie zależy od wcześniejszych doświadczeń jednostki ani od jej kompetencji komunikacyjnych. Narzędzie składa się z 60 zadań zgrupowanych w pięciu równolicznych seriach (A E). Każde zadanie ma postać niekompletnego wzoru (matrycy) złożonego z figur. Zadaniem osoby badanej jest uzupełnienie brakującego fragmentu jednym spośród sześciu (serie A i B) lub ośmiu (serie C E) prezentowanych wycinków, tak by zasada ułożenia elementów wzoru została zachowana. Zarówno zadania, jak i kolejne serie testu ułożone są zgodnie z rosnącą trudnością. Osoba badana przechodzi więc kolejno od zadań najłatwiejszych do najtrudniejszych, a za każdą poprawną odpowiedź otrzymuje punkt. W ten sposób punktowane są również dwa pierwsze zadania (A1 i A2), które mają próbny charakter i rozwiązywane są razem z osobą prowadzącą badanie. Wynik końcowy stanowi suma punktów uzyskanych we wszystkich zadaniach. Wyniku nie oblicza się, jeżeli osoba badana pominie pięć lub więcej zadań. Test nie ma ograniczenia czasowego. W analizie założono, że jest on jednowymiarowy. Uwzględniono dane 5413 uczniów trzecich klas szkoły podstawowej (2699 dziewczynek, 2714 chłopców) uczęszczających do 300 oddziałów ze 177 szkół z całej Polski. Zebrano je między styczniem a kwietniem 2011 roku, w toku badania podłużnego Szkolnych uwarunkowań efektywności kształcenia 4 prowadzonego w Instytucie Badań Edukacyjnych. Analizy reprezentatywności pod kątem osiągnięć szkolnych wykazały bardzo dobre odzwierciedlenie w próbie tej cechy populacji (Maluchnik i Modzelewski, 2014). Porównanie rozkładów wyników sprawdzianu w populacji oraz w szkołach nie ujawniło znaczących różnic. Z analizy właściwości psychometrycznych TMS-K wykluczono obserwacje liczące 5 lub więcej braków danych (Jaworowska i Szustrowa, 2007). Pozycje A1 i A2, pomimo ich próbnego charakteru, zgodnie z wytycznymi podręcznika do testu zostały uwzględnione w analizach. Obliczenia przeprowadzono z wykorzystaniem oprogramowania MIRT (Glas, 2010) oraz 4 Badanie realizowane w ramach projektu systemowego Badanie jakości i efektywności edukacji oraz instytucjonalizacja zaplecza badawczego, współfinansowanego przez Unię Europejską w ramach Europejskiego Funduszu Społecznego, Program Operacyjny Kapitał Ludzki, Priorytet III, Poddziałanie 3.1.1. 296
Zastosowanie modelu Rascha na przykładzie testu inteligencji Acer Conquest 2.0 (Wu, Adams, Wilson i Haldane, 2007). Zdecydowano się na wykorzystanie dwóch aplikacji, w celu otrzymania różnych miar dopasowania zadań. MIRT oferuje test LM (Lagrange multiplier test, np. Glas, 1988; 2007), Acer Conquest infit i outfit (np. Ayala, 2009). Miary te służą do weryfikacji dopasowania pozycji testowych, różnią się jednak sposobem obliczania i właściwościami. Informacje na ich temat podano w dalszych częściach tekstu (zob. też rozdział 2). W obu programach przeprowadzono analizę polegającą na wykorzystaniu jednowymiarowego modelu z jednym parametrem (1PL), oszacowaniu parametrów metodą brzegowej największej wiarygodności (marginal maximum likelihood estimation, MML; Ayala, 2009) i ustaleniu średniego poziomu cechy ukrytej na wartości zero. 14.3. Wyniki Przedstawiając wyniki skupimy się na kilku podstawowych elementach: analizie trudności zadań, krzywej informacyjnej testu oraz na dopasowaniu modelu do danych. Parametry trudności zadań wraz z ich błędami standardowymi (oszacowanymi jednakowo przez oba programy, z dokładnością do trzeciego miejsca po przecinku) przedstawiono w Tabeli 14.1. Przypomnijmy, że parametry te wyrażone są na tej samej skali co poziom mierzonej cechy ukrytej (w naszym przypadku inteligencji). Określają one poziom cechy, przy którym szanse na wskazanie poprawnej odpowiedzi wynoszą 50%. Tabela 14.1. Oszacowania trudności zadań TMS-K. Zadanie Trudność (b) SE Zadanie Trudność (b) SE Zadanie Trudność (b) SE A1 4,68 0,16 B9 0,57 0,04 D5 2,02 0,05 A2 4,64 0,16 B10 1,05 0,04 D6 0,82 0,04 A3 6,18 0,24 B11 0,29 0,04 D7 0,26 0,04 A4 5,53 0,17 B12 1,08 0,04 D8 0,11 0,04 A5 5,06 0,13 C1 3,26 0,06 D9 0,71 0,04 A6 5,24 0,15 C2 3,03 0,06 D10 0,32 0,04 A7 2,90 0,06 C3 1,46 0,04 D11 2,10 0,05 A8 1,98 0,05 C4 0,71 0,04 D12 3,90 0,08 A9 3,46 0,07 C5 1,42 0,04 E1 0,16 0,04 A10 2,31 0,05 C6 0,21 0,04 E2 0,88 0,04 A11 0,30 0,04 C7 0,73 0,04 E3 0,87 0,04 A12 0,46 0,04 C8 0,11 0,04 E4 1,35 0,04 B1 5,84 0,19 C9 0,60 0,04 E5 1,31 0,04 B2 4,32 0,10 C10 1,29 0,04 E6 1,73 0,04 B3 4,14 0,10 C11 1,85 0,04 E7 1,86 0,04 B4 3,23 0,07 C12 3,41 0,07 E8 2,06 0,05 B5 2,69 0,06 D1 3,93 0,09 E9 3,55 0,07 B6 1,26 0,04 D2 1,51 0,05 E10 3,15 0,06 B7 0,51 0,04 D3 1,19 0,05 E11 3,61 0,07 B8 0,20 0,04 D4 1,15 0,04 E12 3,34 0,07 297
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Analiza trudności wskazuje na występowanie znacznej liczby zadań skrajnie łatwych (tych o trudności poniżej 3 jest 14, czyli około 23%). Połowa z nich pochodzi z serii A (A1 A6, A9; ponadto: B1 B4; C1, C2; D1). Test zawiera także sześć zadań skrajnie trudnych (trudność powyżej 3), z czego cztery kończą serię E (E9 E12; ponadto: C12, D12). Można zauważyć, że wbrew założeniom twórcy narzędzia, zadania nie są ułożone hierarchicznie pod kątem poziomu trudności wielokrotnie zdarza się, że zadanie łatwiejsze jest poprzedzone trudniejszym (np. A2 i A3; B9 i B10; C4 i C5; D9 i D10). Najtrudniejsze zadanie znajdujemy w serii D (D12). Zaburzenie rosnącej trudności pozycji testowych szczególnie widoczne jest na granicach serii ostatnia pozycja w serii wcześniejszej jest znacznie trudniejsza niż pierwsza pozycja w serii kolejnej (np. B12 i C1). Ogólnie jednak obserwujemy wzrastającą trudność kolejnych serii. Znaczna liczba zadań łatwych i o przeciętnej trudności (42 zadania mają trudność nie wyższą niż 0,5) sugeruje, że oszacowania dla cechy ukrytej będą najdokładniejsze wśród osób o jej niskim i przeciętnym poziomie. Przypuszczenie to potwierdza krzywa informacyjna testu (Rysunek 14.1). Na osi poziomej przedstawiono poziom mierzonej cechy ukrytej (inteligencji), natomiast na osi pionowej wartość funkcji informacji. Wykres pozwala nam śledzić, na ile dokładny jest pomiar prowadzony wśród uczniów o danym poziomie inteligencji. Rysunek 14.1. Krzywa informacyjna wyników Testu Matryc Ravena (TMS-K) (wydruk z programu komputerowego). Analiza wykresu wskazuje, że najdokładniejsze oszacowania uzyskujemy wśród osób o poziomie cechy od ok. 1 do 0 logitów. Duża liczba zadań bardzo łatwych sprawia, że precyzja ta, choć spada wraz z obniżaniem się poziomu cechy, jest wciąż dość wysoka w porównaniu do precyzji szacowania bardzo wysokiego poziomu cechy 5. 5 Analogicznych, bo obliczanych na podstawie funkcji informacyjnej testu, danych dostarczyłaby analiza rozkładu standardowych błędów oszacowania. Zrezygnowano jednak z jego prezentacji, aby uniknąć powtarzania treści. 298
Zastosowanie modelu Rascha na przykładzie testu inteligencji W kolejnym kroku zweryfikowano dopasowanie modelu do danych. Przypomnijmy, że ocena dobroci dopasowania służy do weryfikacji, czy model mający opisywać pewien fragment rzeczywistości, faktycznie tę rzeczywistość opisuje. Skupiono się na jednym z elementów oceny dopasowania dobroci dopasowania pozycji (por. Swaminathan i in., 2007). Wykorzystano trzy miary dopasowania test LM, outfit i infit. Test LM jest wrażliwy na rozbieżność między faktyczną dyskryminacją pozycji a dyskryminacją w modelu. Jego obliczenie wymaga podziału próby na podgupy o zbliżonych liczebnościach na podstawie wyniku surowego w teście (MIRT pozwala wyodrębnić 3 takie podgrupy). Dla każdej z nich zostają obliczone obserwowane oraz oczekiwane na podstawie modelu średnie wyniki danej pozycji, średnie bezwzględnych wartości różnic między nimi oraz wartości statystyki LM dla każdej pozycji wraz z ich istotnością statystyczną. Istotne wartości testu LM informują o występowaniu różnic między modelem a danymi. Średnie bezwzględnych wartości różnic pozwalają wnioskować o skali rozbieżności (im jej wartość jest bliższa 0, tym rozbieżności są mniejsze), natomiast wzorzec różnic obserwowanych w podgrupach o kierunku odchyleń (np. zbyt niskie wartości w podgrupie pierwszej i zbyt wysokie w trzeciej sugerują, że dyskryminacja pozycji jest w rzeczywistości wyższa niż dyskryminacja w modelu; Glas, 1988; 2007). Miary outfit i infit opierają się na kwadratach różnic między wartościami oczekiwanymi a obserwowanymi, przy czym infit jest wartością ważoną. W efekcie miary te są wrażliwe na różne odstępstwa od modelu. Infit jest wrażliwy na odstępstwa od przewidywanych odpowiedzi osób o poziomie cechy zbliżonej do trudności zadania, natomiast outfit na odstępstwa od przewidywanych odpowiedzi osób o poziomie cechy oddalonej od trudności zadania (Ayala, 2009). Podobnie jak test LM mogą one wskazywać na różnice w faktycznej mocy dyskryminacyjnej pozycji, w porównaniu do dyskryminacji w modelu (DeMars, 2010). Wartość wskazująca na idealne dopasowanie obu statystyk do danych wynosi 1, przy czym wartości znacznie przekraczające 1 wskazują na występowanie w danych większej zmienności niż przewidywana przez model, natomiast wartości poniżej 1 na zmienność w danych mniejszą, niż przewiduje model. Niedopasowanie to może być widoczne na wykresach krzywych charakterystycznych pozycji w postaci odpowiednio: zbyt małego lub zbyt dużego nachylenia krzywych empirycznych, w porównaniu do nachylenia krzywych teoretycznych. Jednocześnie przyjmuje się, że pozycje, dla których wartości tych miar nie mieszczą się w przedziale od 0,5 do 1,5, mają niewielką wartość pomiarową (Ayala, 2009). Zaleca się jednak ustalanie różnych widełek, w zależności od celu pomiaru. Na przykład dla testów wysokiej stawki wymienia się przedział 0,8 1,2, dla testów niskiej stawki (których wynik nie decyduje o losie osób je wypełniających): 0,7 1,3, natomiast dla narzędzi badawczych, w których wykorzystywane są skale ocen: 0,6 1,4 (np. Bond i Fox, 2001). W analizie przyjęto wartości zalecane dla testów wysokiej stawki. Oprócz wspomnianych miar ACER ConQuest oblicza także przedziały ufności, pozwalające weryfikować istotność statystyczną różnic między modelem a danymi (nie wszystkie programy je podają). W sytuacji, gdy przedział pokrywa wartości miary, należy przyjąć hipotezę zerową o braku istotnych różnic między modelem a danymi (Wu i in., 2007). 299
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Tabela 14.2. Miary dopasowania pozycji raportowane przez programy MIRT i ACER ConQuest. Zadanie Outfit Infit Grupa 1 Grupa 2 Grupa 3 LM x r Wartość PU Wartość PU obs. ocz. obs. ocz. obs. ocz. Grupa 1 n Grupa 2 n Grupa 3 n A1 1,84 (0,96; 1,04) 1,07 (0,81; 1,19) 27,06 * 0,97 0,96 0,98 0,99 0,99 1 0,01 1678 1865 1869 A2 1,67 (0,96; 1,04) 1,06 (0,82; 1,18) 15,9 * 0,97 0,96 0,98 0,99 0,99 1 0,01 1679 1864 1869 A3 0,65 (0,96; 1,04) 1,03 (0,59; 1,41) 0,83 0,99 0,99 1 1 1 1 0 1682 1862 1868 A4 1,41 (0,96; 1,04) 1,04 (0,71; 1,29) 9,31 * 0,99 0,98 0,99 1 1 1 0 1679 1865 1868 A5 1,67 (0,96; 1,04) 1,04 (0,77; 1,23) 9,73 * 0,98 0,97 0,99 0,99 0,99 1 0 1679 1865 1868 A6 1,19 (0,96; 1,04) 1,03 (0,75; 1,25) 1,11 0,98 0,97 0,99 0,99 1 1 0 1681 1862 1869 A7 0,98 (0,96; 1,04) 1 (0,93; 1,07) 4,54 0,82 0,82 0,94 0,95 0,99 0,98 0 1865 1673 1874 A8 1,5 (0,96; 1,04) 1,19 (0,95; 1,05) 144,79 * 0,75 0,67 0,84 0,88 0,91 0,95 0,06 1850 1896 1666 A9 0,83 (0,96; 1,04) 0,97 (0,90; 1,10) 5,05 0,87 0,88 0,97 0,97 0,99 0,99 0 1671 1870 1871 A10 1,09 (0,96; 1,04) 1,06 (0,94; 1,06) 10,39 * 0,75 0,73 0,89 0,91 0,96 0,96 0,01 1853 1675 1884 A11 1,06 (0,96; 1,04) 1,04 (0,98; 1,02) 14,01 * 0,34 0,3 0,57 0,59 0,79 0,8 0,02 1770 1933 1709 A12 1,14 (0,96; 1,04) 1,08 (0,98; 1,02) 42,98 * 0,23 0,18 0,4 0,41 0,62 0,66 0,03 1742 1919 1751 B1 1,34 (0,96; 1,04) 1,03 (0,66; 1,34) 2,5 0,99 0,99 1 1 1 1 0 1680 1865 1867 B2 1,06 (0,96; 1,04) 1,01 (0,85; 1,15) 3,57 0,95 0,94 0,99 0,99 0,99 0,99 0 1677 1866 1869 B3 0,65 (0,96; 1,04) 0,93 (0,86; 1,14) 18,7 * 0,92 0,93 0,99 0,98 1 0,99 0,01 1678 1865 1869 B4 0,88 (0,96; 1,04) 0,97 (0,91; 1,09) 5,01 0,84 0,85 0,96 0,96 0,99 0,99 0,01 1672 1870 1870 B5 0,86 (0,96; 1,04) 0,95 (0,93; 1,07) 19,78 * 0,78 0,79 0,94 0,94 0,99 0,97 0,01 1868 1672 1872 B6 1,09 (0,96; 1,04) 1,06 (0,97; 1,03) 15,73 * 0,55 0,51 0,76 0,78 0,89 0,9 0,02 1827 1691 1894 B7 1,1 (0,96; 1,04) 1,07 (0,97; 1,03) 35,44 * 0,4 0,35 0,62 0,64 0,81 0,83 0,03 1792 1925 1695 B8 0,87 (0,96; 1,04) 0,9 (0,98; 1,02) 110,01 * 0,21 0,28 0,57 0,55 0,83 0,77 0,05 1760 1723 1929 B9 0,8 (0,96; 1,04) 0,85 (0,97; 1,03) 194,59 * 0,26 0,36 0,68 0,64 0,89 0,83 0,07 1768 1724 1920 B10 0,75 (0,96; 1,04) 0,84 (0,97; 1,03) 250,62 * 0,38 0,47 0,77 0,74 0,95 0,89 0,06 1820 1702 1890 B11 0,82 (0,96; 1,04) 0,86 (0,98; 1,02) 187,7 * 0,2 0,3 0,61 0,58 0,84 0,78 0,06 1761 1717 1934 B12 0,96 (0,96; 1,04) 0,99 (0,97; 1,03) 5,75 0,1 0,11 0,28 0,28 0,53 0,52 0,01 1918 1729 1765 C1 0,92 (0,96; 1,04) 1 (0,91; 1,09) 0,83 0,86 0,86 0,96 0,96 0,99 0,99 0 1671 1869 1872 C2 1,25 (0,96; 1,04) 1,06 (0,92; 1,08) 21,85 * 0,85 0,83 0,94 0,95 0,97 0,98 0,02 1660 1876 1876 C3 1,14 (0,96; 1,04) 1,08 (0,96; 1,04) 53,66 * 0,62 0,56 0,79 0,82 0,9 0,93 0,04 1844 1894 1674 C4 1,13 (0,96; 1,04) 1,07 (0,97; 1,03) 25,76 * 0,43 0,39 0,66 0,67 0,82 0,85 0,03 1797 1701 1914 C5 0,87 (0,96; 1,04) 0,91 (0,96; 1,04) 30,07 * 0,52 0,55 0,82 0,81 0,94 0,92 0,02 1841 1682 1889 300
Zastosowanie modelu Rascha na przykładzie testu inteligencji C6 1,05 (0,96; 1,04) 1,04 (0,98; 1,02) 17,1 * 0,32 0,29 0,57 0,57 0,76 0,78 0,02 1769 1936 1707 C7 0,85 (0,96; 1,04) 0,91 (0,97; 1,03) 74,86 * 0,35 0,39 0,67 0,68 0,9 0,85 0,03 1793 1710 1909 C8 1 (0,96; 1,04) 1,02 (0,98; 1,02) 5,76 0,24 0,23 0,5 0,49 0,71 0,73 0,01 1765 1929 1718 C9 0,93 (0,96; 1,04) 0,95 (0,97; 1,03) 6,69 * 0,35 0,37 0,67 0,66 0,86 0,84 0,01 1803 1911 1698 C10 1,14 (0,96; 1,04) 1,06 (0,97; 1,03) 43,37 * 0,13 0,09 0,24 0,23 0,42 0,47 0,03 1723 1900 1788 C11 1,24 (0,96; 1,04) 1,04 (0,96; 1,04) 14,69 * 0,07 0,05 0,15 0,15 0,32 0,34 0,01 1695 1892 1824 C12 4,55 (0,96; 1,04) 1,15 (0,90; 1,10) 297,48 * 0,08 0,01 0,04 0,04 0,04 0,11 0,05 1695 1858 1858 D1 0,61 (0,96; 1,04) 0,93 (0,88; 1,12) 45,66 * 0,9 0,92 0,99 0,98 1 0,99 0,01 1676 1868 1868 D2 0,85 (0,96; 1,04) 0,9 (0,96; 1,04) 75,4 * 0,51 0,57 0,85 0,82 0,95 0,92 0,04 1834 1688 1890 D3 0,83 (0,96; 1,04) 0,9 (0,97; 1,03) 72,29 * 0,45 0,5 0,78 0,77 0,93 0,9 0,03 1808 1707 1897 D4 0,76 (0,96; 1,04) 0,84 (0,97; 1,03) 233,72 * 0,39 0,49 0,8 0,76 0,95 0,9 0,06 1824 1705 1883 D5 0,75 (0,96; 1,04) 0,85 (0,95; 1,05) 128,78 * 0,62 0,68 0,93 0,88 0,97 0,95 0,04 1859 1676 1877 D6 0,85 (0,96; 1,04) 0,89 (0,97; 1,03) 95,29 * 0,34 0,42 0,74 0,7 0,89 0,86 0,05 1805 1706 1901 D7 0,94 (0,96; 1,04) 0,96 (0,98; 1,02) 7,33 * 0,28 0,3 0,57 0,57 0,79 0,78 0,01 1772 1701 1939 D8 0,93 (0,96; 1,04) 0,94 (0,98; 1,02) 33,87 * 0,19 0,23 0,49 0,49 0,77 0,73 0,03 1746 1954 1712 D9 0,92 (0,96; 1,04) 0,94 (0,98; 1,02) 19,97 * 0,12 0,14 0,35 0,35 0,63 0,6 0,02 1734 1932 1746 D10 0,89 (0,96; 1,04) 0,91 (0,98; 1,02) 69,27 * 0,16 0,2 0,42 0,44 0,75 0,69 0,04 1735 1954 1723 D11 1,63 (0,96; 1,04) 1,14 (0,95; 1,05) 126,57 * 0,09 0,04 0,15 0,12 0,21 0,29 0,05 1708 1869 1835 D12 1,89 (0,96; 1,04) 1,07 (0,87; 1,13) 43,9 * 0,02 0,01 0,03 0,02 0,05 0,07 0,02 1693 1862 1854 E1 1,01 (0,96; 1,04) 1,02 (0,98; 1,02) 4,82 0,24 0,22 0,48 0,48 0,71 0,72 0,01 1758 1936 1718 E2 1,01 (0,96; 1,04) 1,01 (0,97; 1,03) 8,38 * 0,15 0,13 0,3 0,31 0,55 0,56 0,01 1733 1896 1783 E3 1,05 (0,96; 1,04) 1,03 (0,97; 1,03) 10,26 * 0,15 0,13 0,31 0,32 0,55 0,56 0,01 1724 1908 1780 E4 0,9 (0,96; 1,04) 0,9 (0,97; 1,03) 73,09 * 0,07 0,08 0,18 0,22 0,51 0,45 0,04 1705 1902 1805 E5 0,93 (0,96; 1,04) 0,93 (0,97; 1,03) 33,72 * 0,07 0,09 0,2 0,23 0,51 0,46 0,03 1707 1902 1803 E6 1,02 (0,96; 1,04) 0,95 (0,96; 1,04) 24,21 * 0,07 0,06 0,13 0,17 0,39 0,37 0,02 1701 1887 1824 E7 1,67 (0,96; 1,04) 1,14 (0,96; 1,04) 169,63 * 0,13 0,05 0,16 0,15 0,25 0,34 0,06 1714 1872 1826 E8 1,32 (0,96; 1,04) 1,06 (0,95; 1,05) 58,95 * 0,08 0,04 0,13 0,13 0,25 0,3 0,03 1699 1873 1840 E9 2,47 (0,96; 1,04) 1,05 (0,89; 1,11) 47,22 * 0,03 0,01 0,03 0,03 0,07 0,09 0,02 1690 1864 1857 E10 2,33 (0,96; 1,04) 1,08 (0,91; 1,09) 79,21 * 0,05 0,01 0,05 0,05 0,09 0,13 0,03 1688 1869 1854 E11 3,64 (0,96; 1,04) 1,12 (0,89; 1,11) 195,39 * 0,05 0,01 0,04 0,03 0,04 0,09 0,03 1692 1862 1857 E12 3,74 (0,96; 1,04) 1,12 (0,90; 1,10) 169,27 * 0,06 0,01 0,05 0,04 0,06 0,11 0,04 1689 1867 1853 Legenda: PU przedział ufności; * istotne na poziomie 0,05; LM wartość statystyki testowej LM; obs. wartości obserwowane; ocz. wartości oczekiwane na podstawie modelu; r średnia bezwzględnych wartości różnic między wartościami oczekiwanymi a obserwowanymi w wyodrębnionych grupach; n liczebność wyodrębnionych grup. 301
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Wartości miar dopasowania pozycji znajdują się w Tabeli 14.2. Test LM okazał się istotny statystycznie w przypadku 49 pozycji. Z uwagi na jego zbyt dużą moc, w razie prób bardzo licznych należy się skupić na analizie średnich różnic między wartościami oczekiwanymi a obserwowanymi w wyodrębnionych podgrupach pozwalają one bowiem na weryfikację skali niedopasowania (Glas, 2007). W naszym przypadku nie przekraczają one wartości 0,07, co wskazuje na dobre dopasowanie zadań (np. Glas, 1988; Schoor i in., 2006). Jeżeli przyjmiemy bardziej restrykcyjne kryterium oceny dobroci dopasowania, uznając za punkt graniczny wartość różnic powyżej 0,05, niedopasowanie pojawi się w przypadku sześciu pozycji: A8, B9, B10, B11, D4 oraz E7. W przypadku pięciu z nich wartość ta przekroczy postawioną granicę o 0,01, natomiast w jednym o 0,02 (B9). Skala różnic nie jest więc duża. Krzywe charakterystyczne (z uwagi na ograniczoną objętość, nie przedstawiono ich w rozdziale) także nie budzą zastrzeżeń. Należy jednak nadmienić, że krzywe empiryczne wyrysowano na podstawie trzech podgrup, w związku z czym ich porównanie z krzywymi teoretycznymi nie daje zbyt bogatych informacji. Mimo to wartości średnich różnic skłaniają do sformułowania wniosku o dobrym dopasowaniu 54 pozycji, natomiast pozostałych sześciu o dopasowaniu na poziomie granicznym. Podsumowanie informacji na temat wykrytego niedopasowania znajduje się w Tabeli 14.3. Tabela 14.3. Pozycje wskazane jako niedopasowane przez test LM oraz miary outfit i infit. Miara/kryterium Pozycje niedopasowane w świetle Jednej miary Dwóch miar LM r > 0,05 * A8, B9, B10, B11, D4, E7 Outfit A8, B10, D4, E7 A1, A2, A3, A4, A5, A8, B1, B3, B10, C2, C11, C12, D1, D4, D5, D11, <0,8; 1,2> D12, E7, E8, E9, E10, E11, E12 Infit Ou <0,8; 1,2> * r średnia bezwzględnych wartości różnic między wartościami oczekiwanymi a obserwowanymi w grupach wyodrębnionych na potrzeby testu LM. Przegląd wartości infit wstępnie potwierdza wnioski sformułowane na podstawie testu LM. Wprawdzie jedynie dla niespełna połowy pozycji (26) przedziały ufności pokrywają wartości infit, jednak podobnie jak w teście LM, znaczenie ma tu liczebność próby. Konieczne jest więc odwołanie się do podawanych w literaturze przedziałów, w których wartości miary powinny się mieścić. Wartości infit rozciągają się między 0,84 (B10, D4) a 1,19 (A8), z czego 48 pozycji mieści się w przedziale 0,9 1,1. Testy inteligencji wykonywane są często podczas diagnoz w poradniach psychologiczno-pedagogicznych lub w ramach rekrutacji do pracy, i w związku z tym silnie ważą na dalszych losach jednostki, dlatego przyjęto, że należy stawiać im wysokie wymagania w zakresie właściwości psychometrycznych. Odwołano się więc do reguł zalecanych dla testów wysokiej stawki. Przypomnijmy, że zgodnie z nimi za dobrze do- 302
Zastosowanie modelu Rascha na przykładzie testu inteligencji pasowane zadania uznaje się te, których outfit i infit mieszczą się w przedziale wartości 0,8 1,2 (Bond i Fox, 2001). W tym świetle dopasowanie wszystkich zadań mierzone za pomocą intfit jest satysfakcjonujące. Rysunek 14.2. Empiryczna i teoretyczna krzywa charakterystyczna zadania B9 (wydruk z programu komputerowego). Krzywą empiryczną zaznaczono linią przerywaną, krzywą teoretyczną linią ciągłą. Analiza miar outfit przynosi mniej pomyślne rezultaty. Statystyka przyjęła wartości od 0,61 (D1) do 4,55 (C12). Wartości w granicach 0,8 1,2 osiągnęło 37 pozycji, poniżej 0,8: 6 pozycji (A3, B3, B10, D1, D4, D5), powyżej 1,2: 17 pozycji, przy tym wartości powyżej 1,5 aż 11 z nich (A1, A2, A5, C12, D11, D12, E7, E9 E12). Okazuje się więc, że w przypadku 17 zadań o zbyt wysokiej wartości outfit odpowiedzi charakteryzują się większą zmiennością niż przewiduje model. W przypadku sześciu zadań (o wartości outfit poniżej 0,8) zmienność ta jest natomiast niższa w stosunku do przewidywań. Połączenie informacji o wartości outfit i trudności pozycji (Tabela 14.1; można skorzystać także z wyników dla podgrup podawanych przez MIRT Tabela 14.2) pozwala stwierdzić, że problematyczne są przede wszystkim zadania skrajnie łatwe (A1 A5) i skrajnie trudne (np. C12, D12, E8 E12), choć nie zawsze (A6). Wartości outfit wskazują, że moc dyskryminacyjna pozycji w niektórych przypadkach jest większa (B9) lub mniejsza (D11) niż założona w modelu. Zobrazowano to na Rysunkach 14.2 i 14.3, przedstawiających krzywe charakterystyczne tych pozycji. Na osi X znajduje się poziom mierzonej cechy, na osi Y prawdopodobieństwo udzielenia poprawnej odpowiedzi. W skrajnych sytuacjach empiryczna krzywa charakterystyczna jest zorientowana poziomo ma to miejsce w przypadku trzech pozycji: C12, E11, E12. Charakteryzują się one najwyższymi wartościami outfit (odpowiednio: 4,55; 3,64; 3,74) przy akceptowalnych wartościach infit 303
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii (odpowiednio: 1,15; 1,12; 1,12). Przypomnijmy, że średnie bezwzględnych wartości różnic dla tych pozycji (raportowane wraz z testem LM) wyniosły odpowiednio: 0,05; 0,04 i 0,03, wskazując na dobre dopasowanie. Teoretyczne i empiryczne krzywe pozycji C12 (jako przykładowej) przedstawiono na Rysunku 14.4. Pozostałe problematyczne pozycje wykazują mniejsze rozbieżności między krzywą empiryczną a teoretyczną; nie zamieszczono ich ze względu na ograniczoną objętość pracy. Rysunek 14.3. Empiryczna i teoretyczna krzywa charakterystyczna zadania D11 (wydruk z programu komputerowego). Krzywą empiryczną zaznaczono linią przerywaną, krzywą teoretyczną linią ciągłą. Podsumowując dotychczasowe analizy z wykorzystaniem miar outfit i infit, na podstawie bardzo wysokich wartości outfit należałoby wyłączyć z testu trzy pozycje (C12, E11, E12) ze względu na zbyt dużą zmienność, nieprzewidywalność wzorca odpowiedzi osób o poziomie cechy oddalonej od trudności zadań. W przypadku ośmiu kolejnych (o wartościach outfit powyżej 1,5) należy rozważyć podobne działanie. Podsumowanie informacji na temat wykrytego niedopasowania zawarto w Tabeli 14.3. Charakter niedopasowania (widoczny na wykresach krzywych charakterystycznych) sugeruje jednak, że lepsze dopasowanie zyskałby dwuparametryczny model IRT. Zaobserwowane odstępstwa (w przypadku części pozycji) wynikają bowiem z większej lub mniejszej mocy dyskryminacyjnej niż założona w modelu. Z drugiej strony, stosując model dwuparametryczny utracilibyśmy wiele zalet modelu Rascha. Przemawia to za usunięciem tych pozycji z dalszych analiz. Działanie to naruszyłoby jednak integralność testu. Decyzja, jakie kroki podjąć w związku z wykryciem niedopasowania, wymaga rozważenia zysków i strat wynikających z obu możliwych rozwiązań. Po dokonaniu wyboru wskazane jest ponowne 304
Zastosowanie modelu Rascha na przykładzie testu inteligencji przeprowadzenie analiz oraz ich pogłębienie, np. o weryfikację zróżnicowanego funkcjonowania pozycji testowej (differential item functioning, DIF) pod względem płci. Rysunek 14.4. Empiryczna i teoretyczna krzywa charakterystyczna zadania C12 (wydruk z programu komputerowego). Krzywą empiryczną zaznaczono linią przerywaną, krzywą teoretyczną linią ciągłą. Należy zwrócić uwagę, że wnioski wyciągnięte na podstawie analizy przeprowadzonej z zastosowaniem miar infit i outfit tylko częściowo pokrywają się z wnioskami wysnutymi na podstawie testu LM. Test ten wskazał na pewne trudności z dopasowaniem sześciu zadań. Cztery z nich (A8, B10, D4, E7) przekroczyły jednocześnie akceptowalne granice miary outfit. Jednocześnie test LM wykazał dobre dopasowanie 19 zadań, z którymi problemy sygnalizowała miara outfit. Wśród nich znalazło się 10 (z 11 pozycji) o wartościach outfit przekraczających 1,5, a więc takich, których wyłączenie z testu należy rozważyć. Pozostałe zadania wskazane przez test LM (B9 i B11) okazały się mieścić w granicach 0,8 1,2 zarówno dla outfit, jak i infit, choć wartości obu miar były bliskie granicznym. Warto przypomnieć, że zadanie B9 zostało wskazane przez test LM jako najbardziej niedopasowane (wartość średniej różnic: 0,07). Choć rezultaty te zasługują na odrębną, pogłębioną analizę przyczyn, wstępnie można ich upatrywać zarówno we właściwościach podawanych przez oprogramowanie miar, jak i w kwestiach technicznych, takich jak na przykład liczba podgrup wyodrębnionych w ramach analiz z zastosowaniem testu LM (oprogramowanie MIRT jednak nie umożliwia modyfikacji liczby podgrup). 305
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii 14.4. Podsumowanie Przeprowadzona analiza wskazuje na znaczne zróżnicowanie trudności zadań testu TMS-K, z przewagą zadań bardzo łatwych (37 pozycji ma trudność nie większą niż 0,2 logita). Największą precyzję oszacowania otrzymujemy w przypadku pomiaru cechy od ok. 1 do 0 logitów, a w przypadku nieco szerszych widełek od ok. 1,4 do ok. 0,8. Większość pozycji okazała się dobrze dopasowana do danych, jednak ze względu na widoczne zróżnicowanie mocy dyskryminacyjnej części pozycji, należy rozważyć jedno z dwóch możliwych działań: usunięcie niedopasowanych pozycji lub zastosowanie modelu dwuparametrycznego. W kolejnym kroku zaleca się ponowne przeprowadzenie analiz oraz pogłębienie ich o weryfikację DIF. Zastosowanie jednoparametrycznego modelu IRT w analizie TMS-K pozwoliło przekroczyć ograniczenia nakładane przez klasyczną teorię testu oraz dostarczyło bogatszych informacji na temat poszczególnych zadań i właściwości pomiarowych całego narzędzia. Przede wszystkim uzyskaliśmy poddające się łatwej interpretacji parametry zadań, niezależne od próby, z której je szacowano, oraz oszacowania poziomu cechy niezależne od puli zadań. Ze względu na inwariancję szacowanych parametrów, informacje te mogą być wykorzystane w przyszłości podczas podejmowania decyzji o zastosowaniu narzędzia na innej próbie. Ponadto otrzymaliśmy dokładniejsze dane na temat precyzji pomiaru oraz mieliśmy możliwość weryfikacji dopasowania modelu do danych. Dobrze dopasowany model jednoparametryczny pozwoliłby nam wierzyć w bardzo dobre właściwości narzędzia, a tym samym w wysoką jakość pomiaru dokonywanego z jego wykorzystaniem. Literatura Andrich, D. (2004). Controversy and the Rasch model: a characteristic of incompatible paradigms? Medical Care, 42(Supplement), I 7. doi:10.1097/01.mlr.0000103528.48582.7c Ayala, R. J. de (2009). Theory and practice of item response theory. New York: Guilford Press. Bond, T. G. i Fox, C. M. (2001). Applying the Rasch model: fundamental measurement in the human sciences. Mahwah: Lawrence Erlbaum. Borshboom, D. (2005). Measuring the mind: conceptual issues in contemporaty psychometrics. New York: Cambridge University Press. DeMars, C. (2010). Item response theory. New York: Oxford University Press. Dziedziewicz, D. i Karwowski, M. (2012). Graficzno-werbalny test wyobraźni twórczej. Warszawa: Akademia Pedagogiki Specjalnej. Glas, C. A. W. (1988). The derivation of some tests for the Rasch model from the multinominal distribution. Psychometrika, 53(4), 525 546. Glas, C. A. W. (2007). Testing generalized Rasch models. W: M. C. von Davier i C. H. Carstensen (red.), Multivariate and mixture distribution Rasch models. Extensions and applications. New York: Springer. Glas, C. A. W. (2010). Preliminary manual of the software program multidimentional response theory (MIRT). Pobrano z http://www.utwente.nl/gw/omd/afdeling/temp_test/mirt-manual.pdf Hornowska, E. (2005). Testy psychologiczne. Teoria i praktyka. Warszawa: Scholar. 306
Zastosowanie modelu Rascha na przykładzie testu inteligencji Jasińska, A. i Modzelewski, M. (2012). Można inaczej. Wykorzystanie IRT do konstrukcji testów osiągnięć szkolnych. W: B. Niemierko i M. K. Szmigel (red.), Regionalne i lokalne diagnozy edukacyjne (s. 157 168). Kraków: Polskie Towarzystwo Diagnostyki Edukacyjnej. Jaworowska, A. i Szustrowa, T. (2007). Test matryc Ravena w wersji Standard. Formy: klasyczna, równoległa, plus. Polskie standaryzacje. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Karwowski, M. i Dziedziewicz, D. (2012). Test umiejętności na starcie szkolnym. Podręcznik. Warszawa: Instytut Badań Edukacyjnych. Kondratek, B. i Pokropek, A. (2013). IRT i pomiar edukacyjny. Edukacja, 124(4), 42 66. Maluchnik, M. i Modzelewski, M. (2014). Próba badawcza i proces zbierania danych. W: R. Dolata (red.), Czy szkoła ma znaczenie? Analiza zróżnicowania efektywności nauczania na pierwszym etapie edukacyjnym (s. 15 26). Warszawa: Instytut Badań Edukacyjnych. Perline, R., Wright, B. D. i Wainter, H. (1979). The Rasch model as additive conjoint measurement. Applied Psychological Measurement, 3(2), 237 255. Schoor, N. M., Knol, D. L., Glas, C. A. W., Ostelo, R. W., Leplège, A., Cooper, C., Johnell, O. i Lips, P. (2006). Development of the Qualeffo 31, an osteoporosis-specific quality-of-life questionnaire. Osteoporosis International, 17(4), 543 551. doi:10.1007/s00198-005-0024-7 Swaminathan, H., Hambelton, R. K. i Rogers, H. J. (2007). Assessing item fit of item response theory models. W: C. R. Rao i S. Sinharay (red.), Handbook of Statistics (t. 26: Psychometrics). Amsterdam: Elsevier. Szaleniec, H. (red.). (2009). Teoria wyniku zadania IRT: zastosowania w polskim systemie egzaminów zewnętrznych: praca zbiorowa. Warszawa: Centralna Komisja Egzaminacyjna. Szaleniec, H., Grudniewska, M., Kondratek, B., Kulon, F. i Pokropek, A. (2012). Wyniki egzaminu gimnazjalnego 2002 2010 na wspólnej skali. Edukacja, 119(3), 9 30. Wright, B. D. (1997). A history of social science measurement. Educational Measurement: Issues and Practice, 16(4), 33 45. doi:10.1111/j.1745-3992.1997.tb00606.x Wu, M. L., Adams, J. R., Wilson, M. R. i Haldane, S. A. (2007). ACER Conquest version 2.0: generalized item response modeling software. Melbourne: Australian Council for Educational Research. 307