Dodatek 3 Oprogramowanie przeznaczone do analizy IRT Paulina Skórska, Instytut Badań Edukacyjnych Karolina Świst, Instytut Badań Edukacyjnych W Tabeli D 3.1 przedstawiono opis oprogramowania przeznaczonego do analiz IRT, omówiono dostępne modele, funkcje i metody estymacji oraz zalety poszczególnych programów. W tabeli znajdują się także odnośniki do stron, na których można kupić, lub z których można pobrać dany program. Większość służy do podstawowej analizy IRT, choć część jest przeznaczona do analizy specyficznych problemów badawczych, na przykład zrównywania wyników egzaminacyjnych (np. Bilog-MG, Xcalibre, flexmirt), analizy efektu egzaminatora (Parscale) czy analizy z wykorzystaniem wieloaspektowego modelu Rascha (Facets). Wybór odpowiedniego oprogramowania będzie częściowo uzależniony od dostępności i kosztów (np. jmetrik oraz MIRT są bezpłatne), jednak przede wszystkim powinien odpowiadać specyfice i celom planowanej analizy i być dopasowany do posiadanych danych (np. liczebność próby czy liczba wykorzystanych zadań). 467
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Tabela D 3.1. Wybrane oprogramowanie do analizy IRT. Program (autorzy) Skąd pobrać/gdzie kupić? Opis właściwości programu Modele i analizy Metody estymacji Zalety Bilog-MG (Zimowski, Muraki, Mislevy i Bock, 1996) Facets (Linacre, 2014) http://www.winsteps.com/facets.htm flexmirt (Houts i Cai, 2013) https://flexmirt.vpgcentral.com/ Purchase IRTpro (Cai, Thissen i Toit, 2011) Tylko dla zadań punktowanych dychotomicznie (0 1): Modele: 1PLM, 2PLM, 3PLM; Analiza DIF i IPD (item parameter drift); Skalowanie wertykalne; Zrównywanie grup nieekwiwalentnych. Modele Rascha dla oceny jakości wystąpienia i porównań parami; Analizy opierające się na wieloaspektowym modelu Rascha (MFRM; Linacre, 1989) w odniesieniu do osób, pozycji testowych oraz sędziów kompetentnych. 1PLM, 2PLM, 3PLM, GRM, PCM, GPCM, RSM możliwość analizy dla danych jednopoziomowych i wielopoziomowych; Zrównywanie i skalowanie wertykalne; Możliwość dopasowania modeli diagnostycznych (CDM). 1PLM, 2PLM, 3PLM, GRM, GPCM, NRM; Analiza DIF. MMAP JML, PML Bock Aitkin EM, Metropolis Hastings Robbins Monro ML, MAP, EM, adaptatywna kwadratura (ADQEM), Metropolis Hastings Robbins Monro Dobrze radzi sobie z brakami danych i ominięciami; ma przystępnie skonstruowaną opcję pomocy. Jeden z niewielu programów umożliwiających zastosowanie wieloaspektowego modelu Rascha. Posiada przyjazny dla użytkownika graficzny interfejs, umożliwia analizę wielogrupową i wielopoziomową, wykorzystuje wiele metod estymowania błędów standardowych dla parametrów zadań. Umożliwia też nieparametryczną estymację gęstości rozkładu umiejętności. Jest szybki obliczeniowo. Wykorzystuje zaawansowane metody estymacji, zawiera także wskaźniki dopasowania modelu do danych. 468
Oprogramowanie przeznaczone do analizy IRT jmetrik * (Meyer, 2011) http://www.itemanalysis.com/index. php Multilog (Thissen, 1991) MIRT * (Glas, 2010) http://www.utwente.nl/gw/omd/ Medewerkers/medewerkers/glas/ Parscale (Muraki i Bock, 2003) Xcalibre (Guyer i Thompson, 2011) http://assess.com/xcart/product. php?productid=415 Winsteps (Linacre, 2012) http://www.winsteps. com/winsteps.htm 1PLM, 2PLM, 3PLM, GRM, PCM, GPCM, RSM; Zrównywanie; Klasyczna teoria testu; Nieparametryczne IRT; Estymator jądrowy gęstości (kernel density estimation). 1PLM, 2PLM, 3PLM, NRM, GRM, model dla zadań jednokrotnego wyboru; Analiza DIF. 1PLM, 2PLM, 2PNO, 3PLM, 3PNO, PCM, GPCM, SM, GRM, NRM; Możliwość analizy danych wielowymiarowych, analizy wielogrupowej oraz analizy DIF. 1PLM, 2PLM, 3PLM, GRM, PCM, GPCM, NRM; Analizy efektu egzaminatora. 1PLM, 2PLM, 3PLM, GRM, PCM, RSM, GRSM; Zrównywanie. 1PLM, PCM, RSM, model Bradleya Terry ego, model sukcesu Glasa i porażki Linacre a; Analiza wielowymiarowości. JML Dostępny na zasadzie otwartego oprogramowania, posiada graficzny interfejs. Nie ma ograniczeń w zakresie liczebności próby. ML, MML CML, MCMC Posiada możliwość analizy zadań wielokategorialnych. Wykorzystuje graficzne metody analizy danych (grafiki można wyeksportować do innych programów). Ma możliwość analizy danych w przypadku niekompletnych schematów zbierania danych oraz braków danych, oceny: dopasowania zadań (item-fit analysis) i osób (person-fit analysis), analizy DIF oraz spełnienia założenia o lokalnej niezależności (local independence). MML Umożliwia analizę efektu egzaminatora, wysokiej jakości sposoby graficznej prezentacji wyników, nie posiada ograniczeń co do liczebności próby i liczby analizowanych zadań. MML Graficzny interfejs, nie posiada ograniczeń co do liczebności próby, radzi sobie z dużą liczbą zadań (do 1500). JML Umożliwia analizę złożonych danych (aż do 9 999 999 osób; 60 000 zadań do 255 kategorii w danej skali), graficzną analizę zadań, importuje dane z Excela, R, Staty, SPSS i SAS. * Program bezpłatny. Na podstawie: Du Toit (2003), Glas (2010), Guyer i Thompson (2011), Linacre (2012; 2014), Paek i Han (2013), Templin (2007a; 2007b), dokumentacji programów flexmirt, IRTPRO i Xcalibre. 469
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Tabela D 3.2. Rozwinięcia skrótów zastosowanych w Tabeli 26.1. Modele IRT 1PLM jednoparametryczny model Rascha (Rasch, 1960), 2PLM dwuparametryczny model logistyczny (Birnbaum, 1968), 2PNOM dwuparametryczny model normal ogive (Lord i Novick, 1968), 3PLM trzyparametryczny model logistyczny (Samejima, 1969), 3PNOM trzyparametryczny model normal ogive (Lord i Novick, 1968), PCM model odpowiedzi częściowej (Masters, 1982), GPCM uogólniony model odpowiedzi częściowej (Muraki, 1992), GRM model odpowiedzi stopniowanej (Samejima, 1969), SM model sekwencyjny (Tutz, 1990), NRM model odpowiedzi dla zmiennych nominalnych (Bock, 1972), RSM model dla jednorodnej skali porządkowej (Andrich, 1978), GRSM uogólniony model dla jednorodnej skali porządkowej (Muraki, 1990). Metody estymacji metoda największej wiarygodności (maximum likelihood, ML), metoda ważonej największej wiarygodności (weighted maximum likelihood, WML), metoda brzegowej największej wiarygodności (marginal maximum likelihood, MMLE), metoda łączonej największej wiarygodności (joint maximum likelihood estimation, JML), metoda warunkowej największej wiarygodności (conditional maximum likelihood, CML), metoda brzegowej MAP (marginal maximum a posteriori, MMAP), metoda Monte Carlo oparta na łańcuchach Markowa (Markov chain Monte Carlo, MCMC), metoda największej wiarygodności parami (pairwise maximum likelihood estimation, PML). Literatura Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43(4), 561 573. Announcing the release of IRTPRO version 1.2. Pobrano z http://www.ssicentral.com/irt/irtpro_by_ssi.pdf Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee s ability. W: F. M. Lord i M. R. Novick (red.), Statistical theories of mental test scores.(s. 397 479). Reading: Addison Wesley. Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37(1), 29 51. Cai, L., Thissen, D. i Du Toit, S. H. C. (2011). IRTPRO for Windows. Lincolnwood: Scientific Software International. Du Toit, M. (red.). (2003). IRT from SSI: Bilog-MG, Multilog, Parscale, Testfact. Lincolnwood, IL: Scientific Software International. Glas, C. A. W. (2010). Preliminary manual of the software program Multidimensional Item Response Theory (MIRT). Enschede: University of Twente. Guyer, R. i Thompson, N. A. (2011). User s manual for Xcalibre item response theory calibration software, version 4.1.3. St. Paul: Assessment Systems Corporation. Houts, C. R. i Cai, L. (2013). flexmirt user s manual version 2.0: flexible multilevel multidimensional item analysis and test scoring. Chapel Hill: Vector Psychometric Group. Linacre, J. M. (2012). Winsteps, version 3.75.0 (Oprogramowanie komputerowe) Beaverton: Winsteps. com. Pobrano z http://www.winsteps.com/.http://www.winsteps.com Linacre, J. M. (2014). Facets computer program for many-facet Rasch measurement, version 3.71.4. Beaverton: Winsteps.com. 470
Oprogramowanie przeznaczone do analizy IRT Lord, F. M. i Novick, M. R. (red.). Statistical theories of mental test scores. Reading: Addison Wesley. Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47(2), 149 174. Meyer, J. P. (2011). jmetrik, version 2.1 [Oprogramowanie komputerowe]. Charlottesville: University of Virginia. Muraki, E. (1990). Fitting a polytomous item response model to Likert-type data. Applied Psychological Measurement, 14, 59-71. Muraki, E. (1992). A generalized partial credit model: application of an EM algorithm. Applied Psychological Measurement, 16(2), 159 176. Muraki, E. i Bock, R. D. (2003). Parscale 4: IRT item analysis and test scoring for rating-scale data. Chicago: Scientific Software International. Paek, I. i Han, K. T. (2013). IRTPRO 2.1 for Windows (item response theory for patient-reported outcomes). Applied Psychological Measurement, 37(3), 242 252. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores (Psychometric Monograph No. 17). Richmond: Psychometric Society. Templin, J. (2007a). Introduction to BILOG-MG. University of Kansas Item Response Theory Stats Camp 07. Pobrano z http://jonathantemplin.com/files/irt/irt07ku/irt07ku_lecture05.pdf Templin, J. (2007b). Item analysis for key validation using MULTILOG. American board of internal medicine. Item response theory course. Pobrano z http://jonathantemplin.com/files/irt/irt07abim/irt07abim_ lecture11.pdf Thissen, D. (1991). Multilog TM user s guide: multiple, categorical item analysis and test scoring; using item response theory; version 6.0. Chicago: Scientific Software International. Tutz, G. (1990). Sequential item response models with an ordered response. British Journal of Mathematical and Statistical Psychology, 43(1), 39 55. Zimowski, M. F., Muraki, E., Mislevy, R. J. i Bock, R. D. (1996). Bilog-MG: Multiple-group IRT analysis and test maintenance for binary items (Oprogramowanie komputerowe). Chicago: Scientific Software International. 471