Dodatek 3 Oprogramowanie przeznaczone do analizy IRT



Podobne dokumenty
Wielogrupowy Model IRT Analizy Symulacyjne

Rozdział 1. Teoria odpowiedzi na pozycje testowe: jednowymiarowe modele dla cech ukrytych o charakterze ciągłym 1

Metacognitive Awarness Inventory. Kwestionariusz metapoznania The Metacognitive Questionnaire

Początki. Items Response Theory (IRT) [Teoria Odpowiedzi na Zadania Testowe] Lata 50 XX wieku równolegle wymyślili: psychometra Frederic M.

Rozdział 12 Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia 1

Spis treści. Przedmowa Monika Książek Rozdział I Analiza danych jakościowych... 25

Artur Pokropek (red.) Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii. Teoria i zastosowania

Oszacowanie umiejętności teta oraz wyskalowanie osi w metodzie IRT dla potrzeb obliczania parametrów zadań

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Wykorzystanie teorii odpowiedzi na wiązki zadań (Testlet Response Theory) w analizie wyników testów egzaminacyjnych

Dodatek 4 Przygotowanie analiz w programie Mplus

teori to samo ci spo ecznej tradycyjna vs. nowoczesna rola kobiety w spo ecze stwie seksizm tradycyjny vs. nowoczesny seksizm ambiwalentny

ZAWANSOWANE METODY ANALIZ STATYSTYCZNYCH ADVANCED STATISTICAL ANALYSIS METHODS. Część A

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

Diagnoza umiejętności dzieci 5-, 6- i 7-letnich za pomocą Testu Umiejętności na Starcie Szkolnym TUnSS

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Zrównywanie wyników egzaminów zewnętrznych z wykorzystaniem modeli IRT

Wpływ wersji arkusza egzaminacyjnego na zróżnicowane funkcjonowanie zadań na przykładzie egzaminu gimnazjalnego

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Rozdział 14 Zastosowanie modelu Rascha na przykładzie testu inteligencji 1

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Raport z analizy testów

estymacja wskaźnika bardzo niskiej intensywności pracy z wykorzystaniem modelu faya-herriota i jego rozszerzeń

STATYSTYKA MATEMATYCZNA

^3» i > > 4 jest przedstawiona MODEL CECHY LATENTNEJ W ANALIZIE PSYCHOMETRYCZNEJ TESTÓW I POZYCJI TESTOWYCH ZMIENNE LATENTNEI ZMIENNE OBSERWOWALNE

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Work Extrinsic and Inrinsic Motivation Scale

Zastosowanie Analizy Czynnikowej i modelowania IRT w opracowaniu skal pomiarowych, na przykładzie skali nauczanie pod egzamin

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 7 Modele diagnostyczne 1

Przegląd statystyk dopasowania modeli IRT na poziomie zadania

Ogólnopolska Konferencja Naukowa Teraźniejszość i przyszłość psychometrii. Program konferencji. Dzień pierwszy (7 października 2015 r.

Porównywalne między latami wyniki sprawdzianu

Materiałowe i technologiczne uwarunkowania stanu naprężeń własnych i anizotropii wtórnej powłok cylindrycznych wytłaczanych z polietylenu

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

5.3. Analiza maskowania przez kompaktory IED-MISR oraz IET-MISR wybranych uszkodzeń sieci połączeń Podsumowanie rozdziału

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

WSPÓŁCZYNNIK DWUMODALNOŚCI BC I JEGO ZASTOSOWANIE W ANALIZACH ROZKŁADÓW ZMIENNYCH LOSOWYCH

Metody oceny ryzyka operacyjnego

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w Uczelni

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

zaanga owanie spo eczne zaufanie poczucie w asnej skuteczno ci alienacja

Wykład 10 Skalowanie wielowymiarowe

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Metody systemowe i decyzyjne w informatyce

Uogolnione modele liniowe

Zaliczenie na ocenę 0,5 0,5

disruptive behavior rozumienie emocji agresywno wrogo empatia aleksytymia makiawelizm Psychologia Spo eczna 2016 tom 11 3 (38)

Latentna moc różnicująca zadań z testów matematycznych dla młodzieży uzdolnionej

Rola diagnozy w Gimnazjalnym Programie Kształcenia Kompetencji Kluczowych

STATYSTYKA MATEMATYCZNA

SNP SNP Business Partner Data Checker. Prezentacja produktu

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

IDENTYFIKACJA I ANALIZA PARAMETRÓW GEOMETRYCZNYCH I MECHANICZNYCH KOŚCI MIEDNICZNEJ CZŁOWIEKA

Ekonometryczne modele nieliniowe

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Zastosowanie teorii odpowiadania na pozycje testowe (IRT) do tworzenia skróconych wersji testów i kwestionariuszy psychologicznych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Ocena niepewności rozwiązania w modelowaniu zmienności przestrzennej parametrów ośrodka za pomocą metody kosymulacji

Egzamin / zaliczenie na ocenę*

Rozdział 19 Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu gimnazjalnego 1

tum.de/fall2018/ in2357

Porównywalne między latami wyniki egzaminacyjne

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Zawansowane modele wyborów dyskretnych

Rozdział 17 Zastosowanie skalowania wertykalnego do oceny przyrostu umiejętności matematycznych polskich uczniów

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Raport z analizy testu

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Własności estymatorów regresji porządkowej z karą LASSO

Zastosowanie analizy rozkładu punktów (Point Pattern Analisys) w badaniach osadniczych. Jarosław Jasiewicz Iwona Holdebrandt-Radke

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Zróżnicowanie łagodności egzaminatorów między okręgowymi komisjami egzaminacyjnymi

STATYSTYKA MATEMATYCZNA

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Ekonometria Finansowa II EARF. Michał Rubaszek

Kombinacja jądrowych estymatorów gęstości w klasyfikacji kontynuacja prac

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Algorytm Metropolisa-Hastingsa

ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH

Metody systemowe i decyzyjne w informatyce

Raport z analizy testu

W4 Eksperyment niezawodnościowy

mobbing makiawelizm kultura organizacji

Porównywalne między latami wyniki egzaminacyjne

PRZEWODNIK PO PRZEDMIOCIE

5. WNIOSKOWANIE PSYCHOMETRYCZNE

UWAGI O TESTACH JARQUE A-BERA

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

Modele psychometryczne w pomiarze diagnostycznym

Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - przegląd literatury

Transkrypt:

Dodatek 3 Oprogramowanie przeznaczone do analizy IRT Paulina Skórska, Instytut Badań Edukacyjnych Karolina Świst, Instytut Badań Edukacyjnych W Tabeli D 3.1 przedstawiono opis oprogramowania przeznaczonego do analiz IRT, omówiono dostępne modele, funkcje i metody estymacji oraz zalety poszczególnych programów. W tabeli znajdują się także odnośniki do stron, na których można kupić, lub z których można pobrać dany program. Większość służy do podstawowej analizy IRT, choć część jest przeznaczona do analizy specyficznych problemów badawczych, na przykład zrównywania wyników egzaminacyjnych (np. Bilog-MG, Xcalibre, flexmirt), analizy efektu egzaminatora (Parscale) czy analizy z wykorzystaniem wieloaspektowego modelu Rascha (Facets). Wybór odpowiedniego oprogramowania będzie częściowo uzależniony od dostępności i kosztów (np. jmetrik oraz MIRT są bezpłatne), jednak przede wszystkim powinien odpowiadać specyfice i celom planowanej analizy i być dopasowany do posiadanych danych (np. liczebność próby czy liczba wykorzystanych zadań). 467

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Tabela D 3.1. Wybrane oprogramowanie do analizy IRT. Program (autorzy) Skąd pobrać/gdzie kupić? Opis właściwości programu Modele i analizy Metody estymacji Zalety Bilog-MG (Zimowski, Muraki, Mislevy i Bock, 1996) Facets (Linacre, 2014) http://www.winsteps.com/facets.htm flexmirt (Houts i Cai, 2013) https://flexmirt.vpgcentral.com/ Purchase IRTpro (Cai, Thissen i Toit, 2011) Tylko dla zadań punktowanych dychotomicznie (0 1): Modele: 1PLM, 2PLM, 3PLM; Analiza DIF i IPD (item parameter drift); Skalowanie wertykalne; Zrównywanie grup nieekwiwalentnych. Modele Rascha dla oceny jakości wystąpienia i porównań parami; Analizy opierające się na wieloaspektowym modelu Rascha (MFRM; Linacre, 1989) w odniesieniu do osób, pozycji testowych oraz sędziów kompetentnych. 1PLM, 2PLM, 3PLM, GRM, PCM, GPCM, RSM możliwość analizy dla danych jednopoziomowych i wielopoziomowych; Zrównywanie i skalowanie wertykalne; Możliwość dopasowania modeli diagnostycznych (CDM). 1PLM, 2PLM, 3PLM, GRM, GPCM, NRM; Analiza DIF. MMAP JML, PML Bock Aitkin EM, Metropolis Hastings Robbins Monro ML, MAP, EM, adaptatywna kwadratura (ADQEM), Metropolis Hastings Robbins Monro Dobrze radzi sobie z brakami danych i ominięciami; ma przystępnie skonstruowaną opcję pomocy. Jeden z niewielu programów umożliwiających zastosowanie wieloaspektowego modelu Rascha. Posiada przyjazny dla użytkownika graficzny interfejs, umożliwia analizę wielogrupową i wielopoziomową, wykorzystuje wiele metod estymowania błędów standardowych dla parametrów zadań. Umożliwia też nieparametryczną estymację gęstości rozkładu umiejętności. Jest szybki obliczeniowo. Wykorzystuje zaawansowane metody estymacji, zawiera także wskaźniki dopasowania modelu do danych. 468

Oprogramowanie przeznaczone do analizy IRT jmetrik * (Meyer, 2011) http://www.itemanalysis.com/index. php Multilog (Thissen, 1991) MIRT * (Glas, 2010) http://www.utwente.nl/gw/omd/ Medewerkers/medewerkers/glas/ Parscale (Muraki i Bock, 2003) Xcalibre (Guyer i Thompson, 2011) http://assess.com/xcart/product. php?productid=415 Winsteps (Linacre, 2012) http://www.winsteps. com/winsteps.htm 1PLM, 2PLM, 3PLM, GRM, PCM, GPCM, RSM; Zrównywanie; Klasyczna teoria testu; Nieparametryczne IRT; Estymator jądrowy gęstości (kernel density estimation). 1PLM, 2PLM, 3PLM, NRM, GRM, model dla zadań jednokrotnego wyboru; Analiza DIF. 1PLM, 2PLM, 2PNO, 3PLM, 3PNO, PCM, GPCM, SM, GRM, NRM; Możliwość analizy danych wielowymiarowych, analizy wielogrupowej oraz analizy DIF. 1PLM, 2PLM, 3PLM, GRM, PCM, GPCM, NRM; Analizy efektu egzaminatora. 1PLM, 2PLM, 3PLM, GRM, PCM, RSM, GRSM; Zrównywanie. 1PLM, PCM, RSM, model Bradleya Terry ego, model sukcesu Glasa i porażki Linacre a; Analiza wielowymiarowości. JML Dostępny na zasadzie otwartego oprogramowania, posiada graficzny interfejs. Nie ma ograniczeń w zakresie liczebności próby. ML, MML CML, MCMC Posiada możliwość analizy zadań wielokategorialnych. Wykorzystuje graficzne metody analizy danych (grafiki można wyeksportować do innych programów). Ma możliwość analizy danych w przypadku niekompletnych schematów zbierania danych oraz braków danych, oceny: dopasowania zadań (item-fit analysis) i osób (person-fit analysis), analizy DIF oraz spełnienia założenia o lokalnej niezależności (local independence). MML Umożliwia analizę efektu egzaminatora, wysokiej jakości sposoby graficznej prezentacji wyników, nie posiada ograniczeń co do liczebności próby i liczby analizowanych zadań. MML Graficzny interfejs, nie posiada ograniczeń co do liczebności próby, radzi sobie z dużą liczbą zadań (do 1500). JML Umożliwia analizę złożonych danych (aż do 9 999 999 osób; 60 000 zadań do 255 kategorii w danej skali), graficzną analizę zadań, importuje dane z Excela, R, Staty, SPSS i SAS. * Program bezpłatny. Na podstawie: Du Toit (2003), Glas (2010), Guyer i Thompson (2011), Linacre (2012; 2014), Paek i Han (2013), Templin (2007a; 2007b), dokumentacji programów flexmirt, IRTPRO i Xcalibre. 469

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Tabela D 3.2. Rozwinięcia skrótów zastosowanych w Tabeli 26.1. Modele IRT 1PLM jednoparametryczny model Rascha (Rasch, 1960), 2PLM dwuparametryczny model logistyczny (Birnbaum, 1968), 2PNOM dwuparametryczny model normal ogive (Lord i Novick, 1968), 3PLM trzyparametryczny model logistyczny (Samejima, 1969), 3PNOM trzyparametryczny model normal ogive (Lord i Novick, 1968), PCM model odpowiedzi częściowej (Masters, 1982), GPCM uogólniony model odpowiedzi częściowej (Muraki, 1992), GRM model odpowiedzi stopniowanej (Samejima, 1969), SM model sekwencyjny (Tutz, 1990), NRM model odpowiedzi dla zmiennych nominalnych (Bock, 1972), RSM model dla jednorodnej skali porządkowej (Andrich, 1978), GRSM uogólniony model dla jednorodnej skali porządkowej (Muraki, 1990). Metody estymacji metoda największej wiarygodności (maximum likelihood, ML), metoda ważonej największej wiarygodności (weighted maximum likelihood, WML), metoda brzegowej największej wiarygodności (marginal maximum likelihood, MMLE), metoda łączonej największej wiarygodności (joint maximum likelihood estimation, JML), metoda warunkowej największej wiarygodności (conditional maximum likelihood, CML), metoda brzegowej MAP (marginal maximum a posteriori, MMAP), metoda Monte Carlo oparta na łańcuchach Markowa (Markov chain Monte Carlo, MCMC), metoda największej wiarygodności parami (pairwise maximum likelihood estimation, PML). Literatura Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43(4), 561 573. Announcing the release of IRTPRO version 1.2. Pobrano z http://www.ssicentral.com/irt/irtpro_by_ssi.pdf Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee s ability. W: F. M. Lord i M. R. Novick (red.), Statistical theories of mental test scores.(s. 397 479). Reading: Addison Wesley. Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37(1), 29 51. Cai, L., Thissen, D. i Du Toit, S. H. C. (2011). IRTPRO for Windows. Lincolnwood: Scientific Software International. Du Toit, M. (red.). (2003). IRT from SSI: Bilog-MG, Multilog, Parscale, Testfact. Lincolnwood, IL: Scientific Software International. Glas, C. A. W. (2010). Preliminary manual of the software program Multidimensional Item Response Theory (MIRT). Enschede: University of Twente. Guyer, R. i Thompson, N. A. (2011). User s manual for Xcalibre item response theory calibration software, version 4.1.3. St. Paul: Assessment Systems Corporation. Houts, C. R. i Cai, L. (2013). flexmirt user s manual version 2.0: flexible multilevel multidimensional item analysis and test scoring. Chapel Hill: Vector Psychometric Group. Linacre, J. M. (2012). Winsteps, version 3.75.0 (Oprogramowanie komputerowe) Beaverton: Winsteps. com. Pobrano z http://www.winsteps.com/.http://www.winsteps.com Linacre, J. M. (2014). Facets computer program for many-facet Rasch measurement, version 3.71.4. Beaverton: Winsteps.com. 470

Oprogramowanie przeznaczone do analizy IRT Lord, F. M. i Novick, M. R. (red.). Statistical theories of mental test scores. Reading: Addison Wesley. Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47(2), 149 174. Meyer, J. P. (2011). jmetrik, version 2.1 [Oprogramowanie komputerowe]. Charlottesville: University of Virginia. Muraki, E. (1990). Fitting a polytomous item response model to Likert-type data. Applied Psychological Measurement, 14, 59-71. Muraki, E. (1992). A generalized partial credit model: application of an EM algorithm. Applied Psychological Measurement, 16(2), 159 176. Muraki, E. i Bock, R. D. (2003). Parscale 4: IRT item analysis and test scoring for rating-scale data. Chicago: Scientific Software International. Paek, I. i Han, K. T. (2013). IRTPRO 2.1 for Windows (item response theory for patient-reported outcomes). Applied Psychological Measurement, 37(3), 242 252. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores (Psychometric Monograph No. 17). Richmond: Psychometric Society. Templin, J. (2007a). Introduction to BILOG-MG. University of Kansas Item Response Theory Stats Camp 07. Pobrano z http://jonathantemplin.com/files/irt/irt07ku/irt07ku_lecture05.pdf Templin, J. (2007b). Item analysis for key validation using MULTILOG. American board of internal medicine. Item response theory course. Pobrano z http://jonathantemplin.com/files/irt/irt07abim/irt07abim_ lecture11.pdf Thissen, D. (1991). Multilog TM user s guide: multiple, categorical item analysis and test scoring; using item response theory; version 6.0. Chicago: Scientific Software International. Tutz, G. (1990). Sequential item response models with an ordered response. British Journal of Mathematical and Statistical Psychology, 43(1), 39 55. Zimowski, M. F., Muraki, E., Mislevy, R. J. i Bock, R. D. (1996). Bilog-MG: Multiple-group IRT analysis and test maintenance for binary items (Oprogramowanie komputerowe). Chicago: Scientific Software International. 471