Rozdział 12 Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia 1 Magdalena Grudniewska, Instytut Badań Edukacyjnych Artur Pokropek, Instytut Badań Edukacyjnych W tym rozdziale omówimy przykład wykorzystania modeli cech ukrytych w badaniach edukacyjnych, na przykładzie badania Laboratorium myślenia przeprowadzonego w Instytucie Badań Edukacyjnych. Opiszemy procedurę skalowania wyników za pomocą dwuparametrycznego modelu logistycznego oraz zastosowanie analizy klas ukrytych do diagnozy poziomu opanowania przez uczniów umiejętności złożonych. 12.1. Opis badania W Laboratorium myślenia diagnozowano poziom umiejętności gimnazjalistów w zakresie przedmiotów przyrodniczych: biologii, chemii, fizyki oraz geografii. Zaplanowano cztery cykle badawcze, które realizowano na początku każdego roku szkolnego w latach 2011 2014. Badanie obejmowało uczniów trzeciej klasy gimnazjum: ostatni rocznik gimnazjalistów kształconych według starej podstawy programowej oraz trzy roczniki według nowej. Badanie prowadzone było na ogólnopolskiej próbie losowej, każdego roku brało w nim udział ponad 7000 uczniów klas pierwszych ze 180 szkół ponadgimnazjalnych, a w trzecim cyku badania próbę powiększono o ponad 7000 uczniów klas drugich. Laboratorium myślenia było inspirowane Programem międzynarodowej oceny umiejętności uczniów (Programme for International Student Assessment, PISA), mierzącym umiejętności piętnastolatków w zakresie czytania i rozumowania w naukach humanistycznych, umiejętności matematycznych oraz rozumowania w naukach przyrodniczych. Należy jednak podkreślić, że założeniem tego projektu było sprawdzenie umiejętności określonych podstawą programową z przedmiotów przyrodniczych, z naciskiem na umiejętności myślenia naukowego, obserwacje i eksperymenty. Badanie mierzyło zarówno umiejętności przedmiotowe, jak i kompetencje ponadprzedmiotowe, natomiast dotychczasowe edycje PISA nie miały aspektu przedmiotowego, a mierzyły tylko wspólne, ponadprzedmiotowe kompetencje (IBE, 2012). Test, za pomocą którego dokonano pomiaru umiejętności uczniów, składał się w każdym cyklu z 208 zadań, po 52 zadania z każdego przedmiotu. Umiejętności uczniów 1 W rozdziale wykorzystano fragmenty aneksu Psychometryczne procedury analizy zadań i skalowania wyników wykorzystane w badaniu Laboratorium myślenia opublikowanego w: Ostrowska, B. i Spalik, K. (2012). Laboratorium myślenia. Diagnoza umiejętności gimnazjalistów w zakresie umiejętności przyrodniczych 2011. Warszawa: IBE. 260
Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia sprawdzane były za pomocą zadań zamkniętych, część z nich miała bardziej złożoną, rozbudowaną formę, lecz wszystkie punktowane były dychotomiczne. Istniała pula zadań kotwiczących (linking items), które umożliwiły wyskalowanie i porównanie wyników uczniów biorących udział we wszystkich cyklach badania. Treść zadań kotwiczących nie była ujawniana po przeprowadzeniu badania. W każdym cyklu umieszczona była także pula nowych zadań. W badaniu Laboratorium myślenia duży nacisk położono na pomiar tak zwanych umiejętności złożonych, czyli takich, które odwołują się do myślenia krytycznego lub elementów abstrakcji, do myślenia w kategoriach zjawiska, strategii lub współzależności różnych elementów systemu lub procesu. Umiejętności te umożliwiają kojarzenie szczegółowych wiadomości, zrozumienie pojęć, dostrzeganie i formułowanie związków przyczynowo-skutkowych, jak również przetwarzanie informacji (Ostrowska i Spalik, 2010). 12.2. Cykl badawczy Schemat przedstawiony na Rysunku 12.1 opisuje kolejne etapy analiz zadań wykorzystanych do pomiaru umiejętności uczniów. Udzielone odpowiedzi poddano analizom statystycznym w nurcie klasycznej teorii testu (classical test theory, KTT), metodologii teorii odpowiedzi na pozycje testowe (item response theory, IRT) oraz analizom zróżnicowanego funkcjonowania pozycji testowej (differential item functioning, DIF). Wyniki tych analiz zostały następnie przekazane ekspertom, którzy na podstawie właściwości psychometrycznych i analizy sposobu funkcjonowania poszczególnych zadań, zaproponowali zmiany w kodowaniu zadań złożonych. Po etapie analiz eksperckich i uwzględnieniu rekomendacji, zadania zostały po raz kolejny poddane analizom statystycznym, które pozwoliły ocenić rezultaty wprowadzonych zmian. Cykl ten powtarzany był kilkakrotnie do momentu, w którym zmiany okazały się satysfakcjonujące, zarówno pod względem psychometrycznym, jak i merytorycznym. Jeżeli zadania nie spełniały ani wymagań psychometrycznych, ani merytorycznych były usuwane z ostatniego etapu analiz, czyli konstrukcji skal. Konstrukcja zadań Analizy statystyczne Zmiany Analizy statystyczne Skalowanie wyników Analiza klas ukrytych Rysunek 12.1. Schemat analizy danych. 261
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii 12.3. Analizy statystyczne ocena właściwości psychometrycznych zadań Właściwości pomiarowe wszystkich zadań wykorzystanych w badaniu Laboratorium myślenia zostały na początek zweryfikowane na gruncie klasycznej teorii testu. Sprawdzono podstawowe parametry, takie jak łatwość i moc różnicującą zadań, dokonano także analizy funkcjonowania dystraktorów oraz oceniono zadania pod kątem zróżnicowanego funkcjonowania pozycji testowej (Rysunek 12.2). Rysunek 12.2. Ocena właściwości psychometrycznych zadań. 12.3.1. Ocena zadań na gruncie klasycznej teorii testu Wstępnym etapem oceny zadań była analiza współczynnika łatwości oraz mocy różnicującej 2. Zadania o niskiej mocy różnicującej zostały poddane analizom eksperckim. W bloku zadań w badaniu Laboratorium myślenia znalazły się polecenia o różnym poziomie trudności: zarówno łatwe, dla których współczynnik łatwości osiągał wartości między 0,70 a 0,89, trudne (łatwość 0,20 0,49), jak i bardzo trudne (0,00 0,19). Zestawy zadań z poszczególnych przedmiotów mierzą zatem szerokie spektrum umiejętności uczniów: od zadań łatwych, które rozwiązała poprawnie większość uczniów, do trudnych, które wymagają wyższego poziomu umiejętności, aby je poprawnie rozwiązać. Przypomnijmy, że wszystkie zadania wykorzystane w tym badaniu miały formę zamkniętą uczeń musiał wybrać poprawną odpowiedź lub odpowiedzi spośród kilku podanych wariantów. Kolejnym etapem było sprawdzenie dla każdego zadania poziomu wybieralności poszczególnych odpowiedzi. Dokonano tego na podstawie wykresów przedstawiających poziom wybieralności dystraktorów (odpowiedź błędna) oraz werstraktora, czyli poprawnej odpowiedzi. Przykłady takich wykresów zostały przedstawione na Rysunku 12.3. Informują one o prawdopodobieństwie udzielenia danej odpowiedzi w grupach decylowych ze względu na umiejętności ucznia mierzone testem. Wykresy po- 2 Moc różnicująca została obliczona jako współczynnik korelacji biseryjnej (korelacja danego zadania z wynikiem uczniów w całym teście). 262
Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia zwalają w prosty sposób wychwycić źle funkcjonujące zadania. Jeżeli zadanie jest właściwie skonstruowane, wraz ze wzrostem umiejętności uczniów powinna rosnąć częstość wybierania poprawnej odpowiedzi, natomiast częstość wybierania dystraktorów powinna spadać. W przypadku omawianych zadań poprawne odpowiedzi to D i B. Na tym etapie analiz sprawdzono również, jak często wybierane są poszczególne dystraktory. W przypadku pierwszego z przedstawionych zadań (lewa strona) jeden z dystraktorów jest częściej wybierany niż pozostałe, jednak pozostałe także są wybierane przez uczniów. Częstym błędem konstrukcji zadań jest umieszczanie w nich martwego dystraktora, czyli błędnej odpowiedzi, która nie jest wybierana przez uczniów. Wszystkie zadania wykorzystane w omawianym badaniu były sprawdzane także pod tym kątem. Rysunek 12.3. Analiza funkcjonowania dystraktorów przykładowe wykresy dla dwóch wybranych zadań, pokazujące wybieralność poszczególnych odpowiedzi w zadaniu w podziale na grupy decylowe ze względu na umiejętności uczniów (poprawne odpowiedzi to kolejno: B i D). 12.3.2. ocena zadań pod kątem zróżnicowanego funkcjonowania zadania ze względu na płeć i cykl badania Kolejnym etapem psychometrycznej oceny zadań była analiza zróżnicowanego funkcjonowania pozycji testowej 3. Celem analizy DIF jest wykrywanie zadań, w których prawdopodobieństwo udzielenia poprawnej odpowiedzi zależy nie tylko od umiejętności mierzonych testem, lecz także od innych czynników takich jak na przykład płeć, status społeczny rodziny, przynależność etniczna potencjalnie stronniczych ze względu na daną cechę. Należy podkreślić, że zagadnienie DIF jest ściśle związane z trafnością teoretyczną testu. Trafność teoretyczna zadania testowego oznacza, że osoby o takich samych umiejętnościach powinny mieć taką samą szansę udzielenia poprawnej odpowiedzi na to zadanie. Jeżeli ta szansa zależy od 3 Zagadnienie zróżnicowanego funkcjonowania pozycji testowej oraz metody jego wykrywania zostały opisane w rozdziale 3. 263
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii przynależności grupowej (przy kontroli poziomu umiejętności uczniów), wówczas trafność testu jest zaburzona a test mierzy dodatkowy aspekt, niezwiązany z umiejętnościami ucznia. Zadania wykorzystane w Laboratorium myślenia oceniane były pod kątem ich funkcjonowania ze względu na płeć oraz cykl badania (w przypadku zadań wspólnych między I, II a III cyklem badania). Do badania zróżnicowanego funkcjonowania zadań wykorzystano statystykę lagrange multiplier (LM) dostępną na przykład w programie MIRT (Glas, 1998). Statystyka ta opiera się na testowaniu istotności za pomocą testu ilorazu wiarygodności (likelihood ratio test, LR; procedura ta została opisana w rozdziale 3). 12.3.3. Ocena zadań na gruncie IRT Końcowe wyniki uczniów uzyskano za pomocą dwuparametrycznego modelu logistycznego (two-parameter logistic model, 2PLM, zob. rozdział 2). Każde zadanie wykorzystane w badaniu zostało wcześniej zweryfikowane pod względem dopasowania do tego modelu. Nie wszystkie okazały się wystarczająco dobrze dostosowane do psychometrycznych właściwości modelu dwuparametrycznego. Modele szacowane były dla każdego badanego przedmiotu oddzielnie. Do estymacji została wykorzystana metoda największej brzegowej wiarygodności (marginal maximum likelihood, MML; Baker i Kim, 2004). Na Rysunku 12.4 zostały przedstawione przykładowe wykresy, pozwalające ocenić dopasowanie zadań do modelu IRT. Na wykresach przedstawiono punkty empiryczne oraz dopasowaną do nich krzywą charakterystyczną. Im bliżej punkty skupione są wokół krzywej charakterystycznej, tym lepsze jest dopasowanie danego zadania do modelu IRT. Możemy zatem ocenić, że pierwsze z przedstawionych zadań jest lepiej dopasowane. Każde z zadań wykorzystanych w badaniu zostało ocenione pod kątem dopasowania na podstawie wykresu oraz parametrów dyskryminacji (a) i trudności (b). Rysunek 12.4. Przykłady dopasowania zadań do modelu 2PLM. 264
Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia 12.4. Skalowanie wyników Ze względu na złożony schemat badania, skalowanie wyników miało skomplikowany charakter i przebiegało w kilku etapach. Schemat skalowania był pochodną trzech charakterystyk badania: (a) nie wszyscy uczniowie rozwiązywali takie same zadania, (b) mierzono cztery różne umiejętności, (c) było to badanie powtarzane rokrocznie, przy czym pula zadań zmieniała się do pewnego stopnia w każdym cyklu. Takie charakterystyki wykluczają, a przynajmniej znacznie utrudniają, wykorzystanie sumy punktów jako rzetelnych informacji o poziomie umiejętności uczniów. Wprowadzenie modelowania cech ukrytych rozwiązuje większość problemów, ale komplikuje procedury skalowania, niezbędne do trafnego oszacowania poziomu umiejętności. W pierwszym etapie skalowania do każdego przedmiotu z osobna wykorzystano jednowymiarowy model wielogrupowy. Zdefiniowana tutaj grupa to cykl badania. Model wielogrupowy zastosowany do wszystkich trzech dotychczas przeprowadzonych i przeanalizowanych cykli umożliwił oszacowanie średnich w poszczególnych latach. Kolejnym etapem było skalowanie wyników za pomocą wielowymiarowego modelu IRT. Tym razem wszystkie pytania z danego cyklu ze wszystkich przedmiotów skalowane były łącznie (do tej pory wyskalowano trzy modele dla trzech zrealizowanych cyklów). Alternatywą dla takiego postępowania byłoby łączne skalowanie wielowymiarowego, wielogrupowego modelu po zakończeniu całego badania, czyli po czwartym cyklu. Nie postąpiono tak, ponieważ po zakończeniu każdego cyklu badawczego potrzebne były oszacowania umiejętności uczniów, na podstawie których prowadzone były kolejne analizy i sporządzane raporty. Przyjęta strategia estymacji umożliwiła oszacowanie poziomów umiejętności uczniów po każdym z cyklów bez potrzeby zmieniania wyników z roku na rok. Przejdźmy do szczegółowego opisu modelu skalowania wielowymiarowego oraz generowania wyników dla poszczególnych uczniów. Do skonstruowania końcowych skal umiejętności dla czterech przedmiotów został użyty wielowymiarowy model IRT (Reckase, 2009): exp ai( θn βi) PX ( nij 1 θn, βi, ai ) ( θn ) 1 exp a ( θ β ) i n i, (12.1) gdzie: β i to macierz parametrów trudności i-tych zadań a a i jest macierzą parametrów dyskryminacji (każdemu wymiarowi odpowiada jedna kolumna w macierzach parametrów). θ n to wielowymiarowy wektor umiejętności uczniów w Q wymiarowej przestrzeni umiejętności. Model jest rozszerzeniem jednowymiarowego modelu IRT, który umożliwia łączną kalibrację wielowymiarowych cech ukrytych w przypadku Laboratorium myślenia były to umiejętności mierzone na czterech skalach przedmiotowych. Łączne skalowanie zadań z różnych dziedzin pozwala na zwiększenie precyzji szacowania i jest optymalne dla złożonych schematów doboru zadań, a taki schemat został zastosowany w badaniu. Model wyspecyfikowany jest dla k pytań (i = 1,,k) dla Q liczby wymiarów 4. 4 Wielowymiarowe modele cech ukrytych zostały opisane w rozdziale 5. 265
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Klasyczną metodą szacowania umiejętności na podstawie modeli IRT jest punktowa estymacja wyników. Inną metodą jest traktowanie umiejętności uczniów jako braków danych, które muszą być oszacowane na podstawie zaobserwowanych odpowiedzi na zadania i dodatkowych informacji, jakimi dysponujemy o uczniach. W taki sposób postępuje się zazwyczaj w dużych badaniach edukacyjnych, jak PISA, TIMSS czy NAEP. Nazwa tej metodologii pochodzi od nazwy generowanych zmiennych zależnych wartości potencjalnych (plausible values, PV). Są one losowymi próbami z warunkowego rozkładu a posteriori cechy ukrytej każdego badanego ucznia (Mislevy, Beaton, Kaplan i Sheehan, 1992). Niech y oznacza macierz obserwacji zmiennych niezależnych, θ oznacza wartość cechy ukrytej, czyli wartość badanej cechy bez błędu pomiaru. Jeżeli θ byłaby znana dla każdego ucznia, możliwe byłoby obliczenie dowolnej statystyki t(θ,y), takiej jak na przykład średnia warunkowa ze względu na płeć uczniów czy współczynnik dowolnego modelu liniowego. Jednak t(θ,y) posiada cechę ukrytą umiejętności uczniów, które nie są bezpośrednio obserwowalne. Badacz dysponuje jedynie ich obserwowalnymi wskaźnikami: odpowiedziami udzielonymi na pytania, ewentualnie wyskalowaną wartością, na przykład modelem IRT lub prostą sumą. Tak skonstruowany wskaźnik jest oczywiście obciążony błędem pomiaru, który będzie wpływał na oszacowanie statystyki t(θ,y). Aby poradzić sobie z tym problemem, można przyjąć rozwiązanie Donalda Rubina (1987) i potraktować θ jako braki danych. Wtedy przybliżeniem dla t(θ,y) jest warunkowa wartość oczekiwana t*(x,y), gdzie x jest wektorem odpowiedzi na pytania testowe. Rubin pokazał, że: t*( xy, ) Et(, y) xy, t(, yp ) ( xyd, ) ). (12.2) Uzyskanie nieobciążonego estymatora statystyki t jest możliwe dzięki losowaniom z warunkowego rozkładu umiejętności przy danych odpowiedziach ucznia (x) na pytania testu i parametrach pytań oraz dodatkowych zmiennych (y). PV dla każdego ucznia j losowane są wedle metodologii Rubina z warunkowego rozkładu: P(,,) y, (12.3) gdzie Γ jest macierzą współczynników regresji dla zmiennych warunkujących, czyli dodatkowych zmiennych wykorzystywanych w procesie warunkowania, które w przyszłości mogą być używane jako zmienne zależne do obliczania statystyki t(θ,y), a jest macierzą wariancji reszt. Ponieważ podejście Rubina traktuje umiejętności ucznia jako braki danych, do ich uzupełnienia można użyć wszystkich dostępnych informacji, wszystkich zmiennych, które mają jakąkolwiek moc predykcyjną dla umiejętności uczniów (θ). Przedstawiony rozkład warunkowy otrzymujemy za pomocą następującej proporcjonalności: P( y, x,, ) P( x, y,, ) P( y,, ) P( x ) P( y,,, ) (12.4) gdzie P(x θ) jest iloczynem niezależnych wiarygodności, szacowanym na podstawie odpowiedzi na pytania ze skali θ, a P(θ y, Γ, ) jest rozkładem umiejętności dla skali, warunkowanym obserwowalnymi wartościami dodatkowych informacji. 266
Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia Szacowanie macierzy Γ oraz odbywa się za pomocą algorytmu EM, opracowanego przez Roberta Mislevy ego (Mislevy i in., 1992). Statystyki t z owego warunkowego rozkładu losuje się M razy (w przypadku opisywanego badania M = 10). W badaniu Laboratorium myślenia zmienne warunkujące to płeć respondenta, rodzaj rozwiązywanego bloku testowego oraz wykształcenie rodziców. Z modelu ze zmiennymi warunkującymi dla każdego z czterech przedmiotów zostały wylosowane PV. Warto podkreślić, że obliczenie dowolnej statystyki t w tym badaniu było proste i polegało na uśrednieniu wyników z szacunków, w których zostały wzięte pod uwagę wylosowane PV: z szacunkó tk k t. (12.5) M Błąd standardowy oszacowania statystyki t można zapisać, jako: 1 1 1 SE( t ) s 1 ( t t ) M M M 2 k, (12.6) k k 1 k gdzie: M to liczba replikacji (w przypadku naszego badania 10); t k to statystyka uzyskana z k-tego losowania, a s k szacowany błąd dla replikacji. Innymi słowy, wykorzystując metodologię PV w różnych analizach, należy postępować następująco: na wygenerowanych M razy PV estymować M osobnych modeli, następnie wyniki tych parametrów z M analiz uśrednić. Wynik uśrednienia będzie przybliżeniem prawdziwych poszukiwanych parametrów. Błąd standardowy należy oszacować na podstawie podanego wzoru (12.6). Otrzymane w ten sposób oszacowanie umiejętności uczniów, w celu lepszej interpretacji wyników, przedstawiono na skali o średniej 500 i odchyleniu standardowym 100 dla pierwszego cyklu badania. Na skali umiejętności przedstawiono również trudność zadań. Trudność wyrażona na skali umiejętności wyznaczana jest przez punkt umiejętności, dla którego przewidywane prawdopodobieństwo udzielenia poprawnej odpowiedzi na zadanie wynosi 0,5. Umiejętności wyrażane są na skali o średniej 500 i odchyleniu standardowym 100. 12.5. Analiza klas ukrytych Do analizy wyników badania Laboratorium myślenia wykorzystano również analizę klas ukrytych, która w przeciwieństwie do modelowania IRT, przyjmującego założenie o ciągłym charakterze zmiennej definiującej umiejętności uczniów, zakłada nominalny charakter zmiennej definiującej umiejętności uczniów. Tym samym model klas ukrytych może szacować prawdopodobieństwo przynależności pojedynczej jednostki do dowolnie wybranej liczby klas ukrytych, na podstawie wzorca charakteryzujących ją zmiennych (m.in. odpowiedzi na pytania kwestionariusza lub zadania testu). Klasyczny model analizy klas ukrytych można zapisać następująco: 267
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii C J R j c c 1 j 1 rj 1 I( yj rj ) jrj c P( Y y ) (12.7) Prawdopodobieństwo zaobserwowanego wektora odpowiedzi P(Y = y) jest funkcją prawdopodobieństwa przynależenia do c klasy (Y c ) i prawdopodobieństwa zaobserwowania odpowiedzi r na zadania j, warunkowo ze względu na przynależność do klasy I (y j =r j ) P jrj, gdzie c indeks j oznacza zadanie, a r odpowiedź na zadanie; J to liczba zadań, a R j liczba możliwych odpowiedzi dla zadania j. Indeks c oznacza klasę ukrytą, a C całkowitą liczbę klas ukrytych; y j to element j w wektorze odpowiedzi y. Natomiast funkcja I (y j =r j ) przybiera wartość 1 dla j = r j, w innym wypadku wartość 0 (Collins i Lanza, 2010). Model klas ukrytych estymowany jest za pomocą algorytmu największej wiarygodności (zob. rozdział 5). W badaniu Laboratorium myślenia została postawiona hipoteza o dychotomicznym charakterze mierzonych umiejętności. Pomiarowi w tym badaniu podlegały umiejętności złożone. Przesłanki teoretyczne każą je traktować jako cechy dychotomiczne: uczeń albo posiada umiejętność złożoną, albo jej nie posiada. W estymowanym dla badania modelu klas ukrytych został zatem narzucony warunek dwóch klas ukrytych. Estymowane były cztery modele dla każdego badanego przedmiotu oddzielnie. Analiza klas ukrytych została tutaj wykorzystana w sposób niekonwencjonalny nie tyle jako model skalowania cechy ukrytej, ile jako narzędzie do badania trafności zadań, ponieważ w zamyśle zadania miały mierzyć umiejętności złożone, rozumiane jako dychotomiczne cechy ukryte. Założono, że duże różnice między proporcjami poprawnych odpowiedzi między dwoma klasami będą wskazywały najbardziej pożądane zadania, a niewielkie różnice lub ich brak na zadania słabe pod kątem wyznaczonych w badaniu celów. Algorytm szacujący prawdopodobieństwo przynależenia uczniów do poszczególnych klas maksymalizował różnicę między wzorami odpowiedzi, mogącymi pojawić się w dwóch klasach ukrytych. Innymi słowy, algorytm dzielił uczniów, przypisując im prawdopodobieństwa przynależności do danej klasy ukrytej tak, aby dwie grupy różniły się jak najbardziej pod względem wzorów udzielanych odpowiedzi. Jeżeli hipoteza o dychotomicznym charakterze umiejętności złożonych jest trafna, wówczas zadania, które odznaczają się największą różnicą prawdopodobieństwa udzielenia poprawnej odpowiedzi między klasami, powinny najtrafniej mierzyć umiejętności złożone. Rysunek 12.5 przedstawia prawdopodobieństwo udzielenia poprawnej odpowiedzi w dwóch klasach ukrytych (L1 lub L2). Z każdego przedmiotu uczniowie z klasy L2 częściej odpowiadali poprawnie na zadania niż w klasie L1. Klasa L2 może być zatem roboczo traktowana jako klasa ukryta uczniów posiadających umiejętności złożone. Na Rysunku 12.5 zadania zostały posortowane pod kątem różnic prawdopodobieństwa udzielenia poprawnej odpowiedzi między dwoma klasami. Uczniowie należący do klasy L2 mają znacznie większe prawdopodobieństwo udzielenia poprawnej odpowiedzi na większość zadań, co można potraktować jako ar- 268
Wykorzystanie modeli cech ukrytych w badaniu Laboratorium myślenia gument potwierdzający, że zadania wykorzystane w badaniu zgodnie z założeniami mierzą umiejętności złożone. Rysunek 12.5. Prawdopodobieństwo udzielenia poprawnej odpowiedzi dla zadań z chemii w I cyklu badania. Model klas ukrytych pozwala oszacować odsetek uczniów przynależących do danej klasy w populacji. Rozkład procentowy został przedstawiony w Tabeli 12.1. Jeżeli założymy, że do klasy L2 należą uczniowie, którzy posiadają umiejętności złożone, najwyższy poziom opanowania umiejętności złożonych uzyskali w przypadku geografii (62,68% uczniów w klasie L2), a spośród wszystkich czterech badanych przedmiotów najmniej uczniów opanowało umiejętności złożone z fizyki (54,77% uczniów). Tabela 12.1. Wyestymowany odsetek uczniów znajdujących się w danej klasie ukrytej w I cyklu badania. Klasa Biologia Chemia Fizyka Geografia L1 42,80 44,90 45,23 37,32 L2 57,20 55,10 54,77 62,68 269
Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii 12.6. Podsumowanie Wszystkie analizy statystyczne przedstawione w tym rozdziale zostały przeprowadzone, aby zrealizować jeden główny cel oszacować jak najbardziej precyzyjnie poziom umiejętności uczniów. Aby to osiągnąć, niezbędne było wykonanie kilku kroków, które do pewnego stopnia należy powtarzać w innych cyklach mierzących poziom umiejętności w wybranej populacji. Punktem wyjścia była szczegółowa analiza zadań, składająca się zarówno z elementów KTT, jak i modelowania IRT. Przeprowadziliśmy analizę dopasowania modelu IRT, analizę DIF, dodatkowo analiza zadań została wzbogacona o model klas ukrytych, w celu sprawdzenia trafności wykorzystanych zadań w kontekście pomiaru umiejętności złożonych, na które nacisk położyli autorzy badania Laboratorium myślenia. Wnikliwa analiza zadań miała szczególnie duże znaczenie z powodu złożonego schematu skalowania wyników. Złożony, niekompletny schemat doboru zadań do uczniów wymagał zastosowania modelowania z wykorzystaniem PV metody skomplikowanej analitycznie i obliczeniowo. Tylko dobór zadań o odpowiednich właściwościach psychometrycznych pozwolił na bezbłędną estymację tego modelu. Literatura Baker, F. B. i Kim, S. H. (2004). Item response theory: parameter estimation techniques. New York: Marcel Dekker. Collins, M. L., Lanza, S. T. (2010). Latent Class and latent transition analysis: with applications in the social, behavioral, and health sciences. Hoboken: Wiley & Sons. Glas, C. A. W. (1998). Detection of differential item functioning using Lagrange multiplier tests. Statistica Sinica, 8, 647 667. Instytut Badań Edukacyjnych (2012). Raport z badania Laboratorium myślenia. Diagnoza umiejętności gimnazjalistów w zakresie przedmiotów przyrodniczych 2011. Warszawa: Instytut Badań Edukacyjnych. Mislevy, R. J. Beaton, A. E., Kaplan, B. i Sheehan, K. M. (1992). Estimating population characteristics from sparse matrix samples of item responses. Journal of Educational Measurement, 29(2), 133 161. Ostrowska, B. i Spalik, K. (red.). (2010). Umiejętności złożone w nauczaniu historii i przedmiotów przyrodniczych pomiar, zadania testowe z komentarzami. Warszawa: Wydawnictwo Instytutu Filozofii i Socjologii Polskiej Akademii Nauk. Reckase. M. D. (2009). Multidimensional item response theory. New York: Springer. Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley & Sons. 270