Rozdział 19 Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu gimnazjalnego 1

Podobne dokumenty
Modele psychometryczne w pomiarze diagnostycznym

Trafność testów egzaminacyjnych. Artur Pokropek, Tomasz Żółtak IFiS PAN

RAPORT ZBIORCZY z diagnozy Matematyka PP

Trafność egzaminów w kontekście metody EWD

15. PODSUMOWANIE ZAJĘĆ

EGZAMIN GIMNAZJALNY 2012 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

SPRAWDZIAN I EGZAMINY 2013 W SZKOŁACH ARTYSTYCZNYCH. w w o je w ó dztwie śląskim

RAPORT ZBIORCZY z diagnozy umiejętności matematycznych

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Opracowanie: Iwona Remik, Małgorzata Budaj, Elżbieta Idziak, Katarzyna Łysiak, Elżbieta Łukomska

Latentna moc różnicująca zadań z testów matematycznych dla młodzieży uzdolnionej

Analiza wyników egzaminu gimnazjalnego przeprowadzonego w roku szkolnym 2011/2012 w części matematyczno przyrodniczej z zakresu matematyki

CZĘŚĆ HUMANISTYCZNA Z ZAKRESU HISTORII I WIEDZY O SPOŁECZEŃSTWIE

Analiza wyników egzaminu gimnazjalnego 2015

CZY UCZNIOWIE POWINNI OBAWIAĆ SIĘ NOWEGO SPOSOBU OCENIANIA PRAC EGZAMINACYJNYCH?

(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel)

EGZAMIN GIMNAZJALNY 2013 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

Polska Warszawa SP 24. Polski Matematyka Angielski

RAPORT z diagnozy umiejętności matematycznych

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Zadania rozrywające w testach

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

EGZAMIN ÓSMOKLASISTY od roku szkolnego 2018/2019

ZADANIA ROZRYWAJĄCE W TESTACH. 1. Co to jest zadanie rozrywające?

Jak zadbać o spójność nauczania matematyki między szkołą podstawową a gimnazjum?

PRZEDMIOTOWY SYSTEM OCENIANIA

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Sprawdzian dla uczniów szóstej klasy szkoły podstawowej w nowej formule egzaminacyjnej. od roku szkolnego 2014/2015

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Co nowego na sprawdzianie po szkole podstawowej w 2015 roku

Wykorzystanie wyników egzaminów zewnętrznych w pracy nauczycieli

Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyka w pracy badawczej nauczyciela

Sposoby prezentacji problemów w statystyce

w pierwszym okresie nauki w gimnazjum

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

WYMAGANIA EDUKACYJNE I PRZEDMIOTOWY SYSTEM OCENIANIA. FIZYKA poziom podstawowy i rozszerzony

Skalowanie wyników egzaminacyjnych

Rozdział 7 Modele diagnostyczne 1

EGZAMIN GIMNAZJALNY 2011 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI

PRZEDMIOTOWY SYSTEM OCENIANIA MATEMATYKA SPIS TREŚCI

Oszacowanie umiejętności teta oraz wyskalowanie osi w metodzie IRT dla potrzeb obliczania parametrów zadań

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Przedmiotowe zasady oceniania. z matematyki

Analiza ilościowa wyników egzaminów testowych jako element doskonalenia systemu oceny efektów kształcenia

Wyniki egzaminu gimnazjalnego rok szk. 2014/2015

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

I. Struktura sprawdzianu matematycznego Po gimnazjum 2010

Efektywność nauczania w gimnazjach w świetle umiejętności uczniów nabytych w szkole podstawowej

10. Podstawowe wskaźniki psychometryczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wyniki sprawdzianu matematycznego. Matematyka do Potęgi R

KRYTERIA OCENY ZADANIA 6 WSKAZYWANIE KIERUNKU ROZWOJU UCZNIA

OFERTA SZKOLENIOWA 2015/16

Zakres wiedzy i umiejętności oraz proponowana literatura

Wyniki sprawdzianu matematycznego. Matematyka do Potęgi P

NOWY egzamin maturalny

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Okręgowa Komisja Egzaminacyjna w Gdańsku

W Y M A G A N I A E D U K A C Y J E Z M A T E M A T Y K I. dla Gimnazjum

Wśród prostokątów o jednakowym obwodzie największe pole. ma kwadrat. Scenariusz zajęć z pytaniem problemowym dla. gimnazjalistów.

PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI ZESPÓŁ SZKÓŁ OGÓLNOKSZTAŁCĄCYCH NR 6 W BYDGOSZCZY

Pomiar gotowości szkolnej uczniów za pomocą skali quasi-obserwacyjnej

EGZAMIN GIMNAZJALNY 2005 Liczba uczniów oraz szkół

Model EWD dla II etapu edukacyjnego.

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

Podobieństwo. Praktyczne zastosowanie zależności między. polami figur podobnych.

ćwiczenia 30 zaliczenie z oceną

Wymagania edukacyjne z fizyki II klasa Akademickie Gimnazjum Mistrzostwa Sportowego.

Analiza i interpretacja zewnętrznego sprawdzianu po klasie szóstej

Zadania w których wskaźnik łatwości był niż 0.5. Zadanie 15. (0 1) wskaźnik łatwości 0.37 dla szkoły

SPRAWDZIAN W KLASIE SZÓSTEJ SZKOŁY PODSTAWOWEJ OD ROKU SZKOLNEGO 2014/2015

Spis treści. 5. Analiza jakościowa zadań egzaminacyjnych arkusza poziomu podstawowego i poziomu rozszerzonego Podsumowanie i wnioski...

WYNIKI OGÓLNOPOLSKIEGO BADANIA UMIEJĘTNOŚCI TRZECIOKLASISTY, SPRAWDZIANU, EGZAMINU GIMNAZJALNEGO I MATURALNEGO W 2013 ROKU UCZNIÓW SZKÓŁ PROWADZONYCH

edukacyjne jako - wskaźniki efektywności nauczania

PROCEDURY DOPUSZCZANIA DO UŻYTKU SZKOLNEGO PROGRAMÓW NAUCZANIA ORAZ PODRĘCZNIKÓW W ZESPOLE SZKÓŁ LEŚNYCH I EKOLOGICZNYCH W BRYNKU

Informacja na temat wyników Badania 6- i 7-latków na starcie szkolnym

PROCEDURA DOPUSZCZANIA DO UŻYTKU PROGRAMÓW NAUCZANIA W ZESPOLE SZKÓŁ OGÓLNOKSZTAŁCĄCYCH W STRZELINIE

ANALIZA WYNIKÓW EGZAMINU MATURALNEGO Z MATEMATYKI W XIII LO W ROKU SZKOLNYM 2013/14

Spis treści. 5. Analiza jakościowa zadań egzaminacyjnych arkusza poziomu podstawowego i poziomu rozszerzonego Podsumowanie i wnioski...

Dlaczego należy uwzględniać zarówno wynik maturalny jak i wskaźnik EWD?

RAPORT z diagnozy umiejętności matematycznych

Przedmiotowy System Oceniania z matematyki klasy 4 6 Szkoły Podstawowej w Kluczewie. Przedmiotowy System Oceniania z matematyki jest zgodny z:

Metody: sesja plakatowa, ćwiczenia, dyskusja, porównanie w parach, metaplan

PRZEDMIOTOWY SYSTEM OCENIANIA Z PLASTYKI SZKOŁA PODSTAWOWA KLASY IV-VII (II etap edukacyjny).

Egzamin maturalny z geografii w 2015 roku

Jak obracać trójkąt, by otrzymać bryłę o największej. objętości?

Nowe narzędzia do diagnozowania ryzyka dysleksji oraz zaburzeń językowych oferta szkoleń Pracowni Testów IBE

EGZAMIN GIMNAZJALNY EGZAMIN GIMNAZJALNY od roku szkolnego 2011/2012

I. WYNIKI TESTU. Średni wynik klas : klasa III A 59,6% (15,5 pkt) klasa III B 61,2% (15,9 pkt) Średni wynik szkoły 60,4% (15,7 pkt)

Przedmiotowy system oceniania FIZYKA klasa I LO

Przedmiotowy system oceniania FIZYKA klasa I LO

Transkrypt:

Rozdział 19 Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu gimnazjalnego 1 Artur Pokropek, Instytut Badań Edukacyjnych W światowej literaturze najczęściej opisywanymi metodami statystycznymi, wykorzystywanymi w pomiarze edukacyj nym, są analizy oparte na klasycznej teorii testu (classical test theory, KTT) oraz modelowanie oparte na teorii odpo wiedzi na pozycje testowe, w skrócie nazy wanej IRT (od item response theory). W ostatnich latach do głosu dochodzi nowa kategoria modeli określanych mianem statystycznych modeli diagnostycznych lub kognitywnych modeli diagnostycz nych (por. Rupp, Templin i Henson, 2010). Modele diagnostyczne (będziemy się tutaj posługiwać akronimem CDM (od cognitive diagniostic models) często próbuje się przeciwstawiać modelom opartym na IRT czy KTT. Nie jest to podejście właściwe. To cele badawcze pomiaru edukacyjnego mogą mieć charak ter diagnostyczny sam model statystyczny jest tylko zbiorem procedur wykonywa nych przez komputer. Odpowiednio przeprowadzone analizy w paradygmacie KTT lub IRT, w określonych przypadkach mogą okazać się równie dobre lub nawet bardziej użyteczne z punktu widzenia diagnozy, niż analizy oparte na modelach CDM. Nie zmienia to jednak faktu, że KTT i IRT zostały zaprojektowane przede wszystkim do pomiarów różnicujących, modele diagnostyczne zaś przede wszystkim do pomiaru diagnostycznego. W dalszej części zostaną przedstawione analizy odnoszące się do dwóch typów pomiaru: różnicującego i diagnostycznego. Przykłady zostaną oparte na danych pochodzących z części matematyczno -przyrodniczej egzaminu gimnazjalnego. W pierwszym typie ana liz zostanie zastosowany dwuparametryczny model IRT, w drugim typie model DINA, szczegółowo opisany w rozdziale 7. 19.1. Dane Wyniki testu mierzącego umiejętności matematyczne, będącego częścią egzaminu gimnazjalnego w 2012 roku, posłużą nam za przykładowy zestaw danych. Wobec tego rodzaju informacji można zastosować różne podejścia pomiarowe i typy modeli statystycznych. W przedstawionych analizach posłużono się losowo dobraną próbą 30 000 uczniów. Losowanie miało charakter prosty. Ograniczenie się do tak dobranej próby było praktyczne i miało przyspieszyć procedury estymacyjne, zastosowane w analizach. W ramach dalszych uprosz- 1 W rozdziale wykorzystano fragmenty artykułu: Pokropek, A. (2013). Modele psychometryczne w pomiarze diagnostycznym. Edukacja, 124(4), 20 41. 367

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii czeń zadania wielokategorialne (w arkuszu egzaminacyjnym: 21, 22, 23) zostały zdychotomizowane w taki sposób, aby maksymalizować wariancje dla poszczególnych zadań. Należy również podkreślić, że omawiane analizy mają przede wszystkim charakter poglądowy. Głównym ich zadaniem jest pokazanie możliwości, jakie otwierają się przed badaczem, który zechce wykorzystać modele diagnostyczne. Inne cele poznawcze schodzą w tym artykule na drugi plan. 19.2. Podejścia analityczne 19.2.1. Podejście różnicujące W podejściu różnicującym badaczom chodzi o uszeregowanie uczniów ze względu na (zazwyczaj) jedną cechę. Ponadto zakłada się, że cecha ta ma charakter ciągły. W takiej sytuacji odpowiednimi narzędziami badawczymi mogą być modele IRT lub analizy oparte na KTT. Przykład takich analiz został przedstawiony w Tabeli 19.1. Znalazły się w niej informacje o mocy różnicującej zadania (liczonej na dwa sposoby: korelacją Pearsona i korelacją polichoryczną), o łatwości zadań oraz parametrach modelu IRT: dyskryminacji i trudności. Analizę tę można by rozszerzyć o analizę dystraktorów, graficzną analizę dopasowania modelu IRT do danych, lecz w tym wypadku nie wniosłoby to wiele. Moc różnicująca zadań jest zadowalająca, ich rozkład łatwości wydaje się dobrze dobrany, choć liczba zadań jest zdecydowanie za mała dla zapewnienia rzetelnego pomiaru indywidualnego (α-cronbacha = 0,85, błąd standardowy pomiaru wynosi 2 pkt., czyli precyzja pomiaru przy 95-procentowym przedziale ufności wynosi +/ 4 pkt.). Słowem, zadania mające zbudować ciągłą skalę umiejętności, mają przyzwoite właściwości psychometryczne. Skala skonstruowana na ich podstawie niestety nie będzie skalą dobrze różnicującą z powodu niewielkiej liczby zadań. Nawet jeżeli założymy, że precyzja, z jaką skala może różnicować uczniów jest do pewnych celów wystarczająca, nie pozwala na przeprowadzenie wielu analiz statystycznych i wnioskowania. Oczywiście, można prowadzić dalsze dociekania w odniesieniu do różnych grup uczniów (np. chłopcy i dziewczęta), przeprowadzić analizę stronniczości zadań, ale wszystkie te analizy niewiele wniosą do wiedzy na temat szczegółowych właściwości umiejętności uczniów. Nie jest to zarzut w kontekście postawionego zadania, które polega na pomiarze różnicującym. Pomiar różnicujący został dokonany. Jego właściwości (rzetelność i błąd pomiaru) przedstawione. Skonstruowane skale mogą zostać wykorzystane do różnicowania uczniów pod kątem ogólnych umiejętności matematycznych. 368

Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu Tabela 19.1. Analiza zadań przeprowadzona za pomocą klasycznej teorii testu (KTT) i dwuparametrycznego modelu IRT. Zadanie Moc Parametry KTT Moc (polichoryczna) Łatwość Dyskryminacja Parametry IRT Trudność Parametr SE Parametr SE mat. 1 0,38 0,53 0,71 0,52 0,01 1,17 0,03 mat. 2 0,50 0,59 0,45 0,65 0,01 0,21 0,02 mat. 3 0,47 0,59 0,57 0,62 0,01 0,37 0,02 mat. 4 0,49 0,58 0,29 0,66 0,01 0,95 0,02 mat. 5 0,36 0,47 0,66 0,42 0,01 1,02 0,03 mat. 6 0,33 0,65 0,89 0,85 0,02 1,92 0,03 mat. 7 0,51 0,63 0,56 0,74 0,01 0,29 0,01 mat. 8 0,48 0,69 0,73 0,89 0,02 0,96 0,02 mat. 9 0,49 0,63 0,61 0,72 0,01 0,51 0,01 mat. 10 0,50 0,63 0,60 0,74 0,01 0,47 0,01 mat. 11 0,40 0,71 0,84 0,98 0,02 1,44 0,02 mat. 12 0,51 0,61 0,47 0,70 0,01 0,08 0,01 mat. 13 0,53 0,62 0,41 0,72 0,01 0,35 0,01 mat. 14 0,56 0,67 0,26 0,91 0,01 0,93 0,02 mat. 15 0,41 0,5 0,49 0,47 0,01 0,04 0,02 mat. 16 0,32 0,4 0,47 0,31 0,01 0,25 0,03 mat. 17 0,46 0,68 0,76 0,90 0,02 1,09 0,02 mat. 18 0,47 0,58 0,56 0,61 0,01 0,34 0,02 mat. 19 0,49 0,59 0,52 0,64 0,01 0,15 0,02 mat. 20 0,49 0,61 0,54 0,67 0,01 0,21 0,01 mat. 21 0,67 0,77 0,31 1,37 0,02 0,57 0,01 mat. 22 0,57 0,70 0,23 0,99 0,02 1,04 0,02 mat. 23 0,68 0,80 0,26 1,54 0,02 0,74 0,01 19.2.2. Podejście diagnostyczne Podejście diagnostyczne polega na ocenie stanu wiedzy przede wszystkim specyficznych jej braków odkrywa ich przyczyny i wskazuje na sposoby kompensacji. Narzędzie pomiarowe w tej sytuacji musi zatem być inne niż w przypadku pomiaru różnicującego. Proste, jednowymiarowe skalowanie zdaje się nieadekwatne do celów diagnostycznych. Pomiar diagnostyczny wymaga przyjęcia założeń odnoszących się do mierzonych umiejętności. Załóżmy zatem, że umiejętności mierzone testem matematycznym zostały uznane za dyskretne (a precyzyjniej za dwuwartościowe: uczeń posiada lub nie posiada danej umiejętności), oraz że badanych jest kilka umiejętności jednocześnie (inaczej mówiąc kilka wymiarów wiedzy matematycznej mierzonych jest na podstawie zadań tego testu matematycznego). Takie założenia wydają się zdroworozsądkowe i do przyjęcia. W tym punkcie niezbędne jest wyspecyfikowanie badanych umiejętności oraz relacji, jakie wiążą zadania z umiejętnościami. Zacznijmy od wyspecyfikowania umiejętności. Istnieją do 369

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii tego dwie główne drogi. Po pierwsze, można odwołać się do planu testu i sprawdzić, wedle jakiego schematu zadania zostały skonstruowane. Jeżeli plan testu jest poprawny, a zadania zostały stworzone wedle jego wytycznych, zyskujemy wysokiej jakości informacje. Druga metoda polega na zatrudnieniu ekspertów, którzy post hoc skategoryzują umiejętności i przypiszą odpowiednie zadania do odpowiednich umiejętności. W tym artykule wykorzystamy pierwsze podejście. Specyfikacja umiejętności odnosi się do oficjalnej dokumentacji testu, przedstawionej przez Centralną Komisję Egzaminacyjną (CKE). W dokumentacji tej możemy znaleźć informacje, że zadania odpowiadają wymaganiom ogólnym zapisanym w podstawie programowej (Rozporządzenie, 2012) 2. W przypadku matematyki składają się one z pięciu umiejętności: wykorzystywania i tworzenia informacji; wykorzystywania i interpretowania reprezentacji; modelowania matematycznego; użycia i tworzenia strategii; rozumowania i argumentacji. Opis tych umiejętności został przedstawiony w Tabeli 19.2. Tabela 19.2. Umiejętności uczniów według wymagań ogólnych podstawy programowej. Wymagania ogólne Wykorzystanie i tworzenie informacji Wykorzystywanie i interpretowanie reprezentacji Modelowanie matematyczne Użycie i tworzenie strategii Rozumowanie i argumentacja Opis nabytych umiejętności Uczeń interpretuje i tworzy teksty o charakterze matematycznym, używa języka matematycznego do opisu rozumowania i uzyskanych wyników. Uczeń używa prostych, dobrze znanych obiektów matematycznych, interpretuje pojęcia matematyczne i operuje obiektami matematycznymi. Uczeń dobiera model matematyczny do prostej sytuacji, buduje model matematyczny danej sytuacji. Uczeń stosuje strategię jasno wynikającą z treści zadania, tworzy strategię rozwiązania problemu. Uczeń prowadzi proste rozumowania, podaje argumenty uzasadniające poprawność rozumowania. Źródło: MEN (2012, s. 172 173). Po wyodrębnieniu umiejętności mierzonych testem, następnym krokiem, niezbędnym do poprawnej analizy jest przeprowadzenie mapowania umiejętności do zadań, czyli przypisanie do każdego zadania umiejętności, jakie są za jego pomocą mierzone. Wyniki takiego dopasowania zapisywane są zazwyczaj w macierzach nazywanych macierzami Q (por. Tabela 19.3). W wierszach takiej macierzy zapisuje się zadania, a w kolumnach umiejętności. Macierz wypełniona jest zerami i jedynkami. Jedynka oznacza, że dane zadanie mierzy konkretną umiejętność, zero że umiejętność ta nie jest potrzebna do rozwiązania tego zadania. Na przykład do rozwiązania zadania 1, wedle macierzy przedstawionej w Tabeli 19.3, potrzebne są dwie umiejętności: wykorzystywanie i tworzenie informacji oraz wykorzystywanie i interpretowanie reprezentacji. 2 W dokumentacji CKE do każdego zadania zostały przyporządkowane wymagania ogólne i szczegółowe (CKE, 2012). Wymagania szczegółowe są zbyt rozdrobnione, aby móc je wykorzystać do analizy. Wymagania ogólne stanowią za to możliwy do przyjęcia opis struktury wiedzy ucznia. 370

Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu Tabela 19.3. Macierz Q oparta na umiejętnościach wyszczególnionych w podstawie programowej. Zadanie (1) Wykorzystanie i tworzenie informacji Umiejętności wyszczególnione w podstawie programowej (2) Wykorzystanie i interpretowanie reprezentacji (3) Modelowanie matematyczne (4) Użycie i tworzenie strategii (5) Rozumowanie i argumentacja 1 1 1 0 0 0 2 0 1 0 0 0 3 0 0 1 0 0 4 0 1 0 0 0 5 0 1 0 0 0 6 1 0 0 0 0 7 0 1 0 0 0 8 0 1 1 0 0 9 0 1 1 0 0 10 0 1 0 0 0 11 1 1 0 0 0 12 1 0 1 0 1 13 1 0 1 0 0 14 0 0 0 1 0 15 0 1 0 0 0 16 0 0 1 0 0 17 0 0 0 0 1 18 0 1 1 0 0 19 0 0 0 1 0 20 0 1 0 0 0 21 1 0 0 1 1 22 0 0 0 0 1 23 0 0 0 1 0 Po wyspecyfikowaniu macierzy Q pozostała jeszcze jedna decyzja, od której zależeć będzie wybór modelu statystycznego do diagnozy. Problem dotyczy relacji między zmiennymi ukrytymi a procesem odpowiedzi na pytanie: Czy relacje są kompensacyjne, niekompensacyjne czy niezależne? Ostatnia odpowiedź została wykluczona na podstawie samej konstrukcji macierzy Q. Pozostaje zatem rozstrzygnąć czy relacje są niekompensacyjne, czy kompensacyjne; innymi słowy: czy do rozwiązania jednego zadania niezbędne są wszystkie umiejętności, czy wystarczy jedna z nich. W naszym wypadku konstrukcja zadań oraz macierzy Q wskazuje raczej na pierwsze rozwiązanie, czyli niekompensacyjny charakter relacji. Zakładamy tutaj, że do rozwiązania zadania niezbędne jest posiadanie wszystkich umiejętności wyszczególnionych w macierzy Q. Taka droga rozumowania prowadzi do wyboru kilku modeli statystycznych, które można wykorzystać do diagnozowania. Posłużymy się tutaj najbardziej znanym, a zarazem najprostszym diagnostycznym modelem DINA (Haertel, 1989; Torre, 2004). Jest to model niekompen- 371

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii sacyjny z koniunkcyjną regułą kondensacji. W modelu zakłada się, że udzielenie poprawnej odpowiedzi na zadanie wskazuje na posiadanie wszystkich atrybutów w tym nieobserwowalnych, dychotomicznych atrybutów niezbędnych do jego rozwiązania. W deterministycznych warunkach brak choćby jednego atrybutu oznacza niepowodzenie w rozwiązaniu zadania. Szum wprowadzony przez proces stochastyczny ograniczany jest w modelu DINA poprzez parametry pomyłki (slip) i zgadywania (guessing). Zatem uczeń posiadający wszystkie wymagane do rozwiązania zadania atrybuty może pomylić się i odpowiedzieć niepoprawnie, a uczeń nieposiadający wszystkich atrybutów ma szanse poprawnie odpowiedzieć na zadanie. W modelu DINA parametry pomyłki (s i ) oraz zgadywania (g i ) określane są dla każdego zadania. Specyfikacja modelu znajduje się w rozdziale 7. Na Rysunku 19.1 przedstawiono parametry zadań dla modelu DINA, w którym została wykorzystana macierz Q, przedstawiająca klasyfikację umiejętności według wymagań ogólnych podstawy programowej. Rysunek wyraża trzy parametry: zgadywania, pomyłki i dyskryminacji. Pierwsze dwa były omawiane w rozdziale 7, lecz ostatni wymaga dopowiedzenia. Dyskryminacja została tutaj zoperacjonalizowana jako: (1 s i ) g i. Mimo odmiennego wzoru, dyskryminacje w modelu DINA można interpretować podobnie do mocy różnicującej w KTT. Niska moc dyskryminacyjna oznacza, że odpowiedź na zadanie słabo różnicuje uczniów posiadających umiejętności niezbędne do jego rozwiązania i uczniów nieposiadających takich umiejętności. Wysoka moc dyskryminacyjna wskazuje na to, że poprawna lub niepoprawna odpowiedź na zadanie jest dobrym wskaźnikiem, informującym o tym czy uczeń posiada wyszczególnione w macierzy Q umiejętności, czy nie (Rupp i in., 2010). Rysunek 19.1. Wartości parametrów w modelu DINA dla macierzy Q reprezentującej klasyfikację umiejętności według wymagań ogólnych podstawy programowej. 372

Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu Na Rysunku 19.1 widać, że przykładowe zadania odznaczają się bardzo przeciętnymi charakterystykami psychometrycznymi. Parametry zgadywania są wysokie, ale należy pamiętać, że większość zadań w tym teście była zamknięta. Dlatego parametry zgadywania w okolicy wartości 0,25 dla pytań zamkniętych są możliwe do zaakceptowania. Warto zwrócić uwagę, że trzy ostatnie zadania, które były zadaniami otwartymi (brak możliwości zgadywania) charakteryzują się bardzo niską mocą dyskryminacyjną. Jednak dla części zadań zamkniętych parametry zgadywania były bardzo wysokie. Aż dla 10 z nich parametr zgadywania przekroczył wartość 0,4. Najwyższym parametrem zgadywania charakteryzują się zadania 6 i 11. Ich treść i graficzna forma zostały przedstawione na Rysunku 19.2. Według twórców testu, aby rozwiązać zadanie 6 uczeń musi posiadać umiejętność wykorzystywania i tworzenia informacji. Inne umiejętności nie są mierzone w tym zadaniu. Aby rozwiązać zadanie 11, uczeń musi posiadać dodatkową umiejętność wykorzystania i interpretowania reprezentacji. W przypadku obu zadań wydaje się, że zakres wyspecyfikowanych umiejętności jest zbyt wąski, dlatego parametry zgadywania są tak wysokie. Parametry pomyłki są zdecydowanie niższe niż parametry pomyłki. Tylko w dwóch przypadkach przekraczają wartość 0,4, a w czterech: 0,3 (dla zadań 4, 14, 16, 22). Wysokie parametry pomyłki mogą oznaczać, że umiejętności przypisane zadaniom faktycznie nie są potrzebne do udzielenia poprawnej odpowiedzi lub charakter zadania (rozkład dystraktorów, sformułowanie pytania) są nieadekwatne. Rozstrzygnięcie pozostawiamy czytelnikowi. Parametr dyskryminacji zależy bezpośrednio od parametru zgadywania i pomyłki, nie dziwi zatem niska moc dyskryminacyjna zadań: 11, 5, 16 i 6. Charakterystyki zadań sugerują, że model odznacza się średnim dopasowaniem do danych (warto zaznaczyć, że statystyki RMSEA dla poszczególnych zdań nie są bardzo wysokie i sugerują przynajmniej dostateczne dopasowanie modelu do danych), dlatego pozostałe konkluzje wynikające z modelu należy przyjmować ostrożnie. Do tej pory omówiliśmy parametry podobne (do pewnego stopnia) do parametrów jednowymiarowych modeli IRT i KTT. Innymi słowy, uzyskaliśmy informacje na temat psychometrycznych właściwości wykorzystanych w pomiarze zadań. Za pomocą modelu DINA można jednak uzyskać znacznie więcej. Pierwszym przykładem niezwykle ważnej informacji, z punktu widzenia diagnozy, jest estymowany w populacji odsetek uczniów, którzy posiedli wyszczególnione w podstawie programowej umiejętności. W Tabeli 19.4 zostały przedstawione szacunki. Około 2/3 uczniów potrafi wykorzystywać i tworzyć informacje. Jeżeli chodzi o pozostałe umiejętności, to każdą z nich opanowała tylko około 1/3 uczniów. 373

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Rysunek 19.2. Zadania 6 i 11 z części matematycznej egzaminu gimnazjalnego przeprowadzonego w 2012 roku. Źródło: arkusz egzaminacyjny (CKE, 2012). 374

Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu Tabela 19.4. Szacowany odsetek uczniów posiadających daną umiejętność według wymagań ogólnych podstawy programowej. Umiejętności Odsetek uczniów posiadających daną umiejętność Wykorzystanie i tworzenie informacji 66,3 Wykorzystanie i interpretowanie reprezentacji 35,5 Modelowanie matematyczne 35,7 Użycie i tworzenie strategii 31,5 Rozumowanie i argumentacja 38,3 Prezentowany model diagnostyczny pozwala również szacować, jakie profile umiejętności uwidaczniają się w badanej sytuacji. Wyniki te przedstawiono na Rysunku 19.3: około 30% uczniów nie posiadło żadnej z wyszczególnionych umiejętności. Niespełna 30% posiada wszystkie umiejętności ogólne, wymienione w podstawie programowej. Około 25% uczniów posiada jedynie umiejętność wykorzystywania i tworzenia informacji. Pozostałe profile pojawiają się dużo rzadziej. Prawdopodobieństwo przynależności do danej klasy umiejętności Rysunek 19.3. Model DINA: estymowane profile umiejętności według macierzy Q, skonstruowanej na podstawie kategoryzacji opartej na wymaganiach ogólnych podstawy programowej. 375

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Kolejnych ważnych informacji dostarcza macierz korelacji między umiejętnościami. Wynika z niej wyraźnie, że umiejętności są ze sobą silnie powiązane. Słabiej związana z innymi jest umiejętność wykorzystywania i tworzenia informacji. Może to stanowić wskazówkę dydaktyczną dla osób tworzących program pracy z uczniami i dla nauczycieli. Ciekawa jest również najniższa korelacja, którą znajdujemy w macierzy, wynosząca 0,74. Jest to korelacja między wykorzystaniem i tworzeniem informacji a modelowaniem matematycznym. Wydaje się, że taki wynik ma uzasadnienie teoretyczne. Tabela 19.5. Korelacje między umiejętnościami według macierzy Q, skonstruowane na podstawie kategoryzacji opartej na wymaganiach ogólnych podstawy programowej. Wymaganie ogólne podstawy programowej (1) (2) (3) (4) (5) (1) 1 0,85 0,74 0,82 0,85 (2) 0,85 1 0,98 0,99 0,96 (3) 0,74 0,98 1 0,98 0,95 (4) 0,82 0,99 0,98 1 0,97 (5) 0,85 0,96 0,95 0,97 1 Najciekawsze informacje z modelu DINA otrzymujemy dla poszczególnych uczniów. Nie jest to jedna liczba, tak jak w przypadku pomiaru różnicującego, ale zestaw informacji, który może okazać się ważny z dydaktycznego punktu widzenia. Dwa przykłady takich informacji zostały przedstawione na kolejnych wykresach, określających prawdopodobieństwo opanowania poszczególnych umiejętności (Rysunek 19.4). Rysunek 19.4. Prawdopodobieństwo opanowania poszczególnych umiejętności dla dwóch przykładowych wzorów odpowiedzi (identyfikujących jednoznacznie uczniów). Model DINA według macierzy Q, skonstruowanej na podstawie kategoryzacji opartej na wymaganiach ogólnych podstawy programowej. 376

Zastosowanie modelu DINA do analizy zadań matematycznych z egzaminu Zakłada się tutaj, że prawdopodobieństwo na poziomie 0,4 i niższe wskazuje na niepanowanie przez ucznia danej umiejętności. Prawdopodobieństwo powyżej 0,6 oznacza, że uczeń opanował umiejętność, zaś obszar między 0,4 a 0,6 pozostaje obszarem niepewności. W przykładzie pierwszym widać, że uczeń nie posiadł umiejętności modelowania matematycznego (3) oraz użycia i tworzenia strategii (4). Natomiast uczeń, którego wyniki przedstawiono w drugim panelu, posiadł wszystkie umiejętności określone w podstawie programowej. Wynik niesie stosunkowo dużo informacji, które można wykorzystać między innymi do dalszego diagnozowania umiejętności ucznia, a także do indywidualizacji toku kształcenia. Podobny zestaw informacji można uzyskać dzięki modelowaniu IRT (wielowymiarowemu lub jednowymiarowemu), które ukierunkowane będzie diagnostycznie. W takiej sytuacji prawdopodobieństwo może zostać zastąpione poziomem umiejętności mierzonym na skali logitowej, a próg informujący o tym czy uczeń posiadł daną umiejętność, czy nie może zostać wyznaczony na podstawie procedury ustalania standardów (standard setting). Istnieje jednak kilka ważnych zalet przedstawionego modelu (abstrahując od tego, które założenia dotyczące umiejętności określone w modelach są prawdziwe). Okazuje się, że model DINA uzyskuje znacząco wyższą rzetelność od modeli IRT (odsetek dobrze zakwalifikowanych uczniów) nawet przy mniejszej liczbie zadań (Rupp i in., 2010). Problem szacowania progu umiejętności w tym modelu w zasadzie nie istnieje, ponieważ jest wmontowany w parametryzację modelu, podczas gdy dla modeli IRT musi być każdorazowo szacowany przez ekspertów. Ponadto interpretacja wyników modelu, przedstawiona głównie za pomocą wartości procentowych, jest dużo łatwiejsza od interpretowania wyników na skali logitowej. 19.3. Podsumowanie Podejście diagnostycznie wraz z wykorzystaniem odpowiednich modeli może być źródłem niezwykle ważnych, z punktu widzenia edukacji, informacji. Zarówno na poziomie całej populacji, jak i konkretnych uczniów. Modele te stanowią ciekawą alternatywę dla szeroko stosowanych modeli IRT. Należy jednak podkreślić, że w pewnych sytuacjach stosowanie modeli IRT jest bardziej uzasadnione, w innych modele diagnostyczne wydają się bardziej odpowiednim wyborem. Stosowanie modeli diagnostycznych wiąże się z kilkoma ograniczeniami, które uniemożliwiają im zdobycie odpowiedniej pozycji w pomiarze edukacyjnym i diagnostyce. Podstawowy problem w zastosowaniu przedstawionych narzędzi polega na trudności konstrukcji narzędzia pomiarowego, dopasowanego do potrzeb diagnozy i współgrającego z możliwościami, jakie daje nam modelowanie statystyczne. Konstrukcja dobrego narzędzia statystycznego wymaga współpracy specjalistów przedmiotowych, wyszkolonych w dziedzinie pomiaru edukacyjnego, ze specjalistami posiadającymi odpowiednią wiedzę z zakresu psychometrii. Konstrukcja instrumentu pomiarowego wymaga pogłębionej wiedzy na temat konstruktów, które chce się mierzyć, ograniczeń modeli statystycznych i narzędzi pomiarowych, za pomocą których chce się dokonać pomiaru. Specyfikacja macierzy Q, wybór reguły kondensacyjnej 377

Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii określającej, w jaki sposób relacje między umiejętnościami wpływają na prawdopodobieństwo udzielenia poprawnej odpowiedzi czy decyzja, z jakim charakterem zmiennej ukrytej (ciągłym czy dyskretnym) mamy do czynienia, nie są nigdy decyzjami banalnymi. Dodatkowo, modele diagnostycznie nie mają w pełni opracowanego zaplecza statystycznego. Chodzi tutaj przede wszystkim o miary dopasowania modeli oraz statystyki, które ułatwiałyby pracę nad konstrukcją macierzy Q (por. Wilhelm i Robitzsch, 2009). Pomimo tego praca nad rozwojem narzędzi diagnostycznych, wykorzystujących modele zmiennych ukrytych (zwłaszcza modele CDM), może być inwestycją, która przyniesie wiele korzyści nie tylko metodologii pomiaru edukacyjnego i diagnostycznego, lecz także całemu systemowi edukacji. Literatura Centralna Komisja Egzaminacyjna (2012). Osiągnięcia uczniów kończących gimnazjum w roku 2012. Warszawa: Centralna Komisja Egzaminacyjna. Haertel, E. H. (1989). Using restricted latent class models to map the skill structure of achievement items. Journal of Educational Measurement, 26(4), 301 321. Ministerstwo Edukacji Narodowej (2008), Podstawa programowa kształcenia ogólnego dla gimnazjów i szkół ponadgimnazjalnych. Pobrano z http://www.bip.men.gov.pl/men_bip/akty_prawne/ rozporzadzenie_20081223_zal_4.pdf Rozporządzenie Ministra Edukacji Narodowej z dnia 23 grudnia 2008 r. w sprawie podstawy programowej wychowania przedszkolnego oraz kształcenia ogólnego w poszczególnych typach szkół ( Dz.U. 2009, Nr 4, poz. 17). Rozporządzenie Ministra Edukacji Narodowej z dnia 27 sierpnia 2012 r. w sprawie podstawy programowej wychowania przedszkolnego oraz kształcenia ogólnego w poszczególnych typach szkół (Dz.U., poz. 977). Rupp, A. A., Templin, J. i Henson, R. A. (2010). Diagnostic measurement: theory, methods, and applications. Guilford Press. Torre, J., de la i Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69(3), 333 353. Wilhelm, O. i Robitzsch, A. (2009). Have cognitive diagnostic models delivered their goods? Some substantial and methodological concerns. Measurement: interdisciplinary research and perspectives, 7(1), 53 57. 378