Skalowanie wyników egzaminacyjnych przygotował Tomasz Żółtak Jesienna Szkoła EWD, Warszawa 7..23
Plan prezentacji. Kłopoty z wynikami surowymi. 2. Proste rozwiązania normalizacja i standaryzacja. 3. Co psychometria mówi nam o egzaminach? 4. Wprowadzenie do IRT. 5. Model skalowania wyników matury.
Kłopoty z wynikami surowymi
Problem z wynikami surowymi brak porównywalności wyniki surowe suma punktów, lub odsetek uzyskanych punktów
Problem z wynikami surowymi brak porównywalności skala wyników surowych skale standardowe (znormalizowane) łatwość wyliczenia wyniku V X porównywanie wyników między latami ma sens X V łatwość interpretacji X V Egzamin wyniki surowe Egzamin 2 Egzamin 3
Problem z wynikami surowymi brak porównywalności skala wyników surowych skale standardowe (znormalizowane) łatwość wyliczenia wyniku V X porównywanie wyników między latami ma sens X V łatwość interpretacji X V Egzamin wyniki surowe wyniki na skali standardowej Egzamin 2 Egzamin 3
Normalizacja i standaryzacja wyników
Rozkłady wyników surowych
Rozkłady wyników znormalizowanych (skala ;5)
Procedura normalizacji (do skali ;5) U(X=xi) wynik znormalizowany dla wyniku surowego równego xi; Φ funkcja odwrotna do dystrybuanty rozkładu normalnego standaryzowanego; N(X xi) liczba zdających z wynikiem niższym niż xi; N(X = xi) liczba zdających z wynikiem surowym równym xi; n liczba zdających
Interpretacja wyników na skali ;5 Skala ;5 pozwala łatwo interpretować wynik ucznia w kategoriach tego, na ile lepiej lub gorzej napisał on egzamin, w porównaniu do innych zdających w danym roku. Skala ;5 jest pod tym względem podobna do skali staninowej, ale pozwala określić wynik ucznia z dużo większą dokładnością. stanin wyniki na skali ;5 2 3 4 5 6 7 8 od 73,75 8,25 88,75 do 73,75 8,25 88,75 96,25 3,75,25 8,75 26,25 96,25 3,75,25 8,75 26,25 Skala ;5 jest też ściśle powiązana ze skalą centylową, aczkolwiek zależność ta jest nieliniowa. 9 Wynik zawsze odpowiada średniemu wynikowi (z danej części egzaminu) wśród zdających egzamin w danym roku. Brani są tu pod uwagę tylko uczniowie szkół dla młodzieży, z wyłączeniem szkół specjalnych, przyszpitalnych, itp.
Relacje pomiędzy pięcioma skalami standardowymi Autor: dr H. Szaleniec
centyle Związki pomiędzy wynikami surowymi, centylami i wynikami na skali ;5 przykład: część humanistyczna egz. gimn. 2 wyniki na skali ;5 ten wykres zawsze wygląda tak samo te wykresy co roku mogą wyglądać inaczej centyle wyniki surowe
Pułapki skali ;5 egzamin gimnazjalny Wyliczenie wyników z danej części egzaminu gimnazjalnego na podstawie wyników składających się na nią testów jest proste w przypadku skali wyników surowych: wynik hum.surowy= wynik pol.surowy + wynik hist.wossurowy wynik mat.przyr.surowy= wynik mat.surowy + wynik przyr.surowy Podobnej operacji nie można przeprowadzić w odniesieniu do wyników wyrażonych na skali ;5! (podobnie jak np. w odniesieniu do centyli) wynik hum.;5 wynik pol.;5 + wynik hist.wos;5 wynik hum.;5 średnia(wynik pol.;5, wynik hist.wos;5) wynik mat.przyr.;5 wynik mat. ;5 + wynik przyr.;5 wynik mat.przyr.;5 średnia(wynik mat. ;5 + wynik przyr.;5)
Pułapki skali ;5 egzamin gimnazjalny Zależność pomiędzy znormalizowanymi wynikami testów tworzących daną część egzaminu gimnazjalnego i znormalizowanym wynikiem z tej części jako całości wynika z łącznego rozkładu wyników tych dwóch testów, jest złożona i nie daje się łatwo opisać. Np. uczeń X: wynik pol.;5= 32, wynik pol.surowy =3 wynik hist.wos;5= 32,7 wynik hist.wossurowy=32 wynik hum.;5=? Np. uczeń Y: wynik mat.;5= 9,3 wynik mat.surowy=9 wynik przyr.;5= 9, wynik przyr.surowy= wynik mat.przyr.;5=?
Pułapki skali ;5 egzamin gimnazjalny Zależność pomiędzy znormalizowanymi wynikami testów tworzących daną część egzaminu gimnazjalnego i znormalizowanym wynikiem z tej części jako całości wynika z łącznego rozkładu wyników tych dwóch testów, jest złożona i nie daje się łatwo opisać. Np. uczeń X: wynik pol.;5= 32, wynik pol.surowy =3 wynik hist.wos;5= 32,7 wynik hist.wossurowy=32 wynik hum.;5= 36,9 Np. uczeń Y: wynik mat.;5= 9,3 wynik mat.surowy=9 wynik przyr.;5= 9, wynik przyr.surowy= wynik mat.przyr.;5= 9,
Związki pomiędzy wynikami części egz. gimn. 22 a wynikami testów, z jakich się składają
Co psychometria mówi nam o egzaminach?
Ważne pytania. Co obrazuje łączny wynik egzaminu? Stopień (procent?) opanowania podstawy programowej? Czy na jego podstawie można powiedzieć, jakie zagadnienia uczeń opanował a jakich nie? 2. Czy test mierzy opanowanie tylko tych umiejętności (znajomość tych zagadnień), których dotyczyły zawarte w nim zadania? Czy można założyć, że uczeń, który poradził sobie z trudnymi zagadnieniami, które znalazły się w teście, poradził by sobie również z łatwymi zagadnieniami, które nie znalazły się w teście? 3. Co wspólnego mają ze sobą różne zadania, które znalazły się w tej samej części egzaminu?
Podstawowe założenia psychometrii. Skąd wiadomo, że zadanie mierzy to, co zakładamy, że mierzy? Zachodzą zależności statystyczne pomiędzy odpowiedzią na to zadanie, a odpowiedziami na inne zadania, co do których zakładamy, że mierzą to samo. Jeśli mamy tylko jedno zadanie z danej dziedziny, to nie mamy szansy użyć psychometrii, żeby odpowiedzieć na to pytanie. 2. Egzamin (test) jako hipoteza: Czy zakładana struktura egzaminu (co mierzą zadania) znajduje potwierdzenie w wynikach? Czy można założyć, że egzamin jako całość mierzy jedną, ogólniejszą umiejętność?
Modele psychometryczne Istnieje wiele różnych rodzajów modeli psychometrycznych, które przyjmują różne założenia odnośnie struktury testu (badanych umiejętności). Są to między innymi: Modele jednowymiarowe zakładające, że badana cecha (ogólna umiejętność) jest ciągła np. KTT, jednowymiarowe modele IRT. Modele wielowymiarowe zakładające, że badane cechy (ogólne umiejętności) są ciągłe, np. wielowymiarowe modele IRT. Modele wielowymiarowe zakładające, że badanych jest wiele umiejętności, które mają charakter dychotomiczny (umienie umie), np. modele CDM (Cognitive Diagnostic Models).
Modele psychometryczne Istnieje wiele różnych rodzajów modeli psychometrycznych, które przyjmują różne założenia odnośnie struktury testu (badanych umiejętności). Są to między innymi: Modele jednowymiarowe zakładające, że badana cecha (ogólna umiejętność) jest ciągła np. KTT, jednowymiarowe modele IRT. Modele wielowymiarowe zakładające, że badane cechy (ogólne umiejętności) są ciągłe, np. wielowymiarowe modele IRT. Modele wielowymiarowe zakładające, że badanych jest wiele umiejętności, które mają charakter dychotomiczny (umienie umie), np. modele CDM (Cognitive Diagnostic Models).
KTT a IRT KTT (Klasyczna Teoria Testu) IRT (Teoria Wyniku Zadania) Ocena jakości zadań i testu jako całości V V Skalowanie wyników testu (przedstawienie wyników na skali interwałowej) X V Zrównywanie testów (przedstawienie na jednej skali wyników osób, które rozwiązywały częściowo różne zestawy zadań) X V
Wprowadzenie do IRT
Jak wynik ucznia z danego zadania zależy od jego umiejętności?
Jak wynik ucznia z danego zadania zależy od jego umiejętności? Model deterministyczny (to nie jest IRT!): każde zadanie ma trudność, działającą jako próg; uczniowie o umiejętnościach poniżej progu rozwiązują zadanie niepoprawnie; uczniowie o umiejętnościach powyżej progu rozwiązują zadanie poprawnie;
Jak wynik ucznia z danego zadania zależy od jego umiejętności? Model Rascha: exp(θ j βi ) P (Y ij= Θ j )= + exp(θ j βi ) Prawdopodobieństwa udzielenia poprawnej odpowiedzi przez ucznia o poziomie umiejętności Θ= na pytania o trudności: βi=2 jest równe,95; βi= jest równe,73; βi= 2 jest równe,27. Trudność pytania to poziom umiejętności, dla którego prawd. poprawnej odpowiedzi jest równe,5.
Jak wynik ucznia z danego zadania zależy od jego umiejętności? Model 2PL: exp(a i (Θ j βi )) P (Y ij= Θ j )= + exp(a i (Θ j βi )) Wartość parametru dyskryminacji (ai) wpływa na nachylenie krzywej charakterystycznej zadania. Im wyższa dyskryminacja, tym bardziej odpowiedź na dane pytanie związana z mierzoną cechą. Trudność pytania (βi) przesuwa krzywą charakterystyczną w poziomie. Krzywe mogą się przecinać.
Jak wynik ucznia z danego zadania zależy od jego umiejętności? Model 3PL: exp(a i (Θ j βi )) P (Y ij= Θ j )=c i + ( c i ) + exp(a i (Θ j βi )) Wartość parametru zgadywania (ci) podnosi poziom, do którego zbiega krzywa charakterystyczna zadania dla bardzo niskich umiejętności. Występowanie zgadywania zmniejsza ilość informacji, jaką niesie wynik zadania o badanej cesze.
Przewidywany poziom umiejętności ucznia Poziom umiejętności przewidywany dla ucznia na podstawie punktacji, jaką uzyskał on z testu zależy od własności pomiarowych (jakości) zadań, które uczeń rozwiązał poprawnie: Liczby zadań, które rozwiązał poprawnie w modelu Rascha. Parametrów dyskryminacji zadań, które rozwiązał poprawnie w modelu 2PL. Parametrów dyskryminacji i zgadywania zadań, które rozwiązał poprawnie w modelu 3PL. Przewidywany poziom umiejętności nie zależy od trudności zadań, które uczeń rozwiązał poprawnie (jeśli tylko wszyscy zdający rozwiązywali ten sam zestaw zadań).
Przewidywany poziom umiejętności ucznia Przewidywany poziom umiejętności nie zależy od trudności zadań, które uczeń rozwiązał poprawnie (jeśli tylko wszyscy zdający rozwiązywali ten sam zestaw zadań). Od tego, czy uczeń rozwiązał poprawnie zadania łatwiejsze czy trudniejsze zależy jednak błąd standardowy jego przewidywanego poziomu umiejętności. Jeśli uczeń ma dziwny profil odpowiedzi rozwiązał poprawnie zadania trudniejsze, a niepoprawnie łatwiejsze (lub odwrotnie), będzie miał wyższą wartość błędy standardowego przewidywanego poziomu umiejętności.
Model Rascha wady i zalety Zalety: Elegancki formalnie, nieproblematyczny w interpretacji. Zadania jednoznacznie uszeregowane ze względu na trudność. Każde zadanie ma taki sam wkład w przewidywany poziom umiejętności uczniów (pozwala odwzorować w przewidywaniach umiejętności uczniów założone proporcje treściowe/dziedzinowe). Relatywnie łatwy w estymacji (mała liczba parametrów). Wady: Trudno ułożyć test, zwłaszcza o szerokim zakresie treściowym, który będzie dobrze pasował do założeń modelu Rascha. Mało użyteczny na etapie badań pilotażowych (oceny jakości zadań).
Model 3PL wady i zalety Zalety: Pozwala modelować zgadywanie czynnik, który wydaje się ważnym problemem w testach badających wiedzę i umiejętności. Bardzo użyteczny w badaniach pilotażowych daje dużo informacji o sposobie funkcjonowania zadania. Wady: Trudny w estymacji (duża liczba parametrów). W przypadku łatwych zadań trudności z wiarygodnym oszacowaniem wartości parametrów zgadywania. Możliwość występowania znacznych różnic we wkładzie poszczególnych zadań w przewidywane umiejętności uczniów. Jeśli.pytania dotyczące jakichś dziedzin będą miały gorsze własności pomiarowe, dziedzina ta będzie niedoreprezentowana w uzyskanych przewidywaniach umiejętności uczniów.
Model 2PL wady i zalety Zalety: Nie sprawia większych trudności w estymacji. Zdecydowana większość egzaminów w zadowalający sposób spełnia jego założenia. Nawet jeśli występuje zgadywanie, oszacowania poziomu umiejętności uczniów z modelu 2PL są bardzo zbliżone do tych, jakie uzyskałoby się stosując model 3PL Ale już oszacowania błędów standardowych z obu modeli będą wyraźnie się różnić. Wady: Możliwość występowania znacznych różnic we wkładzie poszczególnych zadań w przewidywane umiejętności uczniów. Jeśli.pytania dotyczące jakichś dziedzin będą miały gorsze własności pomiarowe, dziedzina ta będzie niedoreprezentowana w uzyskanych przewidywaniach umiejętności uczniów.
Modele dla zadań o szerszych skalach punktowych Model (Rasch) Partial Credit: exp(θ j (βi + ϕik )) P (Y ijk = Θ j )= + exp(θ j (βi + ϕik )) Np. dla zadania 2: Czarna krzywa prawdopodobieństwo uzyskania pkt. Zielona krzywa prawdopodobieństwo uzyskania pkt. Czerwona krzywa prawdopodobieństwo uzyskania 2 pkt.
Model skalowania wyników matury
EWD a egzamin maturalny podstawowe problemy Rozdrobnienie duża liczba i różnorodność egzaminów. Wybór egzaminów zdawanych na maturze.
EWD a egzamin maturalny podstawowe problemy Rozdrobnienie duża liczba i różnorodność egzaminów. Wykorzystanie złożonych wskaźników wyników egzaminacyjnych, wyliczanych z użyciem metodologii IRT. Wybór egzaminów zdawanych na maturze. Uwzględnienie przy wyliczaniu wskaźników wyników egzaminacyjnych parametrów selekcji.
Założenia dotyczące modelowania wskaźnika złożonego Zakładamy, że istnieją nieobserwowalne zmienne ( cechy ukryte ) odpowiadające za biegłość w danej dziedzinie wiedzy. Musimy założyć, że istnieje hierarchiczna struktura umiejętności. Założenie to ma odzwierciedlenie w społecznej świadomości (stereotypy). Jest potwierdzone instytucjonalne (klasy profilowane, kierunki na uczelniach). Jest udokumentowane w badaniach. Biologia Ogólne Matematycznoprzyrodnicze Matematyka Humanistyczne Historia Język ojczy sty
Wykorzystywane wskaźniki wyników egzaminacyjnych Wyskalowane wyniki matury: W zakresie języka polskiego (poziom podst. i rozsz.). W zakresie matematyki (poziom podst. i rozsz.). W zakresie przedmiotów humanistycznych (wszystkie przedmioty na poziomie podst. i rozsz.): j. polski, historia, WOS. W zakresie przedmiotów matematycznoprzyrodniczych (wszystkie przedmioty na poziomie podst. i rozsz.): biologia, chemia, fizyka, geografia, informatyka, matematyka.
Problem konstrukcji wskaźnika złożonego matematyka uczeń Zad_ Zad_2 Zad_3 Zad_4 2 3 4 biologia ( ) Informatyka Zad_ Zad_2 Zad_3 Zad_4 5 6 7 8 ( ) ( ) Wynik ogólny Zad_ Zad_2 Zad_3 Zad_4????????
Model IRT 2PL/GPCM proces skalowania exp( ai (θ n ( β i + δ k ))) Pik (θ n ) = + exp( ai (θ n ( β ik + δ k ))) Zad 3 Zad 4 Zad 5 Zad 6 Zad 7 Zad 8 Zad 9 2 2 3.6 Zad 2.2.4 Zad Id Prawdopodobieństwo.8. Model 2PL. Zadanie a Zadanie b Zadanie c 4 3 3 4 5 2 6 2 2 4 2 7 2 4 8 2 3 2 2 Umiejętność (cecha ukryta) 4
Parametry selekcji: przedmioty humanistyczne poiom rozszerzony poziom podstawowy.5 hist pol wos parametr selekcji.5 Parametry selekcji pokazują, jak silnie wybór zdawania danego przedmiotu na danym poziomie jest skorelowany z poziomem umiejętności uczniów im większa wartość parametru tym zależność jest silniejsza (do arkusza częściej podchodzą uczniowie mocni a rzadziej słabi). Pozwala to przy przewidywaniu poziomu umiejętności uczniów wziąć poprawkę na to, że arkusz, do którego nie podchodzili słabi uczniowie wydaje się łatwiejszy, a arkusz do którego nie podchodzili uczniowie mocniejsi, wydaje się trudniejszy. Arkusze na poziomie rozszerzonym mają wyższe wartości parametrów selekcji, niż arkusze na poziomie podstawowym.
Parametry selekcji: przedmioty matematycznoprzyrodnicze poiom rozszerzony poziom podstawowy 2.5.5.5 biol chem fiz geo inf mat parametr selekcji 2 Parametry selekcji pokazują, jak silnie wybór zdawania danego przedmiotu na danym poziomie jest skorelowany z poziomem umiejętności uczniów im większa wartość parametru tym zależność jest silniejsza (do arkusza częściej podchodzą uczniowie mocni a rzadziej słabi). Pozwala to przy przewidywaniu poziomu umiejętności uczniów wziąć poprawkę na to, że arkusz, do którego nie podchodzili słabi uczniowie wydaje się łatwiejszy, a arkusz do którego nie podchodzili uczniowie mocniejsi, wydaje się trudniejszy. Arkusze na poziomie rozszerzonym mają wyższe wartości parametrów selekcji, niż arkusze na poziomie podstawowym.
Co jest brane pod uwagę przy wyliczaniu wyskalowanego wyniku ucznia? Własności pomiarowe zadań: Przy wyliczaniu wyskalowanego wyniku ucznia przykładamy większą wagę do zadań o wysokiej dyskryminacji. Uznajemy, że dobre rozwiązanie zadania o dobrych własnościach pomiarowych jest lepszym świadectwem wysokiego poziomu umiejętności. W przypadku języka polskiego skutkuje to w praktyce przykładaniem niższej wagi do wyników wypracowania, gdyż oceny wypracowania co do zasady okazują się mieć wyraźnie niższą dyskryminację niż zadania z czytania ze zrozumieniem. Może to skutkować wyraźnymi różnicami w stosunku do surowych wyników jeśli uczeń napisał wypracowanie wyraźnie gorzej niż test, albo odwrotnie. W przypadku innych przedmiotów brak tego rodzaju systematycznych zależności. Trudność arkuszy, które rozwiązywał uczeń: Trudność arkuszy ustalana jest przy uwzględnieniu, że niektóre z nich rozwiązywali ogólnie rzecz biorąc mocniejsi, a inne słabsi uczniowie. Jeśli uczeń rozwiązuje trudniejszy arkusz oczekujemy od niego niższego wyniku. Uczniowie nie są karani za podejście do trudniejszego przedmiotu (jeśli piszą go na miarę swoich możliwości).
Czy duża liczba zdających PR zaniża wyniki? Przykład empiryczny matura z matematyki z 2 r. poziom podstawowy obowiązkowy dla wszystkich na podstawie jego wyników można ocenić średni poziom umiejętności wszystkich zdających maturę w danej szkole; wybrano pięć grup szkół w ramach każdej grupy szkoły są niemal identyczne ze względu na średnie wyniki (surowe) matury z matematyki na poziomie podstawowym (różnice <,3 pkt.); śr. wysk. wyników matury w zakresie matematyki W ramach grup (a więc przy kontroli wyników z poziomu podstawowego) odsetek uczniów wybierających zdawanie egzaminu na poziomie rozszerzonym nie ma znaczenia dla średniej wyskalowanych wyników szkoły. 3 2 śr. PP(3,84,) śr. PP(7,77,8) śr. PP(3,43,5) śr. PP(42,842,9) śr. PP(45,846,) 9 8 7.2.4.6.8 odsetek zdających matematykę na poziomie rozszerzonym
Instytut Badań Edukacyjnych ul. Górczewska 8, 8 Warszawa tel.: (22) 24 7, email: ewd@ewd.edu.pl