miary jakości zadania testowego ~ mi W ( możliwości

Podobne dokumenty
Latentna moc różnicująca zadań z testów matematycznych dla młodzieży uzdolnionej

Oszacowanie umiejętności teta oraz wyskalowanie osi w metodzie IRT dla potrzeb obliczania parametrów zadań

Zadania rozrywające w testach

ZADANIA ROZRYWAJĄCE W TESTACH. 1. Co to jest zadanie rozrywające?

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU

Podstawowe definicje statystyczne

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. 5. Analiza jakościowa zadań egzaminacyjnych arkusza poziomu podstawowego i poziomu rozszerzonego Podsumowanie i wnioski...

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

SPRAWDZIAN I EGZAMINY 2013 W SZKOŁACH ARTYSTYCZNYCH. w w o je w ó dztwie śląskim

15. PODSUMOWANIE ZAJĘĆ

I.1.1. Technik elektronik 311[07]

Egzamin maturalny 2012/2013 wnioski do pracy nauczyciela fizyki

Porównywalne między latami wyniki sprawdzianu

I.1.1. Technik mechanik 311[20]

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Spis treści. 5. Analiza jakościowa zadań egzaminacyjnych arkusza poziomu podstawowego i poziomu rozszerzonego Podsumowanie i wnioski...

Egzamin maturalny 2012/2013 wnioski do pracy nauczyciela chemii

10. Podstawowe wskaźniki psychometryczne

Spis treści. 5. Analiza jakościowa zadań egzaminacyjnych arkusza poziomu podstawowego i poziomu rozszerzonego Podsumowanie i wnioski...

Technik informatyk 312[01]

Porównywalne między latami wyniki egzaminacyjne

I.1.1. Technik informatyk 312[01]

Analiza wyników egzaminu gimnazjalnego 2015

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Trafność testów egzaminacyjnych. Artur Pokropek, Tomasz Żółtak IFiS PAN

Wprowadzenie do analizy korelacji i regresji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

166 Wstęp do statystyki matematycznej

I.1.1. Technik logistyk 342[04]

III. STRUKTURA I FORMA EGZAMINU

SCENARIUSZ LEKCJI: TEMAT LEKCJI: Postać kanoniczna funkcji kwadratowej. Interpretacja danych w arkuszu kalkulacyjnym

I.1.1. Technik usług kosmetycznych 514[03]

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ćwiczenia 30 zaliczenie z oceną

Raport z wyników sprawdzianu szóstoklasistów w SP Nr 40 kwiecień 2015

STATYSTYKA MATEMATYCZNA

Analiza sprawdzianu 2011 klas szóstych szkoły podstawowej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SCENARIUSZ LEKCJI. Wielomiany komputerowe wykresy funkcji wielomianowych

PRÓBNY SPRAWDZIAN SZÓSTOKLASISTY Z OPERONEM

Struktura i forma pisemnego egzaminu maturalnego z języka angielskiego dla osób niesłyszących... 3 Opis arkuszy egzaminacyjnych...

OKRĘGOWA KOMISJA EGZAMINACYJNA W GDAŃSKU WYDZIAŁ BADAŃ I ANALIZ STOPNIEŃ OPANOWANIA UMIEJĘTNOŚCI BADANYCH NA SPRAWDZIANIE W 2005 ROKU

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

POLITECHNIKA OPOLSKA

Analiza wyników egzaminu maturalnego z matematyki przeprowadzonego na terenie działania OKE w Gdańsku sesja wiosenna 2005 r.

SCENARIUSZ LEKCJI MATEMATYKI, FIZYKI LUB BIOLOGII Z WYKORZYSTANIEM FILMU ROZKŁAD NORMALNY.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Analiza sprawdzianu 2010 klas szóstych szkoły podstawowej

Analiza wyników egzaminu maturalnego z matematyki na poziomowe podstawowym

I.1.1. Asystent osoby niepełnosprawnej 346[02]

Wykorzystanie danych egzaminacyjnych w ewaluacji szkół. materiały Pracowni EWD

WYKŁAD 8 ANALIZA REGRESJI

(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel)

I.1.1. Technik drogownictwa 311[45]

I.1.1. Opiekunka środowiskowa 346[03]

Sterowanie wielkością zamówienia w Excelu - cz. 3

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

EGZAMIN GIMNAZJALNY 2012 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

Zadania rozrywające w testach na przykładzie zadań maturalnych z matematyki

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

CZY UCZNIOWIE POWINNI OBAWIAĆ SIĘ NOWEGO SPOSOBU OCENIANIA PRAC EGZAMINACYJNYCH?

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

1. DANE STATYSTYCZNE O UCZNIACH ROZWIĄZUJĄCYCH NIESTANDARDOWE ARKUSZE EGZAMINACYJNE... 5

Informatyka wspomaga przedmioty ścisłe w szkole

Porównywalne między latami wyniki egzaminacyjne

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

I.1.1. Technik optyk 322[16]

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Technik mechatronik kwalifikacjae18 Analiza egzaminu zewnętrznego - czerwiec 2015

I.1.1. Technik budownictwa 311[04]

I.1.1. Technik obsługi turystycznej 341[05]

Szacowanie błędu pomiaru ze szczególnym uwzględnieniem wyników sprawdzianu w VI klasie szkoły podstawowej w latach

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Białystok, maj Spis treści W W W. C K U B I A L Y S T O K. P L

218 (71%) 259 (92,5%) Tabela 1. Wyniki egzaminu potwierdzającego kwalifikacje zawodowe dla zawodu monter instalacji i urządzeń sanitarnych

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Średni współczynnik łatwości w klasie 0,66 0,73 0,77 0,65 0,75 0,71 0,65

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

METODY STATYSTYCZNE W BIOLOGII

POMIAR DYDAKTYCZNY Z MATEMATYKI

SCENARIUSZ LEKCJI. Miejsca zerowe funkcji kwadratowej i ich graficzna prezentacja

Klasyczny model rzetelności H. Gulliksen (1950) X = T +E

EGZAMIN MATURALNY 2012 INFORMATYKA

I.1.1. Technik elektryk 311[08]

KONKURS INFORMATYCZNY DLA UCZNIÓW GIMNAZJUM ROK SZKOLNY 2002/2003 ETAP REJONOWY

Kognitywistyka II r. Analiza zadań. Rodzaje testów. Teorie inteligencji i sposoby jej pomiaru (3) Testy. istnieje odpowiedź prawidłowa

Metody i narzędzia ewaluacji

Trafność czyli określanie obszaru zastosowania testu

4118 (76,9%) 3538 (85,7%) Tabela 1. Wyniki egzaminu potwierdzającego kwalifikacje zawodowe dla zawodu mechanik pojazdów samochodowych

Zespół Szkół Publicznych w Łasinie. Szkoła Podstawowa. Analiza statystyczna wyników sprawdzianu szóstoklasisty. kwiecień 2013

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

669 (97,5%) 576 (91,4%) Tabela 1. Wyniki egzaminu potwierdzającego kwalifikacje zawodowe dla zawodu fryzjer

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

Transkrypt:

Marek Kryniewski Zespół Szkół Energetycznych w Gdańsku Klasyczne i probabilistyczne miary jakości zadania testowego ~ mi W ( możliwości Omówienie klasycznej teorii testu Zalety klasycznej teorii testu 1. W celu określenia charakterystycznych parametrów testu potrzebna jest stosunkowo niewielka, ale reprezentatywna próba uczniów. 2. Oszacowanie podstawowych parametrów dla zadań i testu, takich jak: łatwość i moc różnicująca nie wymaga zaawansowanego aparatu matematycznego. 3. Model teoretyczny leżący u podstaw szacowania charakterystycznych parametrów dla testu i zadań jest łatwy do przyswojenia przez konstruktorów zadań, jak i osób interpretujących wyniki. Ograniczenia klasycznej teorii testów 1. Podstawowe parametry, takie jak: - moc różnicująca zadań - łatwość całego testu - łatwość poszczególnych zadań zależą bardzo mocno od próby uczniów, którzy brali udział w testowaniu. Rzadko jednak dysponujemy próbą, która by dobrze reprezentowała całą populacją generalną. 2. Ponadto, łatwość zadania, która ma charakter probabilistyczny, jest jednakowa dla całej próby uczniów niezależnie od zdolności uczniów i poziomu opanowania danej umiejętności. 3.Błąd pomiaru oraz estymacji parametrów jest taki sam dla całej badanej populacji. Klasyczne podejście do konstruowania testów Konstruktor egzaminu, kierując się klasyczną teorią testu, powinien zapewnić: - trafność wewnętrzną testu; - wysoki współczynnik rzetelności (od jego wielkości zależy błąd pomiarowy);

92 Marek Kryniewski - odpowiedni współczynnik łatwości zadań i testu dostosowany do rodzaju egzaminu; - wysoką moc różnicującą zadań. Przy takim podejściu do konstruowania egzaminów konstruktor napotykał przeszkody: - brak banku zadań z opisem klasycznych współczynników; - przy korzystaniu z banku zadań z opisem klasycznych współczynników konstruktor musi pamiętać, że łatwość oraz moc różnicująca zależą od populacji uczniów, gdzie przeprowadzony był egzamin; - brak wygodnych narzędzi do symulacji parametrów całego egzaminu. Dlatego konstruktorzy trzymający się klasycznej teorii testu opierali się na planie testu, własnym doświadczeniu oraz intuicji. Omówienie probabilistycznej teorii testu Przyczyny wzrostu zainteresowania probabilistyczną teorią testu w Polsce Obecnie w Polsce teoretycy pomiaru dydaktycznego oraz konstruktorzy testów wykazują coraz większe zainteresowanie probabilistyczną teorią wyniku zadania testowego (Item Response Theory- IRT). Wzrost zainteresowania wiąże się z: - rozwojem technik komputerowych (odpowiednio szyblcie komputery oraz możliwość zakupu specjalistycznego oprogramowania); - dostęp do dużych zbiorów danych tworzonych przez system egzaminów zewnętrznych; - konieczność tworzenia baz danych zadań testowych o określonych parametrach niezależnych od populacji uczniów; bazy te pozwolą na konstruowanie arkuszy egzaminacyjnych o założonych parametrach (dostosowanych do celu egzaminu); - konieczność tworzenia równoległych wersji egzaminów o tych samych parametrach; - ze względów politycznych oraz społecznych konieczne jest również porównywanie wyników egzaminów w kolejnych latach. IRT może być pomocne przy określeniu, czy egzaminy w kolejnych latach były egzaminami równoległymi oraz czy egzaminy miały ten sam stopień trudności? Założenia IRT Probabilistyczna teoria wyniku zadania testowego opiera się na trzech podstawowych założeniach: 1. o wymiarach przestrzeni cechy nioebserwowalnej (latentnej- dimentionality oflatent space). Wszystkie istniejące zależności statystyczne między zadaniami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej (dla testów to: wiedza-umiejętności);

Klasyczne i probabilistyczne miary jakości zadania testowego- nowe możliwości 93 2. o lokalnej niezależności zadań testowych. W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedno zadanie testowe nie zależą od jej odpowiedzi na jakiekolwiek inne zadanie tego testu; 3. o krzywej charakterystycznej zadania testowego {Item Characteristic Curve -ICC). Krzywa ta opisuje związek pomiędzy ukrytą cechą (latentną), np. stanem wiedzy (umiejętności) ucznia, którą chcemy poznać za pośrednictwem wyniku rozwiązania zadania a prawdopodobieństwem prawidłowej odpowiedzi na to zadanie. W teorii IRT poziom wiedzy (umiejętności) opisany jest przez theta 0 (wynik prawdziwy), która ma związek z mierzoną wiedzą (umiejętnością). Prawdopodobieństwo, że egzaminowany udzieli poprawnej odpowiedzi na zadanie, jest opisane przez funkcję P(0). Przyjmuje, że funkcja P(0) jest ciągła, a jej wartości zawierają się w przedziale od -«> do +oo. Ponieważ skala jest najczęściej wyrażana w postaci konwencjonalnych wartości z, to w praktyce wszystkie wyniki mieszczą się w przedziale od-az do +4z. Model trójparametryczny Najlepszym modelem do zastosowania w pomiarze dydaktycznym jest model trójparametryczny. Jest on modelem najogólniejszym, sformułowanym po raz pierwszy przez Bimbauma (1968). W modelu tym przyjmuje się, że prawdopodobieństwo udzielenia odpowiedzi prawidłowej na zadanie testowe zależy od trzech parametrów charakteryzujących zadanie testowe: - trudności zadania testowego parametr a - jego mocy różnicującej parametr b - współczynnika zgadywania parametr c. Funkcję opisującą związek między prawdopodobieństwem P.(0) udzielenia odpowiedzi prawidłowej na i-te zadanie, a poziomem wiedzy (umiejętności) w znormalizowanej skali można przedstawić jako: P,(0) = C, + 1 - C 1 + e- D * a,* ( - b,) i = 1, 2,... n gdzie: n-ilość zadań w teście c.- to współczynnik zgadywania dla i-tego zadania b.-współczynnik trudności dla i-tego zadania a.- to współczynnik mocy różnicującej dla i-tego zadania e- liczba Eulera w przybliżeniu e = 2,718... jest używana jako podstawa logarytmu naturalnego D- stała maksymalizująca dopasowanie krzywej logistycznej do ogiyy rozkładu normalnego; D = 1,7. Najczęściej bowiem, aby rzetelność obliczeń podczas estymacji współczynników a, b, c była zadowalająca, trzeba przetworzyć dane uzyskane z przebadania przynajmniej 1000 osób.

94 Marek Kryniewski Funkcja informacyjna oraz bfąd standardowy pomiaru Funkcja informacyjna podaje rozkład wielkości informacji niesionej przez zadanie dla całego zakresu zmiennej 0. Wykres funkcji informacji 1.(0) zmiennej 0 lub znajomość jej wzoru pozwala na określenie w jakim przedziale zmiennej zadanie niosło najwięcej informacji, czyli w jakim przedziale zmiennej 0 zadanie najlepiej opisywało zasób wiedzy badanych. Dla trójparametrycznego modelu logistycznego Bimbaum w roku 1968 wyprowadził wzór na opisujący funkcję informacji dla pojedynczego zadania. 1,(0) MB 2,89 [o, x a * x (1 - c,) < - *]» Funkcja ta posiadajedno maksimum, któregowartość zmiennej mnx obliczył Bimbaum: 0 m = b + i 7 xa lnt 5 * (1 + V 1 + 8 x c,)] Można zdefiniować funkcję informacyjną dla całego testu jako sumę funkcji informacyjnych dla poszczególnych zadań. Funkcja ta może mieć więcej niż jedno maksimum. Można modelować przebieg tej funkcji w zależności od charakteru testu poprzez dobór zadań składowych o znanych parametrach a, b, c. Znajomość funkcji informacyjnej dla testu pozwala na obliczenie błędu pomiarowego czyli błędu standardowego estymacji wartości 0. Błąd standardowy estymacji jest funkcją zmiennej 0, tak więc nie jest wartością stałą dla wszystkich badanych tale, jak to było w klasycznej teorii testu, ale zmienia się w zależności od 0. Przyjmuje swoje minimum w miejscu maksimum funkcji informacji. i Pożądany przebiegu funkcji informacyjnej w zależności od zastosowania testu Poprzez modelowanie funkcji informacyjnej, czyli odpowiedni dobór zadań wchodzących w skład testu, możemy otrzymać różne przebiegi funkcji informacyjnej. Możliwość otrzymania maksimum funkcji informacyjnej dla określonej wartości 0 stwarza możliwość otrzymania funkcji informacyjnej dostosowanej do charakteru testu.

Klasyczne I probabilistyczne miary jakości zadania testowego- nowe możliwości 95 Rysunek 1. Przebieg funkcji informacyjnej dla testu, którego zadaniem jest diagnoza wiadomości uczniów w zakresie podstawowym, np: test z zakresu podstawowych umiejętności czytania ze zrozumieniem 0-3 -2-1 0 1 2 3 Rysunek 2. Przebieg funkcji informacyjnej dla testu, w którym podany jest punkt odcięcia (zaliczył lub nie), np: egzamin maturalny poziom wiedzy, przy którym uczoń zdaje egzamin -2 0 1 2 0 Rysunek 3. Przebieg funkcji informacyjnej dla testu, w którym podany jest punkt odcięcia, lecz jest on ustawiony dla wysokich wiadomości, np: konkurs przedmiotowy -3-2 -1 0 1 2

96 Marek Kryniewski Można budować funkcję informacyjną posiadającą dwa maksima, np: dla testu, gdzie podane są dwa punkty odcięcia: pierwszy, punkt to-zdał lub nie, i drugi - zdał na poziomie podstawowym lub rozszerzonym. Probabilistyczne podejście do konstruowania testów 1. Korzystamy z banku zadań testowych o znanych parametrach a, b, c. Należy zwrócić uwagę na to, czy zdanie dobrze pasowało do stosowanego modelu. Informacja o dopasowaniu powinna być podana w banku zadań obok parametrów a, b, c. 2. Wybieramy zadania pasujące treściowo do planu testu. 3. Wykonujemy symulację przebiegu funkcji informacyjnej (o przebiegu dostosowanym do zastosowania testu), korzystając np. z arkusza kalkulacyjnego Excel. 4. Obliczamy parametry a, b, c dla całego testu, sprawdzając ich poziom jako dodatkowe kryterium. Nieformalne związki między klasycznymi a probabilistycznymi parametrami opisu zadań testowych Chcąc zastosować probabilistyczne podejście do konstruowania testów, należy zastosować zadania umieszczone w banku zadań testowych o znanych parametrach a, b, c. Dotarcie do takich informacji może być trudne. Zadania opisane klasycznymi parametrami mogą być łatwiejsze do uzyskania. Interesujące jest więc udzielenie, jakie istnieją nieformalne związki między klasycznymi a probabilistycznymi parametrami opisu zadań testowych. Poniżej przedstawione zostało pięć charakterystycznych zadań pochodzących z Rejonowego Konkursu Informatycznego dla Województwa Pomorskiego. Parametry klasyczne zostały obliczone przez program Iteman 3.5, a parametry probabilistyczne przez program Multilog 6.30. Wykresy funkcji charakterystycznych ICC zadań oraz funkcji informacyjnych wykonane zostały z użyciem arkusza kalkulacyjnego Excel. Uwaga: na wykresach funkcji informacyjnej nie zostało zachowane skalowanie osi Y. ZADANIE 2. (błędnie skonstruowane, nie różnicujące, bardzo trudne) Pytanie 2: W programie MS Excel po wpisaniu wyrażenia +B12 A 0,5 A) jest niepoprawne B) spowoduje wyświetlenie wyrażenia jako tekstu C) oznacza pierwiastek z zawartości komórki B12 D) oznacza podniesienie do drugiej potęgi zawartości komórki B12

Klasyczne i probabilistyczne miary jakości zadania testowego- nowe możliwości 97 klasyczne miary oceny miary mocy różnicującej łatwość D 27 punktowo-dwuseryjny ( point biseriafj dwuseryjny (biseriat) 0,17-0,03 0,00 0,00 Rysunek 4. Krzywa charakterystyczna dla zadania 2 a = 0,78 1- c = 0,12 b = 0,49. 0,8 0,6-0,4 0.2. i 7 co w co _ co co w co w co 10 co 7 co in co o to in tn to tn w CM to in in co w tn jo 1 m r "f 7r 1 T T H? o- 3 s ~ - b 3 " Sr S " Rysunek 5. Funkcja informacyjna dla zadania 2 0,4 0,35-0max = 0,35 lmax = 0,37 0,3 0,25 0,2 0,15 0,1 0,05-0 ' t c a i n n n a m n N c o i n n i < Y cp cy < tf cf 1 _ 7 7 o c>i 7?? o 7 ' i o m m : LO o a o to in in N in m «H T- ^ w - 2- rf 3 T- T- JN " Sw n ifl w w co co

98 Marek Kryniewski ZADANIE 3 (bardzo łatwe, słabo różnicujące) Pytanie 3: Której ikony nie usuniesz z pulpitu klawiszem Delete: A) CorelCity B) Kosz C) Micorsoft Outlook D) MS Word klasyczne miary oceny miary mocy różnicującej łatwość D 27 punktowo-dwuseryjny ( point biserialj dwuseryjny (biseriat) 0,96 0,09 0,15 0,35 1,02. Rysunek 6. Krzywa charakterystyczna dla zadania 3 1 a = 5,8 5 b = 0,24 c = 0,9 3 0,96 0,94 0,92 0,9 1,6. 1» 4 0 rrrr r m m r t r T m ^ 7 3 S 7!J 2 7 ^ 8 3 g m io co CM m m w Rysunek 7. Funkcja informacyjna dla zadania 3 r- T- CM OJ w T w cvj r- CO io m in ' d- m - «3 CO co 0max = 0,31 l max = 1,28 1.2 1 0,8 0,6 0,98-0,4-0,2-0 n m m T s s 8 7 3 3 3 V 3 3 3 T 5 3 3 ą $ 3 s ^ a 3 s w 3 s «s 3 s * I I I I I l i l l f T 7 o o o' T-' T- 01 ot co " c o

Klasyczne i probabilistyczne miary jakości zadania testowego- nowe możliwości 99 ZADANIE 9 (umiarkowanie trudne, słabo różnicujące) Pytanie 9: System operacyjny ładowany jest przez: A) dysk twardy B) procedury POST-owe C) użytkownika D) BIOS klasyczne miary oceny. miary mocy różnicującej łatwość D 27 punktowo-dwuseryjny ( point biserial) dwuseryjny (ibiserial) 0,59 0,13 0,13 0,17 0.8 Rysunek 8. Krzywa charakterystyczna dla zadania 9 0.7 0.6, 0.5 J 0.4 0.3 0.2 0.1 0 0.003 a = 0.08 b 6,00 c 0,42 m m m m c o w c o e o c x s i n c o c y c o i n o ^ ~ c T O T O T O 1 C M C M c s f 1 r f r 1 O O S- O o m r j Q t n i r j i n ^ i n i D i n C ' i i n L O i r j r j i n t f J U J ' a- ^ ^ *Ł O J ^ ^ I f f I I I 1 1 1 T T I O O O V- T- O J O l T O TO Rysunek 9. Funkcja informacyjna dla zadania 9 0,0025 0,002 0,0015 0,001 0.0005 0max = 9,19. Imax = 0,00023 m c o i o T O r o c o i n T O o J c o T O T O 0^ ^ ^- e o t n T O o t o i n i n m i n i o o j i n u i t n T O i n t n i o ^ g TO I cp 7 - f tf cf ' T - T - 7 ' f f f g o S g - g g C M-

100 Marek Kryniewski ZADANIE 10 (umiarkowanie trudne, dobrze różnicujące) Pytanie 10: Programy wykonywalne mają rozszerzenia: A) bat exe run B) exe sys com C) bat com exe D) bat ini exe klasyczne miary oceny miary mocy różnicującej łatwość D 27 punktowo-dwuseryjny ( point biseriat) dwuseryjny ( biserial) 0,65 0,55 0,47 0,61 Rysunek TO. Krzywa charakterystyczna dla zadania 10 0,6-0,4-0,2 o «> «ca 7 7 7 7 ^ 7 7 7 ' m n N co io 7 7 co io co o 7 7 7 m m w > * Ł o Ṇ o o o Rysunek 11. n m w Funkcja informacyjna dla zadania 10 f-_ ** oi a = 0,94 b = 0,57 c = 0,01 - l O N i n w i n n i n i f i i o ^ ' H m r~ itf ctf CO CO 0.6 0.5 0.4 0,3 0.2 0,1 Qmax = 0,56 lmax = 0,63 0 n 7 7 i o n n i s i n r t N e o i t ) n 7 a} i n n o t n i n i n r i f l i n w ( M i n i f l i o n i f l i f l i p v 7 7 7 7 7 7 1 7 7 7 ' 7 7 7I 3 & 3-3 3-3 3 " 5

Klasyczne i probabilistyczne miary jakości zadania testowego- nowe możliwości 101 ZADANIE 12 (bardzo trudne, różnicujące) Pytanie 12: Zbiory konieczne do startu systemu z dyskietki systemowe] DOS to: A) autoexec.bat config.sys comrrand.com B) io.sys command.com msdos.sys C) autoexec.bat io.sys config.sys D) msdos.sys autoexec.bat config.sys klasyczne miary oceny miary mocyróżnicującej łatwość D 27 punktowo-dwuseryjny {point biseriat) dwuseryjny { biseriat} 0,19 0,24 0,33 0,48 Rysunek 12. Krzywa charakterystyczna dla zadania 12 i- 0,8-0,6 0,4-0,2- a = 1.86 b 1,58 c 0,11 0 nu MII rnrm rm n rm m rm nmm v o «n n «iq n cji o» w r o in n o a w. jn ^ in 10 to CM tn in in co in ID w 1 n ro CO 1 CM CM CM r - **1 Ṇ (\J Ṇ I r I I I I I I I T T T o p o T- T- C M C M c o c o Rysunek 13. Funkcja informacyjna dla zadania 12 2 0max = 1,63 lmax = 2,15 1,5-1 0 m co m co co co 7 7 7 ' i f l i o N i o i n n ' r a i i n n o i n i n i n fff ' f T 7 f 9 9 3 3 5 i n i n N i n i n i n n u i L O t n o- Ẉ w ^ C M ' co T- T- ^ ^ C M C M C O C O

102 Marek Kryniewski Srane możliwości zastosowania probabilistycznej teorii zadania testowego Analiza zadań wielopunktowych Rysunek 14. Rozkłady prawdopodobieństwa dla części zadania 3b z arkusza I, punktowanego w skali 0-3 z Nowej Matury, maj 2002 ś * I 0,5-10005 Description for Item 5 Location =-2,010 Residua! = 0,322 ChiSqProb = 0,237 1 0 4 3 MB IW N -2 1 0 2 3 4 Person Location (logits) Z wykresu rozkładu prawdopodobieństwa można uzyskać następujące informacje: - przebiegi rozkładu prawdopodobieństwa dla wszystkich punktów w skali wielopunktowej; - progi czyli odcięte punktów przecięcia krzywych rozkładu prawdopodobieństwa. Analiza progów dla zadań wielopunktowych Descrltor for Item 1 Descrltor for Item 2 Descrltor for Item 3 Descrltor for Item 4 Descrltor for Item 5 Descrltor for Item 6 Descrltor for Item 7 Descrltor for Item 8 Descrltor for Item 9 Rysunek 15. Mapa progów dla wybranych 9 zadań z Nowej Matury, maj 2002 xx X X xx xx xx xx 0 I 1 0 I 1 1 I 2 I 3 xx = Reserved thresholds i i i i i i i i i i i i -4-3 -2-1 0 1 2 3 4 5 6 7 i

Klasyczne i probabilistyczne miary jakości zadania testowego- nowe możliwości 103 Mapa progów przedstawia wartości dla wszystkich progów w całym teście (dla wybranych zadań). Podczas prezentacji progów zadań dla niektórych z nich nie są one podawane (są znaki xx), oznacza to, że obliczone progi nie są ustawione w narastającej formie, czyli np: próg między punktem 1 i 2 jest wyżej na skali unormowanej niż próg między punktem 2 i 3. Brak monotoniczności ułożenia progów świadczy o: - niezbyt trafnie skonstruowanym kluczu punktowania, przy zastosowaniu którego egzaminatorzy mają problemy z określeniem granicy między poszczególnymi punktami uzyskiwanymi przez ucznia; - złym przygotowaniu egzaminatorów, braku szkolenia egzaminatorów lub też braku treningu przedegzaminacyjnego. Zestawienie 1. Wartości progów dla wybranych zadań (ITEM THRESHOLDS) z Nowej Matury, maj 2002 ITEM STATEMENT THRESHOLDS Code Statement Mean 1 2 3 10001 Descriptor for Item 1,000 6,372-4,739-1,633 10002 Descriptor for Item 2,000 1,701,966-2,667 10003 Descriptor for Item 3,000,000 10004 Descriptor for Item 4,000,000 10005 Descriptor for Item 5,000-1,928,674 1,255 10006 Descriptor for Item 6,000,258 -,102 -,157 10007 Descriptor for Item 7,000,832 -,832 10008 Descriptor for Item 8,000,086 2,105-2,191 10009 Descriptor for Item 9,000-860 1,113 -,253 Określenie parametrów dla badanej każdej osoby Zestawienie 2. Indywidualne określenie parametrów dla każdej osoby (INDIVIDUAL PERSON-FIT) - fragment z Nowej Matury, maj 2002 ID Total Max Miss Extreme Locn SE Residual DegFree DataPts numer 1 3 22 9-1,598 0,74-0,212 7,7 9 1 2 4 22 9-1,135 0,62 0,070 7,7 9 2 3 3 22 9-1,598 0,74 0,314 7,7 9 3 4 9 22 9-0,065 0,36-0,810 7,7 9 4 77 14 22 9 0,514 0,34-0,259 7,7 9 77 78 20 22 9 1,658 0,65-0,942 7,7 9 78 79 14 22 9 0,514 0,34 1,411 7,7 9 79 80 17 22 9 0,912 0,40-0,408 7,7 9 80 81 20 22 9 1,658 0,65 0,263 7,7 9 81 82 18 22 9 1,091 0,45-0,626 7,7 9 82

1104 Marek Kryniewski Zestawienie to pozwala na określenie: - miejsca każdego ucznia w unormowanej skali wiedzy, w praktyce od-3 do 3 (Locn); - błąd standardowy szacowania miejsca ucznia w unormowanej skali (SE); - Residual- dopasowanie każdej osoby do modelu. Uwaga: Analiza IRT wybranych zadań matury z informatyki została wykonana zużyciem programu RUMM2010 produktu australijskiej firmy RUMM Laboratory Pty Ltd.. Adres internetowy www.rummlab.com.au Sprawdzanie równoległości oraz poziomu trudności wersji testów Wersje równoległe według klasycznej teorii testów są to testy mierzące to samo w ten sam sposób, co oznacza narzędzia budowane według jednego planu, dające wyniki o jednakowych średnich, wariancjach i korelacjach z dowolną zmienną oraz o równej rzetelności (Niemierko, 2003). Wersje równoległe według probabilistycznej teorii zadania testowego to testy budowane według jednego planu, posiadające takie same lub zbliżone krzywe charakterystyczne. Ocena równoległości może być dokonana na podstawie: - wielkość przestrzeni między krzywymi charakterystycznymi dla dwóch wersji testu; - test hipotezy o równości trzech parametrów a, b, c dla dwóch wersji testu. Porównanie stopnia trudności testów zbudowanych według jednego planu, może być oceniony na podstawie oceny różnicy wielkości parametru b. Sprawdzanie poprawności tłumaczenia zadań testowych Korzystając z zagranicznych banków danych zadań testowych konieczne będzie tłumaczenie zadań na język polski. Zadania w banku mogą mieć podane parametry probabilistyczne. Możemy poddać analizie IRT zadania po tłumaczeniu. Analiza porównawcza parametrów a, b,c przed tłumaczeniem i po tłumaczeniu pozwoli ocenić jakość przekładu. Ocenę identyczności parametrów a, b, c wykonujemy tak samo, jak sprawdzanie równoległości testów. Testy adaptacyjne Procedura testowania adaptacyjnego z użyciem IRT jest możliwa dzięki zastosowaniu komputerów ze specjalnym oprogramowaniem. Jeden z możliwych algorytmów postępowania jest następujący: 1. W pierwszej kolejności badany rozwiązuje test wstępny. Na tej podstawie komputer określa poziom wiedzy ucznia z użyciem IRT. Wiedza ucznia jest wyrażona w jednostce z. 2. Wyboru zadań w procedurze testowania adaptacyjnej dokonuje się na podstawie analizy funkcji informacyjnych zadań zgromadzonych w banku zadań.

Klasyczne I probabilistyczne miary jakości zadania testowego- nowe możliwości 105 Każde kolejne zadanie wybrane z banku zadań powinno dostarczać maksimum informacji. 3. Decyzje dotyczące tego, które zadania z banku zadań będą prezentowane egzaminowanemu,są podejmowane w czasie realizacji procedury testowania. Podjęcie decyzji wyboru każdego następnego zadania jest oparte na oszacowaniu wartości poziomu osiągnięć egzaminowanego 0 wynikającej z jego odpowiedzi na wcześniej rozwiązywane zadania (Sztejnberg, Hurelc, 2003). Zastosowanie testowania adaptacyjnego pozwoli na: - określenie wiedzy ucznia z jak najmniejszym błędem pomiarowym; skrócenie czasu testowania poprzez zmniejszenie ilości zadań podczas procesu testowania jednego ucznia. Bibliografia Niemierko B. (2003), Materiały z sympozjum: Zrównywanie wyników sprawdzianu 2003 do wyników sprawdzianu 2002, Sopot. Sztejnberg A., Hurelc J. (2003), Zastosowanie osiągnięć technologii komputerowej w pomiarze edukacyjnym. Komputerowe testowanie w pełni adaptacyjne, Uniwersytet Opolski.