Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Podobne dokumenty
5. WNIOSKOWANIE PSYCHOMETRYCZNE

Trafność egzaminów w kontekście metody EWD

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

Testowanie hipotez statystycznych

Trafność czyli określanie obszaru zastosowania testu

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

PRZEDMIOTOWY SYSTEM OCENIANIA Z MATEMATYKI. Zarządzenia i akty prawne dotyczące oceniania

(x j x)(y j ȳ) r xy =

Polska Warszawa SP 24. Polski Matematyka Angielski

Zasady oceniania z języka angielskiego

OKRĘGOWA KOMISJA EGZAMINACYJNA W GDAŃSKU WYDZIAŁ BADAŃ I ANALIZ STOPNIEŃ OPANOWANIA UMIEJĘTNOŚCI BADANYCH NA SPRAWDZIANIE W 2005 ROKU

JĘZYK ANGIELSKI, rok szkolny 2015/16 nauczyciele: Dominika Chmielarczyk, Urszula Pacholka, Michael Pacholka

Psychometria. Psychometria. Co wyniki testu mówią nam o samym teście? Co wyniki testu mówią nam o samym teście?

PRZEDMIOTOWY SYSTEM OCENIANIA z teoretycznych przedmiotów zawodowych w zawodzie technik logistyk klasa IC, IIC - rok szkolny 2013/2014

JĘZYK ANGIELSKI ROK SZKOLNY 2015/2016 NAUCZYCIELE: Urszula Pacholka, Dominika Chmielarczyk

Psychometria Test jako narzędzie diagnozy psychologicznej. Podstawowe pojęcia. W 3

Pomiar gotowości szkolnej uczniów za pomocą skali quasi-obserwacyjnej

Podsumowanie pracy szkół w roku szkolnym 2016/2017 na podstawie wyników egzaminu oraz raportu zespołu ewaluacyjnego nadzoru pedagogicznego

a. opisać badaną cechę; cechą X jest pomiar średnicy kulki

166 Wstęp do statystyki matematycznej

Zadania rozrywające w testach na przykładzie zadań maturalnych z matematyki

Przedmiotowe Zasady Oceniania. z języka angielskiego obowiązujące w SP im. Marii Konopnickiej. w Rogowie Sobóckim

Klasyczny model rzetelności H. Gulliksen (1950) X = T +E

WYNIKI EGZAMINU GIMNAZJALNEGO Z JĘZYKA ANGIELSKIEGO ROK SZKOLNY 2016/2017

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO DLA KLAS 4-6 SZKOŁY PODSTAWOWEJ

PRZEDMIOTOWY SYSTEM OCENIANIA DLA PRZEDMIOTÓW HUMANISTYCZNYCH szkoła podstawowa, gimnazjum

Wyniki sprawdzianu i egzaminu gimnazjalnego w 2015r. uczniów szkół w gminie Masłów

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Raport po Ogólnopolskim Sprawdzianie Kompetencji Trzecioklasisty z dnia 10 kwietnia 2014 r. Klasa Język polski Matematyka

REGULAMIN OCENIANIA Z JĘZYKA NIEMIECKIEGO

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Model EWD dla II etapu edukacyjnego.

15. PODSUMOWANIE ZAJĘĆ

1. Szczegółowe kryteria oceniania wiadomości i umiejętności ucznia niepełnosprawnego umysłowo w stopniu lekkim.

RAPORT ZBIORCZY z diagnozy umiejętności matematycznych

WYNIKI EGZAMINU GIMNAZJALNEGO

Analiza egzaminu z języka angielskiego w roku szkolnym 2014/2015

PRZEDMIOTOWY SYSTEM OCENIANIA PRZEDMIOTÓW ZAWODOWYCH W ZAWODZIE TECHNIK EKONOMISTA

Testowanie hipotez statystycznych

WYMAGANIA EDUKACYJNE ORAZ PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ROSYJSKIEGO

Etapy modelowania ekonometrycznego

OCENIANIA. FIZYKI i ASTRONOMII. Rok szkolny 2007/2008

1. TESTY PSYCHOLOGICZNE

JĘZYK NIEMIECKI liceum

Analiza egzaminu gimnazjalnego w klasie III z języka angielskiego w roku szkolnym 2014/2015

EGZAMIN GIMNAZJALNY 2012 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

PRZEDMIOTOWY SYSTEM OCENIANIA Z GEOGRAFII W GIMNAZJUM NR 3 W MIELCU Oparty o Wewnątrzszkolny System Oceniania ZSO nr1 w Mielcu

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO OBOWIĄZUJĄCY W SZKOLE PODSTAWOWEJ NR 3 W LĘDZINACH

Definicja testu psychologicznego

Informacja o wynikach egzaminu gimnazjalnego w 2010 roku

STATYSTYKA MATEMATYCZNA

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

SZKOŁA PODSTAWOWA NR 3 im. Noblistów Polskich w Gryfinie PRZEDMIOTOWE ZASADY OCENIANIA Z TECHNIKI DLA KLAS V-VIII

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE

owanie krótkich wypowiedzi ustnych na określony temat.) czytanie (wyszukiwanie z tekstu ważnych informacji, ogólne zrozumienie tekstu )

Testy nieparametryczne

10. Podstawowe wskaźniki psychometryczne

Informacja o wynikach sprawdzianu w 2010 roku

Ćwiczenie: "Pomiary rezystancji przy prądzie stałym"

Wyniki sprawdzianu szóstoklasisty z języka angielskiego 2015

Kontrola i ocena pracy ucznia.

Analiza wyników egzaminu gimnazjalnego z języka obcego

KRYTERIA OCENIANIA Z PLASTYKI W SZKOLE PODSTAWOWEJ

PDF created with FinePrint pdffactory Pro trial version

I.1.1. Asystent osoby niepełnosprawnej 346[02]

Przedmiotowy system oceniania z języka angielskiego w klasach IV-VI Nauczyciel mgr Aldona Zdanowicz

Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU

Dlaczego należy oceniać efektywność systemów wynagradzania? Kraków, r. Renata Kucharska-Kawalec, Kazimierz Sedlak

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

METODY STATYSTYCZNE W BIOLOGII

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

KLASY I-III &3. 4. Ocenianie bieżące ucznia dokonywane jest za pomocą cyfr 1-6.: Dopuszcza się komentarz słowny lub pisemny typu:

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W SZKOLE PODSTAWOWEJ IM. WŁ. RDZANOWSKIEGO W RADZIEJOWICACH W KLASACH IV-VI

Podzielność, cechy podzielności, liczby pierwsze, największy wspólny dzielnik, najmniejsza wspólna wielokrotność.

13. Interpretacja wyników testowych

PRZEDMIOTOWE ZASADY OCENIANIA JĘZYK ANGIELSKI

PRZEDMIOTOWE ZASADY OCENIANIA NA LEKCJACH JĘZYKA NIEMIECKIEGO Rok szkolny 2018 / 2019

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Przedmiotowy system oceniania z języka angielskiego dla klas I III szkoły podstawowej

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Opis wymagań na poszczególne oceny z języka angielskiego:

RAPORT WSKAŹNIK EDUKACYJNEJ WARTOŚCI DODANEJ PO EGZAMINIE GIMNAZJALNYM W ROKU SZKOLNYM 2012/2013

Kryteria oceniania ogólne klasa I, II, III gimnazjum język angielski

Statystyka w pracy badawczej nauczyciela

JĘZYK ANGIELSKI POZIOM ROZSZERZONY

Wyniki egzaminu gimnazjalnego rok szk. 2014/2015

Podsumowanie pracy szkół w roku szkolnym 2017/2018 na podstawie wyników egzaminu gimnazjalnego oraz raportu nadzoru pedagogicznego

CZĘŚĆ 1. CZĘŚĆ kwietnia czerwca listopada

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

WYNIKI OGÓLNOPOLSKIEGO BADANIA UMIEJĘTNOŚCI TRZECIOKLASISTY, SPRAWDZIANU, EGZAMINU GIMNAZJALNEGO I MATURALNEGO W 2013 ROKU UCZNIÓW SZKÓŁ PROWADZONYCH

Transkrypt:

Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz Uniwersytet Warszawski

Plan wystąpienia Testy z punktu widzenia statystyki - psychometria Podstawowe założenia Klasycznej Teorii Testu Rzetelność w Klasycznej Teorii Testu Związek pomiędzy rzetelnością a długością (liczbą zadań) testu W teorii W praktyce Podsumowanie

Testy z punktu widzenia statystyki Psychometria dziedzina statystyki Statystyka nie mówi nam nic o tym, co mierzy test aby to stwierdzić trzeba odwołać się do analizy treści zadań Może nam jednak powiedzieć, czy możemy uważać, że to, co test mierzy (czymkolwiek by to nie było), mierzy dobrze Jeśli test dobrze mierzy to, w danych opisujących wyniki testu powinniśmy spodziewać się występowania pewnych prawidłowości o charakterze statystycznym Jeśli takich prawidłowości nie znajdujemy, lub są one bardzo słabe, jest to znak, że być może dałoby się test poprawić, aby lepiej mierzył on interesującą nas cechę

Podstawowe założenia 1 Przy pomocy testu chcemy badać pewną cechę, której nie daje się zmierzyć bezpośrednio: To, co chcemy zmierzyć nie daje się sprowadzić do sumy pytań zawartych w teście Np umiejętność posługiwania się językiem angielskim to nie tylko zdolność do poprawnego poradzenia sobie z konkretnymi zadaniami, ale również: Poradzenia sobie z innymi zadaniami, które potencjalnie mogłyby znaleźć się w teście Poradzenia sobie w realnych sytuacjach wymagających wykorzystania języka (przybliżanych przez użyte w teście zadania)

Podstawowe założenia 2 Poprawne (lub nie) rozwiązanie zadań zawartych w teście nie jest całkowicie pewnym wskaźnikiem posiadania (natężenia) interesującej nas cechy: Związki pomiędzy mierzoną cechą a rozwiązaniami zadań mają charakter statystyczny (probabilistyczny) Oczywiście chcemy, by te związki były dosyć silne Poradzenie sobie w konkretnej sytuacji wynika po części również ze zdarzeń, które możemy traktować jako losowe: lepszej lub gorszej predyspozycji danej osoby w danym dniu, lepszego lub gorszego opanowania przez daną osobę akurat tej części materiału, która znalazła się w teście, itp

Podstawy Klasycznej Teorii Testu wynik testu = wartość prawdziwa + błąd pomiaru Błąd pomiaru ma charakter losowy Dobry test charakteryzuje się niewielkimi błędami pomiaru Rzetelność: r = D 2 (wartości prawdziwe) / D 2 (wyniki testu) 1 r 0 gdzie D 2 () oznacza wariancję (miara zróżnicowania) Rzetelność mówi, jaka część zróżnicowania wyników testu związana jest z prawdziwym zróżnicowaniem badanej cechy a więc, jak dokładny jest pomiar danym testem Im większa (bliższa 1) rzetelność, tym lepiej

Szacowanie rzetelności Alfa Cronbacha: Odpowiednia, gdy dla wszystkich zadań siła związku z badaną cechą jest taka sama Alfa Feldt-Raju: k α C = k 2 σ i k 1 (1 i=1 ) 2 σ Σ α FR = 1 k 1 i=1 ( σ i Σ σ Σ 2 gdzie: k liczba zadań σ 2 i - wariancja wyników i-tego zadania σ 2 Σ - wariancja wyników całkowitych testu k i=1 (1 )2 σ iσ - kowariancja wyników i-tego zadania i wyników całkowitych testu σ i 2 σ Σ 2 )

Rzetelność w Klasycznej Teorii Testu Rzetelność zależy od: Liczby zadań w teście im więcej zadań, tym dokładniejszy powinien być pomiar Wzór proroczy Spearmana-Browna: r k rzetelność dla k zadań r 1 - rzetelność pojedynczego zadania r k = k r 1 1+(k 1)r 1 Odpowiedni, gdy dla wszystkich zadań siła związku z badaną cechą jest taka sama Siły związku pomiędzy wynikiem pojedynczego zadania a natężeniem mierzonej cechy im większa, tym pomiar dokładniejszy

Rzetelność w Klasycznej Teorii Testu Rzetelność zależy od: rzetelność Liczby zadań w teście im więcej zadań, tym generalnie dokładniejszy powinien być pomiar Siły związku pomiędzy wynikiem pojedynczego zadania a natężeniem mierzonej cechy im większa, tym pomiar dokładniejszy przy założeniu, że wynik każdego zadania jest tak samo silnie związany z mierzoną cechą 1,0 0,9 0,8 0,7 0,6 0,5 Rzetelność testu w zależności od liczby pytań 0,4 0 10 20 30 40 50 60 liczba zadań rzetelność pojedynczego zadania 0,1 0,15 0,2 0,25 0,3 0,35 0,4

Co jest celem testowania? Analiza każdej skali oddzielnie? RZS_1 RZS_15 rozumienie ze słuchu Analiza wyników całego testu? RZS_1 RZS_15 CZ_1 CZ_20 UJ_1 UJ_50 czytanie użycie języka CZ_1 CZ_20 UJ_1 UJ_50 umiejętności językowe P_1 P_2 pisanie P_1 P_2

Rzetelność a spójność treściowa Rzetelność zależy od siły związku pomiędzy wynikiem pojedynczego zadania a natężeniem mierzonej cechy im większa, tym pomiar dokładniejszy Przy tym jeśli przyjmujemy, że związki pomiędzy wynikami rozwiązywania poszczególnych zadań są wynikiem tego, że są one wskaźnikami tej samej cechy, będącej przedmiotem badania, to: Wyróżnione powyżej zdanie jest równoważne stwierdzeniu, że rzetelność jest tym większa, im silniejsze są wzajemne związki pomiędzy wynikami rozwiązywania poszczególnych zadań w teście Z tego powodu mówi się czasem, że rzetelność jest miarą wewnętrznej spójności testu bada, czy zadania mierzą to samo

Rzetelność a spójność treściowa Jak interpretować niską rzetelność testu? Test jest zbyt krótki (zawiera zbyt mało zadań) i/lub Różne zadania (być może grupy zadań), które tworzą test, są ze sobą słabo powiązane To, że pewne z nich rozwiązuje się poprawnie (lub nie) ma niewielki związek z tym, czy poprawnie (lub nie) rozwiązuje się inne Testy pokrywające szeroki zakres treściowy charakteryzują się więc co do zasady (dla zadanej liczby zadań w teście) niższą rzetelnością niż testy mierzące wąsko zdefiniowane umiejętności

Rzetelność a spójność treściowa Test A: 85 zadań z jednej dziedziny UJ_1 UJ_85 użycie języka Test B: 85 zadań z trzech różnych dziedzin RZS_1 RZS_15 CZ_1 CZ_20 umiejętności językowe Możemy się spodziewać, że: rzetelność A > rzetelność B UJ_1 UJ_50

Rzetelność a długość testu Jeśli za punkt wyjścia przyjmiemy długi test pokrywający szeroki zakres treści: Spadek rzetelności związany ze skróceniem testu w praktyce będzie typowo mniejszy, niż wynikałoby to ze wzoru Spearmana-Browna Efekt mniejszej długości testu może być w pewnym stopniu rekompensowany zwiększeniem spójności treściowej (zawężeniem zakresu treściowego) Czy warto zwiększać rzetelność kosztem zakresu treściowego testu?

Rzetelność a długość testu W praktyce wzór proroczy Spearmana-Browna ma ograniczone zastosowanie dla przewidywania wpływu zmniany liczby zadań na rzetelność testu, gdyż zakłada, że wyniki rozwiązania każdego zadania są równie silnie powiązane z badaną cechą Założenie to bardzo rzadko bywa spełniane w praktyce Jeśli dysponujemy wynikami rozwiązywania długiego testu, możemy wykorzystać je do symulacyjnego badania wpływu zmniejszenia liczby zadań na rzetelność: Analizujemy rzetelność testów, usuwając z danych losowo wybrane zadania

Zależność rzetelności od długości testu - egzamin z j angielskiego na poziomie B2 w czerwcu 2012 r Struktura testu rozumienie ze słuchu (15 zadań) czytanie (20 zadań) użycie języka (50 zadań) RZS_1 RZS_15 CZ_1 CZ_20 UJ_1 UJ_50 umiejętności językowe Dla każdej badanej długości testu analizowano do 100 tys losowo wybranych sposobów usunięcia z testu zadanej liczby zadań z tym, że zadania z pisania nigdy nie były usuwane, aby nie doprowadzić do drastycznej zmiany kompozycji treściowej testu pisanie (2 zadania) P_1 P_2

Zależność rzetelności od długości testu - egzamin z j angielskiego na poziomie B2 w czerwcu 2012 r liczba zdających uwzględnionych w analizie: 2313

Podsumowanie Rzetelność jest miarą dokładności pomiaru testu Warto jednak pamiętać, że nie mówi nam, co właściwie test mierzy Rzetelność rośnie wraz ze zwiększaniem się liczby zadań w teście, ale: Jest to wzrost nieliniowy najpierw znaczny, z dodawaniem kolejnych zadań staje się coraz mniejszy (np dużo większy wzrost rzetelności uzyskamy wydłużając test z 10 zadań do 20 niż z 20 do 30) Zachodzi interakcja z zawartością treściową testu: jeśli wzrost liczby zadań wiąże się z rozszerzaniem zakresu treściowego, wzrost rzetelności będzie mniejszy

Co jest celem testowania? Analiza każdej skali oddzielnie? RZS_1 RZS_15 rozumienie ze słuchu Analiza wyników całego testu? RZS_1 RZS_15 CZ_1 CZ_20 UJ_1 UJ_50 czytanie użycie języka CZ_1 CZ_20 UJ_1 UJ_50 umiejętności językowe P_1 P_2 pisanie P_1 P_2

Podsumowanie Jeśli celem pomiaru jest przede wszystkim ocena ogólnych umiejętności, wystarczy posługiwanie się względnie krótkimi testami Wydaje się, że z punktu widzenia tego celu liczba zadań w analizowanym egzaminie mogłaby być zmniejszona nawet o połowę, bez dużych strat dla dokładności pomiaru Jeśli celem pomiaru jest dostarczenie wyczerpującej diagnozy umiejętności zdającego w ramach różnych dziedzin (skal), konieczne jest wykorzystywanie dłuższych testów, zapewniających odpowiednią dokładność pomiaru w ramach poszczególnych skal

Dziękuję za uwagę! Tomasz Żółtak tzoltak@ibeedupl