Rozdział 14 Zastosowanie modelu Rascha na przykładzie testu inteligencji 1
|
|
- Marcin Żurawski
- 8 lat temu
- Przeglądów:
Transkrypt
1 Rozdział 14 Zastosowanie modelu Rascha na przykładzie testu inteligencji 1 Anna Hawrot, Instytut Badań Edukacyjnych Teoria odpowiedzi na pozycje testowe (item response theory, IRT) jest w Polsce niezbyt popularna i znacznie mniej znana w porównaniu do klasycznej teorii testu (classical test theory, KTT). Zaczyna jednak pojawiać się w pomiarze psychologicznym i edukacyjnym. Wykorzystuje się ją do weryfikacji właściwości egzaminów zewnętrznych (Szaleniec, 2009), dostępne są też pierwsze testy skonstruowane na jej podstawie (np. testy osiągnięć szkolnych, Jasińska i Modzelewski, 2012; Graficzno-werbalny test wyobraźni twórczej, Dziedziewicz i Karwowski, 2012). Zaawansowane zastosowania IRT pojawiają się w na przykład testowaniu adaptatywnym (Test umiejętności na starcie szkolnym, Karwowski i Dziedziewicz, 2012; zob. rozdział 20) i procedurach zrównywania wyników egzaminów zewnętrznych (Szaleniec, Grudniewska, Kondratek, Kulon i Pokropek, 2012). Wciąż jednak są to nieliczne przykłady wykorzystania tej metodologii w polskiej praktyce badawczej i diagnostycznej, a większość narzędzi pomiarowych nadal konstruuje i adaptuje się w ramach KTT. Tymczasem wykorzystanie IRT przynosi korzyści warte wysokiej ceny złożonych statystycznie analiz. W tym rozdziale przedstawimy jedno z podstawowych i stosunkowo najprostszych zastosowań IRT jednoparametryczny model IRT (tzw. modelu Rascha) na przykładzie analizy właściwości psychometrycznych testu. Omówimy i porównamy ją do analiz prowadzonych w ramach KTT 2. W pierwszej kolejności pokażemy wady i zalety wykorzystania modelu Rascha w analizach właściwości psychometrycznych testów. Następnie przedstawimy podstawowe informacje o analizowanym narzędziu, przebadanej próbie oraz wykorzystanym modelu IRT. Na koniec zinterpretujemy uzyskane wyniki Wady i zalety zastosowania modelu Rascha Jedną z niewątpliwych zalet klasycznej teorii testu jest jej prostota, dotycząca także analiz statystycznych, które proponuje. Jednak porównanie KTT z IRT (zwłaszcza z modelem jednoparametrycznym IRT) ujawnia wiele korzyści wynikających ze stosowania tej drugiej metody. Zali- 1 W rozdziale wykorzystano fragmenty artykułu: Hawrot, A. (2012). Wybór ma znaczenie, czyli problem miar dopasowania pozycji do modelu pomiarowego w tworzeniu testów za pomocą metody IRT. W: B. Niemierko i M. K. Szmigel (red.), Regionalne i lokalne diagnozy edukacyjne (s ). Kraków: PTDE. 2 Podstawowe informacje na temat teorii odpowiedzi na pozycje testowe zostały przedstawione w rozdziale 1, natomiast modelu Rascha w rozdziale 2. Nie będą więc one omawiane. Informacje na temat klasycznej teorii testu znajdzie czytelnik w licznych publikacjach na ten temat, np. w pracy Elżbiety Hornowskiej (2005). 293
2 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii czyć do nich można: niezależność parametrów zadań, rozkładu mierzonej cechy w próbie oraz oszacowań poziomu cechy od puli pozycji testu; możliwość szacowania precyzji pomiaru dla różnych poziomów cechy; łatwość interpretacyjną parametru trudności i skali, na której została wyrażona mierzona cecha; cechy tej skali; koncentracja na funkcjonowaniu poszczególnych pozycji testu; falsyfikowalność modelu IRT. Korzyści te zostaną omówione w kolejnych akapitach. Pierwszą zaletą wynikającą ze stosowania jednoparametrycznego modelu IRT jest niezależność estymowanych parametrów trudności od próby, na podstawie której je szacowano, oraz niezależność oszacowań poziomu cechy od puli pozycji, z której składa się test (Ayala, 2009; DeMars, 2010; Swaminathan, Hambelton i Rogers, 2007). W klasycznej teorii testu podstawowe parametry zadań trudność pozycji (obliczana jako proporcja poprawnych odpowiedzi) oraz ich moc dyskryminacyjna (obliczana jako korelacja między pozycją a wynikiem w całym teście) są zawsze zależne od rozkładu cechy w próbie. Jeżeli przeciętny poziom cechy jest wysoki, test okazuje się łatwiejszy niż wtedy, gdy poziom ten jest niski (DeMars, 2010; Swaminathan i in., 2007). Zależność ta ogranicza użyteczność informacji uzyskiwanych z oszacowań parametrów w sytuacji, gdy test będzie przeprowadzany na innej próbie niż ta, na podstawie której je szacowano, szczególnie gdy próby różnić się będą rozkładami mierzonej cechy. Ponadto, oszacowania poziomu cechy zależne są od puli pozycji tworzących test wynik prawdziwy osoby badanej (czyli poziom cechy) określony jest zawsze w ramach testu, którym jest mierzony. Definiuje się go jako wynik testu nieobciążony błędem pomiaru (Hornowska, 2005). W konsekwencji wyniki poszczególnych osób badanych zależne są od pozycji testowych, z których składa się narzędzie, i jednocześnie wyrażone są na jego skali. Jeżeli test jest trudny, wynik prawdziwy jest niski, jeżeli jest łatwy wysoki. Innymi słowy, rozkład cechy w próbie zależy od puli pozycji, z których test się składa. Od tych niekorzystnych cech do pewnego stopnia wolne są oszacowania parametrów zadań oraz poziomu cechy osób badanych w ramach IRT. Nie oznacza to jednak, że na przykład oszacowania parametrów tych samych zadań uzyskane z dwóch prób pozostaną jednakowe będą różnić się błędem oszacowania, mogą także wymagać liniowego przekształcenia. Osiągnięcie wspomnianej inwariancji wymaga jednak odpowiednio licznych i heterogenicznych prób oraz bardzo dobrego dopasowania modelu do danych (Ayala, 2009; DeMars, 2010) 3. W modelach IRT trudności pozycji wyrażone są na tej samej skali co poziom mierzonej cechy ukrytej. Umożliwia to łatwą interpretację tego parametru (w powiązaniu z poziomem cechy) oraz łatwe formułowanie przewidywań, jak osoba o przeciętnym poziomie cechy poradzi sobie z zadaniem (Ayala, 2009). Takiej możliwości brakuje w klasycznej teorii testu, w której parametry pozycji oraz wyniki osób badanych wyrażone są na różnych skalach (odpowiednio: proporcje i współczynniki korelacji oraz wynik surowy w postaci na przykład sumy punktów). Co więcej, KTT w niewielkim stopniu skupia się na poszczególnych pozycjach, niemal cały nacisk kładzie na ogólny wynik w teście. Tymczasem IRT umożliwia analizę poszczególnych 3 Więcej informacji na temat niezależności parametrów od próby oraz poziomu cechy od puli zadań znajdzie czytelnik w rozdziale
3 Zastosowanie modelu Rascha na przykładzie testu inteligencji zadań, przewidywanie szans udzielenia na nie poprawnej odpowiedzi przy danym poziomie umiejętności, pozwala też na podejmowanie trafnych decyzji dotyczących zastosowania określonego narzędzia do konkretnej grupy osób. Inne zastosowania to na przykład dostosowanie trudności zadań podczas konstrukcji narzędzia do przewidywanego poziomu cechy w próbie. W przypadku istniejącego już testu standardowego otrzymujemy przydatne w przyszłości informacje o poziomie cechy w próbie, do jakiego narzędzie jest przystosowane. Inną ważną korzyścią wynikającą z zastosowania IRT jest możliwość uzyskania informacji o precyzji pomiaru dla różnych poziomów cechy ukrytej. W klasycznej teorii testu zakłada się, że błąd pomiaru (ściślej standardowy błąd pomiaru) jest jednakowy na wszystkich poziomach mierzonej cechy i w taki sposób wykorzystuje się go do tworzenia przedziałów ufności (Hornowska, 2005). Założenie to jest jednak nierealistyczne (Swaminathan i in., 2007). W IRT standardowy błąd oszacowania jest różny dla różnych poziomów cechy ukrytej (DeMars, 2010; Swaminathan i in., 2007). Dzięki temu możliwe jest budowanie przedziałów ufności w sposób bardziej adekwatny, niż ma to miejsce w ramach klasycznej teorii testu. Możliwe są także inne zastosowania, na przykład konstruowanie narzędzia w taki sposób, aby osiągnąć satysfakcjonujący nas poziom precyzji pomiaru w danym przedziale cechy ukrytej. Korzyści z zastosowania jednoparametrycznego modelu IRT są widoczne także w obszarze właściwości skali pomiarowej cecha ukryta zostaje wyrażona na skali interwałowej (Perline, Wright i Wainter, 1979). Co istotne, zalety tej nie mają modele IRT z większą liczbą parametrów. Ponadto, wykorzystując IRT, otrzymujemy możliwość testowania dopasowania modelu do danych. W klasycznej teorii testu model wyniku prawdziwego jest niefalsyfikowalny; zakłada się więc po prostu, że jest prawdziwy (np. Borshboom, 2005). Jednak założenia modelu jednoparametrycznego (jednakowe dyskryminacje, brak znaczenia zgadywania) są trudne do spełnienia, podobnie jak wspólne dla modeli IRT założenia o jednowymiarowości konstruktu i lokalnej niezależności (rozdział 2). W konsekwencji model ten często jest niedopasowany. Z drugiej strony, problemy te interpretować można nie w kategoriach wad modelu, lecz wad danych. Narzędzia badawcze, służące do ich zbierania, są niewystarczająco dobre. W konsekwencji otrzymujemy dane, które nie spełniają wymogów stawianych obiektywnemu pomiarowi. Odrzucić należy więc dane, a nie model (np. Andrich, 2004; Wright, 1997). Jeżeli jednak model okaże się dobrze dopasowany, możemy wierzyć, że zastosowane przez nas narzędzie będzie miało bardzo dobre właściwości, a przeprowadzony pomiar wysoką jakość. Wśród zalet analiz prowadzonych na podstawie IRT wymienić należy możliwość testowania adaptatywnego, zrównywania wyników testów czy stosowania złożonych schematów testowania. Nie wiążą się one bezpośrednio z przedstawionym w tekście przykładem, dlatego nie będą bliżej omawiane (zob. Kondratek i Pokropek, 2013; por. też rozdziały 16 i 20). Analizy oparte na IRT mają jednak wady. Po pierwsze, estymacja parametrów zadań wymaga dużych prób, liczących co najmniej kilkaset obserwacji, odpowiednio zróżnicowanych pod względem mierzonej cechy (np. DeMars, 2010). Zwiększa to zarówno koszty badania, wynikające z konieczności dotarcia do większej liczby respondentów, zakupienia większej liczby arkuszy 295
4 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii testowych oraz ich zakodowania, jak i jego złożoność logistyczną. Natomiast zastosowanie niewystarczająco licznych i zróżnicowanych prób podważa wiarygodność wyników analiz. Niewątpliwym ograniczeniem są również wymagania techniczne i sprzętowe. Niezbędne jest bowiem specjalistyczne oprogramowanie, a w przypadku bardzo dużych zbiorów danych (np. wyników egzaminu zewnętrznego całej kohorty uczniów) komputery o odpowiedniej mocy obliczeniowej. Wprawdzie dostępne jest oprogramowanie bezpłatne (np. MIRT, pakiety w R), jednak aplikacje udostępniane bez opłat są niejednokrotnie uboższe, mniej przyjazne w obsłudze i oferują ograniczony wybór opcji. Samodzielne pokrycie koszów zakupu oprogramowania przez badacza może nie być możliwe Analiza Analizie poddano Test Matryc Ravena wersję standardową, w formie klasycznej (TMS-K; Jaworowska i Szustrowa, 2007). Jest to niewerbalny test służący do diagnozy intelektu. Uznaje się, że jego wynik nie zależy od wcześniejszych doświadczeń jednostki ani od jej kompetencji komunikacyjnych. Narzędzie składa się z 60 zadań zgrupowanych w pięciu równolicznych seriach (A E). Każde zadanie ma postać niekompletnego wzoru (matrycy) złożonego z figur. Zadaniem osoby badanej jest uzupełnienie brakującego fragmentu jednym spośród sześciu (serie A i B) lub ośmiu (serie C E) prezentowanych wycinków, tak by zasada ułożenia elementów wzoru została zachowana. Zarówno zadania, jak i kolejne serie testu ułożone są zgodnie z rosnącą trudnością. Osoba badana przechodzi więc kolejno od zadań najłatwiejszych do najtrudniejszych, a za każdą poprawną odpowiedź otrzymuje punkt. W ten sposób punktowane są również dwa pierwsze zadania (A1 i A2), które mają próbny charakter i rozwiązywane są razem z osobą prowadzącą badanie. Wynik końcowy stanowi suma punktów uzyskanych we wszystkich zadaniach. Wyniku nie oblicza się, jeżeli osoba badana pominie pięć lub więcej zadań. Test nie ma ograniczenia czasowego. W analizie założono, że jest on jednowymiarowy. Uwzględniono dane 5413 uczniów trzecich klas szkoły podstawowej (2699 dziewczynek, 2714 chłopców) uczęszczających do 300 oddziałów ze 177 szkół z całej Polski. Zebrano je między styczniem a kwietniem 2011 roku, w toku badania podłużnego Szkolnych uwarunkowań efektywności kształcenia 4 prowadzonego w Instytucie Badań Edukacyjnych. Analizy reprezentatywności pod kątem osiągnięć szkolnych wykazały bardzo dobre odzwierciedlenie w próbie tej cechy populacji (Maluchnik i Modzelewski, 2014). Porównanie rozkładów wyników sprawdzianu w populacji oraz w szkołach nie ujawniło znaczących różnic. Z analizy właściwości psychometrycznych TMS-K wykluczono obserwacje liczące 5 lub więcej braków danych (Jaworowska i Szustrowa, 2007). Pozycje A1 i A2, pomimo ich próbnego charakteru, zgodnie z wytycznymi podręcznika do testu zostały uwzględnione w analizach. Obliczenia przeprowadzono z wykorzystaniem oprogramowania MIRT (Glas, 2010) oraz 4 Badanie realizowane w ramach projektu systemowego Badanie jakości i efektywności edukacji oraz instytucjonalizacja zaplecza badawczego, współfinansowanego przez Unię Europejską w ramach Europejskiego Funduszu Społecznego, Program Operacyjny Kapitał Ludzki, Priorytet III, Poddziałanie
5 Zastosowanie modelu Rascha na przykładzie testu inteligencji Acer Conquest 2.0 (Wu, Adams, Wilson i Haldane, 2007). Zdecydowano się na wykorzystanie dwóch aplikacji, w celu otrzymania różnych miar dopasowania zadań. MIRT oferuje test LM (Lagrange multiplier test, np. Glas, 1988; 2007), Acer Conquest infit i outfit (np. Ayala, 2009). Miary te służą do weryfikacji dopasowania pozycji testowych, różnią się jednak sposobem obliczania i właściwościami. Informacje na ich temat podano w dalszych częściach tekstu (zob. też rozdział 2). W obu programach przeprowadzono analizę polegającą na wykorzystaniu jednowymiarowego modelu z jednym parametrem (1PL), oszacowaniu parametrów metodą brzegowej największej wiarygodności (marginal maximum likelihood estimation, MML; Ayala, 2009) i ustaleniu średniego poziomu cechy ukrytej na wartości zero Wyniki Przedstawiając wyniki skupimy się na kilku podstawowych elementach: analizie trudności zadań, krzywej informacyjnej testu oraz na dopasowaniu modelu do danych. Parametry trudności zadań wraz z ich błędami standardowymi (oszacowanymi jednakowo przez oba programy, z dokładnością do trzeciego miejsca po przecinku) przedstawiono w Tabeli Przypomnijmy, że parametry te wyrażone są na tej samej skali co poziom mierzonej cechy ukrytej (w naszym przypadku inteligencji). Określają one poziom cechy, przy którym szanse na wskazanie poprawnej odpowiedzi wynoszą 50%. Tabela Oszacowania trudności zadań TMS-K. Zadanie Trudność (b) SE Zadanie Trudność (b) SE Zadanie Trudność (b) SE A1 4,68 0,16 B9 0,57 0,04 D5 2,02 0,05 A2 4,64 0,16 B10 1,05 0,04 D6 0,82 0,04 A3 6,18 0,24 B11 0,29 0,04 D7 0,26 0,04 A4 5,53 0,17 B12 1,08 0,04 D8 0,11 0,04 A5 5,06 0,13 C1 3,26 0,06 D9 0,71 0,04 A6 5,24 0,15 C2 3,03 0,06 D10 0,32 0,04 A7 2,90 0,06 C3 1,46 0,04 D11 2,10 0,05 A8 1,98 0,05 C4 0,71 0,04 D12 3,90 0,08 A9 3,46 0,07 C5 1,42 0,04 E1 0,16 0,04 A10 2,31 0,05 C6 0,21 0,04 E2 0,88 0,04 A11 0,30 0,04 C7 0,73 0,04 E3 0,87 0,04 A12 0,46 0,04 C8 0,11 0,04 E4 1,35 0,04 B1 5,84 0,19 C9 0,60 0,04 E5 1,31 0,04 B2 4,32 0,10 C10 1,29 0,04 E6 1,73 0,04 B3 4,14 0,10 C11 1,85 0,04 E7 1,86 0,04 B4 3,23 0,07 C12 3,41 0,07 E8 2,06 0,05 B5 2,69 0,06 D1 3,93 0,09 E9 3,55 0,07 B6 1,26 0,04 D2 1,51 0,05 E10 3,15 0,06 B7 0,51 0,04 D3 1,19 0,05 E11 3,61 0,07 B8 0,20 0,04 D4 1,15 0,04 E12 3,34 0,07 297
6 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Analiza trudności wskazuje na występowanie znacznej liczby zadań skrajnie łatwych (tych o trudności poniżej 3 jest 14, czyli około 23%). Połowa z nich pochodzi z serii A (A1 A6, A9; ponadto: B1 B4; C1, C2; D1). Test zawiera także sześć zadań skrajnie trudnych (trudność powyżej 3), z czego cztery kończą serię E (E9 E12; ponadto: C12, D12). Można zauważyć, że wbrew założeniom twórcy narzędzia, zadania nie są ułożone hierarchicznie pod kątem poziomu trudności wielokrotnie zdarza się, że zadanie łatwiejsze jest poprzedzone trudniejszym (np. A2 i A3; B9 i B10; C4 i C5; D9 i D10). Najtrudniejsze zadanie znajdujemy w serii D (D12). Zaburzenie rosnącej trudności pozycji testowych szczególnie widoczne jest na granicach serii ostatnia pozycja w serii wcześniejszej jest znacznie trudniejsza niż pierwsza pozycja w serii kolejnej (np. B12 i C1). Ogólnie jednak obserwujemy wzrastającą trudność kolejnych serii. Znaczna liczba zadań łatwych i o przeciętnej trudności (42 zadania mają trudność nie wyższą niż 0,5) sugeruje, że oszacowania dla cechy ukrytej będą najdokładniejsze wśród osób o jej niskim i przeciętnym poziomie. Przypuszczenie to potwierdza krzywa informacyjna testu (Rysunek 14.1). Na osi poziomej przedstawiono poziom mierzonej cechy ukrytej (inteligencji), natomiast na osi pionowej wartość funkcji informacji. Wykres pozwala nam śledzić, na ile dokładny jest pomiar prowadzony wśród uczniów o danym poziomie inteligencji. Rysunek Krzywa informacyjna wyników Testu Matryc Ravena (TMS-K) (wydruk z programu komputerowego). Analiza wykresu wskazuje, że najdokładniejsze oszacowania uzyskujemy wśród osób o poziomie cechy od ok. 1 do 0 logitów. Duża liczba zadań bardzo łatwych sprawia, że precyzja ta, choć spada wraz z obniżaniem się poziomu cechy, jest wciąż dość wysoka w porównaniu do precyzji szacowania bardzo wysokiego poziomu cechy 5. 5 Analogicznych, bo obliczanych na podstawie funkcji informacyjnej testu, danych dostarczyłaby analiza rozkładu standardowych błędów oszacowania. Zrezygnowano jednak z jego prezentacji, aby uniknąć powtarzania treści. 298
7 Zastosowanie modelu Rascha na przykładzie testu inteligencji W kolejnym kroku zweryfikowano dopasowanie modelu do danych. Przypomnijmy, że ocena dobroci dopasowania służy do weryfikacji, czy model mający opisywać pewien fragment rzeczywistości, faktycznie tę rzeczywistość opisuje. Skupiono się na jednym z elementów oceny dopasowania dobroci dopasowania pozycji (por. Swaminathan i in., 2007). Wykorzystano trzy miary dopasowania test LM, outfit i infit. Test LM jest wrażliwy na rozbieżność między faktyczną dyskryminacją pozycji a dyskryminacją w modelu. Jego obliczenie wymaga podziału próby na podgupy o zbliżonych liczebnościach na podstawie wyniku surowego w teście (MIRT pozwala wyodrębnić 3 takie podgrupy). Dla każdej z nich zostają obliczone obserwowane oraz oczekiwane na podstawie modelu średnie wyniki danej pozycji, średnie bezwzględnych wartości różnic między nimi oraz wartości statystyki LM dla każdej pozycji wraz z ich istotnością statystyczną. Istotne wartości testu LM informują o występowaniu różnic między modelem a danymi. Średnie bezwzględnych wartości różnic pozwalają wnioskować o skali rozbieżności (im jej wartość jest bliższa 0, tym rozbieżności są mniejsze), natomiast wzorzec różnic obserwowanych w podgrupach o kierunku odchyleń (np. zbyt niskie wartości w podgrupie pierwszej i zbyt wysokie w trzeciej sugerują, że dyskryminacja pozycji jest w rzeczywistości wyższa niż dyskryminacja w modelu; Glas, 1988; 2007). Miary outfit i infit opierają się na kwadratach różnic między wartościami oczekiwanymi a obserwowanymi, przy czym infit jest wartością ważoną. W efekcie miary te są wrażliwe na różne odstępstwa od modelu. Infit jest wrażliwy na odstępstwa od przewidywanych odpowiedzi osób o poziomie cechy zbliżonej do trudności zadania, natomiast outfit na odstępstwa od przewidywanych odpowiedzi osób o poziomie cechy oddalonej od trudności zadania (Ayala, 2009). Podobnie jak test LM mogą one wskazywać na różnice w faktycznej mocy dyskryminacyjnej pozycji, w porównaniu do dyskryminacji w modelu (DeMars, 2010). Wartość wskazująca na idealne dopasowanie obu statystyk do danych wynosi 1, przy czym wartości znacznie przekraczające 1 wskazują na występowanie w danych większej zmienności niż przewidywana przez model, natomiast wartości poniżej 1 na zmienność w danych mniejszą, niż przewiduje model. Niedopasowanie to może być widoczne na wykresach krzywych charakterystycznych pozycji w postaci odpowiednio: zbyt małego lub zbyt dużego nachylenia krzywych empirycznych, w porównaniu do nachylenia krzywych teoretycznych. Jednocześnie przyjmuje się, że pozycje, dla których wartości tych miar nie mieszczą się w przedziale od 0,5 do 1,5, mają niewielką wartość pomiarową (Ayala, 2009). Zaleca się jednak ustalanie różnych widełek, w zależności od celu pomiaru. Na przykład dla testów wysokiej stawki wymienia się przedział 0,8 1,2, dla testów niskiej stawki (których wynik nie decyduje o losie osób je wypełniających): 0,7 1,3, natomiast dla narzędzi badawczych, w których wykorzystywane są skale ocen: 0,6 1,4 (np. Bond i Fox, 2001). W analizie przyjęto wartości zalecane dla testów wysokiej stawki. Oprócz wspomnianych miar ACER ConQuest oblicza także przedziały ufności, pozwalające weryfikować istotność statystyczną różnic między modelem a danymi (nie wszystkie programy je podają). W sytuacji, gdy przedział pokrywa wartości miary, należy przyjąć hipotezę zerową o braku istotnych różnic między modelem a danymi (Wu i in., 2007). 299
8 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Tabela Miary dopasowania pozycji raportowane przez programy MIRT i ACER ConQuest. Zadanie Outfit Infit Grupa 1 Grupa 2 Grupa 3 LM x r Wartość PU Wartość PU obs. ocz. obs. ocz. obs. ocz. Grupa 1 n Grupa 2 n Grupa 3 n A1 1,84 (0,96; 1,04) 1,07 (0,81; 1,19) 27,06 * 0,97 0,96 0,98 0,99 0,99 1 0, A2 1,67 (0,96; 1,04) 1,06 (0,82; 1,18) 15,9 * 0,97 0,96 0,98 0,99 0,99 1 0, A3 0,65 (0,96; 1,04) 1,03 (0,59; 1,41) 0,83 0,99 0, A4 1,41 (0,96; 1,04) 1,04 (0,71; 1,29) 9,31 * 0,99 0,98 0, A5 1,67 (0,96; 1,04) 1,04 (0,77; 1,23) 9,73 * 0,98 0,97 0,99 0,99 0, A6 1,19 (0,96; 1,04) 1,03 (0,75; 1,25) 1,11 0,98 0,97 0,99 0, A7 0,98 (0,96; 1,04) 1 (0,93; 1,07) 4,54 0,82 0,82 0,94 0,95 0,99 0, A8 1,5 (0,96; 1,04) 1,19 (0,95; 1,05) 144,79 * 0,75 0,67 0,84 0,88 0,91 0,95 0, A9 0,83 (0,96; 1,04) 0,97 (0,90; 1,10) 5,05 0,87 0,88 0,97 0,97 0,99 0, A10 1,09 (0,96; 1,04) 1,06 (0,94; 1,06) 10,39 * 0,75 0,73 0,89 0,91 0,96 0,96 0, A11 1,06 (0,96; 1,04) 1,04 (0,98; 1,02) 14,01 * 0,34 0,3 0,57 0,59 0,79 0,8 0, A12 1,14 (0,96; 1,04) 1,08 (0,98; 1,02) 42,98 * 0,23 0,18 0,4 0,41 0,62 0,66 0, B1 1,34 (0,96; 1,04) 1,03 (0,66; 1,34) 2,5 0,99 0, B2 1,06 (0,96; 1,04) 1,01 (0,85; 1,15) 3,57 0,95 0,94 0,99 0,99 0,99 0, B3 0,65 (0,96; 1,04) 0,93 (0,86; 1,14) 18,7 * 0,92 0,93 0,99 0,98 1 0,99 0, B4 0,88 (0,96; 1,04) 0,97 (0,91; 1,09) 5,01 0,84 0,85 0,96 0,96 0,99 0,99 0, B5 0,86 (0,96; 1,04) 0,95 (0,93; 1,07) 19,78 * 0,78 0,79 0,94 0,94 0,99 0,97 0, B6 1,09 (0,96; 1,04) 1,06 (0,97; 1,03) 15,73 * 0,55 0,51 0,76 0,78 0,89 0,9 0, B7 1,1 (0,96; 1,04) 1,07 (0,97; 1,03) 35,44 * 0,4 0,35 0,62 0,64 0,81 0,83 0, B8 0,87 (0,96; 1,04) 0,9 (0,98; 1,02) 110,01 * 0,21 0,28 0,57 0,55 0,83 0,77 0, B9 0,8 (0,96; 1,04) 0,85 (0,97; 1,03) 194,59 * 0,26 0,36 0,68 0,64 0,89 0,83 0, B10 0,75 (0,96; 1,04) 0,84 (0,97; 1,03) 250,62 * 0,38 0,47 0,77 0,74 0,95 0,89 0, B11 0,82 (0,96; 1,04) 0,86 (0,98; 1,02) 187,7 * 0,2 0,3 0,61 0,58 0,84 0,78 0, B12 0,96 (0,96; 1,04) 0,99 (0,97; 1,03) 5,75 0,1 0,11 0,28 0,28 0,53 0,52 0, C1 0,92 (0,96; 1,04) 1 (0,91; 1,09) 0,83 0,86 0,86 0,96 0,96 0,99 0, C2 1,25 (0,96; 1,04) 1,06 (0,92; 1,08) 21,85 * 0,85 0,83 0,94 0,95 0,97 0,98 0, C3 1,14 (0,96; 1,04) 1,08 (0,96; 1,04) 53,66 * 0,62 0,56 0,79 0,82 0,9 0,93 0, C4 1,13 (0,96; 1,04) 1,07 (0,97; 1,03) 25,76 * 0,43 0,39 0,66 0,67 0,82 0,85 0, C5 0,87 (0,96; 1,04) 0,91 (0,96; 1,04) 30,07 * 0,52 0,55 0,82 0,81 0,94 0,92 0,
9 Zastosowanie modelu Rascha na przykładzie testu inteligencji C6 1,05 (0,96; 1,04) 1,04 (0,98; 1,02) 17,1 * 0,32 0,29 0,57 0,57 0,76 0,78 0, C7 0,85 (0,96; 1,04) 0,91 (0,97; 1,03) 74,86 * 0,35 0,39 0,67 0,68 0,9 0,85 0, C8 1 (0,96; 1,04) 1,02 (0,98; 1,02) 5,76 0,24 0,23 0,5 0,49 0,71 0,73 0, C9 0,93 (0,96; 1,04) 0,95 (0,97; 1,03) 6,69 * 0,35 0,37 0,67 0,66 0,86 0,84 0, C10 1,14 (0,96; 1,04) 1,06 (0,97; 1,03) 43,37 * 0,13 0,09 0,24 0,23 0,42 0,47 0, C11 1,24 (0,96; 1,04) 1,04 (0,96; 1,04) 14,69 * 0,07 0,05 0,15 0,15 0,32 0,34 0, C12 4,55 (0,96; 1,04) 1,15 (0,90; 1,10) 297,48 * 0,08 0,01 0,04 0,04 0,04 0,11 0, D1 0,61 (0,96; 1,04) 0,93 (0,88; 1,12) 45,66 * 0,9 0,92 0,99 0,98 1 0,99 0, D2 0,85 (0,96; 1,04) 0,9 (0,96; 1,04) 75,4 * 0,51 0,57 0,85 0,82 0,95 0,92 0, D3 0,83 (0,96; 1,04) 0,9 (0,97; 1,03) 72,29 * 0,45 0,5 0,78 0,77 0,93 0,9 0, D4 0,76 (0,96; 1,04) 0,84 (0,97; 1,03) 233,72 * 0,39 0,49 0,8 0,76 0,95 0,9 0, D5 0,75 (0,96; 1,04) 0,85 (0,95; 1,05) 128,78 * 0,62 0,68 0,93 0,88 0,97 0,95 0, D6 0,85 (0,96; 1,04) 0,89 (0,97; 1,03) 95,29 * 0,34 0,42 0,74 0,7 0,89 0,86 0, D7 0,94 (0,96; 1,04) 0,96 (0,98; 1,02) 7,33 * 0,28 0,3 0,57 0,57 0,79 0,78 0, D8 0,93 (0,96; 1,04) 0,94 (0,98; 1,02) 33,87 * 0,19 0,23 0,49 0,49 0,77 0,73 0, D9 0,92 (0,96; 1,04) 0,94 (0,98; 1,02) 19,97 * 0,12 0,14 0,35 0,35 0,63 0,6 0, D10 0,89 (0,96; 1,04) 0,91 (0,98; 1,02) 69,27 * 0,16 0,2 0,42 0,44 0,75 0,69 0, D11 1,63 (0,96; 1,04) 1,14 (0,95; 1,05) 126,57 * 0,09 0,04 0,15 0,12 0,21 0,29 0, D12 1,89 (0,96; 1,04) 1,07 (0,87; 1,13) 43,9 * 0,02 0,01 0,03 0,02 0,05 0,07 0, E1 1,01 (0,96; 1,04) 1,02 (0,98; 1,02) 4,82 0,24 0,22 0,48 0,48 0,71 0,72 0, E2 1,01 (0,96; 1,04) 1,01 (0,97; 1,03) 8,38 * 0,15 0,13 0,3 0,31 0,55 0,56 0, E3 1,05 (0,96; 1,04) 1,03 (0,97; 1,03) 10,26 * 0,15 0,13 0,31 0,32 0,55 0,56 0, E4 0,9 (0,96; 1,04) 0,9 (0,97; 1,03) 73,09 * 0,07 0,08 0,18 0,22 0,51 0,45 0, E5 0,93 (0,96; 1,04) 0,93 (0,97; 1,03) 33,72 * 0,07 0,09 0,2 0,23 0,51 0,46 0, E6 1,02 (0,96; 1,04) 0,95 (0,96; 1,04) 24,21 * 0,07 0,06 0,13 0,17 0,39 0,37 0, E7 1,67 (0,96; 1,04) 1,14 (0,96; 1,04) 169,63 * 0,13 0,05 0,16 0,15 0,25 0,34 0, E8 1,32 (0,96; 1,04) 1,06 (0,95; 1,05) 58,95 * 0,08 0,04 0,13 0,13 0,25 0,3 0, E9 2,47 (0,96; 1,04) 1,05 (0,89; 1,11) 47,22 * 0,03 0,01 0,03 0,03 0,07 0,09 0, E10 2,33 (0,96; 1,04) 1,08 (0,91; 1,09) 79,21 * 0,05 0,01 0,05 0,05 0,09 0,13 0, E11 3,64 (0,96; 1,04) 1,12 (0,89; 1,11) 195,39 * 0,05 0,01 0,04 0,03 0,04 0,09 0, E12 3,74 (0,96; 1,04) 1,12 (0,90; 1,10) 169,27 * 0,06 0,01 0,05 0,04 0,06 0,11 0, Legenda: PU przedział ufności; * istotne na poziomie 0,05; LM wartość statystyki testowej LM; obs. wartości obserwowane; ocz. wartości oczekiwane na podstawie modelu; r średnia bezwzględnych wartości różnic między wartościami oczekiwanymi a obserwowanymi w wyodrębnionych grupach; n liczebność wyodrębnionych grup. 301
10 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Wartości miar dopasowania pozycji znajdują się w Tabeli Test LM okazał się istotny statystycznie w przypadku 49 pozycji. Z uwagi na jego zbyt dużą moc, w razie prób bardzo licznych należy się skupić na analizie średnich różnic między wartościami oczekiwanymi a obserwowanymi w wyodrębnionych podgrupach pozwalają one bowiem na weryfikację skali niedopasowania (Glas, 2007). W naszym przypadku nie przekraczają one wartości 0,07, co wskazuje na dobre dopasowanie zadań (np. Glas, 1988; Schoor i in., 2006). Jeżeli przyjmiemy bardziej restrykcyjne kryterium oceny dobroci dopasowania, uznając za punkt graniczny wartość różnic powyżej 0,05, niedopasowanie pojawi się w przypadku sześciu pozycji: A8, B9, B10, B11, D4 oraz E7. W przypadku pięciu z nich wartość ta przekroczy postawioną granicę o 0,01, natomiast w jednym o 0,02 (B9). Skala różnic nie jest więc duża. Krzywe charakterystyczne (z uwagi na ograniczoną objętość, nie przedstawiono ich w rozdziale) także nie budzą zastrzeżeń. Należy jednak nadmienić, że krzywe empiryczne wyrysowano na podstawie trzech podgrup, w związku z czym ich porównanie z krzywymi teoretycznymi nie daje zbyt bogatych informacji. Mimo to wartości średnich różnic skłaniają do sformułowania wniosku o dobrym dopasowaniu 54 pozycji, natomiast pozostałych sześciu o dopasowaniu na poziomie granicznym. Podsumowanie informacji na temat wykrytego niedopasowania znajduje się w Tabeli Tabela Pozycje wskazane jako niedopasowane przez test LM oraz miary outfit i infit. Miara/kryterium Pozycje niedopasowane w świetle Jednej miary Dwóch miar LM r > 0,05 * A8, B9, B10, B11, D4, E7 Outfit A8, B10, D4, E7 A1, A2, A3, A4, A5, A8, B1, B3, B10, C2, C11, C12, D1, D4, D5, D11, <0,8; 1,2> D12, E7, E8, E9, E10, E11, E12 Infit Ou <0,8; 1,2> * r średnia bezwzględnych wartości różnic między wartościami oczekiwanymi a obserwowanymi w grupach wyodrębnionych na potrzeby testu LM. Przegląd wartości infit wstępnie potwierdza wnioski sformułowane na podstawie testu LM. Wprawdzie jedynie dla niespełna połowy pozycji (26) przedziały ufności pokrywają wartości infit, jednak podobnie jak w teście LM, znaczenie ma tu liczebność próby. Konieczne jest więc odwołanie się do podawanych w literaturze przedziałów, w których wartości miary powinny się mieścić. Wartości infit rozciągają się między 0,84 (B10, D4) a 1,19 (A8), z czego 48 pozycji mieści się w przedziale 0,9 1,1. Testy inteligencji wykonywane są często podczas diagnoz w poradniach psychologiczno-pedagogicznych lub w ramach rekrutacji do pracy, i w związku z tym silnie ważą na dalszych losach jednostki, dlatego przyjęto, że należy stawiać im wysokie wymagania w zakresie właściwości psychometrycznych. Odwołano się więc do reguł zalecanych dla testów wysokiej stawki. Przypomnijmy, że zgodnie z nimi za dobrze do- 302
11 Zastosowanie modelu Rascha na przykładzie testu inteligencji pasowane zadania uznaje się te, których outfit i infit mieszczą się w przedziale wartości 0,8 1,2 (Bond i Fox, 2001). W tym świetle dopasowanie wszystkich zadań mierzone za pomocą intfit jest satysfakcjonujące. Rysunek Empiryczna i teoretyczna krzywa charakterystyczna zadania B9 (wydruk z programu komputerowego). Krzywą empiryczną zaznaczono linią przerywaną, krzywą teoretyczną linią ciągłą. Analiza miar outfit przynosi mniej pomyślne rezultaty. Statystyka przyjęła wartości od 0,61 (D1) do 4,55 (C12). Wartości w granicach 0,8 1,2 osiągnęło 37 pozycji, poniżej 0,8: 6 pozycji (A3, B3, B10, D1, D4, D5), powyżej 1,2: 17 pozycji, przy tym wartości powyżej 1,5 aż 11 z nich (A1, A2, A5, C12, D11, D12, E7, E9 E12). Okazuje się więc, że w przypadku 17 zadań o zbyt wysokiej wartości outfit odpowiedzi charakteryzują się większą zmiennością niż przewiduje model. W przypadku sześciu zadań (o wartości outfit poniżej 0,8) zmienność ta jest natomiast niższa w stosunku do przewidywań. Połączenie informacji o wartości outfit i trudności pozycji (Tabela 14.1; można skorzystać także z wyników dla podgrup podawanych przez MIRT Tabela 14.2) pozwala stwierdzić, że problematyczne są przede wszystkim zadania skrajnie łatwe (A1 A5) i skrajnie trudne (np. C12, D12, E8 E12), choć nie zawsze (A6). Wartości outfit wskazują, że moc dyskryminacyjna pozycji w niektórych przypadkach jest większa (B9) lub mniejsza (D11) niż założona w modelu. Zobrazowano to na Rysunkach 14.2 i 14.3, przedstawiających krzywe charakterystyczne tych pozycji. Na osi X znajduje się poziom mierzonej cechy, na osi Y prawdopodobieństwo udzielenia poprawnej odpowiedzi. W skrajnych sytuacjach empiryczna krzywa charakterystyczna jest zorientowana poziomo ma to miejsce w przypadku trzech pozycji: C12, E11, E12. Charakteryzują się one najwyższymi wartościami outfit (odpowiednio: 4,55; 3,64; 3,74) przy akceptowalnych wartościach infit 303
12 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii (odpowiednio: 1,15; 1,12; 1,12). Przypomnijmy, że średnie bezwzględnych wartości różnic dla tych pozycji (raportowane wraz z testem LM) wyniosły odpowiednio: 0,05; 0,04 i 0,03, wskazując na dobre dopasowanie. Teoretyczne i empiryczne krzywe pozycji C12 (jako przykładowej) przedstawiono na Rysunku Pozostałe problematyczne pozycje wykazują mniejsze rozbieżności między krzywą empiryczną a teoretyczną; nie zamieszczono ich ze względu na ograniczoną objętość pracy. Rysunek Empiryczna i teoretyczna krzywa charakterystyczna zadania D11 (wydruk z programu komputerowego). Krzywą empiryczną zaznaczono linią przerywaną, krzywą teoretyczną linią ciągłą. Podsumowując dotychczasowe analizy z wykorzystaniem miar outfit i infit, na podstawie bardzo wysokich wartości outfit należałoby wyłączyć z testu trzy pozycje (C12, E11, E12) ze względu na zbyt dużą zmienność, nieprzewidywalność wzorca odpowiedzi osób o poziomie cechy oddalonej od trudności zadań. W przypadku ośmiu kolejnych (o wartościach outfit powyżej 1,5) należy rozważyć podobne działanie. Podsumowanie informacji na temat wykrytego niedopasowania zawarto w Tabeli Charakter niedopasowania (widoczny na wykresach krzywych charakterystycznych) sugeruje jednak, że lepsze dopasowanie zyskałby dwuparametryczny model IRT. Zaobserwowane odstępstwa (w przypadku części pozycji) wynikają bowiem z większej lub mniejszej mocy dyskryminacyjnej niż założona w modelu. Z drugiej strony, stosując model dwuparametryczny utracilibyśmy wiele zalet modelu Rascha. Przemawia to za usunięciem tych pozycji z dalszych analiz. Działanie to naruszyłoby jednak integralność testu. Decyzja, jakie kroki podjąć w związku z wykryciem niedopasowania, wymaga rozważenia zysków i strat wynikających z obu możliwych rozwiązań. Po dokonaniu wyboru wskazane jest ponowne 304
13 Zastosowanie modelu Rascha na przykładzie testu inteligencji przeprowadzenie analiz oraz ich pogłębienie, np. o weryfikację zróżnicowanego funkcjonowania pozycji testowej (differential item functioning, DIF) pod względem płci. Rysunek Empiryczna i teoretyczna krzywa charakterystyczna zadania C12 (wydruk z programu komputerowego). Krzywą empiryczną zaznaczono linią przerywaną, krzywą teoretyczną linią ciągłą. Należy zwrócić uwagę, że wnioski wyciągnięte na podstawie analizy przeprowadzonej z zastosowaniem miar infit i outfit tylko częściowo pokrywają się z wnioskami wysnutymi na podstawie testu LM. Test ten wskazał na pewne trudności z dopasowaniem sześciu zadań. Cztery z nich (A8, B10, D4, E7) przekroczyły jednocześnie akceptowalne granice miary outfit. Jednocześnie test LM wykazał dobre dopasowanie 19 zadań, z którymi problemy sygnalizowała miara outfit. Wśród nich znalazło się 10 (z 11 pozycji) o wartościach outfit przekraczających 1,5, a więc takich, których wyłączenie z testu należy rozważyć. Pozostałe zadania wskazane przez test LM (B9 i B11) okazały się mieścić w granicach 0,8 1,2 zarówno dla outfit, jak i infit, choć wartości obu miar były bliskie granicznym. Warto przypomnieć, że zadanie B9 zostało wskazane przez test LM jako najbardziej niedopasowane (wartość średniej różnic: 0,07). Choć rezultaty te zasługują na odrębną, pogłębioną analizę przyczyn, wstępnie można ich upatrywać zarówno we właściwościach podawanych przez oprogramowanie miar, jak i w kwestiach technicznych, takich jak na przykład liczba podgrup wyodrębnionych w ramach analiz z zastosowaniem testu LM (oprogramowanie MIRT jednak nie umożliwia modyfikacji liczby podgrup). 305
14 Modele cech ukrytych w badaniach edukacyjnych, psychologii i socjologii Podsumowanie Przeprowadzona analiza wskazuje na znaczne zróżnicowanie trudności zadań testu TMS-K, z przewagą zadań bardzo łatwych (37 pozycji ma trudność nie większą niż 0,2 logita). Największą precyzję oszacowania otrzymujemy w przypadku pomiaru cechy od ok. 1 do 0 logitów, a w przypadku nieco szerszych widełek od ok. 1,4 do ok. 0,8. Większość pozycji okazała się dobrze dopasowana do danych, jednak ze względu na widoczne zróżnicowanie mocy dyskryminacyjnej części pozycji, należy rozważyć jedno z dwóch możliwych działań: usunięcie niedopasowanych pozycji lub zastosowanie modelu dwuparametrycznego. W kolejnym kroku zaleca się ponowne przeprowadzenie analiz oraz pogłębienie ich o weryfikację DIF. Zastosowanie jednoparametrycznego modelu IRT w analizie TMS-K pozwoliło przekroczyć ograniczenia nakładane przez klasyczną teorię testu oraz dostarczyło bogatszych informacji na temat poszczególnych zadań i właściwości pomiarowych całego narzędzia. Przede wszystkim uzyskaliśmy poddające się łatwej interpretacji parametry zadań, niezależne od próby, z której je szacowano, oraz oszacowania poziomu cechy niezależne od puli zadań. Ze względu na inwariancję szacowanych parametrów, informacje te mogą być wykorzystane w przyszłości podczas podejmowania decyzji o zastosowaniu narzędzia na innej próbie. Ponadto otrzymaliśmy dokładniejsze dane na temat precyzji pomiaru oraz mieliśmy możliwość weryfikacji dopasowania modelu do danych. Dobrze dopasowany model jednoparametryczny pozwoliłby nam wierzyć w bardzo dobre właściwości narzędzia, a tym samym w wysoką jakość pomiaru dokonywanego z jego wykorzystaniem. Literatura Andrich, D. (2004). Controversy and the Rasch model: a characteristic of incompatible paradigms? Medical Care, 42(Supplement), I 7. doi: /01.mlr c Ayala, R. J. de (2009). Theory and practice of item response theory. New York: Guilford Press. Bond, T. G. i Fox, C. M. (2001). Applying the Rasch model: fundamental measurement in the human sciences. Mahwah: Lawrence Erlbaum. Borshboom, D. (2005). Measuring the mind: conceptual issues in contemporaty psychometrics. New York: Cambridge University Press. DeMars, C. (2010). Item response theory. New York: Oxford University Press. Dziedziewicz, D. i Karwowski, M. (2012). Graficzno-werbalny test wyobraźni twórczej. Warszawa: Akademia Pedagogiki Specjalnej. Glas, C. A. W. (1988). The derivation of some tests for the Rasch model from the multinominal distribution. Psychometrika, 53(4), Glas, C. A. W. (2007). Testing generalized Rasch models. W: M. C. von Davier i C. H. Carstensen (red.), Multivariate and mixture distribution Rasch models. Extensions and applications. New York: Springer. Glas, C. A. W. (2010). Preliminary manual of the software program multidimentional response theory (MIRT). Pobrano z Hornowska, E. (2005). Testy psychologiczne. Teoria i praktyka. Warszawa: Scholar. 306
15 Zastosowanie modelu Rascha na przykładzie testu inteligencji Jasińska, A. i Modzelewski, M. (2012). Można inaczej. Wykorzystanie IRT do konstrukcji testów osiągnięć szkolnych. W: B. Niemierko i M. K. Szmigel (red.), Regionalne i lokalne diagnozy edukacyjne (s ). Kraków: Polskie Towarzystwo Diagnostyki Edukacyjnej. Jaworowska, A. i Szustrowa, T. (2007). Test matryc Ravena w wersji Standard. Formy: klasyczna, równoległa, plus. Polskie standaryzacje. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Karwowski, M. i Dziedziewicz, D. (2012). Test umiejętności na starcie szkolnym. Podręcznik. Warszawa: Instytut Badań Edukacyjnych. Kondratek, B. i Pokropek, A. (2013). IRT i pomiar edukacyjny. Edukacja, 124(4), Maluchnik, M. i Modzelewski, M. (2014). Próba badawcza i proces zbierania danych. W: R. Dolata (red.), Czy szkoła ma znaczenie? Analiza zróżnicowania efektywności nauczania na pierwszym etapie edukacyjnym (s ). Warszawa: Instytut Badań Edukacyjnych. Perline, R., Wright, B. D. i Wainter, H. (1979). The Rasch model as additive conjoint measurement. Applied Psychological Measurement, 3(2), Schoor, N. M., Knol, D. L., Glas, C. A. W., Ostelo, R. W., Leplège, A., Cooper, C., Johnell, O. i Lips, P. (2006). Development of the Qualeffo 31, an osteoporosis-specific quality-of-life questionnaire. Osteoporosis International, 17(4), doi: /s Swaminathan, H., Hambelton, R. K. i Rogers, H. J. (2007). Assessing item fit of item response theory models. W: C. R. Rao i S. Sinharay (red.), Handbook of Statistics (t. 26: Psychometrics). Amsterdam: Elsevier. Szaleniec, H. (red.). (2009). Teoria wyniku zadania IRT: zastosowania w polskim systemie egzaminów zewnętrznych: praca zbiorowa. Warszawa: Centralna Komisja Egzaminacyjna. Szaleniec, H., Grudniewska, M., Kondratek, B., Kulon, F. i Pokropek, A. (2012). Wyniki egzaminu gimnazjalnego na wspólnej skali. Edukacja, 119(3), Wright, B. D. (1997). A history of social science measurement. Educational Measurement: Issues and Practice, 16(4), doi: /j tb00606.x Wu, M. L., Adams, J. R., Wilson, M. R. i Haldane, S. A. (2007). ACER Conquest version 2.0: generalized item response modeling software. Melbourne: Australian Council for Educational Research. 307
Wybór ma znaczenie, czyli problem miar dopasowania pozycji testowych do modelu pomiarowego w tworzeniu testów za pomocą metody IRT
Anna Hawrot Instytut Badań Edukacyjnych Zespół SUEK, Zespół EWD Regionalne i lokalne diagnozy edukacyjne Wybór ma znaczenie, czyli problem miar dopasowania pozycji testowych do modelu pomiarowego w tworzeniu
Porównywalne między latami wyniki egzaminacyjne
Porównywalne między latami wyniki egzaminacyjne ZESPÓŁ ANALIZ OSIĄGNIĘĆ UCZNIÓW Instytut Badań Edukacyjnych Henryk Szaleniec, Bartosz Kondratek Plan prezentacji 1.Po co nam zrównywanie wyników pomiędzy
Porównywalne między latami wyniki sprawdzianu
Porównywalne między latami wyniki sprawdzianu ZESPÓŁ ANALIZ OSIĄGNIĘĆ UCZNIÓW Instytut Badań Edukacyjnych Plan prezentacji 1.Po co nam zrównywanie wyników pomiędzy latami? 2.W jaki sposób przeprowadzono
5. WNIOSKOWANIE PSYCHOMETRYCZNE
5. WNIOSKOWANIE PSYCHOMETRYCZNE Model klasyczny Gulliksena Wynik otrzymany i prawdziwy Błąd pomiaru Rzetelność pomiaru testem Standardowy błąd pomiaru Błąd estymacji wyniku prawdziwego Teoria Odpowiadania
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Zadania rozrywające w testach
Ewa Stożek Okręgowa Komisja Egzaminacyjna w Łodzi Zadania rozrywające w testach Na podstawie analizy danych empirycznych ze sprawdzianu i roku wyodrębniono zadania odpowiedzialne za dwumodalność rozkładu
ZADANIA ROZRYWAJĄCE W TESTACH. 1. Co to jest zadanie rozrywające?
Ewa Stożek OKE Łódź ZADANIA ROZRYWAJĄCE W TESTACH Na podstawie analizy danych empirycznych ze sprawdzianu i roku wyodrębniono zadania odpowiedzialne za dwumodalność rozkładu wyników tych testów. Takie
Porównywalne między latami wyniki egzaminacyjne
Porównywalne między latami wyniki egzaminacyjne ZESPÓŁ ANALIZ OSIĄGNIĘĆ UCZNIÓW Instytut Badań Edukacyjnych Plan prezentacji 1. Zrównywanie wyników egzaminacyjnych w innych krajach 2. Po co nam zrównywanie
Zadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:
Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Oszacowanie umiejętności teta oraz wyskalowanie osi w metodzie IRT dla potrzeb obliczania parametrów zadań
Sławomir Sapanowski Okręgowa Komisja Egzaminacyjna w Łodzi Oszacowanie umiejętności teta oraz wyskalowanie osi w metodzie IRT dla potrzeb obliczania parametrów zadań W ostatnim czasie wśród ekspertów zajmujących
15. PODSUMOWANIE ZAJĘĆ
15. PODSUMOWANIE ZAJĘĆ Efekty kształcenia: wiedza, umiejętności, kompetencje społeczne Przedmiotowe efekty kształcenia Pytania i zagadnienia egzaminacyjne EFEKTY KSZTAŁCENIA WIEDZA Wykazuje się gruntowną
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Wnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Trafność testów egzaminacyjnych. Artur Pokropek, Tomasz Żółtak IFiS PAN
Trafność testów egzaminacyjnych Artur Pokropek, Tomasz Żółtak IFiS PAN Plan prezentacji EWD i trafność testów egzaminacyjnych Pięć postulatów trafności dla skal pomiarowych Wskaźniki egzaminacyjne a wyniki
(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel)
TEST PSYCHOLOGICZNY/ PEDAGOGICZNY (narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel) 1. Jest narzędziem diagnostycznym posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY
definicja rzetelności błąd pomiaru: systematyczny i losowy Psychometria Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. rozkład X + błąd losowy rozkład X rozkład X + błąd systematyczny
Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA
Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów
ćwiczenia 30 zaliczenie z oceną
Wydział: Psychologia Nazwa kierunku kształcenia: Psychologia Rodzaj przedmiotu: podstawowy Opiekun: dr Krzysztof Fronczyk Poziom studiów (I lub II stopnia): Jednolite magisterskie Tryb studiów: Stacjonarne
Przemysław Majkut Gimnazjum N analiza efektów kształcenia na podstawie wyników egzaminów zewnętrznych
Przemysław Majkut Gimnazjum N analiza efektów kształcenia na podstawie wyników egzaminów zewnętrznych Opis szkoły Opisywane gimnazjum znajduje się w niewielkiej miejscowości, liczącej niewiele ponad tysiąc
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0
Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Kontekstowe wskaźniki efektywności nauczania - warsztaty
Kontekstowe wskaźniki efektywności nauczania - warsztaty Przygotowała: Aleksandra Jasińska (a.jasinska@ibe.edu.pl) wykorzystując materiały Zespołu EWD Czy dobrze uczymy? Metody oceny efektywności nauczania
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Wydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Wykład 9 Wnioskowanie o średnich
Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i
PROGRAM OPERACYJNY KAPITAŁ LUDZKI Priorytet III, Działanie 3.2 Rozwój systemu egzaminów zewnętrznych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego PROGRAM OPERACYJNY KAPITAŁ LUDZKI Priorytet III, Działanie 3.2 Rozwój systemu egzaminów zewnętrznych EWD jako
Pobieranie prób i rozkład z próby
Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.
laboratoria 24 zaliczenie z oceną
Wydział: Psychologia Nazwa kierunku kształcenia: Psychologia Rodzaj przedmiotu: podstawowy Opiekun: dr Andrzej Tarłowski Poziom studiów (I lub II stopnia): Jednolite magisterskie Tryb studiów: Niestacjonarne
10. Podstawowe wskaźniki psychometryczne
10. Podstawowe wskaźniki psychometryczne q analiza własności pozycji testowych q metody szacowania mocy dyskryminacyjnej q stronniczość pozycji testowych q własności pozycji testowych a kształt rozkładu
W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Psychometria. Psychologia potoczna. Psychometria (z gr. psyche dusza, metria miara) Plan wykładów. Plan wykładów. Wprowadzenie w problematykę zajęć
Psychometria Wprowadzenie w problematykę zajęć W 1 Psychologia potoczna potoczne przekonanie dotyczące natury ludzkiego zachowania wyrażające się w zdroworozsądkowych, intuicyjnych twierdzeniach. dr Łukasz
RAPORT z diagnozy Matematyka na starcie
RAPORT z diagnozy Matematyka na starcie przeprowadzonej w klasach czwartych szkoły podstawowej Analiza statystyczna Wyjaśnienie Wartość wskaźnika Liczba uczniów Liczba uczniów, którzy przystąpili do sprawdzianu
Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia
Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Model EWD dla II etapu edukacyjnego.
Model EWD dla II etapu edukacyjnego. Na podstawie materiałów Pracowni EWD Instytut Badań Edukacyjnych Warszawa, 28-29.11.2014 r. Plan zajęć /moduł 9. i 10./ 1. Idea EWD 2. Model EWD dla II etapu 3. Prezentacja
Trafność egzaminów w kontekście metody EWD
Trafność egzaminów w kontekście metody EWD Aleksandra Jasińska (a.jasinska@ibe.edu.pl) Tomasz Żółtak (t.zoltak@ibe.edu.pl) Instytut Badań Edukacyjnych ul. Górczewska 8 01-180 Warszawa JESIENNA SZKOŁA EWD
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.
SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY
SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY
Latentna moc różnicująca zadań z testów matematycznych dla młodzieży uzdolnionej
XVI Konferencja Diagnostyki Edukacyjnej, Toruń 200 Elżbieta Ostaficzuk Mazowieckie Samorządowe Centrum Doskonalenia Nauczycieli Grażyna Śleszyńska Mazowieckie Samorządowe Centrum Doskonalenia Nauczycieli
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
w pierwszym okresie nauki w gimnazjum
Wojdedh Walczak Ośrodek Pedagogiczno-Wydawniczy CHEJRON w Łodzi Związek pomiędzy dwoma typami oceniania w podstawowej a wynikami osiąganymi przez uczniów w pierwszym okresie nauki w gimnazjum Wstęp Niniejsze
RAPORT z diagnozy umiejętności matematycznych
RAPORT z diagnozy umiejętności matematycznych przeprowadzonej w klasach pierwszych szkół ponadgimnazjalnych 1 Analiza statystyczna Wskaźnik Liczba uczniów Liczba punktów Łatwość zestawu Wyjaśnienie Liczba
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II
METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II Podział zmiennych Zmienne zależne zmienne, które są przedmiotem badania, których związki z innymi zmiennymi chcemy określić Zmienne
Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25
Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane
Szkolny raport ewaluacyjny
Szkolny raport ewaluacyjny Szkoła Podstawowa nr 92 im. Jana Brzechwy Żoliborz, ul. Przasnyska 18a Raport opracowany na podstawie wyników sprawdzianu w szóstej klasie szkoły podstawowej z lat 2012-2016
Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana
Publiczna Szkoła Podstawowa nr 14 w Opolu Edukacyjna Wartość Dodana rok szkolny 2014/2015 Edukacyjna Wartość Dodana (EWD) jest miarą efektywności nauczania dla szkoły i uczniów, którzy do danej placówki
Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski
Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Szkice rozwiązań z R:
Szkice rozwiązań z R: Zadanie 1. Założono doświadczenie farmakologiczne. Obserwowano przyrost wagi ciała (przyrost [gram]) przy zadanych dawkach trzech preparatów (dawka.a, dawka.b, dawka.c). Obiektami
Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Definicja testu psychologicznego
Definicja testu psychologicznego Badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu jakim jest jej ocena. Jest to sytuacja tworzona specjalnie dla celów diagnostycznych,
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Można inaczej. Wykorzystanie IRT do konstrukcji testów osiągnięć szkolnych
Aleksandra Jasińska Michał Modzelewski Instytut Badań Edukacyjnych Regionalne i lokalne diagnozy edukacyjne Można inaczej. Wykorzystanie IRT do konstrukcji testów osiągnięć szkolnych Skonstruowanie dobrych
Kognitywistyka II r. Terminy wykładów. Literatura - psychometria. Teorie inteligencji i sposoby jej pomiaru (1)
Kognitywistyka II r Teorie inteligencji i sposoby jej pomiaru (1) Terminy wykładów 13. 03. 2008 27. 03. 2008 03. 04. 2008 17. 04. 2008 24. 04. 2008 08. 05. 2008 15. 05. 2008 29. 05. 2008 05. 06. 2008 12.
W1. Wprowadzenie. Statystyka opisowa
W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład
Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy
Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA
WNIOSKOWANIE STATYSTYCZNE
STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW
Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne Czyli jak bardzo jesteśmy pewni że parametr oceniony na podstawie próbki jest
Zadania rozrywające w testach na przykładzie zadań maturalnych z matematyki
Ewa Stożek, Henryk Dąbrowski OKE Łódź Zadania rozrywające w testach na przykładzie zadań maturalnych z matematyki Na podstawie analizy danych empirycznych z egzaminu maturalnego z matematyki 5 i 6 roku