Wykład 7 TRAFNOŚĆ POMIARU TESTEM: PODSTAWOWE POJĘCIA ORAZ METODY I WSKAŹNIKI

Pojęcie trafności pomiaru Trafność pomiaru testem to: a). stopień, w jakim test mierzy cechę, jaką ma mierzyć (trafność teoretyczna czy inaczej trafność zorientowana na konstrukt); b). stopień dokładności przewidywania określonych kryteriów praktycznych (trafność kryterialna lub inaczej trafność podejmowanych decyzji).

Trafność a założenia KTT Pojęcie trafności odwołuje się do założeń Klasycznej Teorii Testów, zgodnie z którymi wyniki prawdziwe i błędy pomiaru są nieskorelowane, jak i błędy są nieskorelowane (r tb = 0 oraz r bb = 0), co oznacza, że obserwowane korelacje (między pozycjami, testem i innymi testami oraz testem a kryteriami) są korelacjami wyników prawdziwych.

Trafność a rzetelność pomiaru Rzetelność jest koniecznym, ale niewystaczającym warunkiem trafności pomiaru. Oznacza to, że test może być rzetelny i nietrafny, ale nie odwrotnie test nierzetelny musi być nietrafny. Rzetelność jest kresem górnym trafności, ponieważ wariancja prawdziwa jest źródłem rzetelności, ale także trafności.

Źródła wariancji przy analizie rzetelności i trafności (A) Systematyczna wariancja wspólna z innymi testami. (B) Systematyczna wariancja specyficzna dla danego testu. (C) Wariancja błędu (losowa). Rzetelność = A + B (wariancja systematyczna w przeciwieństwie do wariancji losowej). Trafność = A (wariancja wspólna w przeciwieństwie do specyficznej wariancji = B + C).

Rzetelność i trafność Rzetelność i trafność są parametrami psychometrycznymi pomiaru testem i są wyznaczane przez podobne czynniki: Zmiany w procedurze standaryzacji (alternatywne zastosowanie testu). Zmiany w demograficznym składzie próby - ograniczona zmienność wyników testu lub wyników kryterialnych w grupie.

Rzetelność i trafność W przypadku trafności kryterialnej, wymaganie tego rodzaju trafności jest sprzeczne z wymogiem rzetelności, jak i trafności teoretycznej. Rzetelność i trafność teoretyczna jest najwyższa, gdy interkorelacje pozycji są wysokie, ale wtedy trafność kryterialna jest niska (wymaga ona pozycji o niskich interkorelacjach oraz wysokich korelacjach z kryteriami zewnętrznymi,

Rzetelność i trafność co prowadzi do obniżenia rzetelności i trafności teoretycznej. W takim wypadku test mierzy różne (nieskorelowane) właściwości psychologiczne, pozwalające na przewidywanie złożonych kryteriów praktycznych - jest heterogeniczny pod względem treści psychologicznej (zaś rzetelność i trafność wymaga homogenicznych pozycji oraz jednej cechy, wpływającej na wyniki testowe).

Rodzaje trafności pomiaru Trafność pomiaru obejmuje trzy rodzaje: a). trafność treściową (wewnętrzną), b). trafność kryterialną (diagnostyczną i prognostyczną), c). trafność teoretyczną.

Trafność treściowa - definicja Trafność treściowa (wewnętrzna) - reprezentatywność danej puli pozycji dla uniwersum pozycji mierzących daną cechę. Trafność treściowa jest wstępnym aspektem trafności teoretycznej. Trafność fasadowa jest natomiast karykaturą trafności i nie powinna być przesłanką do budowania sądu o faktycznej trafności testu.

Trafność treściowa Analiza trafności treściowej jest niezbędnym etapem prac konstrukcyjnych testu (zanim jeszcze test został całkowicie opracowany, za wyjątkiem kwestii krytyki testu, gdy chcemy wykazać, że test jest nietrafny treściowo, np. treść pozycji testowych nie obejmuje ważnych aspektów cechy).

Etapy oceny trafności treściowej Precyzyjna definicja cechy (konstruktu oraz porównanie z innymi konstruktami teoretycznymi). Opis aspektów cechy: podwymiarów czy fasad cechy (cecha, jak i jej podwymiary powinny mieć budowę hierarchiczną i być precyzyjnie zdefiniowane).

Etapy oceny trafności treściowej Ocena liczby pozycji w każdym podwymiarze oraz teście jako całości (każdy podwymiar powinien być reprezentowany w całym teście i obejmować zbliżoną liczbę pozycji). Ocena pozycji w każdym podwymiarze oraz w całym teście przez grupę ekspertów na skalach ocen (trafność treściowa) lub osób badanych (typowość).

Trafność kryterialna - definicja Trafność kryterialna - stopień, w jakim test pozwala na przewidywanie określonego kryterium zewnętrznego, np. powodzenia zawodowego, szkolnego, wypadkowości, diagnozy klinicznej, itp. Trafność kryterialna obejmuje trafność diagnostyczną (stopień, w jakim test pozwala na ocenę aktualnego kryterium) oraz trafność prognostyczną (stopień, w jakim test pozwala na ocenę przyszłego kryterium).

Trafność kryterialna - szacowanie Trafność kryterialna jest szacowana na podstawie korelacji między wynikami testu a określonym kryterium pozatestowym; z tego względu kluczowym aspektem jest rzetelność (jak i trafność) samego kryterium, użytego do badania trafności testu.

Trafność kryterialna - poprawka na nierzetelność kryterium Poprawka na nierzetelność kryterium: r kt r s-k = -------------- R tt-k r s-k - skorygowany współczynnik korelacji, r kt - współczynnik korelacji przed skorygowaniem, R tt-k współczynnik rzetelności kryterium.

Trafność kryterialna - poprawka na nierzetelność kryterium i testu Poprawka na nierzetelność kryterium i testu: r kt r s-kt = -------------- R tt-k R tt-t r s-kt - skorygowany współczynnik korelacji, r kt - współczynnik korelacji przed skorygowaniem, R tt-k współczynnik rzetelności kryterium, R tt-t - współczynnik rzetelności testu.

Trafność kryterialna dane z meta-analiz Testy zdolności korelacje około 0,50 ze wskaźnikami efektywności pracy oraz osiągnięciami szkolnymi (0,70 szkoła podstawowa, 0,50 szkoła średnia oraz 0,30 szkoła wyższa). Skale osobowości korelacje około 0,30 ze wskaźnikami efektywności pracy oraz 0,50 z diagnozą kliniczną (psychiatryczną).

Tabela 8. Dane z dwóch meta-analiz trafności kryterialnej skal osobowości i efektywności pracy (w nawiasach korelacje skorygowane na nierzetelność kryterium i/lub skali). Skala Mount i Barrick (1991) Tett, Jackson i Rothstein (1991) Neurotyczność -0,04 (-0,07) -0,15 (-0,22) Ekstrawersja 0,06 (0,10) 0,10 (0,16) Otwartość -0,02 (-0,03) 0,18 (0,27) Sumienność 0,13 (0,23) 0,12 (0,18) Ugodowość 0,04 (0,06) 0,22 (0,33)

Trafność kryterialna inne metaanalizy Mount, Barrick i Judge (2001) meta-analiza 15 wcześniejszych metaanaliz: korelacje -0,13 dla N oraz 0,24-0,27 dla S i efektywności pracy. Salgado (1997) meta-analiza badań europejskich: korelacje -0,19 dla N i 0,25 dla S. Mount, Barrick i Stewart (1998) U i N przewidują efektywność pracy w zespole. Judge, Heller i Mount (2002) - N, S i E przewidują poziom satysfakcji z pracy (zbliżone rezultaty dla trafności diagnostycznej i predykcyjnej).

Cechy OCEAN a powodzenie zawodowe Cechy PMO badane w dzieciństwie, zostały odniesione do subiektywnie ocenianego sukcesu zawodowego oraz zobiektywizowanych wskaźników sukcesu zawodowego (dochodów i statusu społecznego wykonywanego zawodu), badanych w dorosłości - po upływie ponad 50 lat (Judge, Higgins, Thoresen i Barrick, 1999).

Współczynnik korelacji Rycina 20. Cechy Pięcioczynnikowego Modelu Osobowości w dzieciństwie a ocena subiektywna i obiektywne wskaźniki sukcesu zawodowego (status społeczny zawodu oraz dochody) w dorosłości (Judge, Higgins, Thoresen i Barrick, 1999). 0,60 0,50 0,40 0,30 0,20 0,10 0,00-0,10 0,21 0,40-0,06 0,13 0,32 0,49 0,00-0,02 0,10 0,16 0,25-0,01-0,20-0,30-0,40-0,50-0,22 Subiektywna ocena sukcesu zawodowego O C E A N O C E A N O C E A N -0,26 Status społeczny zawodu Dochody -0,26

Cechy OCEAN a powodzenie zawodowe Najlepszym predyktorem subiektywnie ocenianego sukcesu zawodowego była sumienność, mała neurotyczność i otwartość. Predyktorem poziomu dochodów była ekstrawersja, mała neurotyczność i sumienność, zaś statusu społecznego (rangi) zawodu sumienność, otwartość oraz mała neurotyczność.

Ryc. 21. Związki między cechami temperamentu: reaktywnością emocjonalną i aktywnością, cechami osobowości: depresyjnością oraz uległością, paleniem tytoniu a zachorowaniem na raka płuca. 0,46 Depresyjność 0,64-0,23 0,23 Reaktywność 0,96 0,54 0,21-0,30 Uległość Rak płuca -0,21 Aktywność 0,95 0,56-0,24 Palenie

Ryc. 22. Związki między cechami temperamentu: reaktywnością emocjonalną i aktywnością, cechami osobowości: depresyjnością oraz wrogością, paleniem tytoniu a zachorowaniem na zawał serca. 0,45 Depresyjność 0,76 0,25 Reaktywność 0,82 0,83 0,51-0,60 Palenie Zawał serca 0,48 Aktywność 0,80 0,29 0,55 0,49 Wrogość

Podsumowanie Korelacje cech osobowości z diagnozą medyczną (stan zdrowia) wynosiły ok. 0,20 dla raka płuca i zawału serca. Zbliżone dane zostały uzyskane w innych badaniach (Zawadzki, 2001).

Podsumowanie Mischel (1968) określił współczynniki trafności skal badających cechy osobowości z kryteriami (stan zdrowia, powodzenie zawodowe) mianem współczynników osobowości, które nie przekraczają wartości 0,30.

Cechy OCEAN a długość życia Osobami badanymi byli uczestniczy programu Termana dotyczącego powodzenia życiowego osób wybitnie zdolnych, które urodziły się około 1910 roku i od początku lat 20. uczestniczyły w programie badawczym aż do roku 1986. Analiza przeżywalności (po ponad 60 latach) wykazała, że efekt sumienności z pewnym dodatkiem ugodowości

Cechy OCEAN a długość życia (niezawodność społeczna, rozwaga, wolność od próżności-egotyzmu, skrupulatność i prawdomówność) - cechy badanej w dzieciństwie na podstawie szacowania przez rodziców oraz nauczycieli (na podstawie szeregu pytań, sklasyfikowanych w latach 80. jako - w głównej mierze - wskaźniki sumienności)

Cechy OCEAN a długość życia pozwala na przewidywanie przeżywalności (Friedmann i in, 1993; 1995), także przy kontroli efektu płci, przyczyny zgonu (np. wypadki samochowe), czy zachowań zdrowotnych (alkohol, palenie, nadwaga).

Wykład 8 TRAFNOŚĆ TEORETYCZNA POMIARU TESTEM

Trafność teoretyczna - pojęcie Trafność teoretyczna - zgodność treści mierzonej przez test z konstruktem teoretycznym (trafność zorientowana na konstrukt) - określenie jaką treść psychologiczną mierzy test.

Metody szacowania trafności teoretycznej 1). Metody bazujące na analizie związku pomiędzy konstruktem a zachowaniem: a). metoda zmian nieprzypadkowych, b). metoda sprawdzania różnic międzygrupowych, c). metoda badania procesu rozwiązywania testu;

Metody szacowania trafności teoretycznej (c.d.) 2). Metody bazujące na analizie macierzy korelacji pomiędzy testem, a innymi testami przeznaczonymi do badania danego konstruktu: a). metoda badania wewnętrznej struktury testu,

Metody szacowania trafności teoretycznej (c.d.) b). metoda analizy macierzy korelacji i analizy czynnikowej (eksploracyjnej i konfirmacyjnej) danego testu oraz testów, badających ten sam konstrukt; c). badanie trafności konwergencyjnej i dyskryminacyjnej (zbieżnej i różnicowej) za pomocą analizy macierzy Wielu Cech- Wielu Metod wg Campbella i Fiskego

Analiza zmian nieprzypadkowych Zmiany rozwojowe wyniki testów zdolności powinny wykazywać systematyczną tendencję wzrostową wraz ze wzrostem wieku w dzieciństwie oraz tendencję regresywną w dorosłości. Wyniki niektórych skal osobowości także powinny wykazywać zmiany z wiekiem aktywność temperamentalna powinna systematycznie maleć wraz z wiekiem, z uwagi na malejące zasoby energii.

Wynik standaryzowany Ryc. 25. Wiek a aktywność, badana FCZ-KT (wyniki standaryzowane 7 prób narodowych). 1 0,5 0-0,5-1 14-19 20-29 30-39 40-49 50-59 over 60 Grupa wieku

Analiza zmian nieprzypadkowych Postulat lekowy - metoda opracowana w psychiatrii i stosowana przez H. Eysencka. Założenia: Ekstrawersja jest wyznaczana przez poziom pobudzenia korowego (ekstrawertycy wykazują niski poziom pobudzenia);

Analiza zmian nieprzypadkowych Niektóre leki zwiększają poziom pobudzenia; Pod wpływem tych leków osoby badane powinny ujawniać introwertywny wzór zachowania (jako efekt silnego pobudzenia). Wniosek: Skala Ekstrawersji powinna zarejestrować tę różnicę (między pre-testem i posttestem po podaniu leku).

Analiza różnic międzygrupowych Celem tej metody jest ocena różnic w wynikach testu, uzyskanych przez różne grupy demograficzne, wyodrębnione na podstawie predykcji bazującej na analizie konstruktu teoretycznego (konfiguracja tych różnic jest oczekiwana na podstawie teorii).

Analiza różnic międzygrupowych Testy zdolności analiza wyników testu inteligencji w różnych grupach zawodowych (wniosek: im bardziej wymagający sprawności intelektualnej jest dany zawód, tym wyższy poziom inteligencji wykazują pracownicy). Skale osobowości przypadek wrażliwości sensorycznej i wytrzymałości (z FCZ-KT).

Różnice międzygrupowe we wrażliwości i wytrzymałości Hipotezy: Muzycy wysoki poziom wrażliwości sensorycznej (zdolność specjalna), ale niski poziom wytrzymałości; Sportowcy wysoki poziom wytrzymałości (zdolność specjalna), ale niski wrażliwości sensorycznej;

Różnice międzygrupowe we wrażliwości i wytrzymałości Hipotezy: Przestępcy (mordercy) wysoki poziom wytrzymałości i niski poziom wrażliwości sensorycznej (zdolności specjalne?); Pytanie o nasilenie obu cech u nauczycieli szkół podstawowych?

Tabela 9. Wrażliwość sensoryczna i wytrzymałość w różnych grupach demograficznych. Grupa Wrażliwość sensoryczna Wytrzymałość Przestępcy 13,39 11,18 Sportowcy (zapaśnicy) 13,43 11,18 Artyści muzycy 15,68 8,76 Norma (mężczyźni) 15,00 (3,45) 10,26 (4,78) Nauczycielki 16,67 12,57 Artystki (muzycy) 17,32 6,38 Norma - kobiety 16,23 (2,86) 8,04 (4,58)

Różnice międzygrupowe we wrażliwości i wytrzymałości Wnioski: Większość różnic jest zgodna z przewidywaniami (zwłaszcza z relacji do grupy normatywnej). Nieoczekiwane relacje: zbliżone wyniki u przestępców oraz zapaśników oraz najwyższe wyniki u nauczycieli szkól podstawowych.

Wady metody Różne nasilenie tendencji do symulowania albo dysymulowania w badanych grupach (nauczyciele?); Wyjaśnienie różnic międzygrupowych: dwa procesy naturalna selekcja do zawodu i/lub (?) adaptacja do wymagań zawodu (zmiana nasilenia cech); Nieoczekiwane zależności są typowe i trudne do wyjaśnienia.

Wady metody badania Nyborga Nyborg (1995) prowadził badania dotyczące związku między poziomem hormonów a wykonywaniem różnych zawodów. Podstawowa hipoteza głosiła, że im wyższy jest poziom męskich hormonów, tym za bardziej zmaskulinizowany uznawany jest dany zawód, zaś im wyższy jest poziom żeńskich hormonów, tym za bardziej

Wady metody badania Nyborga sfeminizowany uznawany jest dany zawód. Pielęgniarstwo jest typowym zawodem kobiecym i pielęgniarki wykazują najwyższy poziom żeńskich hormonów. Oczekiwano zatem, że pielęgniarze powinni wykazywać najniższy poziom męskich hormonów, podczas gdy w rzeczywistości wykazywali najwyższy poziom ze wszystkich grup zawodowych!

Analiza procesu rozwiązywania testu Testy zdolności eksperymenty z manipulowaniem złożonością zadań, prezentacją zadań cząstkowych lub podawaniem wskazówek, które zmieniają wymagania. Skale osobowości analiza protokołów (instrukcja głośnego myślenia ) w celu identyfikacji czynników wpływających na udzielanie odpowiedzi na pozycje.

Analiza wewnętrznej struktury Dwie grupy metod: testu Analiza korelacji między pozycjami (wskaźnik dyskryminacji lub korelacji pozycja-skala oraz analiza czynnikowa pozycji); Analiza korelacji między skalami testu (korelacje skal i analiza czynnikowa skal).

Analiza korelacji między pozycjami Korelacja pozycja-skala (moc dyskryminacyjna) pozycja powinna wysoko korelować z wynikiem całej skali korelacja (pozycja powinna mierzyć tę samą treść psychologiczną co wszystkie inne pozycje w tej skali).

Analiza korelacji między pozycjami Analiza czynnikowa pozycji (testy wieloskalowe) pozycja powinna wysoko korelować z własną skalą i nisko z innymi skalami (pozycja powinna mierzyć określoną treść psychologiczną i jednocześnie nie mierzyć innych treści).

Analiza czynnikowa Analiza czynnikowa jest metodą dekompozycji macierzy korelacji pomiędzy zmiennymi, prowadzącej do uzyskania wiązek zmiennych, które reprezentują zbliżoną treść psychologiczną (odnoszą się do zbliżonych lub wręcz identycznych konstruktów cech psychologicznych).

Analiza czynnikowa Zmienne są grupowane w wiązki na podstawie ich korelacji w taki sposób, aby korelacje w obrębie wiązki były jak najwyższe, zaś między wiązkami jak najniższe. Idea analizy czynnikowej bazuje na tzw. równaniu różnicy czwórkowej Spearmana.

Przykład Test A i test B korelacja 0,70. Wniosek oba testy mierzą tę samą cechę. Test A, B i C korelacje 0,70. Wniosek wszystkie testy są jednakowo dobrymi miarami tej samej cechy. Test A, B i C korelacja 0,70 pomiędzy testem A i B oraz korelacja 0,50 pomiędzy testem C oraz testami A i B.

Przykład Wniosek testy A i B są dobrymi miarami cechy ogólnej, zaś test C mierzy bardziej specyficzną treść i jest gorszą miarą cechy ogólnej niż testy A i B. Test A, B, C i D korelacje 0,70 pomiędzy testem A i B oraz pomiędzy C i D, a także korelacje krzyżowe po 0,50 między testami A i B oraz testami C i D.

Przykład Wniosek istnieje nie tylko cecha ogólna (badana przez wszystkie testy każdy z nich jest dobrą miarą tej cechy do wysokości korelacji 0,50), ale przede wszystkim istnieją dwie odmienne, choć skorelowane cechy; jedna wiązka (czynnik) mierzy pierwszą cechę (testy A i B), zaś druga wiązka bada drugą cechę (testy C i D).

Analiza mocy dyskryminacyjnej Celem tej analizy jest ocena w jakim stopniu wszystkie pozycje mierzą tę samą treść; najczęściej używany jest skorygowany współczynnik pozycja-skala. Analiza ta jest dokonywana dla pozycji tworzących daną skalę oraz oddzielnie dla każdej ze skal testów wieloskalowych.

Analiza czynnikowa pozycji Celem eksploracyjnej analizy czynnikowej pozycji jest wykazanie, że pozycje tworzące daną skalę mają najwyższe korelacje (ładunki czynnikowe) z odpowiadającymi im czynnikami (odzwierciedlającymi określoną treść psychologiczną) oraz najniższe z innymi czynnikami (tworzącymi inne wiązki pozycji). Analiza jest przeprowadzana na wszystkich pozycjach testu.

Tabela 10. Współczynniki mocy dyskryminacyjnej i ładunki czynnikowe pozycji EPQ-R(24). Skala /pozycja SKPS Czynnik E Czynnik K Czynnik N Czynnik P E / pozycja 6 0,58-0,72 0,07-0,02 0,11 11 0,55-0,72 0,09-0,04 0,16-24 0,51 0,62-0,01 0,19-0,02 51 0,55-0,69-0,17 0,07-0,23 78 0,64-0,74-0,10-0,00-0,21 94 0,53-0,71 0,03 0,03 0,06 N / pozycja 26 0,56 0,05-0,03 0,71-0,04 35 0,54-0,15 0,03 0,72 0,07 38 0,53 0,07-0,04 0,67 0,05 46 0,54 0,22-0,03 0,65 0,03 65 0,49 0,08 0,03 0,63-0,06 83 0,58-0,14 0,01 0,76 0,06

Tabela 10 c.d. Skala / pozycja SKPS Czynnik E Czynnik K Czynnik N Czynnik P P / pozycja 7 0,23 0,06 0,14 0,08 0,56-18 0,31-0,03-0,20-0,01 0,48 37 0,30-0,12 0,20 0,03-0,45-41 0,26-0,17 0,01 0,08 0,58 42 0,26-0,13 0,29 0,16-0,36-88 0,28 0,01 0,03 0,01 0,54 K / pozycja 44 0,37 0,01 0,56-0,04-0,10-49 0,36-0,08 0,64-0,04 0,14-53 0,35 0,08 0,65-0,04 0,16-66 0,36-0,07 0,47-0,05-0,26-71 0,42-0,03 0,61 0,04-0,11 86 0,30-0,07-0,49-0,10 0,06

Wnioski Moc dyskryminacyjna: Skala E - zakres: 0,54 do 0,64 (pozycja nr 78 jest najlepszą miarą E); Skala N - zakres: 0,49 to 0,58 (pozycja nr 83 jest najlepszą miarą N); Skala P - zakres: 0,23 to 0,31 (pozycja nr 18 jest najlepszą miarą P); Skala K - zakres: 0,35 to 0,42 (pozycja nr 71 jest najlepszą miarą K).

Uwaga Znak minus przed numerem pozycji wskazuje, że odpowiedź negująca jest zgodna z kluczem wyniki tych pozycji powinny zostać zrekodowane. Zabieg ten jest niezbędny dla obliczenia mocy dyskryminacyjnej (wszystkie korelacje muszą być pozytywne), ale opcjonalne dla analizy czynnikowej ładunki mogą być zarówno pozytywne, jak i negatywne.

Wnioski Eksploracyjna analiza czynnikowa: wszystkie pozycje wykazały wyższe korelacje z odpowiadającymi im czynnikami. Najlepsze są skale E i N, skale K, a zwłaszcza P są gorsze. Optymalny wzór tych korelacji powinien być czarno-biały. W praktyce testów psychologicznych nigdy się to nie zdarza.

Analiza korelacji pomiędzy skalami testu Dwie formy analizy: Korelacje między skalami testu; Analiza czynnikowa skal testu.

Analiza korelacji pomiędzy skalami testu Korelacje między skalami - skala wytrzymałości z FCZ-KT koreluje dodatnio (ok. 0,20) ze skalą aktywności (osoby aktywne są bardziej wytrzymałe, co jest zgodne z oczekiwaniami teoretycznymi). Analiza czynnikowa skal testu - WAIS-R ujawnia dwa czynniki skal testu: Werbalny i Niewerbalny (czasami też trzeci czynnik, określany mianem Pamięci/Odporności na dystrakcję).

Analiza korelacji pomiędzy testami Dwie formy analizy: Analiza korelacji pomiędzy testem oraz innymi testami (badającymi ten sam i odmienne konstrukty); Analiza czynnikowa (eksploracyjna i konfirmacyjna) danego testu oraz innych testów (badających ten sam i odmienne konstrukty).

Korelacje z innymi testami Celem tej analizy jest ocena wielkości wariancji dzielonej przez test z innymi testami. Analiza ta wymaga uwzględnienia skal mierzących te same i odmienne konstrukty w celu wykazania trafności konwergencyjnej i dyskryminacyjnej (oceniana skala powinna korelować ze skalami badającymi zbliżone konstrukty oraz nie korelować ze skalami mierzącymi odmienne konstrukty).

Przykład badań walidacyjnych NEO-FFI Hipotezy: Skale N i E z NEO-FFI i EPQ-R oraz skale U i S z NEO-FFI i PAL (identyczne konstrukty bardzo wysokie korelacje); Skale U i S z NEO-FFI i skale P i K z EPQ-R oraz skale E i N z NEO-FFI i skale P i D z PAL, a także skala O z NEO-FFI i skala I z PAL (zbliżone konstrukty przeciętne korelacje);

Przykład badań walidacyjnych NEO-FFI Wszystkie te korelacje są wskaźnikiem trafności konwergencyjnej (zbieżnej). Korelacje pomiędzy skalami, badającymi odmienne kontrukty powinny być bardzo niskie (zbliżone do zera). Wszystkie te korelacje są z kolei wskaźnikiem trafności dyskryminacyjnej (różnicowej).

Tabela 11. Korelacje pomiędzy skalami NEO-FFI oraz EPQ-R i PAL (korelacje konwergencyjne są podkreślone). NEO-FFI, EPQ-R/PAC NEU EKS OTW UGD SUM Ekstrawersja -0,25* 0,71* 0,18* -0,11* 0,06* Neurotyczność 0,73* -0,19* -0,00-0,15* -0,11* Psychotyczność 0,00 0,09* 0,03-0,47* -0,37* Skala Kłamstwa -0,10* -0,09* -0,09* 0,39* 0,45* Pobudliwość 0,40* 0,10* 0,06-0,27* -0,01 Dynamiczność -0,27* 0,60* 0,22* -0,01 0,38* Intelekt -0,29* 0,32* 0,40* 0,12* 0,31* Ugodowość 0,01 0,28* 0,22* 0,35* 0,24* Sumienność -0,04 0,10* 0,04 0,18* 0,66*

Wnioski Wysokie korelacje skal N i E z NEO-FFI i EPQ-R oraz skali S z NEO-FFI i PAL potwierdzają trafność konwergencyjną (korelacje skali A są zbyt niskie); Przeciętne korelacje skal U i S z NEO-FFI i skale P i K z EPQ-R oraz skali N z NEO-FFI i P z PAL, a także skali O z NEO-FFI i skali I z PAL także potwierdzają trafność konwergencyjną (korelacja pomiędzy skalami E i D jest zbyt wysoka);

Wnioski Korelacje zbieżne są wyższe niż korelacje krzyżowe, co potwierdza trafność dyskryminacyjną. Korelacje krzyżowe są wyższe w przypadku PAL niż EPQ-R niektóre problemy słabej trafności zbieżnej i różnicowej występują, gdy NEO-FFI jest odnoszony do PAL (a nie EPQ-R). PAL wykazuje niską trafność.

Analiza czynnikowa testów Dwie formy analizy: Eksploracyjna analiza czynnikowa (empiryczna klasyfikacja treści skal różnych testów); Konfirmacyjna analiza czynnikowa (porównanie modelu teoretycznego do danych analiza dobroci dopasowania modelu do struktury danych testowych).

Źródła wariancji w analizie czynnikowej (A) Systematyczna wariancja wspólna z innymi testami. (B) Systematyczna wariancja specyficzna dla danego testu. (C) Wariancja błędu (losowa). (A1) Wariancja wspólna specyficzna dla danej cechy. (A2) Wariancja wspólna specyficzna dla innych cech. (B+C) Wariancja unikatowa testu (niewyjaśniona).

Źródła wariancji w analizie czynnikowej (A1) = trafność konwergencyjna; (A2) = trafność dyskryminacyjna; (A1+A2) = wariancja wspólna (communality, h 2 ); 1-h 2 = wariancja unikatowa (B+C). Inne źródła zmienności: 1-α = wariancja błędu (C). α-h 2 = wariancja systematyczna, specyficzna dla testu (B).

Eksploracyjna analiza czynnikowa Celem tej analizy jest ocena trafności konwergencyjnej i dyskryminacyjnej testu (lub testów), bazująca na empirycznej strukturze danych.

Tabela 12. Eksploracyjna analiza czynnikowa 38 skal osobowości. Skala Czynnik I Czynnik II Czynnik III Czynnik IV Czynnik V h 2 NEU 0,77-0,20-0,17-0,03-0,10 0,67 EKS -0,15 0,85 0,13 0,04-0,01 0,76 OTW 0,01 0,39 0,15 0,20-0,39 0,37 UGD -0,21 0,05-0,06 0,79 0,04 0,68 SUM -0,11 0,11 0,74 0,23 0,15 0,64 E -0,10 0,85 0,11-0,10-0,05 0,77 N 0,85-0,06-0,02-0,01-0,14 0,74 P -0,06 0,12-0,06-0,63-0,23 0,48 K -0,08-0,16 0,38 0,47 0,23 0,45 POB-L 0,66 0,21 0,19-0,26-0,06 0,59 DYN-L -0,08 0,61 0,52-0,08-0,11 0,67 INT-P -0,15 0,34 0,48 0,18-0,21 0,44 UGD-L 0,10 0,29 0,28 0,55-0,05 0,47 SUM-L 0,06-0,03 0,72 0,37 0,11 0,67

Tabela 12 c.d. Skala Czynnik I Czynnik II Czynnik III Czynnik IV Czynnik V h 2 ŻW -0,45 0,29 0,40-0,04-0,11 0,46 PE 0,72 0,00-0,12 0,13-0,15 0,58 WS -0,06 0,12 0,19 0,26-0,28 0,20 RE 0,81-0,24-0,20 0,11-0,01 0,76 WT -0,63 0,20 0,34-0,11-0,09 0,58 AK -0,06 0,78 0,01-0,10-0,08 0,63 SP -0,60 0,39 0,38-0,17-0,11 0,71 SH -0,58-0,08 0,04 0,34-0,15 0,48 RU -0,48 0,62 0,14 0,10-0,12 0,66

Skale Tabela 12 c.d. Czynnik I Czynnik II Czynnik III Czynnik IV Czynnik V h 2 TOW -0,10 0,61-0,10 0,15 0,13 0,43 AKT 0,13 0,63 0,37-0,15 0,02 0,58 STR 0,73-0,19-0,12 0,14 0,02 0,60 NIE 0,82-0,11-0,03-0,10-0,00 0,69 GNW 0,76 0,08 0,09-0,34 0,00 0,70 A-G 0,17 0,63 0,26-0,11 0,08 0,51 A-S 0,17 0,11-0,15-0,03-0,25 0,13 A-W -0,36 0,69 0,16 0,10-0,00 0,64 F-R -0,54 0,32-0,11 0,09-0,26 0,48 MQ -0,28 0,62-0,13 0,10-0,00 0,49 R-S 0,02-0,01 0,12 0,17 0,65 0,47 R-E -0,07 0,04 0,17 0,11 0,72 0,57 R-H 0,07 0,14 0,08 0,04 0,74 0,58 DIST -0,16 0,09 0,58-0,12 0,20 0,43 PERS -0,12 0,14 0,62 0,01 0,15 0,44

Skala Neurotyczności z NEO-FFI (A1) = 0,77 2 = 0,59 (wariancja specyficzna dla neurotyczności) (A2) = 0,08 (wariancja wspólna z pozostałymi czterema cechami) = (-0,20 2 ;4%E)+(- 0,17 2 ;3%C)+(-0,03 2 ;A)+(-0,10 2 ;1%O). Wariancja wspólna (A1+A2=h 2 ) = 0,59+0,08=0,67. Wariancja unikatowa = 1-h 2 = 1-0,67=0,33 (błąd pomiaru + systematyczna wariancja specyficzna dla skali N z NEO-FFI).

Skala Neurotyczności z EPQ-R (A1) = 0,85 2 = 0,72 (wariancja specyficzna dla neurotyczności) (A2) = 0,02 (wariancja wspólna z pozostałymi czterema cechami) = (-0,06 2 ;E)+(- 0,02 2 ;C)+(-0,01 2 ;A)+(-0,14 2 ;2%O). Wariancja wspólna (A1+A2=h 2 ) = 0,72+0,02=0,74. Wariancja unikatowa = 1-h 2 = 1-0,74=0,26 (błąd pomiaru + systematyczna wariancja specyficzna dla skali N z EPQ-R).

Wniosek Skala Neurotyczności z NEO-FFI wykazuje gorszą trafność konwergencyjną (59% w porównaniu do 72%) oraz dyskryminacyjną (8% w odniesieniu do 2%) niż skala Neurotyczności z EPQ-R (obie skale mają zbliżoną zgodność wewnętrzną wynoszącą około 0,85). Błąd pomiaru jest równy 15%, unikatowa systematyczna wariancja specyficzna dla skali z NEO-FFI = 18% oraz EPQ-R = 11%).

Porównanie trafności skal NEO-FFI Skala Konwergencyjna Dyskryminacyjna E 72% 4% U 62% 6% N 59% 8% S 55% 9% O 14% 22%

Wniosek Skala Otwartości wykazuje słabą trafność konwergencyjną oraz dyskryminacyjną. Inne skale wykazują wysoką trafność konwergencyjną, ale skala Neurotyczności, Ugodowości i Sumienności wykazuje także słabą trafność dyskryminacyjną. Najlepsza jest skala Ekstrawersji.

Trafność innych skal Siła Procesu Pobudzenia - 36% neurotyczności, 15% ekstrawersji, 14% sumienności, 3% ugodowości oraz 1% otwartości/rytmiczności wykazuje słabą trafność dyskryminacyjną. Skala Aktywności we śnie (A-S) - 13% wspólnej wariancji z innymi skalami (6% z czynnikiem otwartości/rytmiczności) brak trafności konwergencyjnej, tylko wariancja unikatowa.

Konfirmacyjna analiza czynnikowa testów Celem tej analizy jest ocena trafności konwergencyjnej i dyskryminacyjnej skal testu, przez porównanie modelu teoretycznego i empirycznej struktury skal.

Przykład Inwentarza Struktury Temperamentu (KST) Rusalova Analiza konfirmacyjna skal KST analiza wewnętrznej struktury testu (analiza konfirmacyjna podobnie do analizy eksploracyjnej może być zrealizowana na poziomie pozycji, skal danego testu, jak i całych testów).

Przykład Inwentarza Struktury Temperamentu (KST) Rusalova Dwa czynniki wpływające na temperament: geny i środowisko. Wrodzona (pierwotna) struktura temperamentu obejmuje: ergiczność, plastyczność, tempo i emocjonalność. Cechy te różnicują się się pod wpływem czynników środowiskowych na cechy społeczne i przedmiotowe.

Przykład Inwentarza Struktury Temperamentu (KST) Rusalova KST zawiera osiem skal: Ergiczność - społeczną Ergiczność - przedmiotową Plastyczność - społeczną Plastyczność - przedmiotową Tempo - społeczne Tempo - przedmiotowe Emocjonalność - społeczną Emocjonalność - przedmiotową

Hipotezy i modele Bez cechy ogólnej (skale są nieskorelowane - model powinien być odrzucony); Jedna cecha ogólna (brak specyfiki skal - model powinien być odrzucony); Dwie cechy ( struktura wtórna ) - model powinien być potwierdzony); Cztery cechy ( struktura pierwotna ) - model powinien być potwierdzony); SOS model (ad hoc model trzech cech).

Rycina. 26. Model struktury pierwotnej temperamentu. ERP ERS PLP PLS TEP TES EMP EMS ERG PLA TEM EMO

Rycina. 27. Model struktury wtórnej temperamentu. ERP PLP TEP EMP ERS PLS TES EMS PRZED. SPOŁ.

Wskaźniki dobroci dopasowania Wartość testu chi 2 (brak istotności); Goodness of Fit Index (GFI; powyżej 0,95); Adjusted Goodness of Fit Index (AGFI; powyżej 0,90); Normed Fit Index (NFI wartość przyrostowa dopasowania w stosunku do modelu zerowego ; powyżej 0,90); Wartości indeksu Watkinsa chi 2 /df (poniżej 5,0 akceptowalne dopasowanie; poniżej 3,0 znakomite dopasowanie).

Tabela 13. Wskaźniki dobroci dopasowania KAF dla skal KST. Model Opis modelu chi 2 df p GFI AGFI NFI M0 Bez czynnika ogólnego 417,36 28 0,000 0,60 0,60 - M1 Jeden czynnik 225,42 20 0,000 0,76 0,56 0,46 M2 M3 M4 Dwa czynniki (struktura wtórna) Trzy czynniki (emocjonalność, aktywność społeczna i rzedmiotowa) Cztery czynniki (struktura pierwotna) 201,46 19 0,000 0,78 0,59 0,52 86,18 17 0,000 0,90 0,78 0,79 104,69 14 0,000 0,88 0,69 0,75

Wnioski Żaden z analizowanych modeli nie wykazał akceptowalnego dopasowania empiryczna struktura korelacji skal KST jest nieprzewidywalna na podstawie oczekiwań teoretycznych; Teoria temperamentu jest fałszywa lub KST powinien zostać zmodyfikowany, bowiem wykazuje niewystarczającą trafność.

Analiza macierzy Wielu Cech Wielu Metod Macierz WC-WM (ang. MTMM matrix) jest przygotowywana w celu formalnej oceny trafności konwergencyjnej i dyskryminacyjnej pomiary testem. Analiza ta wymaga wprowadzenia przynajmniej dwóch metod oraz dwóch cech.

Rodzaje korelacji w macierzy WC-WM Pomiędzy skalami mierzącymi różne cechy w obrębie tej samej metody (różne cechy, ta sama metoda); Pomiędzy skalami mierzącymi te same cechy, ale za pomocą różnych metod (te same cechy, różne metody); Pomiędzy skalami mierzącymi różne cechy za pomocą różnych metod (różne cechy, różne metody).

Wymóg trafności konwergencynej Trafność konwergencyjna (zbieżna): korelacje pomiędzy skalami różnych metod, ale badających te same cechy (te same cechy, różne metody) powinny być co najmniej przeciętne (istotne statystycznie).

Wymóg trafności dyskryminacyjnej Trafność dyskryminacyjna (różnicowa): korelacje skal różnych metod badających te same cechy (te same cechy, różne metody) powinny być wyższe niż: korelacje skal mierzących różne cechy, za pomocą tej samej metody (różne cechy, te same metody); korelacje skal mierzących różne cechy, za pomocą różnych metod (różne cechy, różne metody).

Macierz WC-WM dla samoopisu i szacowania z użyciem NEO-FFI Kwestionariusz: NEO-FFI Miary: samoopis (s) and szacowanie (sz) Korelacje: Pomiędzy NEO-FFI skalami samopisu Pomiędzy NEO-FFI szacowania Pomiędzy samoopisem i szacowaniem

Tabela 14. Macierz WC-WM dla samoopisu i szacowania NEO-FFI. Pomiar NEU - s EXT - s OPE - s AGR - s SUM - s NEU sz 0,84 (0,81) -0,35* -0,07* -0,26* -0,30* EXT sz -0,39* 0,78 (0,80) 0,22* 0,09* 0,27* OPE sz -0,11* 0,17* 0,63 (0,66) 0,06* 0,02 AGR sz -0,33* 0,13* 0,20* 0,65 (0,77) 0,19* CON sz -0,28* 0,18* 0,17* 0,34* 0,81 (0,87) Measure NEU - s EXT - s OPE - s AGR - s CON s NEU sz 0,52* -0,28* -0,08* -0,20* -0,16* EXT sz -0,22* 0,61* 0,14* 0,04 0,13* OPE sz -0,08* 0,08* 0,51* 0,04-0,07* AGR sz -0,09* -0,01 0,04 0,45* 0,03 CON sz -0,12* 0,03 0,01 0,16* 0,45*

Wnioski Skale NEO-FFI wykazują wystarczającą trafność konwergencyjną (korelacje podkreślone w tabeli); Skale NEO-FFI wykazują akceptowalną trafność dyskryminacyjną (korelacje zbieżne są wyższe niż wszystkie korelacje różnicowe ).

Analiza konfirmacyjna MTMM Model zerowy nie ma wspólnych czynników zarówno dla cech, jak i specyficznych metod. Model metod nie ma czynników dla cech, są tylko specyficzne czynniki metody. Model cech nie ma czynników dla metod, są tylko czynniki dla cech. Model cech i metod czynniki dla metod oraz cech z założeniem ich identycznej trafności. Model cech i metod czynniki dla metod oraz cech bez założenia ich identycznej trafności.

Tabela 14a Analiza konfirmacyjna macierzy WCWM dla samoopisu i szacowania cech Wielkiej Piątki. Model df chi 2 p GFI AGFI CFI NFI NNFI Zerowy 45 2794,00 0,00 0,65 0,57 0,.00 0,00 0,00 Model metod 34 1594,55 0,00 0,80 0,67 0,43 0,43 0,25 Model cech 25 507,97 0,00 0,91 0,79 0,82 0,82 0,68 Model cech i metod : identyczna trafność Model cech i metod 19 88,77 0,00 0,98 0,95 0,97 0,97 0,94 14 70,49 0,00 0,99 0,95 0,98 0,97 0,93 Wskaźnik Watkinsa chi2/df = 4,67 (<5,00) dla modelu cech i metod z założeniem identycznej trafności = model preferowany, choć dopasowanie dalekie od idealnego.

Podsumowanie Pojęcie trafności zbieżnej i różnicowej jest kluczowe dla zrozumienia trafności teoretycznej, choć zazwyczaj jest ograniczane tylko do analizy macierzy Wc- WM. Test powinien mierzyć określoną cechę i nie mierzyć innych cech (ani jakichkolwiek innych charakterystyk indywidualnych, a zatem także stylów odpowiadania czy stanów psychologicznych).

Podsumowanie Pojęcie trafności konwergencyjnej i dyskryminacyjnej może odnosić się zarówno do trafności teoretycznej, jak i kryterialnej. Test jest nietrafny, jeśli niczego nie przewiduje lub nie mierzy (brak trafności konwergencyjnej). Test jednak jest także nietrafny, jeśli przewiduje lub mierzy wszystko (brak trafności różnicowej).

Podsumowanie Narzędzie, które diagnozuje wszystko, nie mierzy niczego w szczególności.

Wykład 9 STRATEGIE KONSTRUOWANIA TESTÓW

Historia - racjonalny a empiryczny status pozycji kwestionariuszowych Problemy z naiwnym intuicyjno-racjonalnym poglądem na wartość wskaźnikową odpowiedzi inwentarzowych, zakładającego pełną odpowiedniość między zachowaniem a relacją osoby badanej, dobrze ilustruje anegdota, opisana przez Eysencka (1971, s. 231): [...] Wielu ludzi zanotowało tego typu obserwacje, które budziły zastrzeżenia co do prawdziwości odpowiedzi dawanych przez osoby badane. Obserwowano np. nieszczęsnego osobnika, jak drżały mu ręce, pocił się z podniecenia, twarz bladła i czerwieniała mu na przemian, oblizywał wyschnięte wargi i całe ciało drżało nerwowo. Kiedy sprawdzono jak ów badany odpowiedział na pytanie Czy jesteś ogólnie biorąc nerwowy?

Historia - racjonalny a empiryczny status pozycji kwestionariuszowych stwierdzono, że w tej rubryce zdecydowanie podkreślił nie [...] Zwolennicy empirycznego punktu widzenia na odpowiedzi inwentarzowe podkreślają zatem, że odpowiedzi osoby badanej niekoniecznie trafnie informują o faktycznym jej zachowaniu, ale same w sobie są natomiast faktem diagnostycznym. W istocie badacz nie dysponuje bowiem wystarczającą wiedzą, aby trafnie przewidywać, jakich odpowiedzi udzieli osoba badana. Trudności z przewidywaniem odpowiedzi doprowadziły do opracowania empirycznych skal symulacji, do których włączono pozycje, które były rzadko potwierdzane przez osoby z zaburzeniami

Historia - racjonalny a empiryczny status pozycji kwestionariuszowych psychicznymi, a szczególnie często przez osoby symulujące takie zaburzenia. Analiza treści tych pozycji dobrze wg Wigginsa (1994) ilustruje błędne przekonania [...] co do zachowań werbalnych neurotyków w teście osobowości. Symulanci popełniali pomyłki nadmiernie akcentując skargi fizyczne, uczucia bycia niezrozumianym, drażliwość, zależność, niezadowolenie z życia rodzinnego, konflikty seksualne i dziwaczne pomysły.

Historia - racjonalny a empiryczny status pozycji kwestionariuszowych Z kolei problemy z empirycznym poglądem na wartość wskaźnikową odpowiedzi inwentarzowych ogniskują się zwłaszcza wokół kwestii źródła pozycji inwentarzowych. Jeśli bowiem odpowiedzi osoby badanej na pozycje kwestionariuszowe są nieprzewidywalne, to jak a priori ocenić, która pozycja jest trafnym, a która nie jest trafnym wskaźnikiem danego konstruktu? I dalej, w konsekwencji, które pozycje włączyć do wersji wstępnej inwentarza, a które pominąć? Przyjmując, że teoretycznie możliwe jest zadanie osobie badanej miliona (przynajmniej) dowolnych pytań, to zgodnie ze stanowiskiem empirycznym - należałoby faktycznie ten milion (przynajmniej) pytań jej zadać. Nie ograniczając

Historia - racjonalny a empiryczny status pozycji kwestionariuszowych jednocześnie ich zakresu treściowego. Zwolennicy empirycznego poglądu na odpowiedzi inwentarzowe rozwiązali problem uniwersum pozycji inwentarzowych poprzez zapożyczenia: albo z inwentarza MMPI, traktowanego jako swoiste kompendium wskaźników klinicznych, albo z 16PF, traktowanego w świetle szeroko zakrojonych analiz Cattella jako kompendium wskaźników normatywnej osobowości. W wielu wypadkach jednak sami tworzyli pozycje na podstawie wiedzy klinicznej, co dowodzi, że skoro nie byli konsekwentni w poczynaniach, to chyba sami do końca nie traktowali swojego stanowiska nazbyt poważnie.

Strategie konstruowania testu 1). teoretyczna (dedukcyjna) 2). zewnętrzna (kryterialna) 3). wewnętrzna (indukcyjna) 4). sekwencyjne lub połączone

Strategie konstruowania testu 1). teoretyczna (dedukcyjna) podstawa teoretyczna dla strategii empirycznych, choć może też być stosowana samodzielnie (do diagnozy raczej cech). 2). zewnętrzna (kryterialna) do diagnozy typów (eksploracyjna lub połączona z teoretyczną). 3). wewnętrzna (indukcyjna) do diagnozy cech (eksploracyjna lub połączona z teoretyczną).

Strategie konstruowania testu Budowa skali w każdej strategii poza kryterialną) jest podobna te same końcowe procedury techniczne, ale nieco inny model psychometryczny jest stosowany w każdej strategii. Strategie mają podobny plan konstrukcji, poza strategiami połączonymi - unikatowość planu analizy i przebieg procesu konstrukcji.

Porównanie strategii konstrukcji testów Aspekty opisu strategii: a). dostępność teorii psychologicznej w strategii: dedukcyjna ("teoria"), kryterialna ("wiedza"), indukcyjna ("metodologia");

Porównanie strategii konstrukcji testów (c.d.) b). model psychometryczny zastosowany do konstrukcji testu: teoretyczna - analiza pozycji (korelacja pozycja-skala, zewnętrzna - analiza pozycji (korelacja pozycjakryterium), indukcyjna - eksploracyjna analiza czynnikowa;

Porównanie strategii konstrukcji testów (c.d.) c). efekt finalny: w zakresie psychologicznym, diagnostycznym i psychometrycznym - każda strategia ma swoje zalety i wady - zależnie od typu problemu należy stosować różne strategie.

Wykład 10 PROCEDURA (PROCES) KONSTRUKCJI TESTU

Etap I Etap I - wybór strategii (cel badań pytania badawcze, rodzaj badanego konstruktu: cecha albo typ) oraz plan budowy narzędzia (w tym także skale kontrolne). Niezbędna jest wiedza dotycząca danego konstruktu oraz wiedza z metodologii, psychometrii i diagnostyki psychologicznej.

Etap II Etap II - analiza podstaw teoretycznych narzędzia: teorii, wiedzy lub metodologii (trafność treściowa lub prototypowość). Hierarchiczna struktura konstruktu - podwymiary lub składniki definicyjne (pokrycie całego konstruktu, łatwość generowania wskaźników konstruktu).

Składniki definicyjne Antonovsky (1995) przy tworzeniu Kwestionariusza Poczucia Koherencji w postaci przestrzeni Kartezjańskiej, zbudowanej poprzez wyodrębnienia podwymiarów poczucia koherencji oraz fasad reprezentujących różne aspekty reagowania na bodźce. W ramach podwymiarów wyodrębnione zostało poczucie zrozumiałości, zaradności i sensowności (E1-3), zaś w obrębie fasad: modalność bodźca (A1-3: instrumentalny, poznawczy i afektywny), źródło bodźca (B1-3: wewnętrzne, zewnętrzne i wewnętrzno- zewnętrzne), stawiany jednostce wymóg (C1-3: konkretny, rozproszony i abstrakcyjny) oraz czas reakcji (D1-3: przeszła, teraźniejsza i przyszła). Określona kombinacja złożona z elementów składowych każdej fasady oraz podwymiaru stanowiła profil, ułatwiający generowanie pozycji.

Składniki definicyjne Przykładowo, pytanie Nawet ludzie o silnym charakterze czasami czują się przegrani w pewnych sytuacjach. Jak często w przeszłości tak się czułeś? (Anotonovsky, 1995, s. 83) zostało zbudowane przez operacjonalizację profilu: A3, B1, C3, D1 i E2 (bodziec afektywny, pochodzenia wewnętrznego, o wymaganiach abstrakcyjnych, odnoszący się do przeszłości i odwołujący się do poczucia zaradności). Dla całego konstruktu dało to możliwość stworzenia 243 pozycji, praktycznie pokrywających cały zakres jego treści oraz jednocześnie nie duplikujących się wzajemnie.

Etap II Określenie specyfiki konstruktu (nie tylko aspekt zbieżny ale i różnicowy), także poprzez hipotezy dotyczące relacji do innych konstruktów. Procedura mocnej walidacji inne narzędzia lub kryteria wprowadzone do badania i analizy danych, ale nie tylko zbieżne, zwłaszcza zaś różnicowe.

Etap III-IV Etap III - generowanie wskaźników będących deskrypcją cech psychologicznych. Etap IV - zapisywanie pozycji testowych (rodzaj pozycji, zachowania, format odpowiedzi) i ocena ich własności formalnych.

Pozycja testowa - definicja Pozycja testowa to sformalizowany wskaźnik danej cechy psychologicznej, a więc zdanie (twierdzenie lub pytanie) opisujące określone zachowanie (lub zadanie wyzwalające określone zachowanie) oraz skala rejestrująca to zachowanie (opcje odpowiedzi o określonym formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).

Tworzenie pozycji Proces tworzenia pozycji: Generowanie pozycji - poszukiwanie takich zachowań i sytuacji, które występują w życiu codziennym określonej grupy osób badanych - wymaga wyrażenia wskaźników teoretycznych w języku naturalnych zachowań i sytuacji. Zapisywanie pozycji - wymaga przełożenia terminów psychologicznych na język naturalny, a więc wyrażenia pozycji w języku, którym posługują się osoby badane.

Decyzje wstępne Decyzje wstępne: Wybór procedury odpowiadania oraz formy pozycji kwestionariuszowych (wybieranie dowolnej liczby pozycji lub ograniczeniu wyboru do opcji stwierdzenia albo opcji odpowiedzi). Wybór rodzaju procedury: spiralna albo piramidowa.

Wybór formy pozycji Procedura odpowiadania zakładająca ograniczony wybór, w ramach poszczególnych pozycji, dotyczący jednej spośród: wersji pytania kwestionariuszowego DWÓCH A. Nudzi mnie ciągłe oglądanie tych samych twarzy. B. Lubię przebywać w towarzystwie dobrze znanych mi osób. opcji odpowiedzi DWÓCH Jak dostanę od kogoś list, to zaraz zawsze odpisuję prawda - fałsz swobodny wybór w ramach całej puli pozycji Przykład: Wybór dowolnej liczby przymiotników z puli 300 pozytywnych i negatywnych określeń osobowości (Test Przymiotnikowy ACL Gougha i Heilbruna, w adaptacji Płużek) (pozycja z SSS-IV Zuckermana, w adaptacji Oleszkiewicz-Zsurzs) (pozycja z KAS Drwala i Wilczyńskiej) WIELU WERSJI PYTANIA WIELU OPCJI ODPOWIEDZI Z WERSJĄ POŚREDNIĄ Każde przedsięwzięcie, do którego przywiązuję większą wagę: a). planuję na długo przed jego realizacją b). zwykle planuję na pewien czas naprzód c). na ogół nie planuję, a od razu przystępuję do rzeczy. (pozycja z MOS Widerszal-Bazyl) BEZ WERSJI POŚREDNIEJ Czy uważasz się obecnie (PRZED CHOROBĄ) za: (1) Bardzo usilnie dążącego do czegoś i skłonnego do rywalizacji? (2) Raczej usilnie dążącego do czegoś i skłonnego do rywalizacji? (3) Raczej odprężonego i spokojnego? (4) Zdecydowanie odprężonego i spokojnego? BEZ OPCJI POŚREDNIEJ Z łatwością zmieniam nastrój zdecydowanie zgadzam się raczej zgadzam się raczej nie zgadzam się zdecydowanie nie zgadzam się (pozycja z PTS Strelaua, Angleitnera i Zawadzkiego) Z OPCJĄ POŚREDNIĄ Czy często masz poczucie nadmiaru energii? tak -? - nie (pozycja ze Skali Temperamentów TTS Thurstone a, w adaptacji Choynowskiego) (pozycja z JAS Jenkinsa, Zyzanskiego i Rosenmana, w adaptacji Wrześniewskiego

Wybór formy pozycji Skala Makiawelizmu (MACH-V) Christiego i Geis - adaptacja dokonana przez Brzozowskiego i Drwala (Drwal, 1995). W skali tej wprowadzono aż trzy opcje odpowiedzi w każdej pozycji: dwie treściowe (wskazującą na machiawelizm i obojętną) oraz buforową, przy czym osoba badana ma za zadanie wybrać jedną z nich, a jedną odrzucić (trzecią pozostawiając bez ustosunkowania się). Opcje treściowe zostały wyrównane pod względem obciążenia aprobatą, zaś buforowa skontrastowana z nimi. W przypadku, gdy opcje treściowe są pożądane społecznie, buforowa jest niepożądana i odwrotnie - gdy treściowe są niepożądane, buforowa jest zdecydowanie społecznie pożądana. W obu wypadkach taka procedura odpowiadania wymusza wybór między opcjami treściowymi w pierwszym odrzucenie bufora i zaznaczenie jednej z opcji

Wybór formy pozycji treściowych, zaś w drugim wybór bufora oraz konieczność odrzucenia jednej opcji treściowej. Klucz odpowiedzi uwzględnia tę sytuację, choć procedura obliczania wyników jest bardzo skomplikowana. Zaletą tej procedury odpowiadania jest skłanianie osoby badanej do dokonywania wyboru między opcjami treściowymi poprzez bardzo zmyślne manipulowanie jej motywami, a mianowicie między tendencją do udzielenia odpowiedzi prawdziwej oraz aprobowanej. Procedura ta ma jednak wadę - jest bardzo trudna dla osób badanych, a jej skuteczność w eliminowaniu wpływu aprobaty oraz diagnozowaniu makiawelizmu dość wątpliwa.

Wybór formy pozycji Jak stwierdzają Drwal i Brzozowski (Drwal, 1995, s.195), skala Mach V nie jest też wcale mniej podatna na wpływ aprobaty społecznej, co było głównym celem opracowania tak wyrafinowanej skali... i dalej:...przypadek skali Mach V pokazuje, że makiaweliczne podejście autorów skali do osób badanych (próba ich przechytrzenia) spowodowało, że skala ta bardzo słabo mierzy makiawelizm.

Generowanie pozycji Źródła pozycji: Zapożyczenia z innych narzędzi (MMPI lub 16 PF, testy zdolności typowe dla strategii zewnętrznej). Poszukiwanie naturalnych banków pozycji (zasoby słownikowe - listy przymiotnikowe, testy zdolności typowe dla strategii indukcyjnej).

Generowanie pozycji Źródła pozycji: Tworzenie nowych pozycji przez profesjonalistów lub nieprofesjonalistów (typowe dla strategii teoretycznej lub połączonej teoretyczno-indukcyjnej czy kryterialnej; ważna jest trafność treściowa lub prototypowość).

Generowanie pozycji Nowe pozycje: Odpowiedniość do badanego konstruktu (trafność treściowa); Reprezentatywność dla zachowania osób badanych (proces społeczny generowania wskaźników eliminacja obciążenia demograficznego; analiza prototypowości ujmuje oba aspekty).

Ocena trafności treściowej lub typowości pozycji Procedura analizy: Tworzenie wskaźników; Kwalifikowanie do konstruktów; Ocena wskaźników na skalach ocen; Analiza psychometryczna i walidacja procedury (muszą być możliwe do uzyskania korelacje ocen ze wskaźnikami psychometrycznymi).

Zapisywanie pozycji Wymagania: Uwzględnianie reguł formalnych w procesie zapisywania pozycji; Sprawdzenie uzyskanego efektu w tzw. analizach formalnych własności pozycji (analizy itemmetryczne).

Zapisywanie pozycji Konsekwencje: Zakłócenie warunku standaryzacji zmienność inter- i intraindywidualna interpretacji treści pozycji; Uruchomienie stylu odpowiadania; Udzielanie odpowiedzi niezgodnych z intencjami (niespójnych); Pogorszenie charakterystyki psychometrycznej pozycji.

Własności formalne pozycji Model Angleitnera i wsp. (1986): Zrozumiałość Niejasność Ogólność (abstrakcyjność) Dostępność w osobistym doświadczeniu (możliwość odniesienia do ja ) Obciążenie czynnikami zniekształcającymi, np. aprobatą społeczną.

Zrozumiałość Długość pozycji (liczba zdań, słów, itd.), ale unikanie telegraficznej skrótowości. Złożoność gramatyczna (forma gramatyczna pozycji, np. negacja, strona bierna oraz komplikacja pozycji w postaci zdań złożonych, ze względu na tryb złożenia, np. w zdaniach podrzędnie czy nadrzędnie złożonych).

Zrozumiałość Poprawność gramatyczna - błędy językowe oraz prostota - dostępność użytych pojęć. Wyrażenie zdań w pierwszej osobie; Respektowanie obyczajów językowych oraz zasad językowych, np. form obocznych dla płci, ale bez żargonu.

Konsekwencje wprowadzenia do pozycji kwestionariuszowych zwrotów żargonalnych Czy jest granica przystosowania języka inwentarza do zwyczajów osób badanych, której autor nie powinien przekraczać? W 1979 roku Marvin Zuckerman opublikował piątą wersję skali Poszukiwania Doznań (ang. Sensation Seeking Scale Form V, w skrócie SSS-V). Z uwagi na badany konstrukt szereg pozycji w tym inwentarzu zawierało wyrażenia żargonalne, opisujące zamiłowanie do przebywania w gronie śmietanki towarzyskiej, tolerancję wobec osób biseksualnych czy rodzaj używanych narkotyków. Po niespełna dwudziestu latach konieczna stała się rewizja tych pozycji (Zuckerman, 1996), ponieważ osoby badane nie rozumiały już znaczenia użytych w nich zwrotów. Rzecz ciekawa, że pozycje pozbawione zwrotów żargonalnych były nadal zrozumiałe. Zuckerman (1996) skorygował obciążone

Konsekwencje wprowadzenia do pozycji kwestionariuszowych zwrotów żargonalnych pozycje wyrażając je opisowo w języku potocznym. Użycie zwrotów żargonalnych w pozycjach inwentarza jest zatem dopuszczalne, może być nawet funkcjonalne względem badanego konstruktu. Trzeba się jednak liczyć z zawężeniem demograficznym zakresu jego odbiorców oraz uwzględniać możliwość bardzo szybkiej dezaktualizacji narzędzia. To doświadczenie stanowi lekcję dla konstruktorów nowych testów. Żeby nie używać terminów kolokwialnych lub opisywać specyficznych form aktywności, które mogą tracić swą zrozumiałość czy dopasowanie do kultury przyszłych pokoleń (Zuckerman,1996, s. 515). Ale cóż, znając inwencję poszukiwaczy doznań, można mieć pewność, że szybko wymyślą nowe formy zaspokajania swojej potrzeby doznań, jak i nowe zwroty dla ich opisania.

Zalecenia Zapisywanie pozycji zgodnie z regułami. Konsultacja językoznawcy. Analizy itemmetryczne ocena zrozumiałości pozycji.

Niejasność wieloznaczność interpretacyjna Niejasność możliwość przypisania wielu różnych znaczeń pozycji - interpretowania jej treści na wiele sposobów, z których każdy jest poprawny językowo i dopuszczalny z punktu widzenia formy gramatycznej.

Niejasność Źródła: zbyt duża ogólność i abstrakcyjność użytych pojęć; czynniki lingwistyczne, wynikające z formy gramatycznej zdania, np. negacji, jego złożoności gramatycznej czy błędów, np. interpunkcyjnych, a zwłaszcza zapisanie pozycji w formie zadania złożonego, którego zdania proste nie tworzą koniunkcji i mogą wymagać odrębnej odpowiedzi.

Zalecenia Zapisywanie w formie pozycji konkretnych. Grupowa analiza znaczenia treści twierdzeń oraz ustalanie na drodze dyskusji ich ostatecznej i bardziej jednoznacznej formy. Analiza znaczenia afirmacji oraz negacji treści pozycji dla możliwości zbadania określonej cechy. Analizy itemmetryczne.

Ogólność-abstrakcyjność Ogólność wynika z abstrakcyjności pojęć użytych do opisu zachowania, sytuacji czy cech osobowych. Pozycja ogólna zakłada konieczność integracji informacji, uzupełniania jej przez konkluzje, uogólniania zachowań z różnych sytuacji czy dokonania porównań z niespecyficznymi standardami.

Dostępność w doświadczeniu - zalecenia Procedura analizy typowości (także przy adaptacji kulturowej). Proces społeczny tworzenia pozycji. Odwołanie do ja zdania w pierwszej osobie. Analizy itemmetryczne.

Analizy itemmetryczne Identyfikacja pozycji źle sformułowanych i ich poprawienie albo usunięcie z puli. Oceny na skalach ocen albo wskazanie pozycji wadliwych. Brak możliwości zbudowania pozycji doskonałej, ale pozycje wadliwe skutkują pogorszeniem charakterystyki psychometrycznej.

Opcje odpowiedzi Problem opcji centralnej w formie nie wiem, (?), tak i nie. - Słaby status opcji centralnej : 1). odpowiedź osoby badanej oznacza, że jej zachowanie zależy od sytuacji; 2). odpowiedź osoby badanej wynika z trudności w ocenie własnego zachowania; 3). odpowiedź osoby badanej wskazuje, że nie potrafiła ona jednoznacznie rozkodować treści pozycji (pozycja jest niejasna);

Opcje odpowiedzi 4). odpowiedź osoby badanej wskazuje, że faktycznie ma przeciętne nasilenie cechy. - Dwumodalne rozkłady odpowiedzi. Format może być nieparzysty, ale opcja pośrednia musi wskazywać na umiarkowanie nasilenie cechy.

Opcje odpowiedzi Szerokość formatu: wielokategorialne - dwukategorialne. - Wady formatów dwukategorialnych: 1). Zmuszają do udzielenia zdecydowanej odpowiedzi. 2). Nie gwarantują odpowiedniego zróżnicowania odpowiedzi. - Wady formatów wielokategorialnych: 1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej wykształconych. 2). Pozorne zróżnicowanie tendencje do zawężania formatu.

Optymalna szerokość formatu Magiczna liczba Millera górna granica: 7 + 2 (5 9) Ogółem: 4-7 opcji Osoby badane o większych zdolnościach: 5 7 Osoby badane o mniejszych zdolnościach: 2 5

Inne aspekty formatu Zakotwiczenie skali: niemalże wielkie kwantyfikatory. Kierunek zakotwiczenia: negatywnypozytywny. Wartości liczbowe wtórne (podstawowe określenia słowne). Ujednolicone dla wszystkich pozycji (także w skali kontrolnej).

Etap VI - ważenie pozycji lub opcji odpowiedzi Wagi zróżnicowane krótkie narzędzia, pozycje bardzo zróżnicowane pod względem charakterystyki psychometrycznej, komplikacja obliczania wyniku końcowego, wagi empiryczne, a nie - teoretyczne. Wagi pozycji równe oraz liniowo rosnące wagi odpowiedzi (zróżnicowanie wkładu pozycji do wyniku końcowego).

Etap VII Etap VII - przygotowanie testu do badań: przyjęcie nazwy testu, zaopatrzenie go w instrukcję oraz wprowadzenie losowej kolejności pozycji w inwentarzach lub uporządkowania ich według stopnia trudności (wybór procedury badania);

Etap VIII badania i analiza psychometryczna Cel - uzyskanie finalnej wersji inwentarza: przeprowadzenie badań listą pozycji i analiza psychometryczna danych. Przebieg badań te same warunki i to samo narzędzie co w badaniach docelowych.

Badania Dobór próby: Maksymalne zróżnicowanie demograficzne (płeć, wiek, wykształcenie, zawód, miejsce zamieszkania, itp.). Duża liczebność grupy (mnożnik 5-10 osób badanych na jedną pozycję testową - psychometria nie toleruje małych prób ) minimum 400-500 o.b. Podział na grupy losowe: walidacja krzyżowa.

Przygotowanie do analizy danych Kodowanie danych odpowiedzi o.b. Braki danych bez korekty w fazie wstępnej analizy psychometrycznej. Braki danych - skale końcowe - uzupełnianie przez średnią dla danej osoby z pozostałych pozycji (inne: średnia w skali lub losowe). Dyskwalifikacja protokołów z licznymi brakami danych kryteria (5%).

Analiza psychometryczna Kierunek: od podwymiarów do skal. Walidacja krzyżowa. Walidacja demograficzna (uwaga: niwelowanie różnic demograficznych). Mocna walidacja korygowanie składu pozycji w aspekcie zbieżnym lub różnicowym. Opracowanie wersji końcowej skal.

Analiza pozycji i pojęcie mocy dyskryminacynej Analiza pozycji - rodzaj analizy psychometrycznej, który obejmuje wskaźnik trudności pozycji, moc dyskryminacyjną oraz trafność zewnętrzną pozycji). Moc dyskryminacyjna - wskaźnik stopnia, w jakim pozycja mierzy cechę, którą mierzy cały test (oceniana poprzez korelację pozycja-skala).

Pojęcie trudności i trafności zewnętrznej pozycji Trudność pozycji - proporcja odpowiedzi zgodnych z kluczem (średnia pozycji w relacji do możliwego maksymalnie wysokiego wyniku). Trafność zewnętrzna pozycji - wskaźnik stopnia, w jakim pozycja mierzy kryterium pozatestowe (oceniana poprzez korelację pozycja-kryterium).

Miary mocy dyskryminacyjnej Współczynnik korelacji dwuseryjnej Współczynnik korelacji punktowodwuseryjnej Współczynnik korelacji punktowoczteropolowej Skorygowany współczynnik korelacji pozycja-skala

Współczynnik korelacji dwuseryjnej (M p - M q ) --------------- S r bis = ----------------------- (p q) -------- y

Współczynnik korelacji dwuseryjnej gdzie M p - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, M q - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, zaś y - to rzędna rozkładu normalnego odpowiadająca proporcji p.

Współczynnik korelacji -punktowo dwuseryjnej (M p - M q ) ---------------- S r p-bis = ------------------- (p q)

Współczynnik korelacji punktowodwuseryjnej gdzie M p - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, M q - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.

Współczynnik korelacji punktowoczteropolowej (phi) f g - f d phi = ------------ (p q)

Współczynnik korelacji punktowoczteropolowej gdzie f g - to proporcja osób w górnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, f d - to proporcja osób w dolnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, p - to proporcja osób w całej próbie, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.

Miary trafności zewnętrznej pozycji oraz treści czynnikowej Trafność zewnętrzna - korelacja z kryterium (r-pearsona albo korelacje stosowane do oceny mocy dyskryminacyjnej) Analiza czynnikowa pozycji - ładunek czynnikowy (korelacja pozycji z czynnikiem) oraz wskaźniki różnicowe: W r = F 2 - (F a 2 + F b 2 + F c 2 +... + F z2 )

Miary trafności zewnętrznej pozycji oraz treści czynnikowej gdzie W r - wynik różnicowy, F 2 - ładunek na odpowiadającym pozycji ("własnym") czynniku, zaś F a2, F b 2 do F z 2 - ładunki na innych czynnikach (od czynnika "A" do "Z").

Etap IX Etap IX analizy weryfikacyjne finalnej wersji inwentarza: rzetelność i trafność (te same oraz inne aspekty). Weryfikacja bo inna skala (długość, kompozycja pozycji).

Analiza trafności i rzetelności pomiaru Zgodność wewnętrzna i stabilność czasowa. Różne aspekty trafności zbieżna i różnicowa. Te same parametry w kilku grupach stabilność (niezmienniczość) grupowa.

Etap X Etap X normalizacja wyników testu (skale standardowe o rozkładzie normalnym, skale rangowe, punkty odsiewowe wraz z obszarem niepewności diagnozy).

Etap X Rodzaje norm: (A) normy ogólne bez podziału ze względu na żadną ze zmiennych demograficznych, (B) normy dla danej kategorii zmiennej demograficznej, ale bez podziału ze względu na inne zmienne (np. dla wszystkich kobiet, bez podziału na wiek), (C) normy dla określonej kategorii kolejnej zmiennej demograficznej, bez podziału na inne zmienne (np. dla osób o danym wieku, bez podziału na płeć), itd. (D) normy z zastosowaniem wszystkich zmiennych demograficznych.

Kwestie specyficzne norm Badania praktyczne a naukowe (normy A). Wyznaczenie SBP oraz PU dla wyników znormalizowanych. Aktualizacja norm normy kroczące. Aktualizacja norm najdalej po 10 latach.

Etap XI - XII Etap XI - publikacja testu. Etap XII - rewizja testu (po maksimum 25 latach albo wcześniej po stwierdzeniu ewidentnych wad diagnostycznych).

Regulacyjna Teoria Temperamentu Generowanie pytań, odpowiadających 12 własnościom zachowania Formułowanie ("pisanie") pytań (z kontrolą wstępnego klucza odpowiedzi) Wstępna ocena językowa pytań (językoznawca) Ocena trafności treściowej: 1. Sortowanie pytań do skal 2. Ocenianie pytań w skalach 3. Sortowanie pytań do podskal Wstępna pula około 600 pozycji Ocena formalnych własności pytań, tj. zrozumiałości, niejasności, itp. Badanie preferencji formatu odpowiedzi Pula 392 pozycji Przygotowanie kwestionariusza do badań: tytuł, instrukcja, losowa kolejność pozycji Pula 381 pozycji Badanie wersją pełną kwestionariusza Psychometryczne opracowanie kwestionariusza: podział grupy na próbę konstrukcyjną" (opracowanie kwestionariusza) oraz próbę testową" (sprawdzenie wyników) I. Konstrukcja 12 podskal Analiza pozycji (kryterium doboru pozycji - skorygowany współczynnik korelacji pozycja skala; SKPS) II. Analiza czynnikowa (Główne Składowe, Varimax), oddzielnie dla własności czasowych i energetycznych zachowania, prowadząca do wyodrębnienia struktury temperamentu III. Konstrukcja skal 1. Budowa 6 skal przez połączenie 12 podskal na podstawie ich ładunków czynnikowych 2. Dobór pozycji do skal na podstawie ich korelacji z czynnikami (akceptacja zbliżonej liczbę pozycji z każdej podskali) 3. Dobór pozycji, które wykazywały SKPS wyższy niż korelację z innymi skalami 4. Skrócenie skal do 20 pozycji w każdej z nich, przez wybór pozycji o najwyższym SKPS Pula 381 pozycji FCZ-KT wersja końcowa 6 skal 120 pozycji Badania wersją końcową kwestionariusza Weryfikacja charakterystyki psychometrycznej FCZ-KT próby weryfikacyjne (parametry rozkładu wyników, oszacowanie rzetelności pomiaru poprzez zgodność wewnętrzną) Ocena stabilności czasowej pomiaru FCZ-KT: badanie powtórne po 2 tygodniach oraz po 6 miesiącach Badanie trafności pomiaru FCZ-KT (wybrane analizy): 1. Analiza porównawcza pomiaru cech temperamentu za pomocą samoopisu i szacowania 2. Analiza porównawcza pomiaru cech temperamentu za pomocą samoopisu i wybranych metod laboratoryjnych 3. Analiza relacji cech temperamentu do innych biologicznych wymiarów osobowości 4. Analiza związku pomiędzy cechami temperamentu a adaptacją zawodową i stanem zdrowia 5. Analiza relacji pomiędzy strukturą temperamentu a stylami zachowania wiążącymi się z ryzykiem choroby psychosomatycznej 6. Badanie struktury temperamentu u osób chorych FCZ KT wersja końcowa Normalizacja skal FCZ-KT Opracowanie podręcznika do FCZ KT

Struktura podręcznika testowego prezentacja teoretycznych podstaw testu; opis procedury konstrukcji dane, ilustrujące rzetelność i trafność pomiaru (wraz z charakterystyką orób); procedura praktycznego stosowania testu i obliczania wyników; procedura interpretacji wyników testu; tabele normalizacyjne.

Co musi zawierać podręcznik testowy? Podręcznik musi zawierać precyzyjny opis testu: jego przeznaczenie, wskazówki dotyczące procedury badania testem i obliczania wyników, pełne dane ilustrujące charakterystykę psychometryczną, opis procedury normalizacji oraz normy, precyzować zasady interpretacji oraz zawierać informację o możliwej stronniczości czy ograniczeniach stosowania testu.

Zmiany pokoleniowe wpływające na starzenie się inwentarzy osobowości Kwestionariusze są opracowywane do diagnozowania osobowości ludzi żyjących w danym czasie i przestrzeni, a zatem w kręgu określonej kultury. Zmiany kulturowe, następujące wraz z upływem czasu, są jednym z czynników powodujących dezaktualizowanie się inwentarzy osobowości. Dotyczy to zarówno formy i częstości występowania określonych zachowań lub sytuacji, opisywanych w pozycjach kwestionariuszowych, jak i języka, w którym pozycje te zostały wyrażone. Prace Twenge (2000; 2001) wskazują, że konieczność rewizji inwentarza może też wynikać z systematycznych międzygeneracyjnych zmian w nasileniu cech osobowości. Szczególnie interesujące zależności zostały przez uzyskane dla cechy lęku i neurotyczności. Poddała ona analizie

Zmiany pokoleniowe wpływające na starzenie się inwentarzy osobowości wyniki zebrane od roku 1952 do 1993 w badaniach grup amerykańskich uczniów i studentów, za pomocą takich narzędzi jak MAS Taylor, STAI Spielbergera oraz EPI i EPQ Eysenka. Uzyskane wyniki wskazały, że w ciągu czterdziestu lat średnie wyniki skal lęku/neurotyczności wzrosły o jedno odchylenie standardowe i obecnie lokalizują się na poziomie 84 centyla w stosunku do populacji lat pięćdziesiątych (odpowiadającemu poziomowi 50 centyla). Zmiana ta jest tak znaczna, że Twenge (2000, s. 1018) obrazowo określa czasy współczesne mianem epoki lęku, wskazując, że...lęk obecnie jest tak wysoki, że grupy normalnych dzieci z lat osiemdziesiątych uzyskują wyższe wyniki niż grupy dzieci zaburzonych z lat pięćdziesiątych. Pomijając przyczynę tego zjawiska,

Zmiany pokoleniowe wpływające na starzenie się inwentarzy osobowości ma ono także konsekwencje dla narzędzi diagnostycznych pozycje, które znakomicie różnicowały populację lat pięćdziesiątych, nie mają już tak samo dobrej charakterystyki psychometrycznej w grupach badanych na końcu XX wieku. Najprawdopodobniej też omawiane kwestionariusze muszą wykazywać skośność rozkładu wyników w badaniu pokoleń współczesnych. Można zatem sądzić, że wskutek zmian pokoleniowych te znakomite skądinąd narzędzia diagnostyczne mocno się już zdezaktualizowały i wymagają systematycznej rewizji nie tylko ponownej normalizacji, ale przede wszystkim modyfikacji na poziomie pozycji inwentarzowych.

Wykład 11 CZYNNIKI ZNIEKSZTAŁCAJĄCE WYNIKI TESTOWE

Wady diagnostyczne metod laboratoryjnych Nie ma doskonałych metod diagnozy każda z nich obciążona jest wadami, wynikającymi ze specyfiki zbierania informacji (czy specyfiki źródła danych). Wady metod laboratoryjnych związane są z niską zgodnością diagnoz, bazujących na wskaźnikach psychofizycznych lub psychofizjologicznych. Określana jest ona mianem zjawiska parcjalności : diagnoza zależy od rodzaju bodźca, reakcji oraz wzmocnienia, zastosowanych w badaniu własności układu nerwowego (Strelau, 1985).

Poznawcze zniekształcenia samoopisu i obserwacji a). błędy obserwatora: błąd łagodności-surowości (postawa adwokacka-prokuratorska), tendencji centralnej (efekt Barnuma), efekt halo (inne dane lub opinie, ogólny obraz osoby ocenianej), bliskości (bliskość przestrzenna wskaźników lub czasowa ocen), kontrastu (ocena w odniesieniu do cech własnych). b). błędy samoopisu, np. wieloznaczność pojęć używanych do opisu częstości (język naturalny), uzależnienie odpowiedzi od kontekstu ( tła ) pytań (opisy emocji/cech pozytywnych i negatywnych), czy wpływ stanu obecnego (zachowań incydentalnych) na ocenę cechy (zachowań typowych).

Czynniki zniekształcające wyniki testowe a). zgadywanie. b). tendencja do udzielania odpowiedzi społecznie aprobowanych albo społecznie nie aprobowanych: - tendencja do dysymulowania (aprobata społeczna), -tendencja do symulowania; c). style odpowiadania

Style odpowiadania Style odpowiadania - tendencja osoby badanej do wybierania określonej opcji odpowiedzi niezależnie od treści pozycji kwestionariuszowej: tendencja do zgadzania się albo zaprzeczania, udzielania odpowiedzi ekstremalnych albo centralnych (pośrednich), udzielania odpowiedzi nieuważnych lub niekonsekwentnych,

Style odpowiadania losowych (przypadkowych), niezdecydowanych (opcje? lub opuszczenia odpowiedzi), produktywnych, impulsywnych, pozornie oryginalnych, konwencjonalnych oraz lateralizacji (style graficzne).

Preferencje opcji odpowiedzi dane z badania kwestionariuszami bez pytań Interesującego argumentu na rzecz stylu odpowiadania dostarczają badania z zastosowaniem tzw. kwestionariuszy bez pytań. Jako pierwsi ideę tę sformułowali Berg i Rapaport (1954), ale bardziej systematyczne analizy zostały zrealizowane przez Van Heerdena i Hoogstratena (1979, 1980). W inwentarzach tych zamieszcza się tylko opcje odpowiedzi o określonych formatach oraz prosi osoby badane, aby: odgadły odpowiedź na pytanie, które nie jest im znane,..., zaznaczając jedną z opcji odpowiedzi, która w ich przekonaniu jest poprawna. Uzyskane wyniki wskazały, że osoby badane bardziej preferują odpowiedź Prawda (60%) niż Fałsz (40%), Tak (60%) niż Nie wiem (16%) oraz Nie (24%). W innych formatach częściej stosowanych w realnych inwentarzach z opcji Zawsze Czasami Nigdy

Preferencje opcji odpowiedzi dane z badania kwestionariuszami bez pytań najbardziej preferowana była odpowiedź czasami (odpowiednio: 26% - 46% - 28%), zaś z opcji Bardzo usatysfakcjonowany Usatysfakcjonowany Nieusatysfakcjonowany Bardzo nieusatysfakcjonowany odpowiedź usatysfakcjonowany (24% - 45% - 16% - 15%). Wyniki te wskazują, że uzyskana odpowiedź może zależeć nie tylko od treści pozycji, ale także od rodzaju opcji odpowiedzi i że osoby badane preferują pewne opcje bardziej niż inne. W praktyce zatem, gdy osoba badana nie wykazuje odpowiedniej motywacji do wzięcia udziału w badaniu lub pozycje wykazują wady formalne, utrudniające zrozumienie treści pozycji i udzielenie właściwej odpowiedzi, jest możliwe, że będzie uruchamiać styl odpowiadania, kierując się preferencjami określonych opcji.

Preferencje opcji odpowiedzi dane z badania kwestionariuszami bez pytań Podsumowując, można stwierdzić, że osoby badane generalnie preferują udzielenie odpowiedzi poprzez wybór opcji potwierdzającej. Najbardziej preferowana jest jednak umiarkowana akceptacja odpowiedzi zdecydowane są preferowane mniej, przy czym zdecydowana odpowiedź pozytywna jest akceptowana nieco bardziej niż negatywna. Wynik dotyczący wybierania odpowiedzi neutralnej sugeruje, że może być postrzegana przez osoby badane nie tylko jako wyraz wyważenia opinii, ale także niezdecydowania, braku zdania czy indyferencji w sprawach osobistych. Właśnie to wyjaśnia, dlaczego odpowiedź pośrednia - oznaczana jako obojętne, nie wiem, tak i nie czy poprzez? jest wybierana rzadziej niż opcje zdecydowane.

Style odpowiadania Konieczne jest rozróżnienie tendencji ogólnej (podatność narzędzia lub procedury badania) oraz różnic indywidualnych w stosowaniu stylu skale kontrolne badają różnice indywidualne, wyjątkowo mogą być zastosowane do analizy sytuacji badania.

Źródła stylów odpowiadania Brak odpowiedniej motywacji osoby badanej do wzięcia udziału w badaniach lub poczucie zagrożenia badaniem - styl odpowiadania wynika z chęci ukrycia faktycznego obrazu osobowości w szumie informacyjnym odpowiedzi. Własności pozycji oraz zastosowane opcje odpowiedzi - niezrozumiałość oraz niejasność pozycji oraz nieadekwatność zastosowanego formatu odpowiedzi.

Zalecenia Odpowiednie sformułowanie językowe pozycji oraz właściwy format odpowiedzi (eliminowanie odpowiedzi pośrednich, dostosowanie formatu do preferencji osób badanych). Zrównoważenie skali pod względem klucza odpowiedzi (niezbędne do zbudowania skal kontrolnych).

Dysymulowanie Dysymulowanie - tendencja osoby badanej do przedstawiania się w nieprawdziwie korzystnym świetle, która wiązana jest ze zmienną aprobaty społecznej (tendencją osoby badanej do kierowania się społecznym wartościowaniem zachowania przy odpowiadaniu, co prowadzi do zaprzeczania posiadania cech społecznie niepożądanych oraz przypisywania sobie cech społecznie pożądanych).

Aprobata społeczna Aprobata społeczna jako styl odpowiadania (czy inaczej postawa wobec badania) to tendencja jednostki do kierowania się przy odpowiadaniu nie tyle faktycznym zachowaniem, czy treścią pytania, ale społeczną oceną, jaką pociąga za sobą dana odpowiedź.

Tendencja do dysymulowania i aprobata społeczna c.d. Aprobata jako cecha to tendencja podmiotu do takiego modulowania zachowania (każdego - testowego, jak i realnego, pozatestowego), by było ono zgodne ze społecznym wartościowaniem - normami społecznymi, akceptacją otoczenia.

Zalecenia unikanie obciążenia 1). Pozycje neutralne. 2). Pozycje subtelne pod względem trafności fasadowej. 3). Specjalne formułowanie językowe pozycji tzw. zdania zmodalizowane, unikanie dużych kwantyfikatorów czasu. 4). Zmiana procedury badania - komputeryzacja lub wykorzystanie szacowania cech.

Zalecenia identyfikacja pozycji obciążonych 5). Aprobata społeczna jako zmienna moderacyjna. 6). Analiza podatności pozycji przez manipulowanie instrukcją ( dobry profil). 7). Analizy itemmetryczne. 8). Korelacje pozycji ze skalami mierzącymi aprobatę społeczną. Identyfikacja pozycji obciążonych usunięcie albo przeformułowanie.

Metody kontroli (eliminowania) wpływu aprobaty Na etapie stosowania kwestionariusza: 8). Instrukcja "szczerości", 9). Zmiana procedury badania - komputeryzacja testu,

Metody kontroli (eliminowania) wpływu aprobaty 10). Skala kontrolna aprobaty społecznej, na podstawie której odrzuca się respondentów o wysokich wynikach lub koryguje wyniki skal treściowych przez doliczanie tzw. poprawek korekcyjnych, 11). Wprowadzenie do diagnozy psychologicznej szacowania cech.

Dysymulacja i symulacja Konieczne jest rozróżnienie tendencji ogólnej (podatność narzędzia lub procedury badania) oraz różnic indywidualnych w dysymulowaniu czy symulowaniu skale kontrolne badają różnice indywidualne, wyjątkowo mogą być zastosowane do analizy sytuacji badania.

Symulowanie Symulowanie tendencja osoby badanej do udzielania odpowiedzi, bezpodstawnie przedstawiających osobę badaną w niekorzystnym świetle, np. wskazujących na istnienie określonych zaburzeń zachowania czy niepożądanych cech osobowości.

Tendencja do symulowania (c.d.) Tendencja do symulowania jest zarówno postawą wobec badania, (styl odpowiadania, np."super-szczerość"), jak trwałym syndromem cech osobowości, związanym z tendencjami agrawacyjnymi, obniżoną samooceną, ekscentrycznością i zaburzeniami psychicznymi. Kontrolowanie tendencji do symulacji umożliwiają specjalne skale kontrolne.

Symulowanie Zagrożenie pozytywną oceną, prowadzącą do wzbudzenia motywacji do unikania i dążenia do uzyskania diagnozy negatywnej. Pytania o nietypowe myśli, pragnienia, odczucia i wrażenia (wraz ze swoistym przejaskrawieniem czy udziwnieniem form zachowania) oraz zachowania stanowiące przekroczenie norm moralnych.

Zalecenia unikanie obciążenia Unikanie pytań o zachowania regulowane społecznymi normami. Unikanie emfazy w formułowaniu treści pozycji.

Zalecenia identyfikacja pozycji obciążonych Tendencja do symulowania jako zmienna moderacyjna. Analiza podatności pozycji przez manipulowanie instrukcją ( zły profil). Analizy itemmetryczne. Korelacje pozycji ze skalami mierzącymi tendencję do dysymulowania. Identyfikacja pozycji obciążonych usunięcie albo przeformułowanie.

Skale kontrolne Funkcja skal kontrolnych polega na diagnozowaniu indywidualnych stylów odpowiadania na pozycje kwestionariuszowe, które są ekspresją postaw wobec badania inwentarzem osobowości. Postawy te nie wiążą się treściowo z badanymi cechami osobowości, ale powodują zniekształcenie uzyskiwanych wyników skal.

Skale kontrolne Czynniki te mogą być zatem traktowane jako tzw. zmienne tłumiące lub moderujące. Będą one zatem prowadziły do obniżenia wartości diagnostycznej inwentarza - trafności pomiaru, a niekiedy także i rzetelności pomiaru.

Skale kontrolne Rodzaje skal kontrolnych: Dysymulacji, symulacji albo dysymulacjisymulacji (cecha albo styl albo cecha-styl, zależnie od sytuacji) specjalna motywacja o.b.; Skale do badania stylu odpowiadania brak motywacji o.b. (odpowiedzi losowe, potakujące, itd.).

Skale kontrolne MMPI Skala L była przeznaczona do diagnozowania dysymulacji i została zbudowana z pozycji opisujących zachowania społecznie pożądane, ale występujące rzadko u przeciętnej osoby. Uważa się, że diagnozuje ona tzw. naiwną tendencję do dysymulowania. Skala K była przeznaczona do diagnozowania tendencji do przedstawiania nadmiernie pozytywnego obrazu siebie, ale zbudowano ją kryterialnie, wyodrębniając pozycje różnicujące grupę osób zdrowych oraz osób chorych o normalnym profilu, które podejrzewano zatem o dysymulację. Obu skalom przypisywano funkcję zmiennych tłumiących, a zatem prowadzących do uzyskania przez osobę nieprawdziwie normalnego profilu.

Skale kontrolne MMPI Skala F miała wykrywać tendencję do udzielania odpowiedzi nieuważnych i nieprzemyślanych. Wybrano do niej pozycje, które były bardzo rzadko potwierdzane w próbie normalizacyjnej. Pozycje te miały jednak charakter kliniczny i opisywały niezwykłe zachowania, z których każde stawiało osobę badaną w niekorzystnym świetle. Faktycznie zatem skala nieuważności zaczęła pełnić rolę skali symulacji. Ostatnia skala badała tendencję do wybierania odpowiedzi pośrednich (?, czyli odpowiedzi nie potrafię powiedzieć ). Jej wyniki obliczono jako liczbę odpowiedzi pośrednich na wszystkie pozycje MMPI. Miała ona diagnozować styl odpowiadania, wynikający z nadmiernej ostrożności czy niezdecydowania, a prowadzący do obniżenia wyników skal klinicznych.

Skale kontrolne MMPI-II II wersja MMPI zawiera aż 9 skal kontrolnych - obok czterech tradycyjnych skal kontrolnych (?, L, F i K), wprowadzono aż pięć dalszych: VRIN, TRIN, F(b), F(p) oraz S. Skala VRIN (Variable Response Inconsistency) pozwala na ocenę zmienności odpowiedzi na zbiór, opozycyjnych w treści, par pozycji wysoki wynik w tej skali, oznaczający udzielenie tej samej odpowiedzi na oba stwierdzenia z każdej pary, pozwala na ocenę niekonsekwencji odpowiadania. Z kolei skala TRIN (True Response Inconsistency) bazuje na liczbie odpowiedzi konfirmacyjnych na oba stwierdzenia pary i informuje o tendencji do zgadzania się, podczas gdy liczba odpowiedzi negujących - o tendencji do zaprzeczania.

Skale kontrolne MMPI-II Skala F(b) (Inpatient Psychopathology Scale) została zbudowana na końcowych pozycjach inwentarza MMPI-2 i jako wariant skali F - pozwala na ocenę losowości odpowiedzi, następującej w efekcie zmęczenia i utraty motywacji, przy wypełnianiu tego długiego inwentarza. Z kolei skala F(p) (Inpatient Psychopathology Scale) bada tendencję do symulowania u osób, wykazujących zaburzenia psychiczne. Wreszcie skala S (Superlative Self- Presentation Scale) pozwala na ocenę bardziej wyrafinowanej formy dysymulowania niż tradycyjnie stosowana skala K wraz z pięcioma szczegółowymi komponentami tej tendencji.

Skale kontrolne 16 PF-V W 5. edycji 16 PF wprowadzono trzy skale kontrolne: aprobaty społecznej (w wersji skali do badania sprawiania wrażenia ), tendencji do zgadzania się oraz tendencji do udzielania odpowiedzi przypadkowych (ang. infrequency). Tendencja do udzielania odpowiedzi przypadkowych ( strzelania ) jest diagnozowana na podstawie wybierania przez osobę badaną szczególnie rzadko zaznaczanych w całej próbie opcji odpowiedzi (z trójstopniowej skali) na pulę pozycji treściowych (zliczana jest suma wybranych takich opcji w puli różnorodnych pozycji). Tendencja do zgadzania się jest oceniana na podstawie wybierania przez osobę badaną odpowiedzi potwierdzających na pozycje wybrane z różnych skal treściowych (zliczana jest suma odpowiedzi potakujących na pulę zróżnicowanych treściowo pozycji).

Skale kontrolne 16 PF-V Skala aprobaty zawiera pozycje, które nie są włączane do skal treściowych i diagnozuje uogólnioną tendencję do kierowania się aprobatą społeczną przy odpowiadaniu. Godnym uwagi jest także fakt, że w 5. edycji 16PF zmieniono nieco status skali rozumowania (B). Pozycje z tej skali zamieszczone są na końcu inwentarza, a sama skala staje się do pewnego stopnia skalą kontrolną. Służy ona nadal do oceny zdolności i jej wyniki są uwzględniane w profilu cech, tak jak w wersji pierwotnej. Jednocześnie jednak - poprzez badanie sprawności rozumowania na końcu kwestionariusza - informuje o zasobach uwagi, którymi dysponowała osoba badana po męczącej i długotrwałej pracy, związanej z wypełnieniem 16PF.

Zgadywanie - definicja Zgadywanie jest specyficznym czynnikiem zniekształcającym wyniki testów zdolności, związanym z udzielaniem odpowiedzi losowych, gdy badani nie znają właściwych odpowiedzi ( jak nie wiem, to będę strzelał ).

Kontrolowanie zgadywania a). poprzez instrukcję testową: wyrównywanie tendencji do zgadywania (zachęcanie do zgadywania) lub eliminowanie zgadywania (informacja o stosowaniu korekty wyników);

Kontrolowanie zgadywania b). zastosowanie statystycznej poprawki na zgadywanie: B K = P - --------- m - 1 gdzie K - liczba odpowiedzi bez zgadywania, P - liczba poprawnych odpowiedzi w teście, B - liczba błędnych odpowiedzi, m - liczba opcji odpowiedzi w zadaniach testowych.

Wykład 12 STRATEGIE KULTUROWEJ ADAPTACJI TESTÓW

Kulturowe korzenie testu Test jest tworzony w celu mierzenia określonej zmiennej psychologicznej na podstawie wyników badania specyficznej grupy osób (specyficznej ze względu na charakterystykę demograficzną oraz kulturę narodową). Wszystkie parametry psychometryczne testu jako całości (oraz pozycji testowych) są dostosowane do

Kulturowe korzenie testu specyfiki tej próby (określanej mianem próby oryginału ). Kiedy jednak test ma być użyty do badania grup o odmiennej charakterystyce demograficznej i kulturowej (określanej mianem próby adaptacji ), to musi zostać poddany adaptacji.

Kulturowa adaptacji testów Kulturowa adaptacja testu - przystosowanie wersji oryginalnej testu do innej specyfiki kulturowej. Adaptacja testu oznacza konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze adaptacji), w przeciwnym razie stosowanie takiego narzędzia prowadzi nieuchronnie do stronniczości: dyskryminacji albo faworyzacji kulturowej.

Pojęcie kultury Kroeber i Kluckhohn (1952): kultura polega na usystematyzowanych i ustalonych sposobach myślenia, odczuwania i reagowania, nabytych i przekazywanych głównie za pomocą symboli, stanowiących znamienne osiągnięcia grup ludzkich, włączając ich ucieleśnienie w wytworach materialnych; istotny trzon kultury stanowią tradycyjne (tzn. historycznie przekazane i wyselekcjonowane) idee, a przede wszystkim do tych idei przywiązywane wartości (s. 181; tłumaczenie za Olszewską-Dyoniziak, 1991).

Konsekwencje kulturowego uwarunkowania testowania Wszystkie formy ludzkiego zachowania są wyznaczane przez kulturę. Testy bazują na ocenie zachowania, a zatem testy mierzące określone cechy osobowe są dostosowane tylko do specyficznej kultury. Każde zastosowanie testów do badania osób z innej kultury wymaga rewizji testu (dopasowania testu do nowej kultury).

Cele adaptacji kulturowej testu Testy są adaptowane do dwóch celów: Porównań pomiędzy kulturami (stosunkowo rzadsze zastosowanie). Porównań wewnątrz każdej z kultur (test skonstruowany w kulturze oryginału ma być zastosowany do porównywania osób z kultury adaptacji).

Meandry kulturowej adaptacji testów Cattell culture-fair tests (testy niezależne kulturowo), później inni autorzy - testy zredukowane kulturowo. Faktycznie testy mogą być kulturowo specyficzne albo kulturowo wspólne (zuniwersalizowane), czy inaczej emikalne albo etikalne, bowiem roli kultury nie da się ograniczyć!

Aspekty równoważności kulturowo adaptowanych testów Aspekty równoważności kulturowej testu: a). równoważność teorii psychologicznych, b). równoważność wymiarów psychologicznych c). równoważność pojęć psychologicznych, d). równoważność wskaźników cech - zachowań, e). równoważność procedury badania.

Kryteria równoważności kulturowowo adaptowanych testów Kryteria równoważności testu: a). równoważność fasadowa (forma testu), b). równoważność psychometryczna (wskaźniki dobroci pomiaru), c). równoważność funkcjonalna (równoważność psychologiczna), d). wierność tłumaczenia, e). wierność rekonstrukcji.

Strategie kulturowej adaptacji testów Transkrypcja Translacja Trawestacja Parafraza Rekonstrukcja

Trankskrypcja Transkrypcja - maksymalnie wierne tłumaczenie oryginalnych pozycji (założenie, że zarówno konstrukty, jak i zachowania są uniwersalne czy inaczej równoważne kulturowo). Celem adaptacji jest dochowanie wierności tłumaczenia oraz wierności fasadowej testu. Adaptacje transkrypcyjne są "niezręczne" językowo i wykazują szereg wad psychometrycznych.

Translacja Translacja - wierne tłumaczenie finalnej puli oryginalnych pozycji, ale z możliwością wprowadzenia niezbędnych modyfikacji językowych (założenie, że konstrukty, jak i zachowania są uniwersalne kulturowo, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania).

Trawestacja Trawestacja - swobodne tłumaczenie oryginału z wprowadzaniem wielu modyfikacji, sugerowanych względami językowymi i psychologicznymi: treściowymi lub psychometrycznymi (założenie, że konstrukty psychologiczne są uniwersalne, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania i nie zawsze uniwersalne są same zachowania - część zachowań ma charakter emikalny). Trawestacja prowadzi do uzyskania dostosowanych do danej kultury formy testu, ale może się on różnić od oryginału.

Parafraza Parafraza - opracowanie nowego narzędzia, dla którego inspiracją jest test oryginalny. Pozycje oryginalne są wykorzystywane tylko częściowo, większość pozycji jest generowana na bazie pozycji oryginalnych (założenie, że konstrukty psychologiczne są uniwersalne kulturowo, ale z reguły nie są uniwersalne zachowania - tylko część z nich ma charakter etikalny, tj. równoważny kulturowo. Parafraza jest bardzo czasochłonna, ale prowadzi do uzyskania w pełni dostosowanych do danej kultury adaptacji testu.

Rekonstrukcja Rekonstrukcja - opracowanie całkowicie nowego narzędzia, dla którego inspiracją jest oryginalny model teoretyczny i strategia konstrukcji (założenie, że zachowania z reguły nie są uniwersalne kulturowo, ale możliwe że nie są uniwersalne również konstrukty psychologiczne). Rekonstrukcja może prowadzić do uzyskania innej niż oryginalna wersji testu i jest najbardziej czasochłonną strategią adaptacji, ale prowadzi do uzyskania całkowicie dostosowanych kulturowo wersji testu.

Adaptacja NEO-FFI (translacja) Analiza konstruktu teoretycznego oraz podjęcie decyzji o translacji (stanowisko uniwersalistyczne: uniwersalne kulturowo cechy osobowości oraz we wstępnej ocenie - równoważne kulturowo pozycje kwestionariuszowe) Uzyskanie zgody autorów: Paula T. Costy, Jr i Roberta R. McCrae na dokonanie polskiej translacji NEO-FFI Tłumaczenie wprost pozycji inwentarza: dwóch profesjonalnych tłumaczy (dodatkowe profesjonalne tłumaczenie wersji niemieckojęzycznej) Dyskusja grupowa ostatecznej wersji tłumaczenia Badanie zgodności odpowiedzi (grupa dwujęzyczna - studenci anglistyki) Poprawienie pozycji wykazujących odmienną charakterystykę w wersji polskiej i oryginalnej w grupie osób dwujęzycznych Ponowne badanie zgodności odpowiedzi (grupa dwujęzyczna - studenci anglistyki) Tłumaczenie zwrotne oraz uzyskanie akceptacji tłumaczenia od autorów oryginału Analiza własności psychometrycznych polskiej wersji inwentarza, zaplanowana jako weryfikacja czterech twierdzeń o własnościach cech osobowości: Uniwersalność cech - struktura czynnikowa pozycji oraz podstawowe parametry pomiaru i statystyki rozkładu wyników Biologiczność cech - współczynniki odziedziczalności cech Realność cech - porównanie zgodności samoopisu oraz szacowania cech Niezmienniczość cech - związki z innymi cechami osobowości: korelacje i analiza czynnikowa Ocena polskiej wersji NEO-FFI i porównanie z wersją oryginalną Opracowanie norm oraz podręcznika do polskiej wersji NEO-FFI

Adaptacja demograficzna testów Adaptacja demograficzna - przystosowanie testu przeznaczonego do badania określonej grupy do stosowania w innej grupie demograficznej. Adaptacja demograficzna testu, tak jak adaptacja kulturowa, oznacza konieczność wprowadzenia specjalnych procedur przystosowujących

Adaptacja demograficzna testów (decentrujących - uniwersalizujących lub centrujących na kulturze danej grupy), w przeciwnym razie stosowanie testu prowadzi nieuchronnie do stronniczości: dyskryminacji albo faworyzacji demograficznej (np. seksizmu).

Aspekty adaptacji demograficznej testów Płeć Wiek Niepełnosprawność Rasa Klasa społeczna (status społecznoekonomiczny)? Środowisko Podkultura?

Wykład 13 NORMALIZACJA WYNIKÓW TESTU

Normy i normalizacja Norma wg kryterium statystycznego jest zachowanie większości lub zachowanie średnie lub przeciętne. Normy zatem to ustalone wartości odniesienia dla wyników testowych opisują typowe poziomy wykonania testu. Normalizacja zaś jest zabiegiem wyznaczania norm.

Rodzaje norm Ze względu na sposób definiowania grupy odniesienia: normy generalne i normy lokalne. Ze względu na sposób ich konstrukcji: równoważnikowe (relatywizacja do wieku); normy wymagań (relatywizacja do zewnętrznego standardu wykonania); normy wewnątrzgrupowe - standardowe i rangowe (relatywizacja do typowego wykonania w grupie odniesienia).

Normy Normy testowe są niezbędne dla poprawnej interpretacji wyników testu. Wynik surowy jest nieinterpretowalny bez informacji o wynikach, otrzymanych przez osoby badane z odpowiedniej grupy odniesienia lub bez znajomości określonego standardu wykonania testu.

Wyniki progowe Wyniki progowe (punkty odsiewowe) są stosowane w podejściu zorientowanym na trafność kryterialną. Celem tych norm jest uzyskanie diagnozy jakościowej klasyfikacji osób badanych do jednej z dwóch (czy kilku) grup, skontrastowanych ze względu na określone kryterium. Punkty odsiewowe służą jako norma dla wyników testu wskazują co oznacza wysoki i niski wynik testu.

Ryc. 28. Grupy kontrastowe oraz punkty odsiewowe 0,5 Punkt odsiewowy 0,25 0-3 -2,5-2 -1,5-1 -0,5 0 0,5 1 1,5 2 2,5 3

Wynik progowy Wynik progowy jest zazwyczaj wyrażany w formie, przykładowo 10/11 (najwyższy wynik w jednej grupie/najniższy wynik w drugiej grupie). Wynik progowy jest uzyskiwany poprzez krzywoliniową regresję jako punkt pozwalający na najlepsze zróżnicowanie obu grup: poniżej tego wyniku osoba badana ma mniej niż 50% szans, że należy do jednej grupy, zaś powyżej, że ma powyżej 50% szans na przynależność do drugiej grupy.

Ryc. 29. Krzywoliniowa relacja między wynikami testu a prawdopodobieństwem przynależności do danej grupy kontrastowej. 1 0,75 Wynik progowy 0,5 0,25 0-3 -2,5-2 -1,5-1 -0,5 0 0,5 1 1,5 2 2,5 3

Wskaźniki trafności diagnozy na podstawie progów odsiewowych Diagnoza bazująca na progach odsiewowych powinna także być poddana walidacji: odsetek trafnych i błędnych diagnoz powinien być obliczony oraz szereg wskaźników trafności diagnozy (wrażliwość, specyficzność, pozytywna i negatywna wartość predykcyjna oraz ogólny wskaźnik błędnych klasyfikacji).

Rodzaje diagnoz Wskaźniki te wylicza się na podstawie liczby diagnoz prawdziwie negatywnych (osoby zdrowe zdiagnozowane jako zdrowe), prawdziwie pozytywnych (osoby chore zdiagnozowane jako chore), fałszywie pozytywnych (osoby zdrowe zdiagnozowane jako chore) oraz fałszywie negatywnych (osoby chore zdiagnozowane jako zdrowe).

Tabela 15. Rodzaje diagnoz kryterialnych Wynik testu Poniżej progu Powyżej progu Diagnoza medyczna Zdrowy Chory A B (diagnoza (diagnoza prawdziwie fałszywie negatywna) negatywna) C D (diagnoza (diagnoza fałszywie prawdziwie pozytywna) pozytywna)

Rodzaje wskaźników Ogólny wskaźnik błędnych klasyfikacji: liczba diagnoz fałszywych w stosunku do ogólnej liczby osób badanych, czyli B+C/(A+B+C+D) lub jego odwrotność wskaźnik poprawnych klasyfikacji: liczba diagnoz prawdziwych w stosunku do ogólnej liczby osób badanych, czyli A+D/(A+B+C+D);

Rodzaje wskaźników Wskaźnik specyficzności czy inaczej swoistości: proporcja osób z dolnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza do ogółu osób z tej grupy, np. liczba osób zdrowych trafnie ocenionych jako zdrowe w stosunku do ogólnej liczby zdrowych, czyli A/(A+C);

Rodzaje wskaźników Wskaźnik wrażliwości czy inaczej czułości: proporcja osób z górnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza do ogółu osób z tej grupy kontrastowej, np. liczba osób chorych trafnie ocenionych jako chore w stosunku do ogólnej liczby osób chorych, czyli D/(B+D);

Rodzaje wskaźników Wskaźnik pozytywnej wartości predykcyjnej: proporcja osób z górnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza do ogółu osób zakwalifikowanych do tej grupy na podstawie inwentarza, np. liczba osób chorych trafnie ocenionych jako chore w stosunku do ogólnej liczby osób ocenionych jako chore na podstawie inwentarza, czyli D/(C+D).

Rodzaje wskaźników Wskaźnik negatywnej wartości predykcyjnej: proporcja osób z dolnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza w stosunku do ogółu osób zakwalifikowanych do tej grupy na podstawie inwentarza, np. liczba osób zdrowych trafnie ocenionych jako zdrowe w stosunku do ogólnej liczby osób ocenionych jako zdrowe na podstawie inwentarza, czyli A/(A+B).

Tabela 16. Pojęcie wskaźników trafności. Test/kryterium Kryterium Zdrowy A Wynik testu - (diagnoza poniżej progu prawdziwie negatywna) C Wynik testu - (diagnoza powyżej fałszywie progu pozytywna) Wskaźniki S = kryterium A/(A+C) Kryterium - Chory B (diagnoza fałszywie negatywna) D (diagnoza prawdziwie pozytywna) W = D/(B+D) Wskaźniki - test NWP = A/(A+B) PWP = D/(C+D) Ogólne wskaźniki

Tabela 17. Wskaźniki dla testu o doskonałej trafności pomiaru. Test/kryterium Kryterium Zdrowy Kryterium - Chory Wskaźniki - test Wynik testu - A = 50 B = 0 NWP = 100% poniżej progu Wynik testu - C = 0 D = 50 PWP = 100% powyżej progu Wskaźniki kryterium S = 100% W = 100% Ogółem 100%

Ocena wskaźników Wskaźniki te wskazują w jakim obszarze diagnozy test wykazuje obniżoną trafność, np. może dobrze diagnozować osoby zdrowe o niskich wynikach, ale mylić się w obszarze wyników wysokich, typowych dla osób chorych (ale uzyskiwanych często także przez osoby zdrowe). Efekty te zależą od charakterystyki rozkładu wyników w obu grupach kryterialnych.

Ryc. 30. Odmienny rozkład wyników w grupach kontrastowych 0,5 Punkt odsiewowy 0,25 0-3 -2,5-2 -1,5-1 -0,5 0 0,5 1 1,5 2 2,5 3

Tabela 18. Wskaźniki dla testu zbyt szeroko definiującego zaburzenie (Ryc. 30). Test/kryterium Kryterium Zdrowy Kryterium - Chory Wskaźniki - test Wynik testu - A = 25 B = 0 NWP = 100% poniżej progu Wynik testu - C = 25 D = 50 PWP = 67% powyżej progu Wskaźniki kryterium S = 50% W = 100% Ogółem 75%

Tabela 19. Wskaźniki dla testu zbyt wąsko definiującego zaburzenie (odwrotność Ryc. 30). Test/kryterium Kryterium Zdrowy Kryterium - Chory Wskaźniki - test Wynik testu - A = 50 B = 25 NWP = 67% poniżej progu Wynik testu - C = 0 D = 25 PWP = 100% powyżej progu Wskaźniki kryterium S = 100% W = 50% Ogółem 75%

Konsekwencje zmiany progu W celu poprawy danego wskaźnika wyniki progowe można przesuwać w stronę wysokich wyników testu (obniżenie liczby diagnoz fałszywie pozytywnych) lub w stronę wyników niskich (obniżenie liczby diagnoz fałszywie negatywnych). Podjęcie takiej decyzji zależy od konsekwencji błędu danego rodzaju. Należy jednak pamiętać, że w każdym wypadku pogarsza się wtedy wskaźnik odwrotny.

Pechowy wynik 13 punktów - problem z progami odsiewowymi Ze statystycznego punktu widzenia jest mało prawdopodobne, aby wynik progowy był stabilny w różnych grupach. Zostało to wykazane empirycznie z zastosowaniem inwentarza General Health Questionnaire (GHQ; Goldberg i Williams, 1988; Instytut Medycyny Pracy, 2001). Oznaczałoby to bowiem, że każdorazowo grupy kontrastowe musiałyby być wyodrębniane według identycznego systemu klasyfikacji oraz uzyskiwać bardzo zbliżone wyniki w danej skali albo też, że relacja między wynikiem testu a kryterium ma charakter krzywoliniowy i po przekroczeniu wyznaczonego wyniku progowego

Pechowy wynik 13 punktów - problem z progami odsiewowymi następuje nieliniowy przyrost predykcji. Z tego względu należy raczej wyznaczać pasmo progowe wyników niż jednostkowe wyniki progowe. Ryzyko podważenia znaczenia jednostkowego wyniku progowego ilustruje historia badań z zastosowaniem skali Wrogości Ho, zbudowanej kryterialnie z pozycji kwestionariusza MMPI (ang. Cook-Medley Hostility Scale). W opublikowanych w 1983 roku badaniach Barefoot, Dahlstrom i Williams (polskie tłumaczenie - 1984) wykazali, że skala ta pozwala na predykcję zgonu z powodu chorób serca u lekarzy po 25 latach od daty badania. Autorzy wskazali, że ryzyko to jest

Pechowy wynik 13 punktów - problem z progami odsiewowymi szczególnie duże u osób, które uzyskały wynik powyżej 13 punktów (choć relacja między wynikami inwentarza a liczbą zgonów miała charakter prostoliniowy). Od tego czasu wartości liczbowej 13 punktów w skali Wrogości zaczęto przypisywać niemal magiczne znaczenie. Niestety, w toku dalszych badań za krytyczny zaczęto uznawać wynik 10 punktów (Shekelle, Gale, Ostfeld i Oglesby, 1983), zaś kolejne studia (McCranie, Watkins, Brandsma i Sisson, 1986) doprowadziły do całkowitego podważenia wszystkich tych ustaleń, wskutek fascynująca teoria pechowego 13 punktu upadła.

Normy bazujące na rozkładzie wyników testu Celem norm opartych na rozkładzie wyników w grupie normalizacyjnej jest uzyskanie diagnozy ilościowej ocena intensywności mierzonej cechy (jako własności różnicowej w grupie odniesienia). Istnieją dwa rodzaje norm: normy rangowe (porządkowa skala pomiarowa) oraz skale standaryzowane (przedziałowa skala pomiarowa).

Normy rangowe: skala centylowa Skala centylowa jest wybierana, gdy rozkład wyników testu znacznie odbiega od rozkładu normalnego (rozkład jest asymetryczny, ma nieprawidłową gęstość i nie może być przetransformowany w rozkład normalny). Punktem odniesienia (standardem wykonania testu) jest mediana centyle wskazują na częstość uzyskania danego wyniku w grupie normalizacyjnej.

Charakterystyka skali centylowej Rozkład po transformacji wyników surowych = prostokątny ( uskokowniony ) Mediana = 50 Liczba jednostek skali = 101 centyli Zakres = od 0 do 100 centyla Skok skali = 1 centyl (1% wyników, poza centylami krańcowymi - 0 oraz 100, które obejmują po 0,5% obserwacji)

Zalety i wady skali centylowej Zaleta: Łatwość zrozumienia znaczenia wyniku, zwłaszcza dla osób badanych. Wada: Centyle prowadzą do nadszacowania różnic interindywidualnych w obszarze blisko średniej oraz niedoszacowania zmienności na krańcach rozkładu (zaburzają ocenę faktycznej zmienności).

Skale standardowe bazujące na rozkładzie normalnym Normy wyników testu bazujące na rozkładzie normalnym wymagają transformacji wyników surowych na skale standardowe. Skale te umożliwiają osiągnięcie zasadniczego celu pomiaru psychologicznego: ilościowej oceny na skali przedziałowej (wiele kategorii wyników oraz równe różnice między nimi dla całego wymiaru).

Cel transformacji wyników surowych na skale standardowe Poprawna interpretacja wyniku indywidualnego (ocena intensywności cechy); Porównania różnic intraindywidualnych w wynikach testu (intensywność różnych cech u jednej osoby badanej); Porównania różnic interindywidualnych w wynikach testu (intensywność danej cechy u różnych osób badanych).

Rodzaje skal standardowych a). Znormalizowana skala ciągła jednostki "z", b). znormalizowane skale uskokowione: dzielące rozkład wg średniej (-) skala stenowa obejmujące wartość średniej (-) skala staninowa (-) skala tetronowa (-) skala wyników przeliczonych (WAIS-R) (-) skala tenowa (-) skala dewiacyjnego ilorazu inteligencji

Skala jednostek znormalizowanych z Rozkład po transformacji wyników surowych = normalny ( ciągły ) Średnia = 0,0 Odchylenie standardowe = 1,0 Skok skali = praktycznie 0,01 Różnicowanie = dowolny zakres Przeznaczenie = skala podstawowa, stanowiąca punkt wyjścia do transformacji wyników surowych na inne skale znormalizowane

Formuła transformacyjna y = zs y + M y gdzie y - wynik w znormalizowanej skali standardowej, z - znormalizowany wynik standardowy, S y - odchylenie standardowe danej skali standardowej, M y - średnia wyników danej skali standardowej)

Skala stenowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 5,5 (między 5 a 6 stenem) Odchylenie standardowe = 2,0 Liczba jednostek skali = 10 stenów Zakres = od 1 do 10 stena Skok skali = 1 sten (0,5 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -2 do +2 jednostek znormalizowanych z (steny krańcowe powyżej 2 S) Przeznaczenie = różnicowanie w obrębie normy

Skala staninowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 5,0 (obejmuje średnią) Odchylenie standardowe = 2,0 Liczba jednostek skali = 9 stanin Zakres = od 1 do 9 stanina Skok skali = 1 stanin (0,5 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -1,75 do +1,75 jednostek znormalizowanych z (staniny krańcowe powyżej 1,75 S) Przeznaczenie = różnicowanie w obrębie normy

Skala tetronowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 10,0 (obejmuje średnią) Odchylenie standardowe = 4,0 Liczba jednostek skali = 21 tetronów Zakres = od 0 do 20 tetrona Skok skali = 1 tetron (0,25 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -2,325 do +2,325 jednostek znormalizowanych z (tetrony krańcowe powyżej 2,325 S) Przeznaczenie = różnicowanie w obrębie normy i patologii

Skala tenowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 50 (obejmuje średnią) Odchylenie standardowe = 10,0 Liczba jednostek skali = 100 tenów Zakres = od 1 do 100 tena Skok skali = 1 ten (0,1 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -5 do +5 jednostek znormalizowanych z (teny krańcowe powyżej 5 S) Przeznaczenie = różnicowanie w obrębie normy i patologii

Skala dewiacyjnego ilorazu inteligencji Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 100,0 (obejmuje średnią) Odchylenie standardowe = 15,0 Liczba jednostek skali = 200 jednostek II Zakres = od 0 do 200 jednostek II Skok skali = jednostka II (1/15 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości praktycznie od -6 do +6 jednostek znormalizowanych z (jednostki krańcowe powyżej 6 S) Przeznaczenie = różnicowanie w obrębie normy i patologii