Wykład 7 TRAFNOŚĆ POMIARU TESTEM: PODSTAWOWE POJĘCIA ORAZ METODY I WSKAŹNIKI

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wykład 7 TRAFNOŚĆ POMIARU TESTEM: PODSTAWOWE POJĘCIA ORAZ METODY I WSKAŹNIKI"

Transkrypt

1 Wykład 7 TRAFNOŚĆ POMIARU TESTEM: PODSTAWOWE POJĘCIA ORAZ METODY I WSKAŹNIKI

2 Pojęcie trafności pomiaru Trafność pomiaru testem to: a). stopień, w jakim test mierzy cechę, jaką ma mierzyć (trafność teoretyczna czy inaczej trafność zorientowana na konstrukt); b). stopień dokładności przewidywania określonych kryteriów praktycznych (trafność kryterialna lub inaczej trafność podejmowanych decyzji).

3 Trafność a założenia KTT Pojęcie trafności odwołuje się do założeń Klasycznej Teorii Testów, zgodnie z którymi wyniki prawdziwe i błędy pomiaru są nieskorelowane, jak i błędy są nieskorelowane (r tb = 0 oraz r bb = 0), co oznacza, że obserwowane korelacje (między pozycjami, testem i innymi testami oraz testem a kryteriami) są korelacjami wyników prawdziwych.

4 Trafność a rzetelność pomiaru Rzetelność jest koniecznym, ale niewystaczającym warunkiem trafności pomiaru. Oznacza to, że test może być rzetelny i nietrafny, ale nie odwrotnie test nierzetelny musi być nietrafny. Rzetelność jest kresem górnym trafności, ponieważ wariancja prawdziwa jest źródłem rzetelności, ale także trafności.

5 Źródła wariancji przy analizie rzetelności i trafności (A) Systematyczna wariancja wspólna z innymi testami. (B) Systematyczna wariancja specyficzna dla danego testu. (C) Wariancja błędu (losowa). Rzetelność = A + B (wariancja systematyczna w przeciwieństwie do wariancji losowej). Trafność = A (wariancja wspólna w przeciwieństwie do specyficznej wariancji = B + C).

6 Rzetelność i trafność Rzetelność i trafność są parametrami psychometrycznymi pomiaru testem i są wyznaczane przez podobne czynniki: Zmiany w procedurze standaryzacji (alternatywne zastosowanie testu). Zmiany w demograficznym składzie próby - ograniczona zmienność wyników testu lub wyników kryterialnych w grupie.

7 Rzetelność i trafność W przypadku trafności kryterialnej, wymaganie tego rodzaju trafności jest sprzeczne z wymogiem rzetelności, jak i trafności teoretycznej. Rzetelność i trafność teoretyczna jest najwyższa, gdy interkorelacje pozycji są wysokie, ale wtedy trafność kryterialna jest niska (wymaga ona pozycji o niskich interkorelacjach oraz wysokich korelacjach z kryteriami zewnętrznymi,

8 Rzetelność i trafność co prowadzi do obniżenia rzetelności i trafności teoretycznej. W takim wypadku test mierzy różne (nieskorelowane) właściwości psychologiczne, pozwalające na przewidywanie złożonych kryteriów praktycznych - jest heterogeniczny pod względem treści psychologicznej (zaś rzetelność i trafność wymaga homogenicznych pozycji oraz jednej cechy, wpływającej na wyniki testowe).

9 Rodzaje trafności pomiaru Trafność pomiaru obejmuje trzy rodzaje: a). trafność treściową (wewnętrzną), b). trafność kryterialną (diagnostyczną i prognostyczną), c). trafność teoretyczną.

10 Trafność treściowa - definicja Trafność treściowa (wewnętrzna) - reprezentatywność danej puli pozycji dla uniwersum pozycji mierzących daną cechę. Trafność treściowa jest wstępnym aspektem trafności teoretycznej. Trafność fasadowa jest natomiast karykaturą trafności i nie powinna być przesłanką do budowania sądu o faktycznej trafności testu.

11 Trafność treściowa Analiza trafności treściowej jest niezbędnym etapem prac konstrukcyjnych testu (zanim jeszcze test został całkowicie opracowany, za wyjątkiem kwestii krytyki testu, gdy chcemy wykazać, że test jest nietrafny treściowo, np. treść pozycji testowych nie obejmuje ważnych aspektów cechy).

12 Etapy oceny trafności treściowej Precyzyjna definicja cechy (konstruktu oraz porównanie z innymi konstruktami teoretycznymi). Opis aspektów cechy: podwymiarów czy fasad cechy (cecha, jak i jej podwymiary powinny mieć budowę hierarchiczną i być precyzyjnie zdefiniowane).

13 Etapy oceny trafności treściowej Ocena liczby pozycji w każdym podwymiarze oraz teście jako całości (każdy podwymiar powinien być reprezentowany w całym teście i obejmować zbliżoną liczbę pozycji). Ocena pozycji w każdym podwymiarze oraz w całym teście przez grupę ekspertów na skalach ocen (trafność treściowa) lub osób badanych (typowość).

14 Trafność kryterialna - definicja Trafność kryterialna - stopień, w jakim test pozwala na przewidywanie określonego kryterium zewnętrznego, np. powodzenia zawodowego, szkolnego, wypadkowości, diagnozy klinicznej, itp. Trafność kryterialna obejmuje trafność diagnostyczną (stopień, w jakim test pozwala na ocenę aktualnego kryterium) oraz trafność prognostyczną (stopień, w jakim test pozwala na ocenę przyszłego kryterium).

15 Trafność kryterialna - szacowanie Trafność kryterialna jest szacowana na podstawie korelacji między wynikami testu a określonym kryterium pozatestowym; z tego względu kluczowym aspektem jest rzetelność (jak i trafność) samego kryterium, użytego do badania trafności testu.

16 Trafność kryterialna - poprawka na nierzetelność kryterium Poprawka na nierzetelność kryterium: r kt r s-k = R tt-k r s-k - skorygowany współczynnik korelacji, r kt - współczynnik korelacji przed skorygowaniem, R tt-k współczynnik rzetelności kryterium.

17 Trafność kryterialna - poprawka na nierzetelność kryterium i testu Poprawka na nierzetelność kryterium i testu: r kt r s-kt = R tt-k R tt-t r s-kt - skorygowany współczynnik korelacji, r kt - współczynnik korelacji przed skorygowaniem, R tt-k współczynnik rzetelności kryterium, R tt-t - współczynnik rzetelności testu.

18 Trafność kryterialna dane z meta-analiz Testy zdolności korelacje około 0,50 ze wskaźnikami efektywności pracy oraz osiągnięciami szkolnymi (0,70 szkoła podstawowa, 0,50 szkoła średnia oraz 0,30 szkoła wyższa). Skale osobowości korelacje około 0,30 ze wskaźnikami efektywności pracy oraz 0,50 z diagnozą kliniczną (psychiatryczną).

19 Tabela 8. Dane z dwóch meta-analiz trafności kryterialnej skal osobowości i efektywności pracy (w nawiasach korelacje skorygowane na nierzetelność kryterium i/lub skali). Skala Mount i Barrick (1991) Tett, Jackson i Rothstein (1991) Neurotyczność -0,04 (-0,07) -0,15 (-0,22) Ekstrawersja 0,06 (0,10) 0,10 (0,16) Otwartość -0,02 (-0,03) 0,18 (0,27) Sumienność 0,13 (0,23) 0,12 (0,18) Ugodowość 0,04 (0,06) 0,22 (0,33)

20 Trafność kryterialna inne metaanalizy Mount, Barrick i Judge (2001) meta-analiza 15 wcześniejszych metaanaliz: korelacje -0,13 dla N oraz 0,24-0,27 dla S i efektywności pracy. Salgado (1997) meta-analiza badań europejskich: korelacje -0,19 dla N i 0,25 dla S. Mount, Barrick i Stewart (1998) U i N przewidują efektywność pracy w zespole. Judge, Heller i Mount (2002) - N, S i E przewidują poziom satysfakcji z pracy (zbliżone rezultaty dla trafności diagnostycznej i predykcyjnej).

21 Cechy OCEAN a powodzenie zawodowe Cechy PMO badane w dzieciństwie, zostały odniesione do subiektywnie ocenianego sukcesu zawodowego oraz zobiektywizowanych wskaźników sukcesu zawodowego (dochodów i statusu społecznego wykonywanego zawodu), badanych w dorosłości - po upływie ponad 50 lat (Judge, Higgins, Thoresen i Barrick, 1999).

22 Współczynnik korelacji Rycina 20. Cechy Pięcioczynnikowego Modelu Osobowości w dzieciństwie a ocena subiektywna i obiektywne wskaźniki sukcesu zawodowego (status społeczny zawodu oraz dochody) w dorosłości (Judge, Higgins, Thoresen i Barrick, 1999). 0,60 0,50 0,40 0,30 0,20 0,10 0,00-0,10 0,21 0,40-0,06 0,13 0,32 0,49 0,00-0,02 0,10 0,16 0,25-0,01-0,20-0,30-0,40-0,50-0,22 Subiektywna ocena sukcesu zawodowego O C E A N O C E A N O C E A N -0,26 Status społeczny zawodu Dochody -0,26

23 Cechy OCEAN a powodzenie zawodowe Najlepszym predyktorem subiektywnie ocenianego sukcesu zawodowego była sumienność, mała neurotyczność i otwartość. Predyktorem poziomu dochodów była ekstrawersja, mała neurotyczność i sumienność, zaś statusu społecznego (rangi) zawodu sumienność, otwartość oraz mała neurotyczność.

24 Ryc. 21. Związki między cechami temperamentu: reaktywnością emocjonalną i aktywnością, cechami osobowości: depresyjnością oraz uległością, paleniem tytoniu a zachorowaniem na raka płuca. 0,46 Depresyjność 0,64-0,23 0,23 Reaktywność 0,96 0,54 0,21-0,30 Uległość Rak płuca -0,21 Aktywność 0,95 0,56-0,24 Palenie

25 Ryc. 22. Związki między cechami temperamentu: reaktywnością emocjonalną i aktywnością, cechami osobowości: depresyjnością oraz wrogością, paleniem tytoniu a zachorowaniem na zawał serca. 0,45 Depresyjność 0,76 0,25 Reaktywność 0,82 0,83 0,51-0,60 Palenie Zawał serca 0,48 Aktywność 0,80 0,29 0,55 0,49 Wrogość

26 Podsumowanie Korelacje cech osobowości z diagnozą medyczną (stan zdrowia) wynosiły ok. 0,20 dla raka płuca i zawału serca. Zbliżone dane zostały uzyskane w innych badaniach (Zawadzki, 2001).

27 Podsumowanie Mischel (1968) określił współczynniki trafności skal badających cechy osobowości z kryteriami (stan zdrowia, powodzenie zawodowe) mianem współczynników osobowości, które nie przekraczają wartości 0,30.

28 Cechy OCEAN a długość życia Osobami badanymi byli uczestniczy programu Termana dotyczącego powodzenia życiowego osób wybitnie zdolnych, które urodziły się około 1910 roku i od początku lat 20. uczestniczyły w programie badawczym aż do roku Analiza przeżywalności (po ponad 60 latach) wykazała, że efekt sumienności z pewnym dodatkiem ugodowości

29 Cechy OCEAN a długość życia (niezawodność społeczna, rozwaga, wolność od próżności-egotyzmu, skrupulatność i prawdomówność) - cechy badanej w dzieciństwie na podstawie szacowania przez rodziców oraz nauczycieli (na podstawie szeregu pytań, sklasyfikowanych w latach 80. jako - w głównej mierze - wskaźniki sumienności)

30 Cechy OCEAN a długość życia pozwala na przewidywanie przeżywalności (Friedmann i in, 1993; 1995), także przy kontroli efektu płci, przyczyny zgonu (np. wypadki samochowe), czy zachowań zdrowotnych (alkohol, palenie, nadwaga).

31 Wykład 8 TRAFNOŚĆ TEORETYCZNA POMIARU TESTEM

32 Trafność teoretyczna - pojęcie Trafność teoretyczna - zgodność treści mierzonej przez test z konstruktem teoretycznym (trafność zorientowana na konstrukt) - określenie jaką treść psychologiczną mierzy test.

33 Metody szacowania trafności teoretycznej 1). Metody bazujące na analizie związku pomiędzy konstruktem a zachowaniem: a). metoda zmian nieprzypadkowych, b). metoda sprawdzania różnic międzygrupowych, c). metoda badania procesu rozwiązywania testu;

34 Metody szacowania trafności teoretycznej (c.d.) 2). Metody bazujące na analizie macierzy korelacji pomiędzy testem, a innymi testami przeznaczonymi do badania danego konstruktu: a). metoda badania wewnętrznej struktury testu,

35 Metody szacowania trafności teoretycznej (c.d.) b). metoda analizy macierzy korelacji i analizy czynnikowej (eksploracyjnej i konfirmacyjnej) danego testu oraz testów, badających ten sam konstrukt; c). badanie trafności konwergencyjnej i dyskryminacyjnej (zbieżnej i różnicowej) za pomocą analizy macierzy Wielu Cech- Wielu Metod wg Campbella i Fiskego

36 Analiza zmian nieprzypadkowych Zmiany rozwojowe wyniki testów zdolności powinny wykazywać systematyczną tendencję wzrostową wraz ze wzrostem wieku w dzieciństwie oraz tendencję regresywną w dorosłości. Wyniki niektórych skal osobowości także powinny wykazywać zmiany z wiekiem aktywność temperamentalna powinna systematycznie maleć wraz z wiekiem, z uwagi na malejące zasoby energii.

37

38

39 Wynik standaryzowany Ryc. 25. Wiek a aktywność, badana FCZ-KT (wyniki standaryzowane 7 prób narodowych). 1 0,5 0-0, over 60 Grupa wieku

40 Analiza zmian nieprzypadkowych Postulat lekowy - metoda opracowana w psychiatrii i stosowana przez H. Eysencka. Założenia: Ekstrawersja jest wyznaczana przez poziom pobudzenia korowego (ekstrawertycy wykazują niski poziom pobudzenia);

41 Analiza zmian nieprzypadkowych Niektóre leki zwiększają poziom pobudzenia; Pod wpływem tych leków osoby badane powinny ujawniać introwertywny wzór zachowania (jako efekt silnego pobudzenia). Wniosek: Skala Ekstrawersji powinna zarejestrować tę różnicę (między pre-testem i posttestem po podaniu leku).

42 Analiza różnic międzygrupowych Celem tej metody jest ocena różnic w wynikach testu, uzyskanych przez różne grupy demograficzne, wyodrębnione na podstawie predykcji bazującej na analizie konstruktu teoretycznego (konfiguracja tych różnic jest oczekiwana na podstawie teorii).

43 Analiza różnic międzygrupowych Testy zdolności analiza wyników testu inteligencji w różnych grupach zawodowych (wniosek: im bardziej wymagający sprawności intelektualnej jest dany zawód, tym wyższy poziom inteligencji wykazują pracownicy). Skale osobowości przypadek wrażliwości sensorycznej i wytrzymałości (z FCZ-KT).

44

45 Różnice międzygrupowe we wrażliwości i wytrzymałości Hipotezy: Muzycy wysoki poziom wrażliwości sensorycznej (zdolność specjalna), ale niski poziom wytrzymałości; Sportowcy wysoki poziom wytrzymałości (zdolność specjalna), ale niski wrażliwości sensorycznej;

46 Różnice międzygrupowe we wrażliwości i wytrzymałości Hipotezy: Przestępcy (mordercy) wysoki poziom wytrzymałości i niski poziom wrażliwości sensorycznej (zdolności specjalne?); Pytanie o nasilenie obu cech u nauczycieli szkół podstawowych?

47 Tabela 9. Wrażliwość sensoryczna i wytrzymałość w różnych grupach demograficznych. Grupa Wrażliwość sensoryczna Wytrzymałość Przestępcy 13,39 11,18 Sportowcy (zapaśnicy) 13,43 11,18 Artyści muzycy 15,68 8,76 Norma (mężczyźni) 15,00 (3,45) 10,26 (4,78) Nauczycielki 16,67 12,57 Artystki (muzycy) 17,32 6,38 Norma - kobiety 16,23 (2,86) 8,04 (4,58)

48 Różnice międzygrupowe we wrażliwości i wytrzymałości Wnioski: Większość różnic jest zgodna z przewidywaniami (zwłaszcza z relacji do grupy normatywnej). Nieoczekiwane relacje: zbliżone wyniki u przestępców oraz zapaśników oraz najwyższe wyniki u nauczycieli szkól podstawowych.

49 Wady metody Różne nasilenie tendencji do symulowania albo dysymulowania w badanych grupach (nauczyciele?); Wyjaśnienie różnic międzygrupowych: dwa procesy naturalna selekcja do zawodu i/lub (?) adaptacja do wymagań zawodu (zmiana nasilenia cech); Nieoczekiwane zależności są typowe i trudne do wyjaśnienia.

50 Wady metody badania Nyborga Nyborg (1995) prowadził badania dotyczące związku między poziomem hormonów a wykonywaniem różnych zawodów. Podstawowa hipoteza głosiła, że im wyższy jest poziom męskich hormonów, tym za bardziej zmaskulinizowany uznawany jest dany zawód, zaś im wyższy jest poziom żeńskich hormonów, tym za bardziej

51 Wady metody badania Nyborga sfeminizowany uznawany jest dany zawód. Pielęgniarstwo jest typowym zawodem kobiecym i pielęgniarki wykazują najwyższy poziom żeńskich hormonów. Oczekiwano zatem, że pielęgniarze powinni wykazywać najniższy poziom męskich hormonów, podczas gdy w rzeczywistości wykazywali najwyższy poziom ze wszystkich grup zawodowych!

52 Analiza procesu rozwiązywania testu Testy zdolności eksperymenty z manipulowaniem złożonością zadań, prezentacją zadań cząstkowych lub podawaniem wskazówek, które zmieniają wymagania. Skale osobowości analiza protokołów (instrukcja głośnego myślenia ) w celu identyfikacji czynników wpływających na udzielanie odpowiedzi na pozycje.

53 Analiza wewnętrznej struktury Dwie grupy metod: testu Analiza korelacji między pozycjami (wskaźnik dyskryminacji lub korelacji pozycja-skala oraz analiza czynnikowa pozycji); Analiza korelacji między skalami testu (korelacje skal i analiza czynnikowa skal).

54 Analiza korelacji między pozycjami Korelacja pozycja-skala (moc dyskryminacyjna) pozycja powinna wysoko korelować z wynikiem całej skali korelacja (pozycja powinna mierzyć tę samą treść psychologiczną co wszystkie inne pozycje w tej skali).

55 Analiza korelacji między pozycjami Analiza czynnikowa pozycji (testy wieloskalowe) pozycja powinna wysoko korelować z własną skalą i nisko z innymi skalami (pozycja powinna mierzyć określoną treść psychologiczną i jednocześnie nie mierzyć innych treści).

56 Analiza czynnikowa Analiza czynnikowa jest metodą dekompozycji macierzy korelacji pomiędzy zmiennymi, prowadzącej do uzyskania wiązek zmiennych, które reprezentują zbliżoną treść psychologiczną (odnoszą się do zbliżonych lub wręcz identycznych konstruktów cech psychologicznych).

57 Analiza czynnikowa Zmienne są grupowane w wiązki na podstawie ich korelacji w taki sposób, aby korelacje w obrębie wiązki były jak najwyższe, zaś między wiązkami jak najniższe. Idea analizy czynnikowej bazuje na tzw. równaniu różnicy czwórkowej Spearmana.

58 Przykład Test A i test B korelacja 0,70. Wniosek oba testy mierzą tę samą cechę. Test A, B i C korelacje 0,70. Wniosek wszystkie testy są jednakowo dobrymi miarami tej samej cechy. Test A, B i C korelacja 0,70 pomiędzy testem A i B oraz korelacja 0,50 pomiędzy testem C oraz testami A i B.

59 Przykład Wniosek testy A i B są dobrymi miarami cechy ogólnej, zaś test C mierzy bardziej specyficzną treść i jest gorszą miarą cechy ogólnej niż testy A i B. Test A, B, C i D korelacje 0,70 pomiędzy testem A i B oraz pomiędzy C i D, a także korelacje krzyżowe po 0,50 między testami A i B oraz testami C i D.

60 Przykład Wniosek istnieje nie tylko cecha ogólna (badana przez wszystkie testy każdy z nich jest dobrą miarą tej cechy do wysokości korelacji 0,50), ale przede wszystkim istnieją dwie odmienne, choć skorelowane cechy; jedna wiązka (czynnik) mierzy pierwszą cechę (testy A i B), zaś druga wiązka bada drugą cechę (testy C i D).

61 Analiza mocy dyskryminacyjnej Celem tej analizy jest ocena w jakim stopniu wszystkie pozycje mierzą tę samą treść; najczęściej używany jest skorygowany współczynnik pozycja-skala. Analiza ta jest dokonywana dla pozycji tworzących daną skalę oraz oddzielnie dla każdej ze skal testów wieloskalowych.

62 Analiza czynnikowa pozycji Celem eksploracyjnej analizy czynnikowej pozycji jest wykazanie, że pozycje tworzące daną skalę mają najwyższe korelacje (ładunki czynnikowe) z odpowiadającymi im czynnikami (odzwierciedlającymi określoną treść psychologiczną) oraz najniższe z innymi czynnikami (tworzącymi inne wiązki pozycji). Analiza jest przeprowadzana na wszystkich pozycjach testu.

63 Tabela 10. Współczynniki mocy dyskryminacyjnej i ładunki czynnikowe pozycji EPQ-R(24). Skala /pozycja SKPS Czynnik E Czynnik K Czynnik N Czynnik P E / pozycja 6 0,58-0,72 0,07-0,02 0, ,55-0,72 0,09-0,04 0, ,51 0,62-0,01 0,19-0, ,55-0,69-0,17 0,07-0, ,64-0,74-0,10-0,00-0, ,53-0,71 0,03 0,03 0,06 N / pozycja 26 0,56 0,05-0,03 0,71-0, ,54-0,15 0,03 0,72 0, ,53 0,07-0,04 0,67 0, ,54 0,22-0,03 0,65 0, ,49 0,08 0,03 0,63-0, ,58-0,14 0,01 0,76 0,06

64 Tabela 10 c.d. Skala / pozycja SKPS Czynnik E Czynnik K Czynnik N Czynnik P P / pozycja 7 0,23 0,06 0,14 0,08 0, ,31-0,03-0,20-0,01 0, ,30-0,12 0,20 0,03-0, ,26-0,17 0,01 0,08 0, ,26-0,13 0,29 0,16-0, ,28 0,01 0,03 0,01 0,54 K / pozycja 44 0,37 0,01 0,56-0,04-0, ,36-0,08 0,64-0,04 0, ,35 0,08 0,65-0,04 0, ,36-0,07 0,47-0,05-0, ,42-0,03 0,61 0,04-0, ,30-0,07-0,49-0,10 0,06

65 Wnioski Moc dyskryminacyjna: Skala E - zakres: 0,54 do 0,64 (pozycja nr 78 jest najlepszą miarą E); Skala N - zakres: 0,49 to 0,58 (pozycja nr 83 jest najlepszą miarą N); Skala P - zakres: 0,23 to 0,31 (pozycja nr 18 jest najlepszą miarą P); Skala K - zakres: 0,35 to 0,42 (pozycja nr 71 jest najlepszą miarą K).

66 Uwaga Znak minus przed numerem pozycji wskazuje, że odpowiedź negująca jest zgodna z kluczem wyniki tych pozycji powinny zostać zrekodowane. Zabieg ten jest niezbędny dla obliczenia mocy dyskryminacyjnej (wszystkie korelacje muszą być pozytywne), ale opcjonalne dla analizy czynnikowej ładunki mogą być zarówno pozytywne, jak i negatywne.

67 Wnioski Eksploracyjna analiza czynnikowa: wszystkie pozycje wykazały wyższe korelacje z odpowiadającymi im czynnikami. Najlepsze są skale E i N, skale K, a zwłaszcza P są gorsze. Optymalny wzór tych korelacji powinien być czarno-biały. W praktyce testów psychologicznych nigdy się to nie zdarza.

68 Analiza korelacji pomiędzy skalami testu Dwie formy analizy: Korelacje między skalami testu; Analiza czynnikowa skal testu.

69 Analiza korelacji pomiędzy skalami testu Korelacje między skalami - skala wytrzymałości z FCZ-KT koreluje dodatnio (ok. 0,20) ze skalą aktywności (osoby aktywne są bardziej wytrzymałe, co jest zgodne z oczekiwaniami teoretycznymi). Analiza czynnikowa skal testu - WAIS-R ujawnia dwa czynniki skal testu: Werbalny i Niewerbalny (czasami też trzeci czynnik, określany mianem Pamięci/Odporności na dystrakcję).

70 Analiza korelacji pomiędzy testami Dwie formy analizy: Analiza korelacji pomiędzy testem oraz innymi testami (badającymi ten sam i odmienne konstrukty); Analiza czynnikowa (eksploracyjna i konfirmacyjna) danego testu oraz innych testów (badających ten sam i odmienne konstrukty).

71 Korelacje z innymi testami Celem tej analizy jest ocena wielkości wariancji dzielonej przez test z innymi testami. Analiza ta wymaga uwzględnienia skal mierzących te same i odmienne konstrukty w celu wykazania trafności konwergencyjnej i dyskryminacyjnej (oceniana skala powinna korelować ze skalami badającymi zbliżone konstrukty oraz nie korelować ze skalami mierzącymi odmienne konstrukty).

72 Przykład badań walidacyjnych NEO-FFI Hipotezy: Skale N i E z NEO-FFI i EPQ-R oraz skale U i S z NEO-FFI i PAL (identyczne konstrukty bardzo wysokie korelacje); Skale U i S z NEO-FFI i skale P i K z EPQ-R oraz skale E i N z NEO-FFI i skale P i D z PAL, a także skala O z NEO-FFI i skala I z PAL (zbliżone konstrukty przeciętne korelacje);

73 Przykład badań walidacyjnych NEO-FFI Wszystkie te korelacje są wskaźnikiem trafności konwergencyjnej (zbieżnej). Korelacje pomiędzy skalami, badającymi odmienne kontrukty powinny być bardzo niskie (zbliżone do zera). Wszystkie te korelacje są z kolei wskaźnikiem trafności dyskryminacyjnej (różnicowej).

74 Tabela 11. Korelacje pomiędzy skalami NEO-FFI oraz EPQ-R i PAL (korelacje konwergencyjne są podkreślone). NEO-FFI, EPQ-R/PAC NEU EKS OTW UGD SUM Ekstrawersja -0,25* 0,71* 0,18* -0,11* 0,06* Neurotyczność 0,73* -0,19* -0,00-0,15* -0,11* Psychotyczność 0,00 0,09* 0,03-0,47* -0,37* Skala Kłamstwa -0,10* -0,09* -0,09* 0,39* 0,45* Pobudliwość 0,40* 0,10* 0,06-0,27* -0,01 Dynamiczność -0,27* 0,60* 0,22* -0,01 0,38* Intelekt -0,29* 0,32* 0,40* 0,12* 0,31* Ugodowość 0,01 0,28* 0,22* 0,35* 0,24* Sumienność -0,04 0,10* 0,04 0,18* 0,66*

75 Wnioski Wysokie korelacje skal N i E z NEO-FFI i EPQ-R oraz skali S z NEO-FFI i PAL potwierdzają trafność konwergencyjną (korelacje skali A są zbyt niskie); Przeciętne korelacje skal U i S z NEO-FFI i skale P i K z EPQ-R oraz skali N z NEO-FFI i P z PAL, a także skali O z NEO-FFI i skali I z PAL także potwierdzają trafność konwergencyjną (korelacja pomiędzy skalami E i D jest zbyt wysoka);

76 Wnioski Korelacje zbieżne są wyższe niż korelacje krzyżowe, co potwierdza trafność dyskryminacyjną. Korelacje krzyżowe są wyższe w przypadku PAL niż EPQ-R niektóre problemy słabej trafności zbieżnej i różnicowej występują, gdy NEO-FFI jest odnoszony do PAL (a nie EPQ-R). PAL wykazuje niską trafność.

77 Analiza czynnikowa testów Dwie formy analizy: Eksploracyjna analiza czynnikowa (empiryczna klasyfikacja treści skal różnych testów); Konfirmacyjna analiza czynnikowa (porównanie modelu teoretycznego do danych analiza dobroci dopasowania modelu do struktury danych testowych).

78 Źródła wariancji w analizie czynnikowej (A) Systematyczna wariancja wspólna z innymi testami. (B) Systematyczna wariancja specyficzna dla danego testu. (C) Wariancja błędu (losowa). (A1) Wariancja wspólna specyficzna dla danej cechy. (A2) Wariancja wspólna specyficzna dla innych cech. (B+C) Wariancja unikatowa testu (niewyjaśniona).

79 Źródła wariancji w analizie czynnikowej (A1) = trafność konwergencyjna; (A2) = trafność dyskryminacyjna; (A1+A2) = wariancja wspólna (communality, h 2 ); 1-h 2 = wariancja unikatowa (B+C). Inne źródła zmienności: 1-α = wariancja błędu (C). α-h 2 = wariancja systematyczna, specyficzna dla testu (B).

80 Eksploracyjna analiza czynnikowa Celem tej analizy jest ocena trafności konwergencyjnej i dyskryminacyjnej testu (lub testów), bazująca na empirycznej strukturze danych.

81 Tabela 12. Eksploracyjna analiza czynnikowa 38 skal osobowości. Skala Czynnik I Czynnik II Czynnik III Czynnik IV Czynnik V h 2 NEU 0,77-0,20-0,17-0,03-0,10 0,67 EKS -0,15 0,85 0,13 0,04-0,01 0,76 OTW 0,01 0,39 0,15 0,20-0,39 0,37 UGD -0,21 0,05-0,06 0,79 0,04 0,68 SUM -0,11 0,11 0,74 0,23 0,15 0,64 E -0,10 0,85 0,11-0,10-0,05 0,77 N 0,85-0,06-0,02-0,01-0,14 0,74 P -0,06 0,12-0,06-0,63-0,23 0,48 K -0,08-0,16 0,38 0,47 0,23 0,45 POB-L 0,66 0,21 0,19-0,26-0,06 0,59 DYN-L -0,08 0,61 0,52-0,08-0,11 0,67 INT-P -0,15 0,34 0,48 0,18-0,21 0,44 UGD-L 0,10 0,29 0,28 0,55-0,05 0,47 SUM-L 0,06-0,03 0,72 0,37 0,11 0,67

82 Tabela 12 c.d. Skala Czynnik I Czynnik II Czynnik III Czynnik IV Czynnik V h 2 ŻW -0,45 0,29 0,40-0,04-0,11 0,46 PE 0,72 0,00-0,12 0,13-0,15 0,58 WS -0,06 0,12 0,19 0,26-0,28 0,20 RE 0,81-0,24-0,20 0,11-0,01 0,76 WT -0,63 0,20 0,34-0,11-0,09 0,58 AK -0,06 0,78 0,01-0,10-0,08 0,63 SP -0,60 0,39 0,38-0,17-0,11 0,71 SH -0,58-0,08 0,04 0,34-0,15 0,48 RU -0,48 0,62 0,14 0,10-0,12 0,66

83 Skale Tabela 12 c.d. Czynnik I Czynnik II Czynnik III Czynnik IV Czynnik V h 2 TOW -0,10 0,61-0,10 0,15 0,13 0,43 AKT 0,13 0,63 0,37-0,15 0,02 0,58 STR 0,73-0,19-0,12 0,14 0,02 0,60 NIE 0,82-0,11-0,03-0,10-0,00 0,69 GNW 0,76 0,08 0,09-0,34 0,00 0,70 A-G 0,17 0,63 0,26-0,11 0,08 0,51 A-S 0,17 0,11-0,15-0,03-0,25 0,13 A-W -0,36 0,69 0,16 0,10-0,00 0,64 F-R -0,54 0,32-0,11 0,09-0,26 0,48 MQ -0,28 0,62-0,13 0,10-0,00 0,49 R-S 0,02-0,01 0,12 0,17 0,65 0,47 R-E -0,07 0,04 0,17 0,11 0,72 0,57 R-H 0,07 0,14 0,08 0,04 0,74 0,58 DIST -0,16 0,09 0,58-0,12 0,20 0,43 PERS -0,12 0,14 0,62 0,01 0,15 0,44

84 Skala Neurotyczności z NEO-FFI (A1) = 0,77 2 = 0,59 (wariancja specyficzna dla neurotyczności) (A2) = 0,08 (wariancja wspólna z pozostałymi czterema cechami) = (-0,20 2 ;4%E)+(- 0,17 2 ;3%C)+(-0,03 2 ;A)+(-0,10 2 ;1%O). Wariancja wspólna (A1+A2=h 2 ) = 0,59+0,08=0,67. Wariancja unikatowa = 1-h 2 = 1-0,67=0,33 (błąd pomiaru + systematyczna wariancja specyficzna dla skali N z NEO-FFI).

85 Skala Neurotyczności z EPQ-R (A1) = 0,85 2 = 0,72 (wariancja specyficzna dla neurotyczności) (A2) = 0,02 (wariancja wspólna z pozostałymi czterema cechami) = (-0,06 2 ;E)+(- 0,02 2 ;C)+(-0,01 2 ;A)+(-0,14 2 ;2%O). Wariancja wspólna (A1+A2=h 2 ) = 0,72+0,02=0,74. Wariancja unikatowa = 1-h 2 = 1-0,74=0,26 (błąd pomiaru + systematyczna wariancja specyficzna dla skali N z EPQ-R).

86 Wniosek Skala Neurotyczności z NEO-FFI wykazuje gorszą trafność konwergencyjną (59% w porównaniu do 72%) oraz dyskryminacyjną (8% w odniesieniu do 2%) niż skala Neurotyczności z EPQ-R (obie skale mają zbliżoną zgodność wewnętrzną wynoszącą około 0,85). Błąd pomiaru jest równy 15%, unikatowa systematyczna wariancja specyficzna dla skali z NEO-FFI = 18% oraz EPQ-R = 11%).

87 Porównanie trafności skal NEO-FFI Skala Konwergencyjna Dyskryminacyjna E 72% 4% U 62% 6% N 59% 8% S 55% 9% O 14% 22%

88 Wniosek Skala Otwartości wykazuje słabą trafność konwergencyjną oraz dyskryminacyjną. Inne skale wykazują wysoką trafność konwergencyjną, ale skala Neurotyczności, Ugodowości i Sumienności wykazuje także słabą trafność dyskryminacyjną. Najlepsza jest skala Ekstrawersji.

89 Trafność innych skal Siła Procesu Pobudzenia - 36% neurotyczności, 15% ekstrawersji, 14% sumienności, 3% ugodowości oraz 1% otwartości/rytmiczności wykazuje słabą trafność dyskryminacyjną. Skala Aktywności we śnie (A-S) - 13% wspólnej wariancji z innymi skalami (6% z czynnikiem otwartości/rytmiczności) brak trafności konwergencyjnej, tylko wariancja unikatowa.

90 Konfirmacyjna analiza czynnikowa testów Celem tej analizy jest ocena trafności konwergencyjnej i dyskryminacyjnej skal testu, przez porównanie modelu teoretycznego i empirycznej struktury skal.

91 Przykład Inwentarza Struktury Temperamentu (KST) Rusalova Analiza konfirmacyjna skal KST analiza wewnętrznej struktury testu (analiza konfirmacyjna podobnie do analizy eksploracyjnej może być zrealizowana na poziomie pozycji, skal danego testu, jak i całych testów).

92 Przykład Inwentarza Struktury Temperamentu (KST) Rusalova Dwa czynniki wpływające na temperament: geny i środowisko. Wrodzona (pierwotna) struktura temperamentu obejmuje: ergiczność, plastyczność, tempo i emocjonalność. Cechy te różnicują się się pod wpływem czynników środowiskowych na cechy społeczne i przedmiotowe.

93 Przykład Inwentarza Struktury Temperamentu (KST) Rusalova KST zawiera osiem skal: Ergiczność - społeczną Ergiczność - przedmiotową Plastyczność - społeczną Plastyczność - przedmiotową Tempo - społeczne Tempo - przedmiotowe Emocjonalność - społeczną Emocjonalność - przedmiotową

94 Hipotezy i modele Bez cechy ogólnej (skale są nieskorelowane - model powinien być odrzucony); Jedna cecha ogólna (brak specyfiki skal - model powinien być odrzucony); Dwie cechy ( struktura wtórna ) - model powinien być potwierdzony); Cztery cechy ( struktura pierwotna ) - model powinien być potwierdzony); SOS model (ad hoc model trzech cech).

95 Rycina. 26. Model struktury pierwotnej temperamentu. ERP ERS PLP PLS TEP TES EMP EMS ERG PLA TEM EMO

96 Rycina. 27. Model struktury wtórnej temperamentu. ERP PLP TEP EMP ERS PLS TES EMS PRZED. SPOŁ.

97 Wskaźniki dobroci dopasowania Wartość testu chi 2 (brak istotności); Goodness of Fit Index (GFI; powyżej 0,95); Adjusted Goodness of Fit Index (AGFI; powyżej 0,90); Normed Fit Index (NFI wartość przyrostowa dopasowania w stosunku do modelu zerowego ; powyżej 0,90); Wartości indeksu Watkinsa chi 2 /df (poniżej 5,0 akceptowalne dopasowanie; poniżej 3,0 znakomite dopasowanie).

98 Tabela 13. Wskaźniki dobroci dopasowania KAF dla skal KST. Model Opis modelu chi 2 df p GFI AGFI NFI M0 Bez czynnika ogólnego 417, ,000 0,60 0,60 - M1 Jeden czynnik 225, ,000 0,76 0,56 0,46 M2 M3 M4 Dwa czynniki (struktura wtórna) Trzy czynniki (emocjonalność, aktywność społeczna i rzedmiotowa) Cztery czynniki (struktura pierwotna) 201, ,000 0,78 0,59 0,52 86, ,000 0,90 0,78 0,79 104, ,000 0,88 0,69 0,75

99 Wnioski Żaden z analizowanych modeli nie wykazał akceptowalnego dopasowania empiryczna struktura korelacji skal KST jest nieprzewidywalna na podstawie oczekiwań teoretycznych; Teoria temperamentu jest fałszywa lub KST powinien zostać zmodyfikowany, bowiem wykazuje niewystarczającą trafność.

100 Analiza macierzy Wielu Cech Wielu Metod Macierz WC-WM (ang. MTMM matrix) jest przygotowywana w celu formalnej oceny trafności konwergencyjnej i dyskryminacyjnej pomiary testem. Analiza ta wymaga wprowadzenia przynajmniej dwóch metod oraz dwóch cech.

101 Rodzaje korelacji w macierzy WC-WM Pomiędzy skalami mierzącymi różne cechy w obrębie tej samej metody (różne cechy, ta sama metoda); Pomiędzy skalami mierzącymi te same cechy, ale za pomocą różnych metod (te same cechy, różne metody); Pomiędzy skalami mierzącymi różne cechy za pomocą różnych metod (różne cechy, różne metody).

102 Wymóg trafności konwergencynej Trafność konwergencyjna (zbieżna): korelacje pomiędzy skalami różnych metod, ale badających te same cechy (te same cechy, różne metody) powinny być co najmniej przeciętne (istotne statystycznie).

103 Wymóg trafności dyskryminacyjnej Trafność dyskryminacyjna (różnicowa): korelacje skal różnych metod badających te same cechy (te same cechy, różne metody) powinny być wyższe niż: korelacje skal mierzących różne cechy, za pomocą tej samej metody (różne cechy, te same metody); korelacje skal mierzących różne cechy, za pomocą różnych metod (różne cechy, różne metody).

104 Macierz WC-WM dla samoopisu i szacowania z użyciem NEO-FFI Kwestionariusz: NEO-FFI Miary: samoopis (s) and szacowanie (sz) Korelacje: Pomiędzy NEO-FFI skalami samopisu Pomiędzy NEO-FFI szacowania Pomiędzy samoopisem i szacowaniem

105 Tabela 14. Macierz WC-WM dla samoopisu i szacowania NEO-FFI. Pomiar NEU - s EXT - s OPE - s AGR - s SUM - s NEU sz 0,84 (0,81) -0,35* -0,07* -0,26* -0,30* EXT sz -0,39* 0,78 (0,80) 0,22* 0,09* 0,27* OPE sz -0,11* 0,17* 0,63 (0,66) 0,06* 0,02 AGR sz -0,33* 0,13* 0,20* 0,65 (0,77) 0,19* CON sz -0,28* 0,18* 0,17* 0,34* 0,81 (0,87) Measure NEU - s EXT - s OPE - s AGR - s CON s NEU sz 0,52* -0,28* -0,08* -0,20* -0,16* EXT sz -0,22* 0,61* 0,14* 0,04 0,13* OPE sz -0,08* 0,08* 0,51* 0,04-0,07* AGR sz -0,09* -0,01 0,04 0,45* 0,03 CON sz -0,12* 0,03 0,01 0,16* 0,45*

106 Wnioski Skale NEO-FFI wykazują wystarczającą trafność konwergencyjną (korelacje podkreślone w tabeli); Skale NEO-FFI wykazują akceptowalną trafność dyskryminacyjną (korelacje zbieżne są wyższe niż wszystkie korelacje różnicowe ).

107 Analiza konfirmacyjna MTMM Model zerowy nie ma wspólnych czynników zarówno dla cech, jak i specyficznych metod. Model metod nie ma czynników dla cech, są tylko specyficzne czynniki metody. Model cech nie ma czynników dla metod, są tylko czynniki dla cech. Model cech i metod czynniki dla metod oraz cech z założeniem ich identycznej trafności. Model cech i metod czynniki dla metod oraz cech bez założenia ich identycznej trafności.

108 Tabela 14a Analiza konfirmacyjna macierzy WCWM dla samoopisu i szacowania cech Wielkiej Piątki. Model df chi 2 p GFI AGFI CFI NFI NNFI Zerowy ,00 0,00 0,65 0,57 0,.00 0,00 0,00 Model metod ,55 0,00 0,80 0,67 0,43 0,43 0,25 Model cech ,97 0,00 0,91 0,79 0,82 0,82 0,68 Model cech i metod : identyczna trafność Model cech i metod 19 88,77 0,00 0,98 0,95 0,97 0,97 0, ,49 0,00 0,99 0,95 0,98 0,97 0,93 Wskaźnik Watkinsa chi2/df = 4,67 (<5,00) dla modelu cech i metod z założeniem identycznej trafności = model preferowany, choć dopasowanie dalekie od idealnego.

109 Podsumowanie Pojęcie trafności zbieżnej i różnicowej jest kluczowe dla zrozumienia trafności teoretycznej, choć zazwyczaj jest ograniczane tylko do analizy macierzy Wc- WM. Test powinien mierzyć określoną cechę i nie mierzyć innych cech (ani jakichkolwiek innych charakterystyk indywidualnych, a zatem także stylów odpowiadania czy stanów psychologicznych).

110 Podsumowanie Pojęcie trafności konwergencyjnej i dyskryminacyjnej może odnosić się zarówno do trafności teoretycznej, jak i kryterialnej. Test jest nietrafny, jeśli niczego nie przewiduje lub nie mierzy (brak trafności konwergencyjnej). Test jednak jest także nietrafny, jeśli przewiduje lub mierzy wszystko (brak trafności różnicowej).

111 Podsumowanie Narzędzie, które diagnozuje wszystko, nie mierzy niczego w szczególności.

112 Wykład 9 STRATEGIE KONSTRUOWANIA TESTÓW

113 Historia - racjonalny a empiryczny status pozycji kwestionariuszowych Problemy z naiwnym intuicyjno-racjonalnym poglądem na wartość wskaźnikową odpowiedzi inwentarzowych, zakładającego pełną odpowiedniość między zachowaniem a relacją osoby badanej, dobrze ilustruje anegdota, opisana przez Eysencka (1971, s. 231): [...] Wielu ludzi zanotowało tego typu obserwacje, które budziły zastrzeżenia co do prawdziwości odpowiedzi dawanych przez osoby badane. Obserwowano np. nieszczęsnego osobnika, jak drżały mu ręce, pocił się z podniecenia, twarz bladła i czerwieniała mu na przemian, oblizywał wyschnięte wargi i całe ciało drżało nerwowo. Kiedy sprawdzono jak ów badany odpowiedział na pytanie Czy jesteś ogólnie biorąc nerwowy?

114 Historia - racjonalny a empiryczny status pozycji kwestionariuszowych stwierdzono, że w tej rubryce zdecydowanie podkreślił nie [...] Zwolennicy empirycznego punktu widzenia na odpowiedzi inwentarzowe podkreślają zatem, że odpowiedzi osoby badanej niekoniecznie trafnie informują o faktycznym jej zachowaniu, ale same w sobie są natomiast faktem diagnostycznym. W istocie badacz nie dysponuje bowiem wystarczającą wiedzą, aby trafnie przewidywać, jakich odpowiedzi udzieli osoba badana. Trudności z przewidywaniem odpowiedzi doprowadziły do opracowania empirycznych skal symulacji, do których włączono pozycje, które były rzadko potwierdzane przez osoby z zaburzeniami

115 Historia - racjonalny a empiryczny status pozycji kwestionariuszowych psychicznymi, a szczególnie często przez osoby symulujące takie zaburzenia. Analiza treści tych pozycji dobrze wg Wigginsa (1994) ilustruje błędne przekonania [...] co do zachowań werbalnych neurotyków w teście osobowości. Symulanci popełniali pomyłki nadmiernie akcentując skargi fizyczne, uczucia bycia niezrozumianym, drażliwość, zależność, niezadowolenie z życia rodzinnego, konflikty seksualne i dziwaczne pomysły.

116 Historia - racjonalny a empiryczny status pozycji kwestionariuszowych Z kolei problemy z empirycznym poglądem na wartość wskaźnikową odpowiedzi inwentarzowych ogniskują się zwłaszcza wokół kwestii źródła pozycji inwentarzowych. Jeśli bowiem odpowiedzi osoby badanej na pozycje kwestionariuszowe są nieprzewidywalne, to jak a priori ocenić, która pozycja jest trafnym, a która nie jest trafnym wskaźnikiem danego konstruktu? I dalej, w konsekwencji, które pozycje włączyć do wersji wstępnej inwentarza, a które pominąć? Przyjmując, że teoretycznie możliwe jest zadanie osobie badanej miliona (przynajmniej) dowolnych pytań, to zgodnie ze stanowiskiem empirycznym - należałoby faktycznie ten milion (przynajmniej) pytań jej zadać. Nie ograniczając

117 Historia - racjonalny a empiryczny status pozycji kwestionariuszowych jednocześnie ich zakresu treściowego. Zwolennicy empirycznego poglądu na odpowiedzi inwentarzowe rozwiązali problem uniwersum pozycji inwentarzowych poprzez zapożyczenia: albo z inwentarza MMPI, traktowanego jako swoiste kompendium wskaźników klinicznych, albo z 16PF, traktowanego w świetle szeroko zakrojonych analiz Cattella jako kompendium wskaźników normatywnej osobowości. W wielu wypadkach jednak sami tworzyli pozycje na podstawie wiedzy klinicznej, co dowodzi, że skoro nie byli konsekwentni w poczynaniach, to chyba sami do końca nie traktowali swojego stanowiska nazbyt poważnie.

118 Strategie konstruowania testu 1). teoretyczna (dedukcyjna) 2). zewnętrzna (kryterialna) 3). wewnętrzna (indukcyjna) 4). sekwencyjne lub połączone

119 Strategie konstruowania testu 1). teoretyczna (dedukcyjna) podstawa teoretyczna dla strategii empirycznych, choć może też być stosowana samodzielnie (do diagnozy raczej cech). 2). zewnętrzna (kryterialna) do diagnozy typów (eksploracyjna lub połączona z teoretyczną). 3). wewnętrzna (indukcyjna) do diagnozy cech (eksploracyjna lub połączona z teoretyczną).

120 Strategie konstruowania testu Budowa skali w każdej strategii poza kryterialną) jest podobna te same końcowe procedury techniczne, ale nieco inny model psychometryczny jest stosowany w każdej strategii. Strategie mają podobny plan konstrukcji, poza strategiami połączonymi - unikatowość planu analizy i przebieg procesu konstrukcji.

121 Porównanie strategii konstrukcji testów Aspekty opisu strategii: a). dostępność teorii psychologicznej w strategii: dedukcyjna ("teoria"), kryterialna ("wiedza"), indukcyjna ("metodologia");

122 Porównanie strategii konstrukcji testów (c.d.) b). model psychometryczny zastosowany do konstrukcji testu: teoretyczna - analiza pozycji (korelacja pozycja-skala, zewnętrzna - analiza pozycji (korelacja pozycjakryterium), indukcyjna - eksploracyjna analiza czynnikowa;

123 Porównanie strategii konstrukcji testów (c.d.) c). efekt finalny: w zakresie psychologicznym, diagnostycznym i psychometrycznym - każda strategia ma swoje zalety i wady - zależnie od typu problemu należy stosować różne strategie.

124 Wykład 10 PROCEDURA (PROCES) KONSTRUKCJI TESTU

125 Etap I Etap I - wybór strategii (cel badań pytania badawcze, rodzaj badanego konstruktu: cecha albo typ) oraz plan budowy narzędzia (w tym także skale kontrolne). Niezbędna jest wiedza dotycząca danego konstruktu oraz wiedza z metodologii, psychometrii i diagnostyki psychologicznej.

126 Etap II Etap II - analiza podstaw teoretycznych narzędzia: teorii, wiedzy lub metodologii (trafność treściowa lub prototypowość). Hierarchiczna struktura konstruktu - podwymiary lub składniki definicyjne (pokrycie całego konstruktu, łatwość generowania wskaźników konstruktu).

127 Składniki definicyjne Antonovsky (1995) przy tworzeniu Kwestionariusza Poczucia Koherencji w postaci przestrzeni Kartezjańskiej, zbudowanej poprzez wyodrębnienia podwymiarów poczucia koherencji oraz fasad reprezentujących różne aspekty reagowania na bodźce. W ramach podwymiarów wyodrębnione zostało poczucie zrozumiałości, zaradności i sensowności (E1-3), zaś w obrębie fasad: modalność bodźca (A1-3: instrumentalny, poznawczy i afektywny), źródło bodźca (B1-3: wewnętrzne, zewnętrzne i wewnętrzno- zewnętrzne), stawiany jednostce wymóg (C1-3: konkretny, rozproszony i abstrakcyjny) oraz czas reakcji (D1-3: przeszła, teraźniejsza i przyszła). Określona kombinacja złożona z elementów składowych każdej fasady oraz podwymiaru stanowiła profil, ułatwiający generowanie pozycji.

128 Składniki definicyjne Przykładowo, pytanie Nawet ludzie o silnym charakterze czasami czują się przegrani w pewnych sytuacjach. Jak często w przeszłości tak się czułeś? (Anotonovsky, 1995, s. 83) zostało zbudowane przez operacjonalizację profilu: A3, B1, C3, D1 i E2 (bodziec afektywny, pochodzenia wewnętrznego, o wymaganiach abstrakcyjnych, odnoszący się do przeszłości i odwołujący się do poczucia zaradności). Dla całego konstruktu dało to możliwość stworzenia 243 pozycji, praktycznie pokrywających cały zakres jego treści oraz jednocześnie nie duplikujących się wzajemnie.

129 Etap II Określenie specyfiki konstruktu (nie tylko aspekt zbieżny ale i różnicowy), także poprzez hipotezy dotyczące relacji do innych konstruktów. Procedura mocnej walidacji inne narzędzia lub kryteria wprowadzone do badania i analizy danych, ale nie tylko zbieżne, zwłaszcza zaś różnicowe.

130 Etap III-IV Etap III - generowanie wskaźników będących deskrypcją cech psychologicznych. Etap IV - zapisywanie pozycji testowych (rodzaj pozycji, zachowania, format odpowiedzi) i ocena ich własności formalnych.

131 Pozycja testowa - definicja Pozycja testowa to sformalizowany wskaźnik danej cechy psychologicznej, a więc zdanie (twierdzenie lub pytanie) opisujące określone zachowanie (lub zadanie wyzwalające określone zachowanie) oraz skala rejestrująca to zachowanie (opcje odpowiedzi o określonym formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).

132 Tworzenie pozycji Proces tworzenia pozycji: Generowanie pozycji - poszukiwanie takich zachowań i sytuacji, które występują w życiu codziennym określonej grupy osób badanych - wymaga wyrażenia wskaźników teoretycznych w języku naturalnych zachowań i sytuacji. Zapisywanie pozycji - wymaga przełożenia terminów psychologicznych na język naturalny, a więc wyrażenia pozycji w języku, którym posługują się osoby badane.

133 Decyzje wstępne Decyzje wstępne: Wybór procedury odpowiadania oraz formy pozycji kwestionariuszowych (wybieranie dowolnej liczby pozycji lub ograniczeniu wyboru do opcji stwierdzenia albo opcji odpowiedzi). Wybór rodzaju procedury: spiralna albo piramidowa.

134 Wybór formy pozycji Procedura odpowiadania zakładająca ograniczony wybór, w ramach poszczególnych pozycji, dotyczący jednej spośród: wersji pytania kwestionariuszowego DWÓCH A. Nudzi mnie ciągłe oglądanie tych samych twarzy. B. Lubię przebywać w towarzystwie dobrze znanych mi osób. opcji odpowiedzi DWÓCH Jak dostanę od kogoś list, to zaraz zawsze odpisuję prawda - fałsz swobodny wybór w ramach całej puli pozycji Przykład: Wybór dowolnej liczby przymiotników z puli 300 pozytywnych i negatywnych określeń osobowości (Test Przymiotnikowy ACL Gougha i Heilbruna, w adaptacji Płużek) (pozycja z SSS-IV Zuckermana, w adaptacji Oleszkiewicz-Zsurzs) (pozycja z KAS Drwala i Wilczyńskiej) WIELU WERSJI PYTANIA WIELU OPCJI ODPOWIEDZI Z WERSJĄ POŚREDNIĄ Każde przedsięwzięcie, do którego przywiązuję większą wagę: a). planuję na długo przed jego realizacją b). zwykle planuję na pewien czas naprzód c). na ogół nie planuję, a od razu przystępuję do rzeczy. (pozycja z MOS Widerszal-Bazyl) BEZ WERSJI POŚREDNIEJ Czy uważasz się obecnie (PRZED CHOROBĄ) za: (1) Bardzo usilnie dążącego do czegoś i skłonnego do rywalizacji? (2) Raczej usilnie dążącego do czegoś i skłonnego do rywalizacji? (3) Raczej odprężonego i spokojnego? (4) Zdecydowanie odprężonego i spokojnego? BEZ OPCJI POŚREDNIEJ Z łatwością zmieniam nastrój zdecydowanie zgadzam się raczej zgadzam się raczej nie zgadzam się zdecydowanie nie zgadzam się (pozycja z PTS Strelaua, Angleitnera i Zawadzkiego) Z OPCJĄ POŚREDNIĄ Czy często masz poczucie nadmiaru energii? tak -? - nie (pozycja ze Skali Temperamentów TTS Thurstone a, w adaptacji Choynowskiego) (pozycja z JAS Jenkinsa, Zyzanskiego i Rosenmana, w adaptacji Wrześniewskiego

135 Wybór formy pozycji Skala Makiawelizmu (MACH-V) Christiego i Geis - adaptacja dokonana przez Brzozowskiego i Drwala (Drwal, 1995). W skali tej wprowadzono aż trzy opcje odpowiedzi w każdej pozycji: dwie treściowe (wskazującą na machiawelizm i obojętną) oraz buforową, przy czym osoba badana ma za zadanie wybrać jedną z nich, a jedną odrzucić (trzecią pozostawiając bez ustosunkowania się). Opcje treściowe zostały wyrównane pod względem obciążenia aprobatą, zaś buforowa skontrastowana z nimi. W przypadku, gdy opcje treściowe są pożądane społecznie, buforowa jest niepożądana i odwrotnie - gdy treściowe są niepożądane, buforowa jest zdecydowanie społecznie pożądana. W obu wypadkach taka procedura odpowiadania wymusza wybór między opcjami treściowymi w pierwszym odrzucenie bufora i zaznaczenie jednej z opcji

136 Wybór formy pozycji treściowych, zaś w drugim wybór bufora oraz konieczność odrzucenia jednej opcji treściowej. Klucz odpowiedzi uwzględnia tę sytuację, choć procedura obliczania wyników jest bardzo skomplikowana. Zaletą tej procedury odpowiadania jest skłanianie osoby badanej do dokonywania wyboru między opcjami treściowymi poprzez bardzo zmyślne manipulowanie jej motywami, a mianowicie między tendencją do udzielenia odpowiedzi prawdziwej oraz aprobowanej. Procedura ta ma jednak wadę - jest bardzo trudna dla osób badanych, a jej skuteczność w eliminowaniu wpływu aprobaty oraz diagnozowaniu makiawelizmu dość wątpliwa.

137 Wybór formy pozycji Jak stwierdzają Drwal i Brzozowski (Drwal, 1995, s.195), skala Mach V nie jest też wcale mniej podatna na wpływ aprobaty społecznej, co było głównym celem opracowania tak wyrafinowanej skali... i dalej:...przypadek skali Mach V pokazuje, że makiaweliczne podejście autorów skali do osób badanych (próba ich przechytrzenia) spowodowało, że skala ta bardzo słabo mierzy makiawelizm.

138 Generowanie pozycji Źródła pozycji: Zapożyczenia z innych narzędzi (MMPI lub 16 PF, testy zdolności typowe dla strategii zewnętrznej). Poszukiwanie naturalnych banków pozycji (zasoby słownikowe - listy przymiotnikowe, testy zdolności typowe dla strategii indukcyjnej).

139 Generowanie pozycji Źródła pozycji: Tworzenie nowych pozycji przez profesjonalistów lub nieprofesjonalistów (typowe dla strategii teoretycznej lub połączonej teoretyczno-indukcyjnej czy kryterialnej; ważna jest trafność treściowa lub prototypowość).

140 Generowanie pozycji Nowe pozycje: Odpowiedniość do badanego konstruktu (trafność treściowa); Reprezentatywność dla zachowania osób badanych (proces społeczny generowania wskaźników eliminacja obciążenia demograficznego; analiza prototypowości ujmuje oba aspekty).

141 Ocena trafności treściowej lub typowości pozycji Procedura analizy: Tworzenie wskaźników; Kwalifikowanie do konstruktów; Ocena wskaźników na skalach ocen; Analiza psychometryczna i walidacja procedury (muszą być możliwe do uzyskania korelacje ocen ze wskaźnikami psychometrycznymi).

142 Zapisywanie pozycji Wymagania: Uwzględnianie reguł formalnych w procesie zapisywania pozycji; Sprawdzenie uzyskanego efektu w tzw. analizach formalnych własności pozycji (analizy itemmetryczne).

143 Zapisywanie pozycji Konsekwencje: Zakłócenie warunku standaryzacji zmienność inter- i intraindywidualna interpretacji treści pozycji; Uruchomienie stylu odpowiadania; Udzielanie odpowiedzi niezgodnych z intencjami (niespójnych); Pogorszenie charakterystyki psychometrycznej pozycji.

144 Własności formalne pozycji Model Angleitnera i wsp. (1986): Zrozumiałość Niejasność Ogólność (abstrakcyjność) Dostępność w osobistym doświadczeniu (możliwość odniesienia do ja ) Obciążenie czynnikami zniekształcającymi, np. aprobatą społeczną.

145 Zrozumiałość Długość pozycji (liczba zdań, słów, itd.), ale unikanie telegraficznej skrótowości. Złożoność gramatyczna (forma gramatyczna pozycji, np. negacja, strona bierna oraz komplikacja pozycji w postaci zdań złożonych, ze względu na tryb złożenia, np. w zdaniach podrzędnie czy nadrzędnie złożonych).

146 Zrozumiałość Poprawność gramatyczna - błędy językowe oraz prostota - dostępność użytych pojęć. Wyrażenie zdań w pierwszej osobie; Respektowanie obyczajów językowych oraz zasad językowych, np. form obocznych dla płci, ale bez żargonu.

147 Konsekwencje wprowadzenia do pozycji kwestionariuszowych zwrotów żargonalnych Czy jest granica przystosowania języka inwentarza do zwyczajów osób badanych, której autor nie powinien przekraczać? W 1979 roku Marvin Zuckerman opublikował piątą wersję skali Poszukiwania Doznań (ang. Sensation Seeking Scale Form V, w skrócie SSS-V). Z uwagi na badany konstrukt szereg pozycji w tym inwentarzu zawierało wyrażenia żargonalne, opisujące zamiłowanie do przebywania w gronie śmietanki towarzyskiej, tolerancję wobec osób biseksualnych czy rodzaj używanych narkotyków. Po niespełna dwudziestu latach konieczna stała się rewizja tych pozycji (Zuckerman, 1996), ponieważ osoby badane nie rozumiały już znaczenia użytych w nich zwrotów. Rzecz ciekawa, że pozycje pozbawione zwrotów żargonalnych były nadal zrozumiałe. Zuckerman (1996) skorygował obciążone

148 Konsekwencje wprowadzenia do pozycji kwestionariuszowych zwrotów żargonalnych pozycje wyrażając je opisowo w języku potocznym. Użycie zwrotów żargonalnych w pozycjach inwentarza jest zatem dopuszczalne, może być nawet funkcjonalne względem badanego konstruktu. Trzeba się jednak liczyć z zawężeniem demograficznym zakresu jego odbiorców oraz uwzględniać możliwość bardzo szybkiej dezaktualizacji narzędzia. To doświadczenie stanowi lekcję dla konstruktorów nowych testów. Żeby nie używać terminów kolokwialnych lub opisywać specyficznych form aktywności, które mogą tracić swą zrozumiałość czy dopasowanie do kultury przyszłych pokoleń (Zuckerman,1996, s. 515). Ale cóż, znając inwencję poszukiwaczy doznań, można mieć pewność, że szybko wymyślą nowe formy zaspokajania swojej potrzeby doznań, jak i nowe zwroty dla ich opisania.

149 Zalecenia Zapisywanie pozycji zgodnie z regułami. Konsultacja językoznawcy. Analizy itemmetryczne ocena zrozumiałości pozycji.

150 Niejasność wieloznaczność interpretacyjna Niejasność możliwość przypisania wielu różnych znaczeń pozycji - interpretowania jej treści na wiele sposobów, z których każdy jest poprawny językowo i dopuszczalny z punktu widzenia formy gramatycznej.

151 Niejasność Źródła: zbyt duża ogólność i abstrakcyjność użytych pojęć; czynniki lingwistyczne, wynikające z formy gramatycznej zdania, np. negacji, jego złożoności gramatycznej czy błędów, np. interpunkcyjnych, a zwłaszcza zapisanie pozycji w formie zadania złożonego, którego zdania proste nie tworzą koniunkcji i mogą wymagać odrębnej odpowiedzi.

152 Zalecenia Zapisywanie w formie pozycji konkretnych. Grupowa analiza znaczenia treści twierdzeń oraz ustalanie na drodze dyskusji ich ostatecznej i bardziej jednoznacznej formy. Analiza znaczenia afirmacji oraz negacji treści pozycji dla możliwości zbadania określonej cechy. Analizy itemmetryczne.

153 Ogólność-abstrakcyjność Ogólność wynika z abstrakcyjności pojęć użytych do opisu zachowania, sytuacji czy cech osobowych. Pozycja ogólna zakłada konieczność integracji informacji, uzupełniania jej przez konkluzje, uogólniania zachowań z różnych sytuacji czy dokonania porównań z niespecyficznymi standardami.

154 Dostępność w doświadczeniu - zalecenia Procedura analizy typowości (także przy adaptacji kulturowej). Proces społeczny tworzenia pozycji. Odwołanie do ja zdania w pierwszej osobie. Analizy itemmetryczne.

155 Analizy itemmetryczne Identyfikacja pozycji źle sformułowanych i ich poprawienie albo usunięcie z puli. Oceny na skalach ocen albo wskazanie pozycji wadliwych. Brak możliwości zbudowania pozycji doskonałej, ale pozycje wadliwe skutkują pogorszeniem charakterystyki psychometrycznej.

156 Opcje odpowiedzi Problem opcji centralnej w formie nie wiem, (?), tak i nie. - Słaby status opcji centralnej : 1). odpowiedź osoby badanej oznacza, że jej zachowanie zależy od sytuacji; 2). odpowiedź osoby badanej wynika z trudności w ocenie własnego zachowania; 3). odpowiedź osoby badanej wskazuje, że nie potrafiła ona jednoznacznie rozkodować treści pozycji (pozycja jest niejasna);

157 Opcje odpowiedzi 4). odpowiedź osoby badanej wskazuje, że faktycznie ma przeciętne nasilenie cechy. - Dwumodalne rozkłady odpowiedzi. Format może być nieparzysty, ale opcja pośrednia musi wskazywać na umiarkowanie nasilenie cechy.

158 Opcje odpowiedzi Szerokość formatu: wielokategorialne - dwukategorialne. - Wady formatów dwukategorialnych: 1). Zmuszają do udzielenia zdecydowanej odpowiedzi. 2). Nie gwarantują odpowiedniego zróżnicowania odpowiedzi. - Wady formatów wielokategorialnych: 1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej wykształconych. 2). Pozorne zróżnicowanie tendencje do zawężania formatu.

159 Optymalna szerokość formatu Magiczna liczba Millera górna granica: (5 9) Ogółem: 4-7 opcji Osoby badane o większych zdolnościach: 5 7 Osoby badane o mniejszych zdolnościach: 2 5

160 Inne aspekty formatu Zakotwiczenie skali: niemalże wielkie kwantyfikatory. Kierunek zakotwiczenia: negatywnypozytywny. Wartości liczbowe wtórne (podstawowe określenia słowne). Ujednolicone dla wszystkich pozycji (także w skali kontrolnej).

161 Etap VI - ważenie pozycji lub opcji odpowiedzi Wagi zróżnicowane krótkie narzędzia, pozycje bardzo zróżnicowane pod względem charakterystyki psychometrycznej, komplikacja obliczania wyniku końcowego, wagi empiryczne, a nie - teoretyczne. Wagi pozycji równe oraz liniowo rosnące wagi odpowiedzi (zróżnicowanie wkładu pozycji do wyniku końcowego).

162 Etap VII Etap VII - przygotowanie testu do badań: przyjęcie nazwy testu, zaopatrzenie go w instrukcję oraz wprowadzenie losowej kolejności pozycji w inwentarzach lub uporządkowania ich według stopnia trudności (wybór procedury badania);

163 Etap VIII badania i analiza psychometryczna Cel - uzyskanie finalnej wersji inwentarza: przeprowadzenie badań listą pozycji i analiza psychometryczna danych. Przebieg badań te same warunki i to samo narzędzie co w badaniach docelowych.

164 Badania Dobór próby: Maksymalne zróżnicowanie demograficzne (płeć, wiek, wykształcenie, zawód, miejsce zamieszkania, itp.). Duża liczebność grupy (mnożnik 5-10 osób badanych na jedną pozycję testową - psychometria nie toleruje małych prób ) minimum o.b. Podział na grupy losowe: walidacja krzyżowa.

165 Przygotowanie do analizy danych Kodowanie danych odpowiedzi o.b. Braki danych bez korekty w fazie wstępnej analizy psychometrycznej. Braki danych - skale końcowe - uzupełnianie przez średnią dla danej osoby z pozostałych pozycji (inne: średnia w skali lub losowe). Dyskwalifikacja protokołów z licznymi brakami danych kryteria (5%).

166 Analiza psychometryczna Kierunek: od podwymiarów do skal. Walidacja krzyżowa. Walidacja demograficzna (uwaga: niwelowanie różnic demograficznych). Mocna walidacja korygowanie składu pozycji w aspekcie zbieżnym lub różnicowym. Opracowanie wersji końcowej skal.

167 Analiza pozycji i pojęcie mocy dyskryminacynej Analiza pozycji - rodzaj analizy psychometrycznej, który obejmuje wskaźnik trudności pozycji, moc dyskryminacyjną oraz trafność zewnętrzną pozycji). Moc dyskryminacyjna - wskaźnik stopnia, w jakim pozycja mierzy cechę, którą mierzy cały test (oceniana poprzez korelację pozycja-skala).

168 Pojęcie trudności i trafności zewnętrznej pozycji Trudność pozycji - proporcja odpowiedzi zgodnych z kluczem (średnia pozycji w relacji do możliwego maksymalnie wysokiego wyniku). Trafność zewnętrzna pozycji - wskaźnik stopnia, w jakim pozycja mierzy kryterium pozatestowe (oceniana poprzez korelację pozycja-kryterium).

169 Miary mocy dyskryminacyjnej Współczynnik korelacji dwuseryjnej Współczynnik korelacji punktowodwuseryjnej Współczynnik korelacji punktowoczteropolowej Skorygowany współczynnik korelacji pozycja-skala

170 Współczynnik korelacji dwuseryjnej (M p - M q ) S r bis = (p q) y

171 Współczynnik korelacji dwuseryjnej gdzie M p - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, M q - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, zaś y - to rzędna rozkładu normalnego odpowiadająca proporcji p.

172 Współczynnik korelacji -punktowo dwuseryjnej (M p - M q ) S r p-bis = (p q)

173 Współczynnik korelacji punktowodwuseryjnej gdzie M p - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, M q - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.

174 Współczynnik korelacji punktowoczteropolowej (phi) f g - f d phi = (p q)

175 Współczynnik korelacji punktowoczteropolowej gdzie f g - to proporcja osób w górnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, f d - to proporcja osób w dolnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, p - to proporcja osób w całej próbie, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.

176 Miary trafności zewnętrznej pozycji oraz treści czynnikowej Trafność zewnętrzna - korelacja z kryterium (r-pearsona albo korelacje stosowane do oceny mocy dyskryminacyjnej) Analiza czynnikowa pozycji - ładunek czynnikowy (korelacja pozycji z czynnikiem) oraz wskaźniki różnicowe: W r = F 2 - (F a 2 + F b 2 + F c F z2 )

177 Miary trafności zewnętrznej pozycji oraz treści czynnikowej gdzie W r - wynik różnicowy, F 2 - ładunek na odpowiadającym pozycji ("własnym") czynniku, zaś F a2, F b 2 do F z 2 - ładunki na innych czynnikach (od czynnika "A" do "Z").

178 Etap IX Etap IX analizy weryfikacyjne finalnej wersji inwentarza: rzetelność i trafność (te same oraz inne aspekty). Weryfikacja bo inna skala (długość, kompozycja pozycji).

179 Analiza trafności i rzetelności pomiaru Zgodność wewnętrzna i stabilność czasowa. Różne aspekty trafności zbieżna i różnicowa. Te same parametry w kilku grupach stabilność (niezmienniczość) grupowa.

180 Etap X Etap X normalizacja wyników testu (skale standardowe o rozkładzie normalnym, skale rangowe, punkty odsiewowe wraz z obszarem niepewności diagnozy).

181 Etap X Rodzaje norm: (A) normy ogólne bez podziału ze względu na żadną ze zmiennych demograficznych, (B) normy dla danej kategorii zmiennej demograficznej, ale bez podziału ze względu na inne zmienne (np. dla wszystkich kobiet, bez podziału na wiek), (C) normy dla określonej kategorii kolejnej zmiennej demograficznej, bez podziału na inne zmienne (np. dla osób o danym wieku, bez podziału na płeć), itd. (D) normy z zastosowaniem wszystkich zmiennych demograficznych.

182 Kwestie specyficzne norm Badania praktyczne a naukowe (normy A). Wyznaczenie SBP oraz PU dla wyników znormalizowanych. Aktualizacja norm normy kroczące. Aktualizacja norm najdalej po 10 latach.

183 Etap XI - XII Etap XI - publikacja testu. Etap XII - rewizja testu (po maksimum 25 latach albo wcześniej po stwierdzeniu ewidentnych wad diagnostycznych).

184 Regulacyjna Teoria Temperamentu Generowanie pytań, odpowiadających 12 własnościom zachowania Formułowanie ("pisanie") pytań (z kontrolą wstępnego klucza odpowiedzi) Wstępna ocena językowa pytań (językoznawca) Ocena trafności treściowej: 1. Sortowanie pytań do skal 2. Ocenianie pytań w skalach 3. Sortowanie pytań do podskal Wstępna pula około 600 pozycji Ocena formalnych własności pytań, tj. zrozumiałości, niejasności, itp. Badanie preferencji formatu odpowiedzi Pula 392 pozycji Przygotowanie kwestionariusza do badań: tytuł, instrukcja, losowa kolejność pozycji Pula 381 pozycji Badanie wersją pełną kwestionariusza Psychometryczne opracowanie kwestionariusza: podział grupy na próbę konstrukcyjną" (opracowanie kwestionariusza) oraz próbę testową" (sprawdzenie wyników) I. Konstrukcja 12 podskal Analiza pozycji (kryterium doboru pozycji - skorygowany współczynnik korelacji pozycja skala; SKPS) II. Analiza czynnikowa (Główne Składowe, Varimax), oddzielnie dla własności czasowych i energetycznych zachowania, prowadząca do wyodrębnienia struktury temperamentu III. Konstrukcja skal 1. Budowa 6 skal przez połączenie 12 podskal na podstawie ich ładunków czynnikowych 2. Dobór pozycji do skal na podstawie ich korelacji z czynnikami (akceptacja zbliżonej liczbę pozycji z każdej podskali) 3. Dobór pozycji, które wykazywały SKPS wyższy niż korelację z innymi skalami 4. Skrócenie skal do 20 pozycji w każdej z nich, przez wybór pozycji o najwyższym SKPS Pula 381 pozycji FCZ-KT wersja końcowa 6 skal 120 pozycji Badania wersją końcową kwestionariusza Weryfikacja charakterystyki psychometrycznej FCZ-KT próby weryfikacyjne (parametry rozkładu wyników, oszacowanie rzetelności pomiaru poprzez zgodność wewnętrzną) Ocena stabilności czasowej pomiaru FCZ-KT: badanie powtórne po 2 tygodniach oraz po 6 miesiącach Badanie trafności pomiaru FCZ-KT (wybrane analizy): 1. Analiza porównawcza pomiaru cech temperamentu za pomocą samoopisu i szacowania 2. Analiza porównawcza pomiaru cech temperamentu za pomocą samoopisu i wybranych metod laboratoryjnych 3. Analiza relacji cech temperamentu do innych biologicznych wymiarów osobowości 4. Analiza związku pomiędzy cechami temperamentu a adaptacją zawodową i stanem zdrowia 5. Analiza relacji pomiędzy strukturą temperamentu a stylami zachowania wiążącymi się z ryzykiem choroby psychosomatycznej 6. Badanie struktury temperamentu u osób chorych FCZ KT wersja końcowa Normalizacja skal FCZ-KT Opracowanie podręcznika do FCZ KT

185 Struktura podręcznika testowego prezentacja teoretycznych podstaw testu; opis procedury konstrukcji dane, ilustrujące rzetelność i trafność pomiaru (wraz z charakterystyką orób); procedura praktycznego stosowania testu i obliczania wyników; procedura interpretacji wyników testu; tabele normalizacyjne.

186 Co musi zawierać podręcznik testowy? Podręcznik musi zawierać precyzyjny opis testu: jego przeznaczenie, wskazówki dotyczące procedury badania testem i obliczania wyników, pełne dane ilustrujące charakterystykę psychometryczną, opis procedury normalizacji oraz normy, precyzować zasady interpretacji oraz zawierać informację o możliwej stronniczości czy ograniczeniach stosowania testu.

187 Zmiany pokoleniowe wpływające na starzenie się inwentarzy osobowości Kwestionariusze są opracowywane do diagnozowania osobowości ludzi żyjących w danym czasie i przestrzeni, a zatem w kręgu określonej kultury. Zmiany kulturowe, następujące wraz z upływem czasu, są jednym z czynników powodujących dezaktualizowanie się inwentarzy osobowości. Dotyczy to zarówno formy i częstości występowania określonych zachowań lub sytuacji, opisywanych w pozycjach kwestionariuszowych, jak i języka, w którym pozycje te zostały wyrażone. Prace Twenge (2000; 2001) wskazują, że konieczność rewizji inwentarza może też wynikać z systematycznych międzygeneracyjnych zmian w nasileniu cech osobowości. Szczególnie interesujące zależności zostały przez uzyskane dla cechy lęku i neurotyczności. Poddała ona analizie

188 Zmiany pokoleniowe wpływające na starzenie się inwentarzy osobowości wyniki zebrane od roku 1952 do 1993 w badaniach grup amerykańskich uczniów i studentów, za pomocą takich narzędzi jak MAS Taylor, STAI Spielbergera oraz EPI i EPQ Eysenka. Uzyskane wyniki wskazały, że w ciągu czterdziestu lat średnie wyniki skal lęku/neurotyczności wzrosły o jedno odchylenie standardowe i obecnie lokalizują się na poziomie 84 centyla w stosunku do populacji lat pięćdziesiątych (odpowiadającemu poziomowi 50 centyla). Zmiana ta jest tak znaczna, że Twenge (2000, s. 1018) obrazowo określa czasy współczesne mianem epoki lęku, wskazując, że...lęk obecnie jest tak wysoki, że grupy normalnych dzieci z lat osiemdziesiątych uzyskują wyższe wyniki niż grupy dzieci zaburzonych z lat pięćdziesiątych. Pomijając przyczynę tego zjawiska,

189 Zmiany pokoleniowe wpływające na starzenie się inwentarzy osobowości ma ono także konsekwencje dla narzędzi diagnostycznych pozycje, które znakomicie różnicowały populację lat pięćdziesiątych, nie mają już tak samo dobrej charakterystyki psychometrycznej w grupach badanych na końcu XX wieku. Najprawdopodobniej też omawiane kwestionariusze muszą wykazywać skośność rozkładu wyników w badaniu pokoleń współczesnych. Można zatem sądzić, że wskutek zmian pokoleniowych te znakomite skądinąd narzędzia diagnostyczne mocno się już zdezaktualizowały i wymagają systematycznej rewizji nie tylko ponownej normalizacji, ale przede wszystkim modyfikacji na poziomie pozycji inwentarzowych.

190 Wykład 11 CZYNNIKI ZNIEKSZTAŁCAJĄCE WYNIKI TESTOWE

191 Wady diagnostyczne metod laboratoryjnych Nie ma doskonałych metod diagnozy każda z nich obciążona jest wadami, wynikającymi ze specyfiki zbierania informacji (czy specyfiki źródła danych). Wady metod laboratoryjnych związane są z niską zgodnością diagnoz, bazujących na wskaźnikach psychofizycznych lub psychofizjologicznych. Określana jest ona mianem zjawiska parcjalności : diagnoza zależy od rodzaju bodźca, reakcji oraz wzmocnienia, zastosowanych w badaniu własności układu nerwowego (Strelau, 1985).

192 Poznawcze zniekształcenia samoopisu i obserwacji a). błędy obserwatora: błąd łagodności-surowości (postawa adwokacka-prokuratorska), tendencji centralnej (efekt Barnuma), efekt halo (inne dane lub opinie, ogólny obraz osoby ocenianej), bliskości (bliskość przestrzenna wskaźników lub czasowa ocen), kontrastu (ocena w odniesieniu do cech własnych). b). błędy samoopisu, np. wieloznaczność pojęć używanych do opisu częstości (język naturalny), uzależnienie odpowiedzi od kontekstu ( tła ) pytań (opisy emocji/cech pozytywnych i negatywnych), czy wpływ stanu obecnego (zachowań incydentalnych) na ocenę cechy (zachowań typowych).

193 Czynniki zniekształcające wyniki testowe a). zgadywanie. b). tendencja do udzielania odpowiedzi społecznie aprobowanych albo społecznie nie aprobowanych: - tendencja do dysymulowania (aprobata społeczna), -tendencja do symulowania; c). style odpowiadania

194 Style odpowiadania Style odpowiadania - tendencja osoby badanej do wybierania określonej opcji odpowiedzi niezależnie od treści pozycji kwestionariuszowej: tendencja do zgadzania się albo zaprzeczania, udzielania odpowiedzi ekstremalnych albo centralnych (pośrednich), udzielania odpowiedzi nieuważnych lub niekonsekwentnych,

195 Style odpowiadania losowych (przypadkowych), niezdecydowanych (opcje? lub opuszczenia odpowiedzi), produktywnych, impulsywnych, pozornie oryginalnych, konwencjonalnych oraz lateralizacji (style graficzne).

196 Preferencje opcji odpowiedzi dane z badania kwestionariuszami bez pytań Interesującego argumentu na rzecz stylu odpowiadania dostarczają badania z zastosowaniem tzw. kwestionariuszy bez pytań. Jako pierwsi ideę tę sformułowali Berg i Rapaport (1954), ale bardziej systematyczne analizy zostały zrealizowane przez Van Heerdena i Hoogstratena (1979, 1980). W inwentarzach tych zamieszcza się tylko opcje odpowiedzi o określonych formatach oraz prosi osoby badane, aby: odgadły odpowiedź na pytanie, które nie jest im znane,..., zaznaczając jedną z opcji odpowiedzi, która w ich przekonaniu jest poprawna. Uzyskane wyniki wskazały, że osoby badane bardziej preferują odpowiedź Prawda (60%) niż Fałsz (40%), Tak (60%) niż Nie wiem (16%) oraz Nie (24%). W innych formatach częściej stosowanych w realnych inwentarzach z opcji Zawsze Czasami Nigdy

197 Preferencje opcji odpowiedzi dane z badania kwestionariuszami bez pytań najbardziej preferowana była odpowiedź czasami (odpowiednio: 26% - 46% - 28%), zaś z opcji Bardzo usatysfakcjonowany Usatysfakcjonowany Nieusatysfakcjonowany Bardzo nieusatysfakcjonowany odpowiedź usatysfakcjonowany (24% - 45% - 16% - 15%). Wyniki te wskazują, że uzyskana odpowiedź może zależeć nie tylko od treści pozycji, ale także od rodzaju opcji odpowiedzi i że osoby badane preferują pewne opcje bardziej niż inne. W praktyce zatem, gdy osoba badana nie wykazuje odpowiedniej motywacji do wzięcia udziału w badaniu lub pozycje wykazują wady formalne, utrudniające zrozumienie treści pozycji i udzielenie właściwej odpowiedzi, jest możliwe, że będzie uruchamiać styl odpowiadania, kierując się preferencjami określonych opcji.

198 Preferencje opcji odpowiedzi dane z badania kwestionariuszami bez pytań Podsumowując, można stwierdzić, że osoby badane generalnie preferują udzielenie odpowiedzi poprzez wybór opcji potwierdzającej. Najbardziej preferowana jest jednak umiarkowana akceptacja odpowiedzi zdecydowane są preferowane mniej, przy czym zdecydowana odpowiedź pozytywna jest akceptowana nieco bardziej niż negatywna. Wynik dotyczący wybierania odpowiedzi neutralnej sugeruje, że może być postrzegana przez osoby badane nie tylko jako wyraz wyważenia opinii, ale także niezdecydowania, braku zdania czy indyferencji w sprawach osobistych. Właśnie to wyjaśnia, dlaczego odpowiedź pośrednia - oznaczana jako obojętne, nie wiem, tak i nie czy poprzez? jest wybierana rzadziej niż opcje zdecydowane.

199 Style odpowiadania Konieczne jest rozróżnienie tendencji ogólnej (podatność narzędzia lub procedury badania) oraz różnic indywidualnych w stosowaniu stylu skale kontrolne badają różnice indywidualne, wyjątkowo mogą być zastosowane do analizy sytuacji badania.

200 Źródła stylów odpowiadania Brak odpowiedniej motywacji osoby badanej do wzięcia udziału w badaniach lub poczucie zagrożenia badaniem - styl odpowiadania wynika z chęci ukrycia faktycznego obrazu osobowości w szumie informacyjnym odpowiedzi. Własności pozycji oraz zastosowane opcje odpowiedzi - niezrozumiałość oraz niejasność pozycji oraz nieadekwatność zastosowanego formatu odpowiedzi.

201 Zalecenia Odpowiednie sformułowanie językowe pozycji oraz właściwy format odpowiedzi (eliminowanie odpowiedzi pośrednich, dostosowanie formatu do preferencji osób badanych). Zrównoważenie skali pod względem klucza odpowiedzi (niezbędne do zbudowania skal kontrolnych).

202 Dysymulowanie Dysymulowanie - tendencja osoby badanej do przedstawiania się w nieprawdziwie korzystnym świetle, która wiązana jest ze zmienną aprobaty społecznej (tendencją osoby badanej do kierowania się społecznym wartościowaniem zachowania przy odpowiadaniu, co prowadzi do zaprzeczania posiadania cech społecznie niepożądanych oraz przypisywania sobie cech społecznie pożądanych).

203 Aprobata społeczna Aprobata społeczna jako styl odpowiadania (czy inaczej postawa wobec badania) to tendencja jednostki do kierowania się przy odpowiadaniu nie tyle faktycznym zachowaniem, czy treścią pytania, ale społeczną oceną, jaką pociąga za sobą dana odpowiedź.

204 Tendencja do dysymulowania i aprobata społeczna c.d. Aprobata jako cecha to tendencja podmiotu do takiego modulowania zachowania (każdego - testowego, jak i realnego, pozatestowego), by było ono zgodne ze społecznym wartościowaniem - normami społecznymi, akceptacją otoczenia.

205 Zalecenia unikanie obciążenia 1). Pozycje neutralne. 2). Pozycje subtelne pod względem trafności fasadowej. 3). Specjalne formułowanie językowe pozycji tzw. zdania zmodalizowane, unikanie dużych kwantyfikatorów czasu. 4). Zmiana procedury badania - komputeryzacja lub wykorzystanie szacowania cech.

206 Zalecenia identyfikacja pozycji obciążonych 5). Aprobata społeczna jako zmienna moderacyjna. 6). Analiza podatności pozycji przez manipulowanie instrukcją ( dobry profil). 7). Analizy itemmetryczne. 8). Korelacje pozycji ze skalami mierzącymi aprobatę społeczną. Identyfikacja pozycji obciążonych usunięcie albo przeformułowanie.

207 Metody kontroli (eliminowania) wpływu aprobaty Na etapie stosowania kwestionariusza: 8). Instrukcja "szczerości", 9). Zmiana procedury badania - komputeryzacja testu,

208 Metody kontroli (eliminowania) wpływu aprobaty 10). Skala kontrolna aprobaty społecznej, na podstawie której odrzuca się respondentów o wysokich wynikach lub koryguje wyniki skal treściowych przez doliczanie tzw. poprawek korekcyjnych, 11). Wprowadzenie do diagnozy psychologicznej szacowania cech.

209 Dysymulacja i symulacja Konieczne jest rozróżnienie tendencji ogólnej (podatność narzędzia lub procedury badania) oraz różnic indywidualnych w dysymulowaniu czy symulowaniu skale kontrolne badają różnice indywidualne, wyjątkowo mogą być zastosowane do analizy sytuacji badania.

210 Symulowanie Symulowanie tendencja osoby badanej do udzielania odpowiedzi, bezpodstawnie przedstawiających osobę badaną w niekorzystnym świetle, np. wskazujących na istnienie określonych zaburzeń zachowania czy niepożądanych cech osobowości.

211 Tendencja do symulowania (c.d.) Tendencja do symulowania jest zarówno postawą wobec badania, (styl odpowiadania, np."super-szczerość"), jak trwałym syndromem cech osobowości, związanym z tendencjami agrawacyjnymi, obniżoną samooceną, ekscentrycznością i zaburzeniami psychicznymi. Kontrolowanie tendencji do symulacji umożliwiają specjalne skale kontrolne.

212 Symulowanie Zagrożenie pozytywną oceną, prowadzącą do wzbudzenia motywacji do unikania i dążenia do uzyskania diagnozy negatywnej. Pytania o nietypowe myśli, pragnienia, odczucia i wrażenia (wraz ze swoistym przejaskrawieniem czy udziwnieniem form zachowania) oraz zachowania stanowiące przekroczenie norm moralnych.

213 Zalecenia unikanie obciążenia Unikanie pytań o zachowania regulowane społecznymi normami. Unikanie emfazy w formułowaniu treści pozycji.

214 Zalecenia identyfikacja pozycji obciążonych Tendencja do symulowania jako zmienna moderacyjna. Analiza podatności pozycji przez manipulowanie instrukcją ( zły profil). Analizy itemmetryczne. Korelacje pozycji ze skalami mierzącymi tendencję do dysymulowania. Identyfikacja pozycji obciążonych usunięcie albo przeformułowanie.

215 Skale kontrolne Funkcja skal kontrolnych polega na diagnozowaniu indywidualnych stylów odpowiadania na pozycje kwestionariuszowe, które są ekspresją postaw wobec badania inwentarzem osobowości. Postawy te nie wiążą się treściowo z badanymi cechami osobowości, ale powodują zniekształcenie uzyskiwanych wyników skal.

216 Skale kontrolne Czynniki te mogą być zatem traktowane jako tzw. zmienne tłumiące lub moderujące. Będą one zatem prowadziły do obniżenia wartości diagnostycznej inwentarza - trafności pomiaru, a niekiedy także i rzetelności pomiaru.

217 Skale kontrolne Rodzaje skal kontrolnych: Dysymulacji, symulacji albo dysymulacjisymulacji (cecha albo styl albo cecha-styl, zależnie od sytuacji) specjalna motywacja o.b.; Skale do badania stylu odpowiadania brak motywacji o.b. (odpowiedzi losowe, potakujące, itd.).

218 Skale kontrolne MMPI Skala L była przeznaczona do diagnozowania dysymulacji i została zbudowana z pozycji opisujących zachowania społecznie pożądane, ale występujące rzadko u przeciętnej osoby. Uważa się, że diagnozuje ona tzw. naiwną tendencję do dysymulowania. Skala K była przeznaczona do diagnozowania tendencji do przedstawiania nadmiernie pozytywnego obrazu siebie, ale zbudowano ją kryterialnie, wyodrębniając pozycje różnicujące grupę osób zdrowych oraz osób chorych o normalnym profilu, które podejrzewano zatem o dysymulację. Obu skalom przypisywano funkcję zmiennych tłumiących, a zatem prowadzących do uzyskania przez osobę nieprawdziwie normalnego profilu.

219 Skale kontrolne MMPI Skala F miała wykrywać tendencję do udzielania odpowiedzi nieuważnych i nieprzemyślanych. Wybrano do niej pozycje, które były bardzo rzadko potwierdzane w próbie normalizacyjnej. Pozycje te miały jednak charakter kliniczny i opisywały niezwykłe zachowania, z których każde stawiało osobę badaną w niekorzystnym świetle. Faktycznie zatem skala nieuważności zaczęła pełnić rolę skali symulacji. Ostatnia skala badała tendencję do wybierania odpowiedzi pośrednich (?, czyli odpowiedzi nie potrafię powiedzieć ). Jej wyniki obliczono jako liczbę odpowiedzi pośrednich na wszystkie pozycje MMPI. Miała ona diagnozować styl odpowiadania, wynikający z nadmiernej ostrożności czy niezdecydowania, a prowadzący do obniżenia wyników skal klinicznych.

220 Skale kontrolne MMPI-II II wersja MMPI zawiera aż 9 skal kontrolnych - obok czterech tradycyjnych skal kontrolnych (?, L, F i K), wprowadzono aż pięć dalszych: VRIN, TRIN, F(b), F(p) oraz S. Skala VRIN (Variable Response Inconsistency) pozwala na ocenę zmienności odpowiedzi na zbiór, opozycyjnych w treści, par pozycji wysoki wynik w tej skali, oznaczający udzielenie tej samej odpowiedzi na oba stwierdzenia z każdej pary, pozwala na ocenę niekonsekwencji odpowiadania. Z kolei skala TRIN (True Response Inconsistency) bazuje na liczbie odpowiedzi konfirmacyjnych na oba stwierdzenia pary i informuje o tendencji do zgadzania się, podczas gdy liczba odpowiedzi negujących - o tendencji do zaprzeczania.

221 Skale kontrolne MMPI-II Skala F(b) (Inpatient Psychopathology Scale) została zbudowana na końcowych pozycjach inwentarza MMPI-2 i jako wariant skali F - pozwala na ocenę losowości odpowiedzi, następującej w efekcie zmęczenia i utraty motywacji, przy wypełnianiu tego długiego inwentarza. Z kolei skala F(p) (Inpatient Psychopathology Scale) bada tendencję do symulowania u osób, wykazujących zaburzenia psychiczne. Wreszcie skala S (Superlative Self- Presentation Scale) pozwala na ocenę bardziej wyrafinowanej formy dysymulowania niż tradycyjnie stosowana skala K wraz z pięcioma szczegółowymi komponentami tej tendencji.

222 Skale kontrolne 16 PF-V W 5. edycji 16 PF wprowadzono trzy skale kontrolne: aprobaty społecznej (w wersji skali do badania sprawiania wrażenia ), tendencji do zgadzania się oraz tendencji do udzielania odpowiedzi przypadkowych (ang. infrequency). Tendencja do udzielania odpowiedzi przypadkowych ( strzelania ) jest diagnozowana na podstawie wybierania przez osobę badaną szczególnie rzadko zaznaczanych w całej próbie opcji odpowiedzi (z trójstopniowej skali) na pulę pozycji treściowych (zliczana jest suma wybranych takich opcji w puli różnorodnych pozycji). Tendencja do zgadzania się jest oceniana na podstawie wybierania przez osobę badaną odpowiedzi potwierdzających na pozycje wybrane z różnych skal treściowych (zliczana jest suma odpowiedzi potakujących na pulę zróżnicowanych treściowo pozycji).

223 Skale kontrolne 16 PF-V Skala aprobaty zawiera pozycje, które nie są włączane do skal treściowych i diagnozuje uogólnioną tendencję do kierowania się aprobatą społeczną przy odpowiadaniu. Godnym uwagi jest także fakt, że w 5. edycji 16PF zmieniono nieco status skali rozumowania (B). Pozycje z tej skali zamieszczone są na końcu inwentarza, a sama skala staje się do pewnego stopnia skalą kontrolną. Służy ona nadal do oceny zdolności i jej wyniki są uwzględniane w profilu cech, tak jak w wersji pierwotnej. Jednocześnie jednak - poprzez badanie sprawności rozumowania na końcu kwestionariusza - informuje o zasobach uwagi, którymi dysponowała osoba badana po męczącej i długotrwałej pracy, związanej z wypełnieniem 16PF.

224 Zgadywanie - definicja Zgadywanie jest specyficznym czynnikiem zniekształcającym wyniki testów zdolności, związanym z udzielaniem odpowiedzi losowych, gdy badani nie znają właściwych odpowiedzi ( jak nie wiem, to będę strzelał ).

225 Kontrolowanie zgadywania a). poprzez instrukcję testową: wyrównywanie tendencji do zgadywania (zachęcanie do zgadywania) lub eliminowanie zgadywania (informacja o stosowaniu korekty wyników);

226 Kontrolowanie zgadywania b). zastosowanie statystycznej poprawki na zgadywanie: B K = P m - 1 gdzie K - liczba odpowiedzi bez zgadywania, P - liczba poprawnych odpowiedzi w teście, B - liczba błędnych odpowiedzi, m - liczba opcji odpowiedzi w zadaniach testowych.

227 Wykład 12 STRATEGIE KULTUROWEJ ADAPTACJI TESTÓW

228 Kulturowe korzenie testu Test jest tworzony w celu mierzenia określonej zmiennej psychologicznej na podstawie wyników badania specyficznej grupy osób (specyficznej ze względu na charakterystykę demograficzną oraz kulturę narodową). Wszystkie parametry psychometryczne testu jako całości (oraz pozycji testowych) są dostosowane do

229 Kulturowe korzenie testu specyfiki tej próby (określanej mianem próby oryginału ). Kiedy jednak test ma być użyty do badania grup o odmiennej charakterystyce demograficznej i kulturowej (określanej mianem próby adaptacji ), to musi zostać poddany adaptacji.

230 Kulturowa adaptacji testów Kulturowa adaptacja testu - przystosowanie wersji oryginalnej testu do innej specyfiki kulturowej. Adaptacja testu oznacza konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze adaptacji), w przeciwnym razie stosowanie takiego narzędzia prowadzi nieuchronnie do stronniczości: dyskryminacji albo faworyzacji kulturowej.

231 Pojęcie kultury Kroeber i Kluckhohn (1952): kultura polega na usystematyzowanych i ustalonych sposobach myślenia, odczuwania i reagowania, nabytych i przekazywanych głównie za pomocą symboli, stanowiących znamienne osiągnięcia grup ludzkich, włączając ich ucieleśnienie w wytworach materialnych; istotny trzon kultury stanowią tradycyjne (tzn. historycznie przekazane i wyselekcjonowane) idee, a przede wszystkim do tych idei przywiązywane wartości (s. 181; tłumaczenie za Olszewską-Dyoniziak, 1991).

232 Konsekwencje kulturowego uwarunkowania testowania Wszystkie formy ludzkiego zachowania są wyznaczane przez kulturę. Testy bazują na ocenie zachowania, a zatem testy mierzące określone cechy osobowe są dostosowane tylko do specyficznej kultury. Każde zastosowanie testów do badania osób z innej kultury wymaga rewizji testu (dopasowania testu do nowej kultury).

233 Cele adaptacji kulturowej testu Testy są adaptowane do dwóch celów: Porównań pomiędzy kulturami (stosunkowo rzadsze zastosowanie). Porównań wewnątrz każdej z kultur (test skonstruowany w kulturze oryginału ma być zastosowany do porównywania osób z kultury adaptacji).

234 Meandry kulturowej adaptacji testów Cattell culture-fair tests (testy niezależne kulturowo), później inni autorzy - testy zredukowane kulturowo. Faktycznie testy mogą być kulturowo specyficzne albo kulturowo wspólne (zuniwersalizowane), czy inaczej emikalne albo etikalne, bowiem roli kultury nie da się ograniczyć!

235 Aspekty równoważności kulturowo adaptowanych testów Aspekty równoważności kulturowej testu: a). równoważność teorii psychologicznych, b). równoważność wymiarów psychologicznych c). równoważność pojęć psychologicznych, d). równoważność wskaźników cech - zachowań, e). równoważność procedury badania.

236 Kryteria równoważności kulturowowo adaptowanych testów Kryteria równoważności testu: a). równoważność fasadowa (forma testu), b). równoważność psychometryczna (wskaźniki dobroci pomiaru), c). równoważność funkcjonalna (równoważność psychologiczna), d). wierność tłumaczenia, e). wierność rekonstrukcji.

237 Strategie kulturowej adaptacji testów Transkrypcja Translacja Trawestacja Parafraza Rekonstrukcja

238 Trankskrypcja Transkrypcja - maksymalnie wierne tłumaczenie oryginalnych pozycji (założenie, że zarówno konstrukty, jak i zachowania są uniwersalne czy inaczej równoważne kulturowo). Celem adaptacji jest dochowanie wierności tłumaczenia oraz wierności fasadowej testu. Adaptacje transkrypcyjne są "niezręczne" językowo i wykazują szereg wad psychometrycznych.

239 Translacja Translacja - wierne tłumaczenie finalnej puli oryginalnych pozycji, ale z możliwością wprowadzenia niezbędnych modyfikacji językowych (założenie, że konstrukty, jak i zachowania są uniwersalne kulturowo, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania).

240 Trawestacja Trawestacja - swobodne tłumaczenie oryginału z wprowadzaniem wielu modyfikacji, sugerowanych względami językowymi i psychologicznymi: treściowymi lub psychometrycznymi (założenie, że konstrukty psychologiczne są uniwersalne, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania i nie zawsze uniwersalne są same zachowania - część zachowań ma charakter emikalny). Trawestacja prowadzi do uzyskania dostosowanych do danej kultury formy testu, ale może się on różnić od oryginału.

241 Parafraza Parafraza - opracowanie nowego narzędzia, dla którego inspiracją jest test oryginalny. Pozycje oryginalne są wykorzystywane tylko częściowo, większość pozycji jest generowana na bazie pozycji oryginalnych (założenie, że konstrukty psychologiczne są uniwersalne kulturowo, ale z reguły nie są uniwersalne zachowania - tylko część z nich ma charakter etikalny, tj. równoważny kulturowo. Parafraza jest bardzo czasochłonna, ale prowadzi do uzyskania w pełni dostosowanych do danej kultury adaptacji testu.

242 Rekonstrukcja Rekonstrukcja - opracowanie całkowicie nowego narzędzia, dla którego inspiracją jest oryginalny model teoretyczny i strategia konstrukcji (założenie, że zachowania z reguły nie są uniwersalne kulturowo, ale możliwe że nie są uniwersalne również konstrukty psychologiczne). Rekonstrukcja może prowadzić do uzyskania innej niż oryginalna wersji testu i jest najbardziej czasochłonną strategią adaptacji, ale prowadzi do uzyskania całkowicie dostosowanych kulturowo wersji testu.

243 Adaptacja NEO-FFI (translacja) Analiza konstruktu teoretycznego oraz podjęcie decyzji o translacji (stanowisko uniwersalistyczne: uniwersalne kulturowo cechy osobowości oraz we wstępnej ocenie - równoważne kulturowo pozycje kwestionariuszowe) Uzyskanie zgody autorów: Paula T. Costy, Jr i Roberta R. McCrae na dokonanie polskiej translacji NEO-FFI Tłumaczenie wprost pozycji inwentarza: dwóch profesjonalnych tłumaczy (dodatkowe profesjonalne tłumaczenie wersji niemieckojęzycznej) Dyskusja grupowa ostatecznej wersji tłumaczenia Badanie zgodności odpowiedzi (grupa dwujęzyczna - studenci anglistyki) Poprawienie pozycji wykazujących odmienną charakterystykę w wersji polskiej i oryginalnej w grupie osób dwujęzycznych Ponowne badanie zgodności odpowiedzi (grupa dwujęzyczna - studenci anglistyki) Tłumaczenie zwrotne oraz uzyskanie akceptacji tłumaczenia od autorów oryginału Analiza własności psychometrycznych polskiej wersji inwentarza, zaplanowana jako weryfikacja czterech twierdzeń o własnościach cech osobowości: Uniwersalność cech - struktura czynnikowa pozycji oraz podstawowe parametry pomiaru i statystyki rozkładu wyników Biologiczność cech - współczynniki odziedziczalności cech Realność cech - porównanie zgodności samoopisu oraz szacowania cech Niezmienniczość cech - związki z innymi cechami osobowości: korelacje i analiza czynnikowa Ocena polskiej wersji NEO-FFI i porównanie z wersją oryginalną Opracowanie norm oraz podręcznika do polskiej wersji NEO-FFI

244 Adaptacja demograficzna testów Adaptacja demograficzna - przystosowanie testu przeznaczonego do badania określonej grupy do stosowania w innej grupie demograficznej. Adaptacja demograficzna testu, tak jak adaptacja kulturowa, oznacza konieczność wprowadzenia specjalnych procedur przystosowujących

245 Adaptacja demograficzna testów (decentrujących - uniwersalizujących lub centrujących na kulturze danej grupy), w przeciwnym razie stosowanie testu prowadzi nieuchronnie do stronniczości: dyskryminacji albo faworyzacji demograficznej (np. seksizmu).

246 Aspekty adaptacji demograficznej testów Płeć Wiek Niepełnosprawność Rasa Klasa społeczna (status społecznoekonomiczny)? Środowisko Podkultura?

247 Wykład 13 NORMALIZACJA WYNIKÓW TESTU

248 Normy i normalizacja Norma wg kryterium statystycznego jest zachowanie większości lub zachowanie średnie lub przeciętne. Normy zatem to ustalone wartości odniesienia dla wyników testowych opisują typowe poziomy wykonania testu. Normalizacja zaś jest zabiegiem wyznaczania norm.

249 Rodzaje norm Ze względu na sposób definiowania grupy odniesienia: normy generalne i normy lokalne. Ze względu na sposób ich konstrukcji: równoważnikowe (relatywizacja do wieku); normy wymagań (relatywizacja do zewnętrznego standardu wykonania); normy wewnątrzgrupowe - standardowe i rangowe (relatywizacja do typowego wykonania w grupie odniesienia).

250 Normy Normy testowe są niezbędne dla poprawnej interpretacji wyników testu. Wynik surowy jest nieinterpretowalny bez informacji o wynikach, otrzymanych przez osoby badane z odpowiedniej grupy odniesienia lub bez znajomości określonego standardu wykonania testu.

251 Wyniki progowe Wyniki progowe (punkty odsiewowe) są stosowane w podejściu zorientowanym na trafność kryterialną. Celem tych norm jest uzyskanie diagnozy jakościowej klasyfikacji osób badanych do jednej z dwóch (czy kilku) grup, skontrastowanych ze względu na określone kryterium. Punkty odsiewowe służą jako norma dla wyników testu wskazują co oznacza wysoki i niski wynik testu.

252 Ryc. 28. Grupy kontrastowe oraz punkty odsiewowe 0,5 Punkt odsiewowy 0, ,5-2 -1,5-1 -0,5 0 0,5 1 1,5 2 2,5 3

253 Wynik progowy Wynik progowy jest zazwyczaj wyrażany w formie, przykładowo 10/11 (najwyższy wynik w jednej grupie/najniższy wynik w drugiej grupie). Wynik progowy jest uzyskiwany poprzez krzywoliniową regresję jako punkt pozwalający na najlepsze zróżnicowanie obu grup: poniżej tego wyniku osoba badana ma mniej niż 50% szans, że należy do jednej grupy, zaś powyżej, że ma powyżej 50% szans na przynależność do drugiej grupy.

254 Ryc. 29. Krzywoliniowa relacja między wynikami testu a prawdopodobieństwem przynależności do danej grupy kontrastowej. 1 0,75 Wynik progowy 0,5 0, ,5-2 -1,5-1 -0,5 0 0,5 1 1,5 2 2,5 3

255 Wskaźniki trafności diagnozy na podstawie progów odsiewowych Diagnoza bazująca na progach odsiewowych powinna także być poddana walidacji: odsetek trafnych i błędnych diagnoz powinien być obliczony oraz szereg wskaźników trafności diagnozy (wrażliwość, specyficzność, pozytywna i negatywna wartość predykcyjna oraz ogólny wskaźnik błędnych klasyfikacji).

256 Rodzaje diagnoz Wskaźniki te wylicza się na podstawie liczby diagnoz prawdziwie negatywnych (osoby zdrowe zdiagnozowane jako zdrowe), prawdziwie pozytywnych (osoby chore zdiagnozowane jako chore), fałszywie pozytywnych (osoby zdrowe zdiagnozowane jako chore) oraz fałszywie negatywnych (osoby chore zdiagnozowane jako zdrowe).

257 Tabela 15. Rodzaje diagnoz kryterialnych Wynik testu Poniżej progu Powyżej progu Diagnoza medyczna Zdrowy Chory A B (diagnoza (diagnoza prawdziwie fałszywie negatywna) negatywna) C D (diagnoza (diagnoza fałszywie prawdziwie pozytywna) pozytywna)

258 Rodzaje wskaźników Ogólny wskaźnik błędnych klasyfikacji: liczba diagnoz fałszywych w stosunku do ogólnej liczby osób badanych, czyli B+C/(A+B+C+D) lub jego odwrotność wskaźnik poprawnych klasyfikacji: liczba diagnoz prawdziwych w stosunku do ogólnej liczby osób badanych, czyli A+D/(A+B+C+D);

259 Rodzaje wskaźników Wskaźnik specyficzności czy inaczej swoistości: proporcja osób z dolnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza do ogółu osób z tej grupy, np. liczba osób zdrowych trafnie ocenionych jako zdrowe w stosunku do ogólnej liczby zdrowych, czyli A/(A+C);

260 Rodzaje wskaźników Wskaźnik wrażliwości czy inaczej czułości: proporcja osób z górnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza do ogółu osób z tej grupy kontrastowej, np. liczba osób chorych trafnie ocenionych jako chore w stosunku do ogólnej liczby osób chorych, czyli D/(B+D);

261 Rodzaje wskaźników Wskaźnik pozytywnej wartości predykcyjnej: proporcja osób z górnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza do ogółu osób zakwalifikowanych do tej grupy na podstawie inwentarza, np. liczba osób chorych trafnie ocenionych jako chore w stosunku do ogólnej liczby osób ocenionych jako chore na podstawie inwentarza, czyli D/(C+D).

262 Rodzaje wskaźników Wskaźnik negatywnej wartości predykcyjnej: proporcja osób z dolnej grupy kontrastowej poprawnie zakwalifikowanych na postawie wyników inwentarza w stosunku do ogółu osób zakwalifikowanych do tej grupy na podstawie inwentarza, np. liczba osób zdrowych trafnie ocenionych jako zdrowe w stosunku do ogólnej liczby osób ocenionych jako zdrowe na podstawie inwentarza, czyli A/(A+B).

263 Tabela 16. Pojęcie wskaźników trafności. Test/kryterium Kryterium Zdrowy A Wynik testu - (diagnoza poniżej progu prawdziwie negatywna) C Wynik testu - (diagnoza powyżej fałszywie progu pozytywna) Wskaźniki S = kryterium A/(A+C) Kryterium - Chory B (diagnoza fałszywie negatywna) D (diagnoza prawdziwie pozytywna) W = D/(B+D) Wskaźniki - test NWP = A/(A+B) PWP = D/(C+D) Ogólne wskaźniki

264 Tabela 17. Wskaźniki dla testu o doskonałej trafności pomiaru. Test/kryterium Kryterium Zdrowy Kryterium - Chory Wskaźniki - test Wynik testu - A = 50 B = 0 NWP = 100% poniżej progu Wynik testu - C = 0 D = 50 PWP = 100% powyżej progu Wskaźniki kryterium S = 100% W = 100% Ogółem 100%

265 Ocena wskaźników Wskaźniki te wskazują w jakim obszarze diagnozy test wykazuje obniżoną trafność, np. może dobrze diagnozować osoby zdrowe o niskich wynikach, ale mylić się w obszarze wyników wysokich, typowych dla osób chorych (ale uzyskiwanych często także przez osoby zdrowe). Efekty te zależą od charakterystyki rozkładu wyników w obu grupach kryterialnych.

266 Ryc. 30. Odmienny rozkład wyników w grupach kontrastowych 0,5 Punkt odsiewowy 0, ,5-2 -1,5-1 -0,5 0 0,5 1 1,5 2 2,5 3

267 Tabela 18. Wskaźniki dla testu zbyt szeroko definiującego zaburzenie (Ryc. 30). Test/kryterium Kryterium Zdrowy Kryterium - Chory Wskaźniki - test Wynik testu - A = 25 B = 0 NWP = 100% poniżej progu Wynik testu - C = 25 D = 50 PWP = 67% powyżej progu Wskaźniki kryterium S = 50% W = 100% Ogółem 75%

268 Tabela 19. Wskaźniki dla testu zbyt wąsko definiującego zaburzenie (odwrotność Ryc. 30). Test/kryterium Kryterium Zdrowy Kryterium - Chory Wskaźniki - test Wynik testu - A = 50 B = 25 NWP = 67% poniżej progu Wynik testu - C = 0 D = 25 PWP = 100% powyżej progu Wskaźniki kryterium S = 100% W = 50% Ogółem 75%

269 Konsekwencje zmiany progu W celu poprawy danego wskaźnika wyniki progowe można przesuwać w stronę wysokich wyników testu (obniżenie liczby diagnoz fałszywie pozytywnych) lub w stronę wyników niskich (obniżenie liczby diagnoz fałszywie negatywnych). Podjęcie takiej decyzji zależy od konsekwencji błędu danego rodzaju. Należy jednak pamiętać, że w każdym wypadku pogarsza się wtedy wskaźnik odwrotny.

270 Pechowy wynik 13 punktów - problem z progami odsiewowymi Ze statystycznego punktu widzenia jest mało prawdopodobne, aby wynik progowy był stabilny w różnych grupach. Zostało to wykazane empirycznie z zastosowaniem inwentarza General Health Questionnaire (GHQ; Goldberg i Williams, 1988; Instytut Medycyny Pracy, 2001). Oznaczałoby to bowiem, że każdorazowo grupy kontrastowe musiałyby być wyodrębniane według identycznego systemu klasyfikacji oraz uzyskiwać bardzo zbliżone wyniki w danej skali albo też, że relacja między wynikiem testu a kryterium ma charakter krzywoliniowy i po przekroczeniu wyznaczonego wyniku progowego

271 Pechowy wynik 13 punktów - problem z progami odsiewowymi następuje nieliniowy przyrost predykcji. Z tego względu należy raczej wyznaczać pasmo progowe wyników niż jednostkowe wyniki progowe. Ryzyko podważenia znaczenia jednostkowego wyniku progowego ilustruje historia badań z zastosowaniem skali Wrogości Ho, zbudowanej kryterialnie z pozycji kwestionariusza MMPI (ang. Cook-Medley Hostility Scale). W opublikowanych w 1983 roku badaniach Barefoot, Dahlstrom i Williams (polskie tłumaczenie ) wykazali, że skala ta pozwala na predykcję zgonu z powodu chorób serca u lekarzy po 25 latach od daty badania. Autorzy wskazali, że ryzyko to jest

272 Pechowy wynik 13 punktów - problem z progami odsiewowymi szczególnie duże u osób, które uzyskały wynik powyżej 13 punktów (choć relacja między wynikami inwentarza a liczbą zgonów miała charakter prostoliniowy). Od tego czasu wartości liczbowej 13 punktów w skali Wrogości zaczęto przypisywać niemal magiczne znaczenie. Niestety, w toku dalszych badań za krytyczny zaczęto uznawać wynik 10 punktów (Shekelle, Gale, Ostfeld i Oglesby, 1983), zaś kolejne studia (McCranie, Watkins, Brandsma i Sisson, 1986) doprowadziły do całkowitego podważenia wszystkich tych ustaleń, wskutek fascynująca teoria pechowego 13 punktu upadła.

273 Normy bazujące na rozkładzie wyników testu Celem norm opartych na rozkładzie wyników w grupie normalizacyjnej jest uzyskanie diagnozy ilościowej ocena intensywności mierzonej cechy (jako własności różnicowej w grupie odniesienia). Istnieją dwa rodzaje norm: normy rangowe (porządkowa skala pomiarowa) oraz skale standaryzowane (przedziałowa skala pomiarowa).

274 Normy rangowe: skala centylowa Skala centylowa jest wybierana, gdy rozkład wyników testu znacznie odbiega od rozkładu normalnego (rozkład jest asymetryczny, ma nieprawidłową gęstość i nie może być przetransformowany w rozkład normalny). Punktem odniesienia (standardem wykonania testu) jest mediana centyle wskazują na częstość uzyskania danego wyniku w grupie normalizacyjnej.

275 Charakterystyka skali centylowej Rozkład po transformacji wyników surowych = prostokątny ( uskokowniony ) Mediana = 50 Liczba jednostek skali = 101 centyli Zakres = od 0 do 100 centyla Skok skali = 1 centyl (1% wyników, poza centylami krańcowymi - 0 oraz 100, które obejmują po 0,5% obserwacji)

276 Zalety i wady skali centylowej Zaleta: Łatwość zrozumienia znaczenia wyniku, zwłaszcza dla osób badanych. Wada: Centyle prowadzą do nadszacowania różnic interindywidualnych w obszarze blisko średniej oraz niedoszacowania zmienności na krańcach rozkładu (zaburzają ocenę faktycznej zmienności).

277 Skale standardowe bazujące na rozkładzie normalnym Normy wyników testu bazujące na rozkładzie normalnym wymagają transformacji wyników surowych na skale standardowe. Skale te umożliwiają osiągnięcie zasadniczego celu pomiaru psychologicznego: ilościowej oceny na skali przedziałowej (wiele kategorii wyników oraz równe różnice między nimi dla całego wymiaru).

278 Cel transformacji wyników surowych na skale standardowe Poprawna interpretacja wyniku indywidualnego (ocena intensywności cechy); Porównania różnic intraindywidualnych w wynikach testu (intensywność różnych cech u jednej osoby badanej); Porównania różnic interindywidualnych w wynikach testu (intensywność danej cechy u różnych osób badanych).

279 Rodzaje skal standardowych a). Znormalizowana skala ciągła jednostki "z", b). znormalizowane skale uskokowione: dzielące rozkład wg średniej (-) skala stenowa obejmujące wartość średniej (-) skala staninowa (-) skala tetronowa (-) skala wyników przeliczonych (WAIS-R) (-) skala tenowa (-) skala dewiacyjnego ilorazu inteligencji

280 Skala jednostek znormalizowanych z Rozkład po transformacji wyników surowych = normalny ( ciągły ) Średnia = 0,0 Odchylenie standardowe = 1,0 Skok skali = praktycznie 0,01 Różnicowanie = dowolny zakres Przeznaczenie = skala podstawowa, stanowiąca punkt wyjścia do transformacji wyników surowych na inne skale znormalizowane

281 Formuła transformacyjna y = zs y + M y gdzie y - wynik w znormalizowanej skali standardowej, z - znormalizowany wynik standardowy, S y - odchylenie standardowe danej skali standardowej, M y - średnia wyników danej skali standardowej)

282 Skala stenowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 5,5 (między 5 a 6 stenem) Odchylenie standardowe = 2,0 Liczba jednostek skali = 10 stenów Zakres = od 1 do 10 stena Skok skali = 1 sten (0,5 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -2 do +2 jednostek znormalizowanych z (steny krańcowe powyżej 2 S) Przeznaczenie = różnicowanie w obrębie normy

283 Skala staninowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 5,0 (obejmuje średnią) Odchylenie standardowe = 2,0 Liczba jednostek skali = 9 stanin Zakres = od 1 do 9 stanina Skok skali = 1 stanin (0,5 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -1,75 do +1,75 jednostek znormalizowanych z (staniny krańcowe powyżej 1,75 S) Przeznaczenie = różnicowanie w obrębie normy

284 Skala tetronowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 10,0 (obejmuje średnią) Odchylenie standardowe = 4,0 Liczba jednostek skali = 21 tetronów Zakres = od 0 do 20 tetrona Skok skali = 1 tetron (0,25 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -2,325 do +2,325 jednostek znormalizowanych z (tetrony krańcowe powyżej 2,325 S) Przeznaczenie = różnicowanie w obrębie normy i patologii

285 Skala tenowa Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 50 (obejmuje średnią) Odchylenie standardowe = 10,0 Liczba jednostek skali = 100 tenów Zakres = od 1 do 100 tena Skok skali = 1 ten (0,1 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości od -5 do +5 jednostek znormalizowanych z (teny krańcowe powyżej 5 S) Przeznaczenie = różnicowanie w obrębie normy i patologii

286 Skala dewiacyjnego ilorazu inteligencji Rozkład po transformacji wyników surowych = normalny ( uskokowiony ) Średnia = 100,0 (obejmuje średnią) Odchylenie standardowe = 15,0 Liczba jednostek skali = 200 jednostek II Zakres = od 0 do 200 jednostek II Skok skali = jednostka II (1/15 odchylenia standardowego jednostek znormalizowanych z ) Różnicowanie = wartości praktycznie od -6 do +6 jednostek znormalizowanych z (jednostki krańcowe powyżej 6 S) Przeznaczenie = różnicowanie w obrębie normy i patologii

287

Psychometria. klasyczna teoria rzetelności testu. trafność. Co wyniki testu mówią nam o samym teście? B. Trafność pomiaru testem.

Psychometria. klasyczna teoria rzetelności testu. trafność. Co wyniki testu mówią nam o samym teście? B. Trafność pomiaru testem. Psychometria Co wyniki testu mówią nam o samym teście? B. Trafność pomiaru testem. klasyczna teoria rzetelności testu W6 dr Łukasz Michalczyk Trafność czy udało się zmierzyć to, co zamierzaliśmy zmierzyć

Bardziej szczegółowo

7. Trafność pomiaru testowego

7. Trafność pomiaru testowego 7. Trafność pomiaru testowego v Pojęcie trafności testu v Rodzaje trafności v Metody szacowania trafności treściowej i kryterialnej v Metody szacowania trafności teoretycznej Przesunięcie akcentu z pojęcia

Bardziej szczegółowo

Trafność czyli określanie obszaru zastosowania testu

Trafność czyli określanie obszaru zastosowania testu Trafność czyli określanie obszaru zastosowania testu Trafność jest to dokładność z jaką test mierzy to, co ma mierzyć Trafność jest to stopień, w jakim test jest w stanie osiągnąć stawiane mu cele Trafność

Bardziej szczegółowo

Metodologia badań psychologicznych. Wykład 4 Testy

Metodologia badań psychologicznych. Wykład 4 Testy Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Wykład 4 Testy Definicja testu Pierwszy test- James McKeen Cattell w 1890r. (mental test and measurements) test do badania zdolności

Bardziej szczegółowo

Czynniki zniekształcające wyniki testowe

Czynniki zniekształcające wyniki testowe Czynniki zniekształcające wyniki testowe Na wyniki testowe wpływają nie tylko zmienne treściowe - określone rodzaje zdolności czy cech osobowości. Wyniki testowe mogą też być zniekształcane przez określone

Bardziej szczegółowo

15. PODSUMOWANIE ZAJĘĆ

15. PODSUMOWANIE ZAJĘĆ 15. PODSUMOWANIE ZAJĘĆ Efekty kształcenia: wiedza, umiejętności, kompetencje społeczne Przedmiotowe efekty kształcenia Pytania i zagadnienia egzaminacyjne EFEKTY KSZTAŁCENIA WIEDZA Wykazuje się gruntowną

Bardziej szczegółowo

Standardowe techniki diagnostyczne

Standardowe techniki diagnostyczne Wydział Psychologii Uniwersytetu Warszawskiego Standardowe techniki diagnostyczne Zajęcia nr 13: Pomiar stylów radzenia sobie ze stresem Mgr Karolina Stala Co powinno znaleźć się w raporcie zbiorczym?

Bardziej szczegółowo

1. TESTY PSYCHOLOGICZNE

1. TESTY PSYCHOLOGICZNE 1. TESTY PSYCHOLOGICZNE 1. pojęcie testu psychologicznego 2. zastosowanie 3. podstawowe wymogi (standaryzacja, obiektywność, rzetelność, trafność, normalizacja) 4. cecha psychologiczna w ujęciu psychologicznym

Bardziej szczegółowo

Definicja testu psychologicznego

Definicja testu psychologicznego Definicja testu psychologicznego Badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu jakim jest jej ocena. Jest to sytuacja tworzona specjalnie dla celów diagnostycznych,

Bardziej szczegółowo

10. Podstawowe wskaźniki psychometryczne

10. Podstawowe wskaźniki psychometryczne 10. Podstawowe wskaźniki psychometryczne q analiza własności pozycji testowych q metody szacowania mocy dyskryminacyjnej q stronniczość pozycji testowych q własności pozycji testowych a kształt rozkładu

Bardziej szczegółowo

ćwiczenia 30 zaliczenie z oceną

ćwiczenia 30 zaliczenie z oceną Wydział: Psychologia Nazwa kierunku kształcenia: Psychologia Rodzaj przedmiotu: podstawowy Opiekun: dr Krzysztof Fronczyk Poziom studiów (I lub II stopnia): Jednolite magisterskie Tryb studiów: Stacjonarne

Bardziej szczegółowo

Psychometria. Testy Psychologiczne. Test Psychologiczny. Test Psychologiczny. Test Psychologiczny (wg APA) Test Psychologiczny. Test Psychologiczny

Psychometria. Testy Psychologiczne. Test Psychologiczny. Test Psychologiczny. Test Psychologiczny (wg APA) Test Psychologiczny. Test Psychologiczny Psychometria Testy Psychologiczne W 2 Nie wiemy czy mierzone cechy, stany czy postawy istnieją w rzeczywistości, bo nie mamy do nich bezpośredniego dostępu. Dlatego nazywane są też zmiennymi lub konstruktami,

Bardziej szczegółowo

Kognitywistyka II r. Teorie inteligencji i sposoby jej pomiaru (2) Racjonalny vs empiryczny sposób konstrukcji testu

Kognitywistyka II r. Teorie inteligencji i sposoby jej pomiaru (2) Racjonalny vs empiryczny sposób konstrukcji testu Kognitywistyka II r Teorie inteligencji i sposoby jej pomiaru (2) Racjonalny vs empiryczny sposób konstrukcji testu Strategie konstruowania testów Strategia teoretyczna Celem strategii teoretycznej jest

Bardziej szczegółowo

13. Interpretacja wyników testowych

13. Interpretacja wyników testowych 13. Interpretacja wyników testowych q testowanie a diagnozowanie psychologiczne q interpretacja wyników testu q interpretacja kliniczna a statystyczna q interpretacja ukierunkowana na kryteria lub normy

Bardziej szczegółowo

Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU

Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU Rodzaje testów Testy wiedza umiejętności zdolności właściwości poznawcze właściwości afektywne uczucia postawy osobowość emocje wierzenia istnieje odpowiedź prawidłowa autoekspresja brak odpowiedzi prawidłowej

Bardziej szczegółowo

Kognitywistyka II r. Terminy wykładów. Literatura - psychometria. Teorie inteligencji i sposoby jej pomiaru (1)

Kognitywistyka II r. Terminy wykładów. Literatura - psychometria. Teorie inteligencji i sposoby jej pomiaru (1) Kognitywistyka II r Teorie inteligencji i sposoby jej pomiaru (1) Terminy wykładów 13. 03. 2008 27. 03. 2008 03. 04. 2008 17. 04. 2008 24. 04. 2008 08. 05. 2008 15. 05. 2008 29. 05. 2008 05. 06. 2008 12.

Bardziej szczegółowo

5. WNIOSKOWANIE PSYCHOMETRYCZNE

5. WNIOSKOWANIE PSYCHOMETRYCZNE 5. WNIOSKOWANIE PSYCHOMETRYCZNE Model klasyczny Gulliksena Wynik otrzymany i prawdziwy Błąd pomiaru Rzetelność pomiaru testem Standardowy błąd pomiaru Błąd estymacji wyniku prawdziwego Teoria Odpowiadania

Bardziej szczegółowo

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY definicja rzetelności błąd pomiaru: systematyczny i losowy Psychometria Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. rozkład X + błąd losowy rozkład X rozkład X + błąd systematyczny

Bardziej szczegółowo

EFEKTYWNOŚĆ STOSOWANIA TESTÓW W BIZNESIE. dr Victor Wekselberg Dyrektor Działu Doradztwa Organizacyjnego w Instytucie Rozwoju Biznesu

EFEKTYWNOŚĆ STOSOWANIA TESTÓW W BIZNESIE. dr Victor Wekselberg Dyrektor Działu Doradztwa Organizacyjnego w Instytucie Rozwoju Biznesu EFEKTYWNOŚĆ STOSOWANIA TESTÓW W BIZNESIE dr Victor Wekselberg Dyrektor Działu Doradztwa Organizacyjnego w Instytucie Rozwoju Biznesu ZAWARTOŚĆ PREZENTACJI 1. Kilka wyników z badania ankietowego Instytutu

Bardziej szczegółowo

Metodologia badań psychologicznych

Metodologia badań psychologicznych Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Psychologia jako nauka empiryczna Wprowadzenie pojęć Wykład 5 Cele badań naukowych 1. Opis- (funkcja deskryptywna) procedura definiowania

Bardziej szczegółowo

Kognitywistyka II r. Analiza zadań. Rodzaje testów. Teorie inteligencji i sposoby jej pomiaru (3) Testy. istnieje odpowiedź prawidłowa

Kognitywistyka II r. Analiza zadań. Rodzaje testów. Teorie inteligencji i sposoby jej pomiaru (3) Testy. istnieje odpowiedź prawidłowa Kognitywistyka II r Teorie inteligencji i sposoby jej pomiaru (3) Analiza zadań Rodzaje testów Testy wiedza umiejętności zdolności właściwości poznawcze właściwości afektywne uczucia postawy osobowość

Bardziej szczegółowo

Klasyczny model rzetelności H. Gulliksen (1950) X = T +E

Klasyczny model rzetelności H. Gulliksen (1950) X = T +E Klasyczny model rzetelności H. Gulliksen (1950) gdzie: X = wynik obserwowany T = wynik prawdziwy E = błąd pomiaru X = T +E Założenia: (1) M E = 0 (założenie o nieobciążoności narzędzia pomiarowego) ()

Bardziej szczegółowo

Psychometria. zgadywanie. Co testy mówią nam o właściwościach osób badanych? Jak temu zaradzić? Co testy mówią nam o właściwościach osób badanych?

Psychometria. zgadywanie. Co testy mówią nam o właściwościach osób badanych? Jak temu zaradzić? Co testy mówią nam o właściwościach osób badanych? Psychometria W9 dr Łukasz Michalczyk - poprzez instrukcję testową - zachęcanie do zgadywania (by wyrównać tendencje do zgadywania) - zastosowanie statystycznej poprawki na zgadywanie Definicja: zgadywanie

Bardziej szczegółowo

Pięcioczynnikowy model osobowości Wielka Piątka

Pięcioczynnikowy model osobowości Wielka Piątka OSOBOWOŚĆ Pięcioczynnikowy model osobowości Wielka Piątka Jak powstała koncepcja Wielkiej Piątki? Poszukiwania podstawowych wymiarów osobowości: - leksykalne badania Allporta i Odberta, w wyniku których

Bardziej szczegółowo

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015 Krakowska Akademia im. Andrzeja Frycza Modrzewskiego Karta przedmiotu obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 014/015 WydziałPsychologii i Nauk Humanistycznych Kierunek studiów:

Bardziej szczegółowo

SYLABUS/ OPIS PRZEDMIOTU

SYLABUS/ OPIS PRZEDMIOTU 1. Nazwa przedmiotu w języku polskim SYLABUS/ OPIS PRZEDMIOTU Metody diagnozy inwentarze osobowości 2. Nazwa przedmiotu w języku angielskim Methods of diagnosis - personality inventories 3. Jednostka prowadząca

Bardziej szczegółowo

12. Problemy kulturowej adaptacji testów

12. Problemy kulturowej adaptacji testów 12. Problemy kulturowej adaptacji testów v rodzaje adaptacji v adaptacja demograficzna v kryteria oceny adaptacji testów v kryteria równoważności testów Kulturowa adaptacja testów -przystosowanie wersji

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 14 grudnia 2014 Metodologia i metoda badawcza Metodologia Zadania metodologii Metodologia nauka

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 23 października 2016 Metodologia i metoda naukowa 1 Metodologia Metodologia nauka o metodach nauki

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

Copyright 2015 by Wydawnictwo Naukowe Scholar Spółka z o.o. Warszawa

Copyright 2015 by Wydawnictwo Naukowe Scholar Spółka z o.o. Warszawa Warszawa 2015 Recenzje: prof. dr hab. Anna Matczak prof. dr hab. Bogdan Zawadzki Opracowanie naukowo-techniczne: Martyna Mikulska Redaktor prowadząca: Anna Raciborska Redakcja: Magdalena Pluta Korekta:

Bardziej szczegółowo

Trafność egzaminów w kontekście metody EWD

Trafność egzaminów w kontekście metody EWD Trafność egzaminów w kontekście metody EWD Aleksandra Jasińska (a.jasinska@ibe.edu.pl) Tomasz Żółtak (t.zoltak@ibe.edu.pl) Instytut Badań Edukacyjnych ul. Górczewska 8 01-180 Warszawa JESIENNA SZKOŁA EWD

Bardziej szczegółowo

Psychologia RóŜnic Indywidualnych Funkcjonalne znaczenie temperamentu Zajęcia 2 Katarzyna Popek

Psychologia RóŜnic Indywidualnych Funkcjonalne znaczenie temperamentu Zajęcia 2 Katarzyna Popek Psychologia RóŜnic Indywidualnych Funkcjonalne znaczenie temperamentu Zajęcia 2 Katarzyna Popek Przeznaczony do badania osób w wieku 15 80 lat, obojga płci Nie istnieją wersje oboczne, przeznaczone do

Bardziej szczegółowo

(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel)

(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel) TEST PSYCHOLOGICZNY/ PEDAGOGICZNY (narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel) 1. Jest narzędziem diagnostycznym posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego

Bardziej szczegółowo

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz

Bardziej szczegółowo

Księgarnia PWN: Magdalena Śmieja, Jarosław Orzechowski (red.) - Inteligencja emocjonalna. Spis treści

Księgarnia PWN: Magdalena Śmieja, Jarosław Orzechowski (red.) - Inteligencja emocjonalna. Spis treści Księgarnia PWN: Magdalena Śmieja, Jarosław Orzechowski (red.) - Inteligencja emocjonalna Spis treści Wprowadzenie (Magdalena Śmieja, Jarosław Orzechowski)....... 11 Część I. Teoria 1. Inteligencja emocjonalna:

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny Zjawisko dopasowania w sytuacji komunikacyjnej Patrycja Świeczkowska Michał Woźny 0.0.0 pomiar nastroju Przeprowadzone badania miały na celu ustalenie, w jaki sposób rozmówcy dopasowują się do siebie nawzajem.

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Pomiar gotowości szkolnej uczniów za pomocą skali quasi-obserwacyjnej

Pomiar gotowości szkolnej uczniów za pomocą skali quasi-obserwacyjnej Centralna Komisja Egzaminacyjna Pomiar gotowości szkolnej uczniów za pomocą skali quasi-obserwacyjnej Aleksandra Jasioska Zespół badawczy EWD, Centralna Komisja Egzaminacyjna Instytut Badao Edukacyjnych

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Wydział Nauk Ekonomicznych UW Warszawa, 28 października 2014 Najważniejsze rodzaje badań Typy badań Podział wg celu badawczego Kryteria przyczynowości

Bardziej szczegółowo

DOROTA BIŁYJ Wrocław IWONA BOGUSZ Olsztyn AGATA BRONIKOWSKA Warszawa MAŁGORZATA GAŁKIEWICZ Bydgoszcz PAWEŁ HOROWSKI Bełchatów CZESŁAW JAROSZ Łomża

DOROTA BIŁYJ Wrocław IWONA BOGUSZ Olsztyn AGATA BRONIKOWSKA Warszawa MAŁGORZATA GAŁKIEWICZ Bydgoszcz PAWEŁ HOROWSKI Bełchatów CZESŁAW JAROSZ Łomża DOROTA BIŁYJ Wrocław IWONA BOGUSZ Olsztyn AGATA BRONIKOWSKA Warszawa MAŁGORZATA GAŁKIEWICZ Bydgoszcz PAWEŁ HOROWSKI Bełchatów CZESŁAW JAROSZ Łomża BARBARA JUNAK-BŁĘDOWSKA Radom DARIA KUDOSZ Zielona Góra

Bardziej szczegółowo

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Kontekstowe wskaźniki efektywności nauczania - warsztaty Kontekstowe wskaźniki efektywności nauczania - warsztaty Przygotowała: Aleksandra Jasińska (a.jasinska@ibe.edu.pl) wykorzystując materiały Zespołu EWD Czy dobrze uczymy? Metody oceny efektywności nauczania

Bardziej szczegółowo

Psychometria. Psychometria. Co wyniki testu mówią nam o samym teście? Co wyniki testu mówią nam o samym teście?

Psychometria. Psychometria. Co wyniki testu mówią nam o samym teście? Co wyniki testu mówią nam o samym teście? Psychometria Co wyniki mówią nam o samym teście? C. Właściwości sychometryczne ozycji testowych. W7 dr Łukasz Michalczyk związkie ozycji testowych z testem ojmowanym jako całość Test jako narzędzie obejmuje

Bardziej szczegółowo

DLACZEGO TRZEBA ADAPTOWAĆ TESTY?

DLACZEGO TRZEBA ADAPTOWAĆ TESTY? DLACZEGO TRZEBA ADAPTOWAĆ TESTY? Prof. dr hab. Anna Matczak Pracownia Testów Psychologicznych PTP Definicja Adaptacja kulturowa testu to przystosowanie jego oryginalnej wersji do innej specyfiki kulturowej,

Bardziej szczegółowo

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór. L a b o r a t o r i u m S P S S S t r o n a 1 W zbiorze Pytania zamieszczono odpowiedzi 25 opiekunów dzieci w wieku 8. lat na następujące pytania 1 : P1. Dziecko nie reaguje na bieżące uwagi opiekuna gdy

Bardziej szczegółowo

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej, Szacownie nieznanych wartości parametrów (średniej arytmetycznej, odchylenia standardowego, itd.) w populacji generalnej na postawie wartości tych miar otrzymanych w próbie (punktowa, przedziałowa) Weryfikacja

Bardziej szczegółowo

X SPOTKANIE EKSPERCKIE. System ocen pracowniczych metodą 360 stopni

X SPOTKANIE EKSPERCKIE. System ocen pracowniczych metodą 360 stopni X SPOTKANIE EKSPERCKIE System ocen pracowniczych metodą 360 stopni Warszawa, 16.09.2011 Ocena wieloźródłowa od koncepcji do rezultatów badania dr Anna Bugalska Najlepsze praktyki Instytutu Rozwoju Biznesu

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów

Bardziej szczegółowo

SEGMENTACJA RYNKU A TYPY MARKETINGU

SEGMENTACJA RYNKU A TYPY MARKETINGU SEGMENTACJA SEGMENTACJA...... to proces podziału rynku na podstawie określonych kryteriów na względnie homogeniczne rynki cząstkowe (względnie jednorodne grupy konsumentów) nazywane SEGMENTAMI, które wyznaczają

Bardziej szczegółowo

Zadania ze statystyki cz.8. Zadanie 1.

Zadania ze statystyki cz.8. Zadanie 1. Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Zajęcia 1. Rzetelność

Zajęcia 1. Rzetelność Wzory Psychometria Zajęcia 1. Rzetelność 1950 Guliksen, za Spearmanem (1910) przyjmuje, że: t = T + e t wynik otrzymany T wynik prawdziwy pozycja danej osoby na kontinuum cechy (zdolności); przysługuje

Bardziej szczegółowo

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech TATYTYKA wykład 8 Wnioskowanie Weryfikacja hipotez Wanda Olech Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Procedura przeprowadzania egzaminu magisterskiego w Instytucie Psychologii (obowiązująca od roku akad. 2010/11):

Procedura przeprowadzania egzaminu magisterskiego w Instytucie Psychologii (obowiązująca od roku akad. 2010/11): Procedura przeprowadzania egzaminu magisterskiego w Instytucie Psychologii (obowiązująca od roku akad. 2010/11): 1.W trakcie egzaminu magisterskiego student otrzymuje trzy pytania główne: a. Recenzent

Bardziej szczegółowo

Badanie różnic indywidualnych w praktyce. 1100-PS36BRIWP-SJ. Wydział Pedagogiki i Psychologii Instytut Psychologii Psychologia

Badanie różnic indywidualnych w praktyce. 1100-PS36BRIWP-SJ. Wydział Pedagogiki i Psychologii Instytut Psychologii Psychologia Załącznik Nr 1 OPIS PRZEDMIOTU Kod przedmiotu 1100-PS36BRIWP-SJ Wydział Instytut/Katedra Kierunek Specjalizacja/specjalność Poziom organizacyjny studiów System studiów Wydział Pedagogiki i Psychologii

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Szacowanie wartości hodowlanej. Zarządzanie populacjami Szacowanie wartości hodowlanej Zarządzanie populacjami wartość hodowlana = wartość cechy? Tak! Przy h 2 =1 ? wybitny ojciec = wybitne dzieci Tak, gdy cecha wysokoodziedziczalna. Wartość hodowlana genetycznie

Bardziej szczegółowo

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną

Bardziej szczegółowo

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe) Proces badawczy schemat i zasady realizacji Agata Górny Demografia Wydział Nauk Ekonomicznych UW Warszawa, 4 listopada 2008 Najważniejsze rodzaje badań Typy badań Podział wg celu badawczego Badania eksploracyjne

Bardziej szczegółowo

3. DIAGNOZA PSYCHOLOGICZNA ZA POMOCĄ TESTÓW

3. DIAGNOZA PSYCHOLOGICZNA ZA POMOCĄ TESTÓW 3. DIAGNOZA PSYCHOLOGICZNA ZA POMOCĄ TESTÓW v Testowanie a diagnozowanie psychologiczne v Testowanie psychometryczne a diagnoza psychol. v Zalety testów psychologicznych v Proces wnioskowania psychometrycznego

Bardziej szczegółowo

Specyficzne wymagania diagnozy dzieci wielojęzycznych i odmiennych kulturowo

Specyficzne wymagania diagnozy dzieci wielojęzycznych i odmiennych kulturowo Specyficzne wymagania diagnozy dzieci wielojęzycznych i odmiennych kulturowo Diana Fecenec Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego Ośrodek Rozwoju Edukacji Warszawa, 22-23.05.2013

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

w pierwszym okresie nauki w gimnazjum

w pierwszym okresie nauki w gimnazjum Wojdedh Walczak Ośrodek Pedagogiczno-Wydawniczy CHEJRON w Łodzi Związek pomiędzy dwoma typami oceniania w podstawowej a wynikami osiąganymi przez uczniów w pierwszym okresie nauki w gimnazjum Wstęp Niniejsze

Bardziej szczegółowo

Cechy osobowości a style radzenia sobie ze stresem w okresie wczesnej starości. Ks. dr Paweł Brudek Instytut Psychologii KUL Jana Pawła II

Cechy osobowości a style radzenia sobie ze stresem w okresie wczesnej starości. Ks. dr Paweł Brudek Instytut Psychologii KUL Jana Pawła II Cechy osobowości a style radzenia sobie ze stresem w okresie wczesnej starości Ks. dr Paweł Brudek Instytut Psychologii KUL Jana Pawła II Starość wyzwaniem współczesności Demograficzne starzenie się społeczeństw

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Psychometria. Psychologia potoczna. Psychometria (z gr. psyche dusza, metria miara) Plan wykładów. Plan wykładów. Wprowadzenie w problematykę zajęć

Psychometria. Psychologia potoczna. Psychometria (z gr. psyche dusza, metria miara) Plan wykładów. Plan wykładów. Wprowadzenie w problematykę zajęć Psychometria Wprowadzenie w problematykę zajęć W 1 Psychologia potoczna potoczne przekonanie dotyczące natury ludzkiego zachowania wyrażające się w zdroworozsądkowych, intuicyjnych twierdzeniach. dr Łukasz

Bardziej szczegółowo

Metodologia badań psychologicznych " - tworzenie projektu badania" dr Magdalena Hyla

Metodologia badań psychologicznych  - tworzenie projektu badania dr Magdalena Hyla Metodologia badań psychologicznych " - tworzenie projektu badania" dr Magdalena Hyla Struktura procesu badawczego " w psychologii wg Brzezińskiego " Sformułowanie problemu badawczego Określenie obrazu

Bardziej szczegółowo

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Psychometria Test jako narzędzie diagnozy psychologicznej. Podstawowe pojęcia. W 3

Psychometria Test jako narzędzie diagnozy psychologicznej. Podstawowe pojęcia. W 3 Psychometria Test jako narzędzie diagnozy psychologicznej. Podstawowe pojęcia. W 3 dr Łukasz Michalczyk 1 Test Psychologiczny to narzędzie przeznaczone do pomiaru cech, stanów psychicznych lub postaw.

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Warszawa, dnia 12 maja 2017 r. Poz. 26 DECYZJA NR 87 KOMENDANTA GŁÓWNEGO STRAŻY GRANICZNEJ. z dnia 12 maja 2017 r.

Warszawa, dnia 12 maja 2017 r. Poz. 26 DECYZJA NR 87 KOMENDANTA GŁÓWNEGO STRAŻY GRANICZNEJ. z dnia 12 maja 2017 r. DZIENNIK URZĘDOWY KOMENDY GŁÓWNEJ STRAŻY GRANICZNEJ Warszawa, dnia 12 maja 2017 r. Poz. 26 DECYZJA NR 87 KOMENDANTA GŁÓWNEGO STRAŻY GRANICZNEJ z dnia 12 maja 2017 r. zmieniająca decyzję w sprawie określenia

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

S YL AB US MODUŁ U ( PRZEDMIOTU) I nforma cje ogólne

S YL AB US MODUŁ U ( PRZEDMIOTU) I nforma cje ogólne YL AB U MODUŁ U ( PRZEDMIOTU) I nforma cje ogólne Nazwa modułu: Psychometria Rodzaj modułu/przedmiotu Wydział PUM Kierunek studiów pecjalność - Poziom studiów Forma studiów Rok, semestr studiów np. rok

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną Wydział: Psychologia Nazwa kierunku kształcenia: Psychologia Rodzaj przedmiotu: podstawowy Opiekun: dr Joanna Piekarska Poziom studiów (I lub II stopnia): Jednolite magisterskie Tryb studiów: Niestacjonarne

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat Anna Rajfura 1 Przykład W celu porównania skuteczności wybranych herbicydów: A, B, C sprawdzano, czy masa chwastów na poletku zależy

Bardziej szczegółowo

Badania eksperymentalne

Badania eksperymentalne Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Liczba godzin Punkty ECTS Sposób zaliczenia

Liczba godzin Punkty ECTS Sposób zaliczenia Wydział: Prawo i Administracja Nazwa kierunku kształcenia: Administracja Rodzaj przedmiotu: podstawowy Opiekun: dr Tomasz Kopczyński Poziom studiów (I lub II stopnia): I stopnia Tryb studiów: Stacjonarne

Bardziej szczegółowo

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań

Bardziej szczegółowo

Raport z testu osobowościowego SOFTSkill

Raport z testu osobowościowego SOFTSkill Raport z testu osobowościowego SOFTSkill Sporządzony dla: HR 24 SP. Z O.O. / ŚCIŚLE POUFNE / Osoba badana: Jan Kowalski Data wykonania testu: 2012-07-20 Data sporządzenia raportu: 2012-07-25 i Informacje

Bardziej szczegółowo

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

Narzędzia stosowane do selekcji menedżerów w Polsce świat niewykorzystanych możliwości. dr Victor Wekselberg dr Diana Malinowska

Narzędzia stosowane do selekcji menedżerów w Polsce świat niewykorzystanych możliwości. dr Victor Wekselberg dr Diana Malinowska Narzędzia stosowane do selekcji menedżerów w Polsce świat niewykorzystanych możliwości dr Victor Wekselberg dr Diana Malinowska Plan wystąpienia istotne pytania 1. Jakie metody są używane w Polsce do selekcji

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo