Wykorzystywanie procedury sędziów kompetentnych w naukach społecznych i możliwości jej oceny psychometrycznej za pomocą narzędzi dostępnych w Statistica Oleg Gorbaniuk Katolicki Uniwersytet Lubelski Jana Pawła II Uniwersytet Zielonogórski Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 października 2016
Znaczenie badań jakościowych Badania jakościowe służą do pogłębiania wiedzy na temat danego zjawiska Zwiększają trafność ekologiczną teorii i modeli Mają dużą wartość eksploracyjną Badania ilościowe służą do określenia parametrów liczbowych danego zjawiska (skala, struktura, proporcje, wagi itd.)
Potencjalne wady badań jakościowych Brak pełnej standaryzacji procedury badań: wpływ czynników sytuacyjnych oraz subiektywizmu, kompetencji i doświadczenia badacza na zebrany materiał Rozmiar próby i czas realizacji badań determinuje bogactwo zebranych danych Wpływ subiektywizmu, kompetencji i doświadczenia badacza na analizę zebranego materiału wybór kryteriów analizy stosowanie tych kryteriów (interpretacja danych)
Metoda sędziów kompetentnych Grupa osób w założeniu kompetentnych w danej dziedzinie dokonuje oceny materiału, które następnie są uśredniane i wykorzystywane w dalszych analizach jakościowych lub statystycznych Zalety zastosowania: Obiektywizacja interpretacji zgromadzonych danych Replikowalność wyników analizy danych
Grzechy główne zastosowania metody sędziów kompetentnych w naukach społecznych Pozorowanie obiektywizacji analizy danych Nieprzedstawianie dowodów kompetencji sędziów sposobu weryfikacji kompetencji sędziów procesu przygotowania ich do roli sędziów Brak informacji na temat zgodności opinii sędziów Brak informacji na temat trafności decyzji klasyfikacyjnych sędziów Przyczyny: niska świadomość metodologiczna badacza słabe przygotowanie metodologiczne braki w wiedzy nt. narzędzi statystycznych i możliwości dostępnych programów statystycznych ograniczenia finansowe ograniczenia czasowe
Walidacja psychometryczna procedury sędziów kompetentnych Przedmiot walidacji Typ wskaźnika Cel Weryfikacja ilościowa Czas weryfikacji TRAFNOŚĆ Kryteria klasyfikacji teoretyczna zgodność z teorią/modelem teoretycznym nie przed badaniami Kryteria klasyfikacji treściowa właściwy i wyczerpujący zakres terminów obserwacyjnych względem terminów teoretycznych nie przed badaniami Decyzje klasyfikacyjne kryterialna zgodność z kryterium zewnętrznym tak, dla każdego sędziego przed badaniami RZETELNOŚĆ Decyzje klasyfikacyjne Decyzje klasyfikacyjne stabilność powtarzalność decyzji sędziego tak, dla każdego sędziego spójność/ zgodność zbieżność decyzji wielu sędziów tak, dla grupy sędziego przed badaniami po badaniach
Ocena trafności klucza kodowego i kategorii klasyfikacyjnych Trafność: teoretyczna treściowa: dobrze zdefiniowane, rozdzielne i wyczerpujące Pilotażowe zastosowanie klucza kodowego: częstość wykorzystania kategorii: czy nie ma pustych? częstości klasyfikowania do kategorii inne : czy lista kategorii jest wyczerpująca? Przygotowanie szczegółowych instrukcji dla sędziów: definicje pojęć, kategorii zakres kategorii przykłady klasyfikacji/oceny materiału
Trafność a rzetelność w badaniach naukowych Rzetelność niska Trafność wysoka niska wysoka
Oczekiwany wpływ szkolenia na trafność i rzetelność
Posiadana wiedza przez sędziego deklaratywna: wiem, że proceduralna: wiem, jak Trafność i rzetelność ocen sędziów zależy nie tylko do procesu selekcji kandydatów (wyjściowej wiedzy), lecz przede wszystkim od stopnia, w jakim badacz zadbał o przygotowanie osób do roli sędziego kompetentnego.
Etapy przygotowania sędziów Szkolenie teoretyczne: zapoznanie z celem badań, instrukcją oraz kluczem kodowym Szkolenie praktyczne w grupie Indywidualne próbne wykonanie klasyfikacji/oceny próbki materiału Omówienie grupowe typowych błędów Omówienie indywidualne specyficznych błędów z każdym z sędziów Ponowna indywidualne próbne wykonanie klasyfikacji/oceny próbki materiału Weryfikacja trafności kryterialnej Weryfikacja stabilności (w odstępie 2 tyg do kilku miesięcy)
Niepożądany wpływ szkolenia na trafność
Ocena rzetelności sędziów Na poziomie indywidualnym: Nierzetelna postawa niektórych sędziów Niesystematyczność pracy, złe planowanie czasu i sinusoidalna rzetelność sędziego Na poziomie grupowym Wzrastająca, spadająca lub sinusoidalna zgodność opinii sędziów Wykrywanie: Parcjalna ocena zgodności opinii sędziów Identyfikacja indywidualnych odchyleń od zagregowanej opinii pozostałych sędziów
Zapobieganie nierzetelnej postawie sędziów Świadomość odrzucenia wyników pracy przy znaczących odchyleniach Ustalenie harmonogramu wykonywania zadań cząstkowych Okresowa weryfikacja zgodności i odchyleń + interwencja Zalety profilaktyki: minimalizuje się problem utraty kompetencji wskutek dużych przerw (zapominanie), minimalizuje się problem komasacji wykonywania zadań przed końcowym terminem (niezorganizowanie i lenistwo), zmniejsza się prawdopodobieństwo utraty całości pracy sędziego wskutek nieprzewidzianych okoliczności
Eliminacja nierzetelnych sędziów Zabieg oczyszczania grupy sędziów z sędziów nierzetelnych jest jednak zbyt rzadko stosowany w przeciwieństwie do usuwania pozycji skal obniżających ich zgodność wewnętrzną
Organizacja pracy sędziów Systematyczność pracy Weryfikacja: okresowe wysyłanie wyników sędziowania Niezależność dokonywanych ocen (brak komunikacji) Weryfikacja: korelacja efektów sędziowania pomiędzy sędziami (np. wspólne sędziowanie, uzgadnianie okresowe opinii lub ściąganie) Czynniki wodzące na pokuszenie: wzajemna znajomość sędziów, trudność zadania, jego czasochłonność i warunki lokalowe sędziowania
Kodowanie danych Sędziowie w kolumnach Oceniane obiekty w wierszach Jeżeli ten sam obiekt jest oceniany z perspektywy wielu kryteriów, wówczas dla pojedynczego sędziego liczba kolumn jest równa liczbie kryteriów: tyle wskaźników zgodności sędziów ile jest kryteriów oceny.
Od czego zależy zgodność opinii sędziów? identyczności rozumienia znaczenia ocenianego materiału, identyczności rozumienia kategorii klasyfikacyjnych (klucza kodowego) oraz identyczności kodowania
Dlaczego współczynniki korelacji nie są właściwą miarą zgodności opinii sędziów? Współczynnik korelacji informuje nas o relatywnym podobieństwie uporządkowania wartości, a nie stopniu ich identyczności: oceniają względne podobieństwo pomiędzy profilami wyników sędziów, nie uwzględniają natomiast absolutnej różnicy pomiędzy profilami Rho Spearmana = 1,00 Alfa Krippendorfa = 0,73 Rho Spermana = 1,00 Alfa Krippendorfa = 1,00 Wizerunek konsumenta: Jaki jest konsument marki X? modny 1 2 3 4 5 energiczny 1 2 3 4 5 odpowiedzialny 1 2 3 4 5 młody 1 2 3 4 5 spokojny 1 2 3 4 5 bogaty 1 2 3 4 5 przyjacielski 1 2 3 4 5 Wizerunek konsumenta: Jaki jest konsument marki X? modny 1 2 3 4 5 energiczny 1 2 3 4 5 odpowiedzialny 1 2 3 4 5 młody 1 2 3 4 5 spokojny 1 2 3 4 5 bogaty 1 2 3 4 5 przyjacielski 1 2 3 4 5
Wybór współczynnika trafności/zgodności sędziów Skala pomiarowa Liczba sędziów 2 więcej niż 2 nominalna Cohena Scotta Scotta Fleissa porządkowa Krippendorfa Krippendorfa W Kendalla
Ocena stopnia zgodności sędziów na podstawie wartości współczynnika współczynnik ocena zgodności > 0,80 bardzo dobra 0,60-0,80 dobra 0,40-0,59 zadowalająca < 0,40 niewystarczająca
Współczynniki zgodności dostępne w programie Statistica
Przykład: ocena trafności kryterialnej: Scotta Sędzia Kryterium klasyfikacji S1 S2 Temperament i charakter 0,69 0,83 Zdolności 0,82 0,85 Stan emocjonalny 0,93 0,79 Role i relacje 0,93 0,43 Reakcje społeczne 0,89 0,89 Anatomia i morfologia 0,87 0,86
Przykład: zgodność opinii 2 sędziów: Cohena Kryterium klasyfikacji Cohena Temperament i charakter 0,62 Zdolności 0,73 Stan emocjonalny 0,80 Role i relacje 0,46 Reakcje społeczne 0,85 Anatomia i morfologia 0,78
Przykład: odchylenia od typowości: Cohena pomiędzy sędziami S1 S2 S3 S4 S5 S6 S7 S1 - S2 0,62 - S3 0,65 0,58 - S4 0,59 0,67 0,65 - S5 0,60 0,57 0,69 0,90 - S6 0,64 0,63 0,61 0,68 0,66 - S7 0,31 0,19 0,21 0,23 0,24 0,18 -
Przykład: odchylenia od typowości: Cohena pomiędzy sędziami S1 S2 S3 S4 S5 S6 S7 S1 - S2 0,62 - S3 0,65 0,58 - S4 0,59 0,67 0,65 - S5 0,60 0,57 0,69 0,90 - S6 0,64 0,63 0,61 0,68 0,66 - S7 0,31 0,19 0,21 0,23 0,24 0,18 -
Przykład: zgodność opinii 7 sędziów Krippendorfa Krippendorfa Temperament i charakter 0,68 Zdolności 0,59 Stan emocjonalny 0,83 Role i relacje 0,72 Reakcje społeczne 0,86 Anatomia i morfologia 0,76
Przykład: parcjalna weryfikacja zgodności: Krippendorfa dla 7 sędziów 1 tydz 2 tydz 3 tydz 4 tydz Temperament i charakter 0,68 0,58 0,52 0,31 Zdolności 0,59 0,51 0,48 0,29 Stan emocjonalny 0,83 0,82 0,79 0,56 Role i relacje 0,72 0,67 0,64 0,32 Reakcje społeczne 0,86 0,84 0,81 0,69 Anatomia i morfologia 0,76 0,72 0,73 0,44
Przykład: parcjalna weryfikacja zgodności: Krippendorfa dla 7 sędziów 1 tydz 2 tydz 3 tydz 4 tydz Temperament i charakter 0,68 0,58 0,52 0,31 Zdolności 0,59 0,51 0,48 0,29 Stan emocjonalny 0,83 0,82 0,79 0,56 Role i relacje 0,72 0,67 0,64 0,32 Reakcje społeczne 0,86 0,84 0,81 0,69 Anatomia i morfologia 0,76 0,72 0,73 0,44 Sposób zaradzenia: Wysyłanie różnych części do sędziowania do różnych sędziów w ramach danego odcinku czasu Motywowanie do rzetelnego wypełnienia Normowanie presji
Podsumowanie Wiedza na temat procedury i możliwości analizy statystyczne trafności/zgodności sędziów powinna poprzedzać zastosowanie metody sędziów kompetentnych Warto równolegle obliczać kilka współczynników, jeżeli warunki pozwalają na ich zastosowanie Z uwagi na kompatybilność z wynikami wcześniejszych badań dopuszcza się równoległe obliczania współczynników korelacji (np. rho Spearmana lub alfa Cronbacha) Ograniczenia Brak jednomyślności wśród badaczy w ocenie wysokości współczynników zgodności