Wybór metody ewaluacji

Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Wybór metody ewaluacji Celine Ferre, Gdańsk, 23 lutego 2017 r.

Zestaw metod OO Przydział losowy Model regresji nieciągłej Metoda podwójnej różnicy Wybierz swoją metodę Dopasowanie

A. PODSUMUJMY CZTERY ELEMENTY KLUCZOWE DLA KAŻDEJ OO

1. Dokładna znajomość charakteru interwencji Pytanie badawcze: co oceniamy? 2. Dobrze zdefiniowane rezultaty (oddziaływanie) Jaki jest cel/ jakie są cele naszej polityki? 3. Wiarygodna strategia (strategie) identyfikacji (zdefiniowanie kontrfaktów) Jaką wybrać metodologię? 4. Wiarygodne dane

METODOLOGIA OPIS KTO ZNAJDUJE SIĘ W GRUPIE PORÓWNAWCZEJ? METODOLOGIA JEST POPRAWNA, JEŻELI Przed i po Mierzy poprawę (lub zmianę) wśród uczestników programu w założonym czasie. Sami uczestnicy programu zanim rozpocznie się program. Program był jedynym czynnikiem, który wywołał zmiany w założonym czasie. Gdyby programu nie było, wyniki byłyby takie same przed i po zakończeniu okresu badawczego. Zapisani a niezapisani/ uczestnicy a nieuczestnicy Mierzy różnicę pomiędzy uczestnikami programu a nie-uczestnikami po zakończeniu programu. Osoby, które nie uczestniczyły w programie (z dowolnych powodów), ale w stosunku do których zebrano dane po zakończeniu programu. Prawdopodobieństwo przystąpienia do programu było takie samo dla nie-uczestników i uczestników programu przed jego uruchomieniem. Nieuczestnicy są tożsami z uczestnikami, z takim wyjątkiem jednak, że nie uczestniczyli w programie. Randomizowane badania kontrolne (RCT) Przydział losowy (np. rzucenie monetą lub generator liczb losowych) decyduje o tym, kto może uczestniczyć w programie, tak aby osoby wyznaczone na uczestników programu były przeciętnie takie same jak te, które w programie nie uczestniczą w sposób zarówno obserwowalny jak i nieobserwowalny. Ponieważ uczestnicy i nie-uczestnicy są porównywalni, przy czym jedna z grup skorzystała z programu, wszelkie różnice w wynikach są rezultatem przyczynowości danego programu. Uczestnicy losowo przypisani do nieuczestniczenia w programie. Grupa znana jako porównawcza. Przydział losowy zadziałał, a dwie grupy są statystycznie identycznie (w stosunku do czynników zaobserwowanych i niezaobserwowanych). Skutki przeprowadzonego działania nie przekładają się na grupę porównawczą. Wszelkie zmiany w zachowaniu są wywołane programem nie przez samą ewaluację lub przez fakt, że uczestnicy lub nie-uczestnicy poddani są badaniu. Jeżeli brakuje danych wynikowych, to brakuje też danych dla takich samych osób zarówno w grupie porównawczej jak i eksperymentalnej.

METODOLOGIA OPIS KTO ZNAJDUJE SIĘ W GRUPIE PORÓWNAWCZEJ? METODOLOGIA JEST UZASADNIONA, JEŻELI Model regresji nieciągłej (RDD) Poszczególne osoby są uszeregowane lub ocenione na podstawie konkretnych i mierzalnych kryteriów. Punkt odcięcia zadecyduje o tym, czy dana osoba może uczestniczyć w programie. Uczestnicy, którzy uzyskali wynik lekko powyżej punktu odcięcia porównywani są z nieuczestnikami, którzy znajdują się nieco poniżej punktu odcięcia. Osoby znajdujące się blisko punktu odcięcia, które znalazły się po złej stronie tej linii i w związku z tym nie zakwalifikowały się do programu. Po uwzględnieniu kryteriów kwalifikowalności (oraz innych zaobserwowanych cech charakterystycznych), osoby znajdujące się bezpośrednio poniżej i bezpośrednio powyżej punktu odcięcia są statystycznie identyczne. Kryteria odcięcia muszą być stosowane bez żadnych odstępstw. Punkt odcięcia nie może podlegać manipulacji, tak aby pewne osoby zakwalifikowały się do programu. Model podwójnej różnicy (DiD) Mierzymy zmianę przed i po w wynikach uczestników programu, następnie odejmujemy zmianę przed i po w wynikach nie-uczestników i w ten sposób określamy względną zmianę w wynikach uczestników programu. Osoby, które nie uczestniczyły w programie (z dowolnego powodu), ale dla których zebrano dane przed programem i po jego zakończeniu. Gdyby program nie istniał, uczestnicy i nie-uczestnicy doświadczyliby identycznych trajektorii w okresie badawczym. Wszelkie różnice w charakterystyce pomiędzy grupami badawczymi i kontrolnymi nie mają większego czy mniejszego wpływu na zmianę poziomu wyników w założonym czasie. Metoda dopasowania - Propensity Score Matching (PSM) Osoby, które skorzystały z programu porównywane są z osobami podobnymi, które jednak nie uczestniczyły w programie. Propensity Score Matching: na każdego uczestnika, nieuczestnik o takim samym prawdopodobieństwie uczestnictwa, zgodnie z prognozą na podstawie znanych charakterystyk takiej jak: wiek, płeć i wykonywany zawód Cechy charakterystyczne, które nie były ujęte (ponieważ były niemożliwe do zaobserwowania lub nie zostały zmierzone) nie wpłynęły na wyniki lub nie różnią się pomiędzy uczestnikami i nieuczestnikami.

B. WZGLĘDY PRAKTYCZNE PRZY WDRAŻANIU OO

Jak wybrać strategie identyfikacji i metodologię? Skorzystaj z możliwości wygenerowania dobrych grup porównawczych i dopilnuj, aby zebrano dane bazowe 3 pytania pomagają w ustaleniu metody właściwej dla danego programu Pieniądze: Czy program posiada wystarczające zasoby do osiągnięcia skali i pełnego objęcia wszystkich uprawnionych uczestników? Czas: W jaki sposób zapisujemy potencjalnych uczestników do programu wszystkich na raz czy w etapach rozłożonych w czasie? Zasady przydziału: Kto jest uprawniony do korzyści oferowanych przez program? Czy program kieruje się kryteriami w zakresie uprawnień czy jest dostępny dla wszystkich? Czy możemy zaszeregować uczestników na podstawie ich uprawnień?

Wybór metody (metod) OO Pieniądze Nadmierny popyt Brak nadmiernego popytu Typowanie Docelowe Uniwersalne Docelowe Uniwersalne Terminy Stopniowe wdrożenie + Przydział losowy + RDD +Przydział losowy + DD z dopasowaniem +Przydział losowy + RDD +Przydział losowy w falach + DD z dopasowaniem Natychmiasto we wdrożenie + Przydział losowy+ RDD +Przydział losowy + DD z dopasowaniem + RDD Jeżeli wykorzystanie mniej niż połowa: +DD z dopasowaniem

Względy praktyczne (1) Ocena oddziaływania nie jest dobrym rozwiązaniem dla każdej interwencji Działaj selektywnie Zalecamy oportunizm Świętym grallem jest przekonująca przyczynowość, a nie jedna metoda oceny oddziaływania Rozpoznanie ograniczeń Elastyczność, kreatywność Wczesny start, wpisanie ewaluacji do schematu programu Należy dobrze przemyśleć korzyści (jakie oddziaływania będą mierzone) Powiązanie z celami projektu Przemyślany wybór wskaźników Ustalenie ram czasowych, w jakich mają zmaterializować się wyniki Określenie logicznych osi dezagregacji (np. grupy dochodowe, płeć) oraz odpowiednio zaplanowane próby.

Względy praktyczne (2) Monitorowanie wdrożenia programu założona polityka działania nie zawsze zgodna jest z rzeczywistością (trzeba wiedzieć, co się ocenia). To samo odnosi się do zbierania danych. Zadanie wdrożenia ewaluacji nie kończy się na wyborze dobrego schematu Mieszaj metody jakościowe z ilościowymi Dane jakościowe zapewniają informacje o faktycznym mechanizmie, który spowodował oddziaływanie Mogą również wspomóc intuicję, nasunąć nowe pytania oraz historie i anegdoty, które wzmocnią końcową ewaluację. Uwaga na skażenie grup eksperymentalnych i porównawczych Na tyle na ile to możliwe, dokładne rozdzielenie grup porównawczych i eksperymentalnych i badawczych Pilnuj wdrożenia, tak aby w miejsce nieprzewidzianych wydarzeń wprowadzać dobre rozwiązania tak szybko, jak to możliwe

Względy praktyczne (3) Trzeba pracować nad monitorowaniem i ewaluacją Pomoże to powiązać Ewaluację z działaniami w zakresie monitorowania projektu Wzmocni utożsamianie się zespołu projektowego z ewaluacją Warto rozważyć wdrożenie systemów informatycznych: przydział do programu, wdrażanie programu oraz ewaluacja Przedyskutuj swój projekt / schemat z innymi osobami zajmującymi się ewaluacją Uczymy się od siebie nawzajem, możemy zaszczepiać u innych nowe pomysły Ułatwia to późniejsze rozpowszechnianie Współpraca z partnerami na poziomie lokalnym Może powstać nowa zdolność działania na poziomie lokalnym pod kątem przyszłych ewaluacji Waliduje schemat i rezultaty Dostępność ludzi w terenie pomaga w zachowaniu schematu Promują zmiany wśród decydentów

Case study: Duńskie systemowe podejście do RCT Duńska rada ds. rynku pracy uruchomiła program, którego celem jest zebranie dowodów empirycznych o skuteczności programów rynku pracy. Eksperymenty kontrolowane (RCT) średnio dwa rocznie. Baza wiedzy baza wyników badań empirycznych przeprowadzonych na świecie. Aktywnie współpracuje z środowiskiem naukowym dostarczając dane, uczestnicząc w konferencjach, debatach, etc. Stan na rok 2011: Ukończono 8 eksperymentów kontrolowanych 2 badania są w trakcie realizacji 1-2 kolejne badania są planowane Zaplanowano przeprowadzenie 30 małych pilotażowych programów Eksp. Opis Region A Cotygodniowe spotkania grupowe Północna Jutlandia B Szybka aktywizacja (po 13 tygodniach) C D Szybka aktywizacja i spotkania grupowe Cotygodniowe spotkania indywidualne z opiekunem z urzędu pracy Centralna Jutrlandia Południowa Dania Kopenhaga i Sealand

C. NAJCZĘŚCIEJ WYSTĘPUJĄCE OBAWY

Niektóre z najczęściej występujących obaw etycznych Nie możemy prowadzić eksperymentów w kwestiach rozwojowych Nie można zapomnieć o ludziach, po to żeby przeprowadzić OO ale Dzięki eksperymentom dowiadujemy się, co się sprawdza (a co nie) Nie jesteśmy w stanie działać ze wszystkimi, bo są ograniczenia budżetowe/ logistyczne ewaluacja może być uczciwym wyborem Czego się nauczyliśmy: Współpraca z naszymi partnerami od samego początku przy identyfikacji obaw i ich rozwiązywaniu (mieszanka ograniczeń politycznych i badawczych) Precyzja wypowiedzi i wyjaśnianie wszystkich pytań Ewaluację oferujemy jako rozwiązanie, a nie jako dodatkową warstwę pociągającą za sobą kolejne komplikacje. 15

Niektóre z najczęściej występujących obaw o charakterze politycznym Nikt nie jest zainteresowany pokazywaniem (potencjalnie) złych wiadomości Ewaluacja trwa długo i rozmija się z harmonogramem działań politycznych ale... Gorzej jest zrobić coś źle, a potem to ukrywać OO można przygotować jako narzędzie identyfikowania obszarów wymagających poprawy Ocenę można tak zaplanować, aby wypróbować różne opcje Zaplanowany schemat może wykraczać poza cykle polityczne Czego się nauczyliśmy: Trzeba poznać obawy polityczne i wokół nich planować działania Działanie etapowe Ocena podzbioru programu (w zakresie pokrycia geograficznego) Odpowiednio wczesne przedstawianie rezultatów (nawet jeśli jest to analiza ograniczona), ponieważ podtrzymuje to zainteresowanie i zaangażowanie polityków OO 16

Niektóre z najczęściej występujących obaw technicznych My już wiemy co się sprawdza nie ma sensu robić ewaluacji Projekt jest już wystarczająco skomplikowany, nie będziemy go dodatkowo komplikować Koncepcja projektu już została ustalona Ewaluacje są zbyt drogie, nie stać nas na nie ale Być może jest to skomplikowane, ale dopóki nie ocenimy, to się nie nauczymy Korelacja i przyczynowość to nie te same rzeczy W większości przypadków tzw. ustalenia to jedynie podstawowe cechy koncepcji projektu Czego się nauczyliśmy: Projekty na etapie przygotowania są lepszymi kandydatami niż projekty w trakcie wdrażania Zachowaj pragmatyzm 17

Zapamiętaj Celem oceny oddziaływania jest oszacowanie efektu przyczynowego lub oddziaływania programu na interesujące nas wyniki.

Zapamiętaj Aby oszacować oddziaływanie musimy też oszacować kontrfakty. Co by się stało, gdyby nie było programu Posługuj się porównaniami lub grupami porównawczymi.

Zapamiętaj Wybierz najlepszą metodę ewaluacji, która jest możliwa do wykonania w kontekście operacyjnym programu.

Ocena Prosimy o ocenę sesji

Prosimy o ocenę tempa prezentacji A. Akurat B. Zbyt wolne C. Zbyt szybkie D. Nie mam zdania

Prosimy o ocenę przydatności wybranego materiału technicznego A. Bardzo przydatny B. Ledwo przydatny C. Nieprzydatny D. Nie mam zdania

Prosimy o ocenę jasności i efektywności przekazu A. Doskonała! B. Dobra C. Dostateczna D. Słaba E. Nie mam zdania

Dziękujemy!