SESJA: II Respondent jako dobro rzadkie. TEMAT Wykorzystanie Propensity Score do poprawy wnioskowań z wyników badań marketingowych. OPRACOWANY PRZEZ LILIANĘ STOŁOWSKĄ LECHA KOMENDANTA WŁODZIMIERZA DAAB 4P research mix
Wprowadzenie Problemy realizacji badań: Błędy doboru próby niekompletność operatu losowania, brak informacji o istnieniu potencjalnych respondentów, brak moŝliwości dotarcia do nich (np. w badaniu telefonicznym brak wiedzy o pewnych zakresach numerów telefonów). Błędy realizacji próby obiektywne i subiektywne przyczyny niewypełnienia ankiet (np. nieobecność w domu lub świadoma odmowa udziału w badaniu). Typowe postępowanie: zastępowanie niedostępnych respondentów przez innych, posiadających podobne cechy, ale łatwiej dostępnych (np. próba rezerwowa lub random route) waŝenie wyników w oparciu o porównanie rozkładu cech respondentów w próbie i w populacji tak jak wyŝej, ale cechy dobrane tak, aby miały związek z odpowiedziami na pytania ankiety tak jak wyŝej, ale cechy dobrane tak, aby miały teŝ związek z dostępnością respondenta Ostatni sposób postępowania znany jest pod nazwą Propensity Score Weighting (PSW)
Podstawowe pojęcia Cechy osób Chodzi nie tylko o cechy demograficzne, ale teŝ psychograficzne, behawioralne oraz kaŝdą inną charakterystykę, która odnosi się do badanych. Z reguły jest to mały zestaw cech, uŝyteczny ze względu na kontrolę realizacji w próbach kwotowych najczęściej są to: wiek, płeć, wykształcenie i miejsce zamieszkania. Trzeba pamiętać, Ŝe mogą to być takŝe miękkie cechy, jak na przykład postawa wobec mniejszości seksualnych. Udział w badaniu Jest to zmienna dwuwartościowa: przyjmuje wartość 1 gdy uzyskamy odpowiedzi na pytania ankiety, a 0 w przeciwnym razie (ankiety częściowo wypełnione trzeba zakwalifikować do jednej z grup). Nie ma tu znaczenia, dlaczego ankieta nie jest wypełniona: czy z powodu odmowy udziału w badaniu, czy nieobecności respondenta w domu, czy z braku informacji o respondencie w operacie losowania (np. spisie pracowników lub liście klientów). Wyniki badania Rozumiemy je tu w wąskim znaczeniu odpowiedzi na pytania ankiety. W naszym modelu jest oczywiście miejsce dla odpowiedzi uzyskanych od osób, które wypełniły ankietę (wzięły udział w badaniu). Jest teŝ jednak miejsce dla odpowiedzi osób, których nie udało nam się uzyskać (braki danych). MoŜemy stawiać hipotezy na temat tego, jakie te odpowiedzi mogłyby być, gdyby odpowiednie osoby wzięły udział w badaniu. Hipotezy oparte są na innych badaniach lub dodatkowej obserwacji, ewentualnie na szacunkowych danych z trendów i innych wiarygodnych źródłach.
Definicja Przyjmijmy następujące oznaczenia: Posiadanie przez respondenta jednej z wyróŝnionych cech zapisujemy jako R = r. Wypełnienie ankiety zapisujemy jako A = 1 a jej niewypełnienie jako A = 0. Odpowiedzi na pytania ankiety oznaczamy przez O(A). Odpowiedzi otrzymane w ankietach wypełnionych oznaczamy A = 1. Braki odpowiedzi z ankiet niewypełnionych oznaczamy A = 0. Wskaźnik dostępności respondenta to prawdopodobieństwo wypełnienia ankiety w zaleŝności od jego wyróŝnionych cech (demograficznych, psychograficznych, behawioralnych itp.): Tłumaczymy propensity jako dostępność, choć dokładne tłumaczenie to raczej skłonność lub tendencja.
Rosenbaum i Rubin Czy udział w badaniu jest niekłopotliwy ze względu na wyróŝnione cechy? Czy osoba, która odmówiła wypełnienia ankiety, odpowiedziałaby tak jak uczestnik badania posiadający ten sam zestaw cech? Na przykład: czy kobieta, która z jakichkolwiek powodów nie wzięła udziału w badaniu, odpowiadałaby na pytania tak jak kobieta, która wzięła udział w badaniu? Czy przeciwnie, zmieniłaby swoją odpowiedź, albo starała się jej uniknąć? JeŜeli udział w badaniu jest niekłopotliwy (ze względu na pewne cechy) to: nie ma róŝnicy między odpowiedziami osób, które odmówiły wypełnienia ankiety a odpowiedziami respondentów, którzy mają taki sam wskaźnik dostępności. W konkretnym badaniu nie moŝna stwierdzić, czy udział w nim jest niekłopotliwy. W tym celu trzeba by zestawić odpowiedzi uzyskane w badaniu z odpowiedziami osób, które były w badaniu niedostępne. Dlatego potrzebny jest model zbudowany na innej bazie empirycznej. Badanie referencyjne: Badanie zrealizowane z większym nakładem środków i czasu, bądź wiarygodne szacunki z trendów. Dla badania w Internecie moŝe to być na przykład inne badanie z udziałem ankietera.
Badanie referencyjne Identyfikujemy osoby, które naleŝą do populacji badania korygowanego: np. wypełniają ankiety internetowe, jeśli zamierzamy uŝyć do nich PSW. Obliczamy prawdopodobieństwo wzięcia udziału w badaniu korygowanym przez osoby posiadające pewien zestaw cech. Jest to model dostępności dla osób posiadających te cechy. W badaniu korygowanym trzeba zmierzyć ten sam zestaw cech. Osoby niedostępne powinny udzielić takich samych odpowiedzi jak respondenci, którzy mają identyczny wskaźnik dostępności. Odpowiedź respondenta ma tym większą wagę, im niŝszy jest wskaźnik jego dostępności W tradycyjnym waŝeniu waga jest proporcjonalna do relacji między odsetkiem osób (posiadających pewien zestaw cech) w próbie a ich odsetkiem w populacji. W PSM uwzględniamy dodatkowo prawdopodobieństwo udziału w badaniu. Obie te metody waŝenia odwołują się do danych z innych źródeł empirycznych.
Wybór cech do modelu Ten sam zestaw cech mierzonych w badaniu referencyjnym i korygowanym Rodzaj cech: zmienne demograficzne (wiek, płeć, wykształcenie) zmienne psychograficzne (introwertyzm czy indywidualizm) zmienne behawioralne (np. przebywanie poza domem w określonych porach dnia) dowolne inne zmienne Kryteria doboru cech: Relacje cech do odpowiedzi na pytania ankiety: czy pozostają w związku, czy są niezaleŝne? Związek cech z udziałem w badaniu? Układ tych zaleŝności ma wpływ na wariancję wyników oraz ich obciąŝenie błędem.
Dobroć modelu Little i Vartivarian: Cechy niezwiązane z udziałem w badaniu oraz z odpowiedzią nie wpływają na wariancję i błąd wyników. Cechy związane z udziałem w badaniu oraz z odpowiedzią zmniejszają wariancję i błąd wyników. Cechy związane z udziałem w badaniu, ale niezwiązane z odpowiedzią zwiększają wariancję i nie wpływają na błąd. Cechy niezwiązane z udziałem w badaniu, ale związane z odpowiedzią zmniejszają wariancję wyników i nie wpływają na błąd. NajwaŜniejszy jest związek wybranych cech z odpowiedzią jeśli go nie będzie, to błędu nie zmniejszymy, a moŝemy sztucznie zwiększyć wariancję odpowiedzi (gdy cecha jest związana z udziałem w badaniu) Cechy powinny być związane z przynaleŝnością do populacji badania korygowanego oraz z odpowiedziami na korygowane pytania wówczas zmniejszymy błąd i wariancję wyników
Dobór badania referencyjnego Gradacja technik wypełniania ankiet: badania z bezpośrednim kontaktem ankietera i respondenta (CAPI, PAPI) badania z telefonicznym kontaktem ankietera i respondenta (CATI) badania bez udziału ankietera (CAWI) Reprezentatywność tych badań jest róŝna. W ogólności, badanie wymienione wcześniej moŝe być badaniem referencyjnym dla badania wymienionego później. Spróbujemy teraz podać wnioski z dotychczasowych doświadczeń w tym zakresie zarówno naszych, jak i pojawiających się w literaturze
Relacje zmiennych w modelu Dobór zmiennych do modelu wymaga duŝej staranności Cechy respondentów muszą być identycznie mierzone w badaniu referencyjnym i w badaniu korygowanym muszą spełniać warunek niekłopotliwości powinny wykazywać związek z odpowiedziami i udziałem w badaniu korygowanym Udział w badaniu musi być wykonane w badaniu referencyjnym, przez jedną zmienną lub więcej, pytaniem wprost lub inferencyjnie, jednak tak, aby dokładnie przewidzieć, czy respondent badania referencyjnego będzie dostępny w badaniu korygowanym. Odpowiedzi zbierane w badaniu korygowanym, muszą być w związku z cechami uŝytymi do budowy wskaźnika dostępności, w przeciwnym razie waŝenie mija się z celem lub moŝe prowadzić do pogorszenia wyników.
Doniesienia na temat PSW Sukces zastosowania PSW w przewidywaniu wyników wyborów stanowych w USA (Harris Interactive 2000). Prognozy na podstawie badania CAWI były duŝo lepsze niŝ formułowane przez konkurencję na podstawie bardziej reprezentatywnych prób telefonicznych. Podstawą modelu PS były zmienne lifestylowe. Wykorzystanie przez innych badaczy zmiennych lifestylowych w modelowaniu PS Isakson i Forsman (2003) sondaŝ przedwyborczy w Szwecji. Zastosowanie modelu dało lepszą redukcję błędu oszacowania preferencji wyborczych, niŝ tradycyjne waŝenie po zmiennych demograficznych. Próba wykorzystania zmiennych lifestylowych w analizach badań CAWI dotyczących innej niŝ polityka tematyki - Varedian i Forsman (2003) Uniwersytet Linkoping badanie dotyczące produktów pielęgnacyjnych i postaw wobec usług bankowych. Stosowano waŝenie tradycyjne po zmiennych demograficznych, PS w oparciu o zmienne lifestylowe, PSW w oparciu o zmienne lifestylowe i demografie. śadna z wag nie dała satysfakcjonującej redukcji w porównaniu z równoległym badaniem CATI Przykłady badań porównujących efektywność waŝenia opartego na PS z innymi metodami Zespół badaczy amerykańskich (Schonlau i inni), duŝe badanie dotyczące opieki zdrowotnej, dwie metody : CATI i Web z wykorzystaniem PS odpowiedzi 8 z 37 pytań nie róŝniło się istotnie statystycznie. Badanie dotyczące populacji Amerykanów 50+, część wywiadów prowadzona przez Internet - wyniki otrzymane z części webowej po zastosowaniu PSW w wielu, ale nie wszystkich przypadkach, nie róŝnią się od wyników całego badania, w szczególności róŝnice dotyczą odsetka gospodarstw domowych posiadających akcje.
Przykład I Badano zainteresowanie usługą. Badanie miało dwa etapy. Do drugiego etapu przeszło jedynie 70% osób. Cel analizy - eliminacja wpływu odmowy udziału w drugim etapie na wynik badania. Badaniem referencyjnym był I etap badania.
Przykład I Udział w badaniu zmienna behawioralna udział w II etapie Odpowiedzi przeznaczę W zł na usługę planuję zakup usługi rozwaŝam zakup usługi firmy X rozwaŝam zakup usługi firmy Y jestem zainteresowany ofertą Z Cechy zestaw zmiennych demograficznych i statusu ekonomicznego
Przykład I
Przykład II Przeprowadzono badanie CAWI na stronach portalu aukcyjnego świstak.pl (połowa września 2008). N = 853, dorośli internauci. Cel: Eliminacja błędu związanego z niepokryciem populacji operatem. Badaniem referencyjnym była Diagnoza Społeczna 2007
Przykład II Udział w badaniu przeglądanie stron WWW w okresie ostatniego tygodnia Odpowiedzi chęć udziału w wyborach parlamentarnych stosunek do rządu posiadanie prawa jazdy znajomość j. angielskiego posiadanie tel. komórkowego Cechy zestaw zmiennych demograficznych i behawioralnych dostępnych w Diagnozie Społecznej 2007.
Przykład II