WPROWADZENIE DO MODELOWANIA ZJAWISK SPOŁECZNYCH I PRZYKŁADY ZASTOSOWAŃ W STATISTICA

Transkrypt

1 WPROWADZENIE DO MODELOWANIA ZJAWISK SPOŁECZNYCH I PRZYKŁADY ZASTOSOWAŃ W STATISTICA Adam Sagan, Uniwersytet Ekonomiczny w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Wykorzystanie podejścia modelowego w badaniach społecznych (badaniach socjologicznych, psychologicznych czy marketingowych) jest związane z zastosowaniem różnorakich metod statystycznych i ekonometrycznych do opisu, wyjaśniania i predykcji zjawisk społecznych. W badaniach społecznych można wyróżnić trzy typy modeli: modele opisowe (deskryptywne), modele wyjaśniające (eksplanacyjne) i modele predykcyjne. Celem modeli opisowych jest poprawne odzwierciedlenie wewnętrznej struktury danych pozwalającej na wyodrębnienie najistotniejszych regularności i zależności. Modele te pozwalają na przedstawienie struktury danych w syntetyczny sposób, umożliwiają optymalną redukcję danych (najczęściej kosztem utraconej informacji, niewyjaśnionej wariancji czy bezwładności). Ważną rolę w modelach opisowych odgrywa dopasowanie modelu (model fit), mówiące, jak dobrze model (np. zestaw zmiennych niezależnych) odtwarza istniejące dane (obserwacje indywidualne, macierz wariancji kowariancji, macierz korelacji itp.). Do modeli opisowych należą modele eksploracyjnej analizy danych, analiza głównych składowych, analiza log-liniowa czy konfirmacyjna analiza czynnikowa. Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 5

2 Modele eksplanacyjne są tworzone w celu poprawnego odzwierciedlenia zależności przyczynowych. W modelach tych dużą rolę odgrywa ocena egzogeniczności (i endogeniczności) zmiennych, wyodrębnienie zależności warunkowych oraz kontrola analizowanych relacji przyczynowo-skutkowych. Ważnym warunkiem oceny modelu jest poprawna jego specyfikacja i ocena obciążenia (bias). Poprawne modele eksplanacyjne powinny charakteryzować się zarówno wysoką mocą eksplanacyjną (niskim błędem specyfikacji), jak i wysoką mocą predykcyjną (niskim błędem przewidywania). W modelach tych występuje na ogół taka zależność, że im wyższy jest ich błąd specyfikacji (np. błędna teoria leżąca u ich podstaw), tym niższa jest ich moc predykcyjna. Modele te powinny się cechować również niskim prawdopodobieństwem falsyfikacji (odrzucenia). Do tego typu modeli należą ekonometryczne modele wielorównaniowe o równaniach współzależnych, modele strukturalne i ścieżkowe. Trzecie z wyodrębnionych modeli to modele predykcyjne. Mają one na celu poprawne przewidywanie przyszłych (lub nowych) obserwacji na podstawie danego modelu. Dużą rolę odgrywa w nich wykorzystywanie prób uczących (budowa modelu) i prób testowych (predykcja nowych obserwacji). Jakość przewidywania jest najczęściej mierzona na podstawie różnorodnych metod tzw. walidacji krzyżowej (wielokrotny podział prób na testowe i uczące). Modele predykcyjne powinny cechować się zarówno wysokim poziomem konfirmacji, jak i wysoką trafnością przewidywania (moc predykcyjna), a jednocześnie ich trafność wyjaśniania może być mniejsza (niska moc eksplanacyjna). Moc i trafność predykcyjna jest oceniana na podstawie miar zmienności losowej oszacowań z kolejnych prób w procedurach walidacyjnych (sampling variance). Do tego typu modeli predykcyjnych należy większość podejść z obszaru data mining, drzewa klasyfikacyjne i regresyjne, analiza reguł asocjacyjnych i sekwencyjnych, sieci neuronowe itp.). Należy podkreślić, że generalnie modele charakteryzujące się dużym błędem specyfikacji (niską mocą eksplanacyjną) mogą równocześnie mieć dużą moc predykcyjną (bias variance trade off). Jest to sytuacja występująca w przypadku wykorzystywania dużej liczby skorelowanych (współliniowych) predyktorów oraz szumów (błędów losowych) w danych. Oznacza to, że modele, które poprawnie 6 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

3 przewidują rzeczywistość, mogą jednocześnie błędnie ją wyjaśniać i przedstawiać jej nieprawdziwy obraz. Jak w każdym obszarze analiz, próby wyjaśniania i opisu tych zjawisk wiążą się z rozwiązaniem problemu poprawnej specyfikacji modelu związanej z naturą zjawisk społecznych. Specyfika modelowania zjawisk społecznych wiąże się z: 1) subiektywnym i jakościowym charakterem wskaźników wykorzystywanych w pomiarze (niemetryczny charakter pomiaru mierzonych własności), 2) deklaratywną postacią danych wynikających z odpowiedzi na pytania o opinie, postawy, nastawienia i subiektywną wiedzę badanego (problem odtworzenia intencji badanego na podstawie odpowiedzi na pozycje kwestionariusza), 3) nieobserwowalnym charakterem mierzonych cech dotyczących wiedzy, opinii, postaw czy wartości respondentów (wprowadzanie do analizy zmiennych ukrytych wynikających z nieobserwowalnych własności i założeń teoretycznych badacza), 4) kontekstowością analizowanych zjawisk i wpływem czynników sytuacyjnych w modelowanych zjawiskach (analiza chwilowych stanów emocjonalnych i poznawczych jednostek) 5) hierarchicznością układów społecznych, wynikających z przynależności respondentów do grup społecznych, instytucji, kręgów kulturowych itp. Wszystkie wspomniane czynniki powodują konieczność uwzględnienia dodatkowych założeń w procesie budowy modelu i poświęcenia szczególnej uwagi problemowi poprawnej specyfikacji modelu, uwzględnienia rzetelności narzędzi pomiaru i wyboru właściwych metod analizy danych. Niemetryczny charakter wskaźników w badaniach społecznych Z punktu widzenia teorii pomiaru i klasyfikacji skal pomiarowych najbardziej popularną klasyfikacją jest propozycja Stevensa, który dzieli skale pomiarowe na cztery podstawowe typy: nominalny, porządkowy, przedziałowy i stosunkowy. W badaniach społecznych z wykorzystaniem pytań informacyjnych i wskaźnikowych (otwartych Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 7

4 i zamkniętych) oraz skal najczęściej pomiar jest wykonywany na poziomie skali nominalnej (np. pytanie o płeć) i porządkowej (np. pytanie dotyczące rankingu marek produktów). Rzadziej stosowane są pytania na poziomie przedziałowym lub stosunkowym (np. pytanie dotyczące dochodów w złotówkach lub wzrostu w centymetrach). Specyficznym rodzajem narzędzi pomiaru w badaniach społecznych są skale postaw i opinii, w których respondent ujawnia swoją postawę na skalach binarnych (tak nie) lub wielopunktowych (najczęściej pięcio- lub siedmiopunktowych). Wykorzystywane są również binarne wskaźniki mierzonych cech wynikające z określonych zachowań lub stanu posiadania (np. posiadanie willi z basenem jako wskaźnika sukcesu zawodowego). Popularność tych typów skal i wskaźników powoduje, że często skale 5 lub 7-punktowe są interpretowane jako przedziałowe (metryczne) i wykorzystywane w budowie modelu jako dane ilościowe 1. Są one podstawą budowy takich skal postaw, jak skale: Likerta, Stapela czy Guttmana (w wersji politomicznej). Traktowanie skal typu Likerta jako metrycznych powoduje jednak pewne problemy w modelowaniu zjawisk. Po pierwsze: występuje tłumienie współczynnika korelacji Pearsona (jest on niższy niż dla odpowiadającej im skali metrycznej). Po drugie: błędy standardowe w oszacowaniach parametrów modelu są niedoszacowane (zbyt małe) w porównaniu do metrycznych odpowiedników tych skal. Po trzecie: wskaźniki globalnego dopasowania modelu, jak np. statystyka 2, są zbyt wysokie (efekt inflacji wskaźnika), co prowadzi do wyższego prawdopodobieństwa odrzucania poprawnego modelu (szczególnie, gdy skale mają mniej niż 5 kategorii i cechują się dużą skośnością). Obciążenie modelu jest znaczne, gdy stosowane są binarne wskaźniki (jako metryczne) oraz wtedy, gdy występują efekty 1 Jednym z nieporozumień wynikających z traktowania skal ocen jako skal przedziałowych jest niepoprawna interpretacja punktów na skali jako jednostek równo oddalowych od siebie (różnice między a 5 są jednakowe). Skala przedziałowa powinna spełniać założenie, że równym przyrostom punktów na skali ocen powinny towarzyszyć równe przyrosty mierzonych przez taką skalę własności (np. siły postaw czy opinii), a nie tylko równych różnic między umownymi punktami skali. 8 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

5 sufitu i podłogi zorientowane opozycyjnie (pseudoczynniki ekstremalnych odpowiedzi). Jednym z rozwiązań problemu stosowania niemetrycznych wskaźników w modelowaniu zjawisk społecznych jest wykorzystanie teorii progów (thresholds). W podejściu tym przyjmuje się założenie, że niemetryczny, jakościowy wskaźnik binarny lub politomiczny jako zmienna obserwowalna (manifest variable) jest jedynie niedoskonałym przybliżeniem miernika ilościowego danej własności mającej rozkład normalny. Wartość surowa danego wskaźnika jest transformowana na wartość metryczną pomiarowego wskaźnika ukrytego (latent response variable), który stanowi następnie właściwy wskaźnik mierzonej cechy ukrytej (latent variable), np. postawy. Współczynniki korelacji między wartościami transformowanymi dla wskaźników binarnych noszą nazwę korelacji tetrachorycznych, a dla wskaźników porządkowych korelacji polichorycznych. W przypadku wskaźników binarnych relacja między wskaźnikami surowymi a transformowanymi jest dana wzorem (1): 1,dla y* y 0, dla y* (1) Jak wynika ze wzoru (1), jeżeli respondenci na skali wskazują 1 ( tak ), to ich wartość na ukrytej zmiennej pomiarowej jest wyższa od wartości progowej (proporcji odpowiedzi po transformacji probit). Jeżeli natomiast wskazują 0 ( nie ), to wartość ta jest mniejsza lub równa wartości progowej (wartość progowa pełni rolę średniej dla danych metrycznych). Zasada ta może być rozszerzona na wskaźniki politomiczne (np. w skali 1-5) i wówczas ma ona postać: y c, gdy c y (2) c 1 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 9

6 W efekcie dla n kategorialnej skali ocen jest zawsze n-1 wartości progowych (dla danych binarnych jest to jedna wartość). Rys. 1 i 2 przedstawiają macierze korelacji tetrachorycznych (poprawnej) i korelacji Pearsona (niepoprawnej) dla tego samego zbioru zmiennych. Rys. 1. Korelacje tetrachoryczne. Rys. 2. Korelacje Pearsona. 10 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

7 Przedstawione na rys. 2 współczynniki korelacji Pearsona są generalnie niższe od korelacji tetrachorycznych (efekt tłumienia związku). W macierzy korelacji tetrachorycznych elementy w wierszu Means oznaczają wartości progowe (tresholds). Wariancje zmiennych są ustalone na poziomie jedności. Macierz korelacji tetrachorycznych może stanowić dane wejściowe do dalszych analiz z wykorzystaniem binarnych wskaźników cech ukrytych 2. Zmienne ukryte w badaniach społecznych Zmienne ukryte stanowią kluczowe pojęcie w modelowaniu zjawisk społecznych. Modele ze zmiennymi ukrytymi są jednym z podstawowych typów modeli w psychologii, socjologii i badaniach marketingowych. Mogą one dotyczyć zarówno cech ukrytych, czyli nieobserwowalnych dyspozycji i cech badanych jednostek (wiedza, kompetencje, zdolności itp.), jak i konstruktów badacza związanych z przyjmowaną teorią (status społeczny, alienacja, dysonans pozakupowy itp.). Z punktu widzenia statystycznego zmienne ukryte można definiować jako zmienne losowe, które nie mają empirycznych realizacji z próby i których rozkłady wynikają z założeń teoretycznych badacza. Z punktu widzenia ich miejsca w modelu pomiarowym są to zmienne w modelach, w których liczba zmiennych niezależnych jest większa niż liczba zmiennych obserwowalnych. Są to również zmienne w systemie równań, jeżeli nie można wykonać takiego przekształcenia równania, że wyrażamy taką zmienną jako wyłącznie funkcję zmiennych obserwowalnych (wskaźników). Najogólniej można wyodrębnić trzy podstawowe podejścia do definiowania i pomiaru zmiennej ukrytej. W pierwszym klasycznym ujęciu zmienna ukryta jest identyfikowana jako wariancja wspólna co najmniej trzech wskaźników mających podobne korelacje 2 Przedstawiona procedura uzyskiwania pomiarowych zmiennych ukrytych (y*) dotyczy tzw. parametryzacji probitowej. Do innych typów parametryzacji należy logitowa (logistyczny rozkład reszt) i typu log-log (rozkład Gumbela reszt w modelu). Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 11

8 i wartości średnie (lub progowe). Są to tzw. równoległe wskaźniki refleksywne (odzwierciedlające ukrytą własność mierzoną). Do tego typu wskaźników należą np. pozycje (stwierdzenia) w skali Likerta, które powinny cechować się wysoką wzajemną korelacją o podobnej sile i kierunku. Modelem pomiarowym tego typu zmiennej ukrytej jest konfirmacyjna analiza czynnikowa: y, (3) gdzie: y wskaźnik (zmienna obserwowalna), ładunek czynnikowy, zmienna ukryta (oszacowana wariancja wspólna), błąd pomiaru (reszta w modelu pomiarowym). W modelu tym liczba zmiennych niezależnych (3) jest większa od liczby zmiennych obserwowalnych (1) oraz żadne przekształcenie nie prowadzi do wyrażenia zmiennej jako liniowej kombinacji zmiennych obserwowalnych (ponieważ jest również zmienną ukrytą w modelu). Model ten jest podstawowym modelem pomiaru w badaniach społecznych. W drugim podejściu zmienna ukryta jest mierzona również za pomocą refleksywnych, lecz skumulowanych wskaźników (najczęściej binarnych). Tego rodzaju wskaźniki stanowią pozycję skali Guttmana, zadania mierzące kompetencje lub zdolności, fakt posiadania określonych dóbr jako wskaźniki statusu. Korelacja między tego typu skumulowanymi pozycjami cechuje się wzorem simplex po uporządkowaniu pozycji od najtrudniejszej (o niskim prawdopodobieństwie zgody) do najłatwiejszej (o wysokim prawdopodobieństwie zgody) sąsiednie pozycje korelują silniej niż skrajne, których korelacje mogą być nawet ujemne (wzór circumplex). Modelem pomiarowym 12 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

9 tego typu zmiennej ukrytej jest konfirmacyjna analiza czynnikowa dla wskaźników binarnych oparta na teorii reakcji na pozycje skalowe (IRT): p( y) ln 1 p( y) (4) W modelu tym logarytm szansy (logit) jest funkcją wartości progowych ( ), ładunków czynnikowych ( ) i zmiennej ukrytej (. Ten rodzaj parametryzacji (logitowa) jest podstawą modeli pomiaru w teorii IRT, w której prawdopodobieństwo zgody z pozycją jest funkcją poziomu trudności pozycji związanej z wartością progową ( ) i jej mocy dyskryminacyjnej mierzonej wysokością ładunków czynnikowych ( ). Ten rodzaj zmiennych ukrytych jest popularny w edukacyjnych badaniach społecznych (analiza kompetencji uczniów) i badaniach marketingowych (ocena efektów komunikacyjnych). Trzeci typ zmiennych ukrytych to zmienne ukryte ze wskaźnikami formatywnymi. Zmienne ukryte są traktowane jako liniowe kombinacje wskaźników uzupełnione o część niewyjaśnionej wariancji zmiennych ukrytych przez wskaźniki (zakłócenia w modelu). y (5) Bardzo podobnym do formatywnych zmiennych ukrytych typem zmiennych są składowe (composites), znane z analizy głównych składowych, które traktowane są jako wyłącznie liniowa kombinacja wskaźników (bez uwzględnienia reszt w modelu pomiaru): y. Ten typ zmiennych ukrytych jest popularny zarówno w socjologii (np. status społeczny jako kombinacja dochodu, wykształcenia i profesji), jak i marketingu (siła nabywcza rynku jako kombinacja liczby ludności, ich dochodów i intensywności sieci dystrybucji). Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 13

10 Konfirmacyjna analiza czynnikowa ze wskaźnikami niemetrycznymi Ogólny model pomiarowy oparty na konfirmacyjnej analizie czynnikowej ze wskaźnikami niemetrycznymi i kowariantami można zapisać w następujący sposób: y* Κx (6) W modelu tym pomiarowa zmienna ukryta jest funkcją wartości progowej, ładunku czynnikowego, kowarianty (zmiennej kontekstowej) i błędu pomiaru. Po obliczeniu macierzy korelacji tetrachorycznych, macierz ta, pełniąca rolę danych wejściowych, jest wprowadzana do modelu konfirmacyjnej analizy czynnikowej. Wprawdzie podstawową metodą estymacji modelu czynnikowego jest metoda największej wiarygodności, jednakże w przypadku danych niemetrycznych wykorzystywana jest metoda (diagonalnie) ważonych najmniejszych kwadratów. Oceny parametrów estymowanego modelu dla macierzy z rys. 1 są przedstawione na rys. 3. Rys. 3. Oceny parametrów modelu pomiarowego. 14 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

11 Wynik otrzymany w programie STATISTICA (rys. 3) przedstawia ładunki czynnikowe dla modelu pomiarowego zaufania transakcyjnego (ZT) i zachowań etycznych (ZE). Ładunki czynnikowe wskazują na moc dyskryminacyjną pozycji skali i korelację z ukrytymi wymiarami zaufania, natomiast parametry progów z rys. 1 wskazują na poziom trudności poszczególnych binarnych wskaźników. W analizowanym przypadku pozycja p6.1 jest najłatwiejsza (cechuje się najniższą wartością progową i najwyższym prawdopodobieństwem zgody z pozycją skali), a pozycja p6.10 jest najtrudniejsza dla respondentów (ma najwyższą wartość progową i najniższe prawdopodobieństwo zgody). Czynniki sytuacyjne w modelach zjawisk społecznych W badaniach społecznych zmienne ukryte mogą reprezentować dwie klasy nieobserwowalnych własności respondentów. Mogą to być względnie trwałe cechy ukryte (latent traits) i kategorie teoretyczne badacza (postawy, preferencje, wartości, pozycje społeczne itp.) lub chwilowe, nietrwałe i sytuacyjnie określone stany, w których znajduje się jednostka w chwili pomiaru (latent states), takie jak odczucie satysfakcji, nastrój niepokoju, lęku, szczęścia itp. Są to względnie zmienne stany emocjonalne, wynikające z czynników sytuacyjnych i interakcji międzyludzkich w danej chwili. Analiza stanów ukrytych wymaga zastosowania danych wzdłużnych (panelowych), które coraz częściej występują w badaniach społecznych. Modelowanie tego typu danych musi uwzględniać ich dynamiczny charakter, a do tego typu modeli należą np. modele krzywych rozwojowych (latent growth curves) i modele ukrytych łańcuchów Markowa (hidden Markov models). Modele stanów-cech (latent state-trait models), należące do rodziny ukrytych łańcuchów Markowa, są przykładem zastosowania konfirmacyjnej analizy czynnikowej do danych panelowych w celu pomiaru zarówno względnie trwałej cechy ukrytej, jak i zmieniających się w czasie ukrytych stanów. Celem modelu stanów-cech jest dekompozycja całkowitej wariancji na jej część związaną z trwałymi różnicami międzyosobowymi związanymi ze spójnymi i stabilnymi Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 15

12 cechami osoby (T) oraz część proporcji wyjaśnianej przez specyficzne (S) i sytuacyjne różnice międzyosobowe (specyficzność sytuacyjna): y ik T S ik ik ik ik (7) Stabilne cechy ukryte są niezależne od sytuacji badania, a ich zmiany w czasie są modelowane za pomocą modeli rozwojowych (latent growth curves). Stany ukryte stanowią czasowe i niestabilne odchylenia od poziomów mierzonych cech ukrytych. Im wyższy jest wskaźnik spójności, tym silniej głównym źródłem zmienności jest stabilna ukryta cecha jednostki. Im wyższy jest wskaźnik specyficzności, tym silniej głównym źródłem zmienności są czynniki sytuacyjne. Struktura modelu składającego się z jednej cechy i dwóch stanów mierzonych w dwóch okresach (powtarzane pomiary) jest przedstawiona na rys y S1 2 y T 3 4 y S2 y Rys. 4. Model stanów-cech. 16 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

13 Z punktu widzenia założeń modelu stany ukryte są niezależne od cechy ukrytej, ładunki czynnikowe i wyrazy wolne są ustalone jako równe w przekroju stanów (inwariancja pomiaru) oraz wariancje błędu są ustalone jako równe w przekroju stanów, za wyjątkiem stanu pierwszego (efekt sokratejski wyższa wariancja błędu w pierwszej sytuacji badania niż w kolejnych falach). Oceny parametrów estymowanego modelu stanów-cech są przedstawione na rys. 5. Model dotyczy analizy postrzeganej satysfakcji z usługi naprawczej stacji obsługi samochodów w dwóch falach pomiaru: 1) po etapie przywitania i diagnozowania problemu oraz 2) po uregulowaniu płatności i podczas odbioru naprawionego samochodu. Postrzegana jakość procesu usługowego (PQ) mierzona jest za pomocą dwóch wskaźników w dwóch okresach (PQ11, PQ21, PQ12, PQ22), zmienna zależna (jakość postrzegana-satysfakcja z efektu obsługi) jest mierzona za pomocą trzech wskaźników w ostatniej fazie badań (S1, S2, S3). Rys. 5. Wyniki estymacji modelu stanów-cech (część pomiarowa). Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 17

14 Rys. 5 przedstawia strukturę ładunków czynnikowych dla stanów PQ1 i PQ2 oraz cechy PQ postrzeganej jakości usługi. Odpowiednie ładunki w przekroju stanów są ustalone jako równe. Ze struktury ładunków wynika, że postrzegana jakość usługi traktowana jako cecha ukryta charakteryzuje się niespójną strukturą ładunków (dla wskaźników PQ12 i PQ22 są one ujemne), co pośrednio wskazuje, że wskaźnik specyficzności może dominować na wskaźnikiem spójności pomiaru. Stąd postrzegana jakość jest rozumiana bardziej jako stan niż cecha ukryta. Część strukturalna modelu prezentuje wpływ obu stanów oraz cechy potrzeganej jakości procesu usługi na ogólną satysfakcję z efektu usługi. Rys. 6. Wyniki dla części strukturalnej modelu. Z rys. 6 wynika, że szczególnie pierwsza faza kontaktu (recepcja i diagnoza problemu) ma wpływ na poziom satysfakcji z usługi. Zauważalny jest również dodatni wływu obu stanów postrzeganej jakości procesu. Wpływ cech postrzeganej jakości procesu na jakość efektu jest natomiast ujemny. Modele ukrytych stanów-cech mają duże znaczenie w modelowaniu zjawisk dynamicznych. Pozwalają one na identyfikację wpływu niestabilnych czynników sytuacyjnych na zachowanie jednostek. 18 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

15 Modelowanie w układach hierarchicznych Zachowania ludzi zawsze mają miejsce w określonych układach instytucjonalnych mających często charakter hierarchiczny. Przykładem tego typu zachowań są zachowania członków rodziny, uczniów w klasach szkolnych, pracowników w przedsiębiorstwach, pacjentów w szpitalach itp. Mierzone własności jednostek zależą wówczas nie tylko od ich innych własnych cech lub czynników, ale również od cech kształtujących społeczny kontekst ich zachowań (np. cech gospodarstwa domowego, szkoły, przedsiębiorstwa czy szpitala). W najprostszym przypadku struktura regresyjnego modelu wielopoziomowego jest przedstawiona w równaniach (8) (11). Pierwsze równanie regresji określa zależność między zmienną zależną (y) a zmienną niezależną na poziomie indywidualnych obserwacji pierwszego poziomu: y ig b0 g b1 gxig rig (8) gdzie: y ig wartość zmiennej zależnej dla obserwacji i w jednostce II poziomu g, x ig wartość zmiennej niezależnej dla obserwacji i w jednostce II poziomu g, b 0g wartość wyrazu wolnego w jednostkach II poziomu g, b 1g współczynnik kierunkowy funkcji regresji, r ig reszta modelu. Zarówno wartości średnie zmiennej zależnej, jak i relacje między nimi mogą się zmieniać w przekroju jednostek II poziomu. Zmienność ta może być wywoływana różnymi zmiennymi charakteryzującymi II poziom. Wyrazy wolne i współczynniki kierunkowe są więc traktowane jako zmienne losowe, wyjaśniane jako funkcja zmiennych wyższego poziomu: Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 19

16 b0 g c00 c01wg u0g, (9) b1 g c`10 c11wg u1 g (10) gdzie: w g zmienna objaśniająca II poziomu, c 00 średnia wyrazów wolnych w przekroju jednostek II poziomu, c 10 średnia współczynników kierunkowych w przekroju II poziomu, c 01 współczynnik kierunkowy funkcji regresji II poziomu wyjaśniający zmienność wyrazów wolnych, c 11 współczynnik kierunkowy funkcji regresji II poziomu wyjaśniający zmienność współczynników kierunkowych, u 0g, u 1g reszty w modelu. Ostateczny model ma postać: y ig c00 c01wg u0g c10xig c11wg xig u1 gxig rig (11) Model wielopoziomowy wyraża zmienną zależną z poziomu indywidualnego jako funkcję zmiennej niezależnej z poziomu indywidualnego (x ig ), zmiennej niezależnej z poziomu grupowego (w g ) oraz międzypoziomowej interakcji między zmiennymi (x ig, w g ). W estymacji wielopoziomowych modeli czynnikowych i strukturalnych ze zmiennymi ukrytymi (ze wskaźnikami metrycznymi i kategorialnymi) wykorzystuje się zasadę dekompozycji macierzy kowariancji na macierz wewnątrzklasową i zewnątrzklasową. Wynika ona z dekompozycji całkowitej zmienności obserwacji y ig respondenta i znajdującego się w klasie (grupie) g na zmienność międzygrupową (międzyskupiskową y B ) 20 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

17 oraz zmienność wewnątrzgrupową (wewnątrzskupiskową y w = y ig - y g ). Obie te składowe są wzajemnie ortogonalne i spełniają warunek addytywności. YT = YB + YW (12) Ten rodzaj dekompozycji jest wykorzystywany do obliczenia międzygrupowej macierzy kowariancji (macierzy kowariancji zdezagregowanych średnich grupowych) S B oraz wewnątrzgrupowej macierzy kowariancji (macierzy kowariancji odchyleń indywidualnych obserwacji od odpowiednich średnich grupowych) S W. Macierze te są również addytywne i ortogonalne: ST = SB + SW (13) Program STATISTICA nie umożliwia zastosowania klasycznej procedury modelowania wielopoziomowego. W budowie modelu zastosowano podejście uproszczone (Goldsteina), w którym na podstawie oszacowanych macierzy kowariancji wewnątrzklasowej i międzyklasowej zbudowano odrębne modele czynnikowe (estymowane jednocześnie). Postać danych wejściowych jest przedstawiona na rys. 7. W macierzy składanej pierwsza macierz jest macierzą wewnętrzną kowariancji (odchyleń od średnich grupowych), a druga macierzą zewnętrzną (zmienności średnich grupowych). Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 21

18 Rys.7. Dane wejściowe do modelu wielopoziomowego. Na rys. 8 (model wewnętrzny) i 9 (model zewnętrzny) przedstawiona jest wielopoziomowa konfirmacyjna analiza czynnikowa wymiarów zaufania transakcyjnego i zachowań etycznych w kanałach dystrybucji. Pozycje p61, p62 p64 dotyczą zaufania transakcyjnego, a pozycje p63 p65 i p66 zachowań etycznych. Analiza wstępna jakości modeli na podstawie kryterium Akaike pozwoliła na wybór dwuczynnikowego modelu wewnętrznego i dwuczynnikowego zewnętrznego jako modelu najlepiej dopasowanego do danych. 22 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

19 Rys. 8. Model wewnętrzny. Struktury czynnikowe na obu poziomach są zbliżone (z ładunkami czynnikowymi wyższymi jednak na poziomie wewnętrznym, co wskazuje na wyższą rzetelność pomiaru zaufania na tym poziomie). Należy zwrócić uwagę na przeciwne znaki współczynników kowariancji na obu poziomach (dodatnia kowariancja na poziomie wewnętrznym i ujemna na poziomie zewnętrznym). Tego typu sytuacja wskazuje na tzw. paradoks Simpsona na poziomie indywidualnym wzrost zaufania transakcyjnego Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 23

20 prowadzi do wzrostu zachowań etycznych a na poziomie gospodarstwa domowego zjawiska te są przeciwstawne 3. Rys. 9. Model zewnętrzny. 3 Paradoks ten występuje także w wielu innych przypadkach, np. na poziomie społeczeństwa wzrost intensywności ćwiczeń fizycznych prowadzić może do spadku zawałów serca, ale na poziomie indywidualnym relacja między intensywnością ćwiczeń a prawdopodobieństwem zawału może być dodatnia. 24 Copyright StatSoft Polska 2014, info@danewiedzasukces.pl

21 Podsumowanie Modelowanie zjawisk społecznych jest bardzo rozległym obszarem analiz i nie sposób przedstawić wszystkich nurtów i kierunków jego rozwoju. Wydaje się jednak, że do podstawowych cech modeli wynikających ze specyfiki danych i natury zjawisk należą: kategorialny charakter wskaźników, uniemożliwiający często wykorzystywanie metod właściwych dla danych metrycznych, zmienne ukryte określające nieobserwowalne cechy respondentów i koncepcyjną naturę mierzonych zmiennych oraz dynamiczny i wielopoziomowy charakter zjawisk. Zastosowanie odpowiednich narzędzi analitycznych pozwala jednak na przełamanie przynajmniej niektórych ograniczeń i trafny opis, wyjaśnianie i przewidywanie zjawisk społecznych. Literatura 1. Bollen, K., A., Latent Variables in Psychology and the Social Sciences, Annual Review of Psychology, 2002/53, s Eid, M., A Closer Look at the Measurement of Change: Integrating Latent State- Trait Models into the General Framework of Latent Mixed Markov Modeling, Methods of Psychological Research Online, Special Issue, 2002, Muthen, B., Latent Variable Modeling with Multilevel and Longitudinal Data, w: Raftery A., red. Sociological Methodology, Blackwell pub. Boston Sagan, A., Zmienne ukryte w badaniach marketingowych, UEK Kraków Copyright StatSoft Polska 2014, info@danewiedzasukces.pl 25