Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych

Podobne dokumenty
Niestandardowa tabela częstości

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Rozdział 8. Regresja. Definiowanie modelu

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA MATEMATYCZNA

Analiza współzależności zjawisk

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Lista 6. Kamil Matuszewski 13 kwietnia D n =

DZISIAJ. Jeszcze trochę o PROJEKTACH JAK PREZENTOWAĆ: JAK OBLICZAĆ: PROSTE INFORMACJE O PRÓBIE KORELACJE DWÓCH CECH PODSTAWOWE MIARY

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

ANALIZY WIELOZMIENNOWE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zmienne zależne i niezależne

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Analiza Statystyczna

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Zadanie 1. Analiza Analiza rozkładu

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Wprowadzenie do analizy korelacji i regresji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Testowanie hipotez statystycznych. Wprowadzenie

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Rozkłady zmiennych losowych

Ćwiczenie 1. Metody określania niepewności pomiaru

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Dlaczego należy uwzględniać zarówno wynik maturalny jak i wskaźnik EWD?

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Estymacja punktowa i przedziałowa

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Szkice rozwiązań z R:

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

METODY STATYSTYCZNE W BIOLOGII

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Jak przekształcać zmienne jakościowe?

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

KORELACJE I REGRESJA LINIOWA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Wykład 2: Tworzenie danych

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

4. Średnia i autoregresja zmiennej prognozowanej

Agnieszka Nowak Brzezińska Wykład III

R-PEARSONA Zależność liniowa

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Najprostsze z zadań z prawdopodobieństwa robi się korzystając z dystrybuanty. Zacznijmy od tego - tu mamy rozkład (wyniki pomiarów):

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Prawdopodobieństwo i rozkład normalny cd.

Monte Carlo, bootstrap, jacknife

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyczne Metody Opracowania Wyników Pomiarów

Regresja liniowa wprowadzenie

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Procedura szacowania niepewności

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Stosowana Analiza Regresji

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

LABORATORIUM Z FIZYKI

Grupowanie materiału statystycznego

0 + 0 = 0, = 1, = 1, = 0.

Wycena nieruchomości za pomocą wyboru wielokryterialnego w warunkach niepewności rozmytej oraz klasycznie: metodą pp i kcś

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

FUNKCJA LINIOWA - WYKRES

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Prognozowanie na podstawie modelu ekonometrycznego

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Pochodna i różniczka funkcji oraz jej zastosowanie do rachunku błędów pomiarowych

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Szkolenie Regresja liniowa

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Transkrypt:

modelowanie strukturalne Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych Monika Książek Szkoła Główna Handlowa W poprzednim artykule wykorzystaliśmy możliwości, jakie daje IBM SPSS Amos, w celu udoskonalenia naszego modelu regresji, objaśniającego kształtowanie się oceny całego życia. Za najlepszy uznaliśmy model, który dodatkowo uwzględniał wpływ zadowolenia z dzieci i finansów na zadowolenie z małżeństwa oraz korelację między zadowoleniem z finansów i stanu zdrowia. Wpływ zadowolenia z dzieci na zadowolenie z życia był nieistotny, więc mogliśmy go z modelu usunąć. Ostateczny model przedstawiono na rysunku 1. Rysunek 1. Ostateczny model kształtowania się zadowolenie z życia Zakończyliśmy prace nad modelem, możemy więc przejść do interpretacji uzyskanych wyników. Tylko jak się do niej zabrać? Z zadowoleniem z małżeństwa sprawa jest prosta wszystko działa jak w zwykłej regresji liniowej. Jeśli jest ono wyższe o 1, to zadowolenie z życia jest wyższe o 0,34. Trudniej jest w przypadku zadowolenia z finansów. Jeśli jest ono wyższe o 1, to zadowolenie z życia jest wyższe o 0,17. Ale czy tylko? Przecież, jeśli zadowolenie z finansów jest wyższe o 1, to zadowolenie z małżeństwa również jest wyższe o 0,11. A jak zadowolenie z małżeństwa jest wyższe o 0,11, to zadowolenie z życia jest wyższe o 0,11 0,34 = 0,037. Wyższa wartość zadowolenia z finansów przekłada się na wyższą wartość zadowolenia z życia nie tylko bezpośrednio, ale również pośrednio, przez wpływ na ocenę małżeństwa. Na łączny wpływ zadowolenia z finansów na zadowolenie z życia składa się więc wpływ bezpośredni o sile 0,17 i wpływ pośredni o sile 011 0,34 = 0,037. Ostatecznie więc, wyższe o 1 zadowolenie z finansów przekłada się na zadowolenie z życia wyższe o 0,17 + 0,34 0,11 = 0,2. A co z zadowoleniem z dzieci? Pamiętamy, że współczynnik przy tej zmiennej był nieistotny statystycznie. Ale jej wpływ na zadowolenie z małżeństwa jest istotny statystycznie. Zadowolenie z dzieci może więc nie wpływa bezpośrednio na zadowolenie z życia, ale z pewnością czyni to za pośrednictwem wpływu na ocenę małżeństwa. Siła tego pośredniego wpływu wynosi 0,59 0,34 = 0,2. To tyle samo, ile łączny wpływ finansów nieźle, jak na zmienną, która z początku wyglądała na nieistotną! Przypadek zmiennej dzieci jest jednak dosyć nietypowy zazwyczaj wpływ bezpośredni jest bardzo silny, a wpływ pośredni znacznie od niego słabszy. Osobnym problemem pozostaje interpretacja wpływu oceny stanu zdrowia, które jest korelowane z zadowoleniem z finansów. Nie możemy więc obliczyć żadnych efektów pośrednich. Musimy dokonać interpretacji niejako ignorując tę korelację, pamiętając jednak, że klauzula przy pozostałych warunkach niezmienionych nie ma racji bytu.

2 Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych O efektach pośrednich i łącznych trzeba powiedzieć jeszcze dwie rzeczy. Po pierwsze, teraz obliczaliśmy je opierając się na współczynnikach niestandaryzowanych. Obliczyliśmy więc efekty niestandaryzowane. Gdybyśmy opierali się na współczynnikach standaryzowanych, otrzymalibyśmy efekty standaryzowane. Po drugie, obliczanie efektów pośrednich może być bardziej skomplikowane niż w przypadku naszego modelu. Jeśli mamy więcej zależności pośrednich, to musimy przejść każdą możliwą ścieżką między zmienną, której wpływ badamy, a zmienną na którą wpływ badamy. Na każdej takiej ścieżce obliczamy iloczyn współczynników i potem sumujemy. Najlepiej pokazać to na przykładzie. Weźmy hipotetyczny model strukturalny, opisany na rysunku 2. Wpływ łączny A na E obliczalibyśmy jako: AE + AB BE + AC CE + AC CD CE, gdzie AE to współczynnik opisujący bezpośredni wpływ A na E, AB bezpośredni wpływ A na B itd. Rysunek 2. Nieco bardziej skomplikowany model strukturalny Nauczyliśmy się obliczać efekty pośrednie i łączne, ale to nie znaczy, że musimy robić to sami. I całe szczęście, bo przy takich modelach jak na rysunku 2., byłoby trochę liczenia. A wystarczy ładnie poprosić IBM SPSS Amos i dostaniemy wszystko na tacy. Wystarczy zaznaczyć [Indirect, direct i total effects] w zakładce [Output] okna [Analysis Properties], jak pokazano na rysunku 3. Rysunek 3. Zamówienie obliczenia efektów łącznych Po obliczeniu modelu w wynikach wygenerowanych przez IBM SPSS Amos w znanym nam już miejscu [Estimates] pojawia się lista [Matrices], a na niej niestandaryzowane efekty bezpośrednie [Direct Effects], pośrednie [Indirect Effects] i łączne [Total Effects] oraz ich standaryzowane odpowiedniki: [Standardized Direct Effects], [Standardized] [Indirect Effects] i [Standardized Total Effects] (rysunek 4). Każde z nich prezentowane są w osobnej tabeli. W tabelach tych, w wierszach są zmienne objaśniane, a w kolumnach zmienne objaśniające. Na przykład liczba 0,112 w pierwszej tabeli to wpływ łączny zadowolenia z finansów na zadowolenie z małżeństwa. W ramach ćwiczeń, zachęcam do odnalezienia na rysunku 4 wartości, które obliczyliśmy wcześniej.

3 Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych Rysunek 4. Wyniki obliczeń efektów łącznych Zinterpretujmy kilka przykładowych wartości. Zajmijmy się wpływem zadowolenia z finansów na zadowolenie z życia. Niestandaryzowany wpływ bezpośredni odczytujemy z tabeli Direct Effects i wynosi on 0,174. Niestandaryzowany wpływ pośredni z kolei znajdujemy w tabeli Indirect Effects i jest on równy 0,038. Niestandaryzowany wpływ łączny z kolei widać w tabeli Total Effects i wynosi on 0,212. Interpretacja tych wartości jest następująca: jeżeli zadowolenie z finansów wzrasta o 1, to zadowolenie z życia wzrasta bezpośrednio o 0,174, a pośrednio przez wzrost zadowolenia z małżeństwa, dodatkowo o 0,038, czyli razem o 0,212. Efekty standaryzowane odczytujemy z analogicznych tabel, ale ze słowem Standardized w nazwie i wynoszą one odpowiednio: bezpośredni 0,232, pośredni 0,05, łączny 0,282. Ich interpretacja jest następująca: jeżeli zadowolenie z finansów wzrasta o jedno odchylenie standardowe, to zadowolenie z życia wzrasta bezpośrednio o 0,232 swojego odchylenia standardowego, a pośrednio przez wzrost zadowolenia z małżeństwa, dodatkowo o 0,05 swojego odchylenia standardowego, czyli razem o 0,232 odchylenia standardowego. Wartości niektórych efektów są bardzo niskie, na przykład pośredni wpływ zadowolenia z finansów na zadowolenie z życia wynosi tylko 0,038. Można się zastanawiać, czy tak niska wartość jest statystycznie istotna. Podobnie, pamiętając że efekt bezpośredni zadowolenia z dzieci na zadowolenie z życia był nieistotny, warto byłoby sprawdzić, czy efekt pośredni jest istotny. Niestety, efekty pośrednie i łączne są pochodnymi parametrów modelu i nie znamy ich rozkładów teoretycznych, co uniemożliwia nam przeprowadzenie testów istotności. Możemy jednak uzyskać ich rozkład empiryczny, posługując się techniką nazywaną bootstrapingiem. Na czym ona polega? Otóż bierzemy naszą próbkę i odrzucamy z niej jedną, losowo wybraną obserwację. Następnie szacujemy model na tej pomniejszonej próbce i obliczamy wartości interesujących nas parametrów, na przykład efektów pośrednich i łącznych. Powtarzamy cały proces wiele razy, za każdym razem na nowo losując odrzucaną obserwację. Wykonując te czynności, powiedzmy 100 razy, obliczamy 100 różnych możliwych wartości naszych parametrów, uzyskując w ten sposób ich rozkład empiryczny. A mając taki rozkład, możemy łatwo obliczyć przedziały ufności, które w tym przypadku nazywa się bootstrapowymi przedziałami ufności. Jeżeli wygenerujemy 100 wartości danego parametru i ustawimy je od najmniejszej do największej, to piąty najniższy będzie stanowił dolną, a dziewięćdziesiąty piąty najwyższy górną granicę 90% przedziału ufności. Dlaczego? Skoro mamy 100 wartości i wycinamy 5 najniższych i 5 najwyższych, to zostaje nam 90 ze 100, czyli 90% wartości. Oczywiście nie musimy sami losować, szacować i zapisywać uzyskiwanych oszacowań, wszystko to możemy zlecić IBM SPSS Amos. W tym celu otwieramy okno [Analysis Properties] i przechodzimy do zakładki [Bootstrap] (rysunek 5). Odhaczamy, że życzymy sobie, by boostrap został przeprowadzony ([Perform bootstrap]) i wpisujemy, ile razy ma być wykonane próbkowanie. Im więcej tym lepiej, ale oczywiście nie ma sensu próbkować dużo więcej razy, niż mamy obserwacji w całej próbie. Zaznaczamy również, że życzymy sobie obliczenia przedziałów

4 Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych ufności ([Percentile confidence intervals] i [Bias corrected confidence][intervals]) oraz wybieramy iloprocentowe mają być te przedziały ufności. Rysunek 5. Zamówienie boostrapu Po co nam dwa rodzaje przedziałów ufności? Ten drugi typ [bias corrected] przydaje się, gdy obawiamy się, że oszacowanie parametru na całej próbie jest obciążone. Kiedy może się tak zdarzyć? Gdy używamy metod ML lub GLS przy małej próbie i braku rozkładu normalnego danych. Uczyliśmy się o tym w artykule [ML, GLS, ADF, czyli jak dobrać metodę estymacji]. Obliczając [bias corrected confidence intervals], IBM SPSS Amos koryguje uzyskane granice przedziałów ufności o obciążenie parametru. A skąd wie, jaka jest prawdziwa wartość parametru? Otóż oblicza ją jako średnią z oszacowań uzyskanych w poszczególnych próbkach bootstrapowych. Zatem, jeśli obawiamy się, że nasze parametry są obciążone, lepiej korzystać z tych skorygowanych przedziałów ufności. Na rysunku 6. pokazano, gdzie znaleźć granice przedziałów ufności. A nie jest to takie proste. Najpierw należy pod [Estimates] odszukać te parametry, które nas w danym momencie interesują. Na rysunku 6. są to niestandaryzowane efekty łączne (Total Effects). Następnie w części [Estimates/Bootstrap] zaznaczamy [Percentile Method], albo [Bias-corrected] [Percentile Method], w zależności od tego, czy chcemy odczytać granice przedziałów ufności z korektą na obciążenie czy bez. Otrzymujemy tabele z dolnymi (Lower Bounds) i górnymi (Upper Bounds) granicami wybranych przedziałów ufności dla zaznaczonych wcześniej parametrów. W kolumnach tych tabel znajdują się zmienne wpływające na inne zmienne, a w wierszach zmienne, na które wpływ jest wywierany. Jest to ten sam schemat, co w przypadku tabel z efektami bezpośrednimi, pośrednimi i łącznymi. Na przykład z rysunku 6. możemy odczytać, że dolna granica bootstrapowego przedziału ufności dla efektu łącznego dzieci na życie wynosi 0,176, a górna 0,216. Przedział ten nie zawiera zera, a więc łączny wpływ zadowolenia z dzieci na zadowolenie z życia jest istotny statystycznie. Podobnie o wszystkich efektach łącznych możemy powiedzieć, że są istotne statystycznie. Rysunek 6. Wyniki boostrapu

5 Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych Na koniec porównajmy ważność poszczególnych aspektów życia, wynikającą z efektów bezpośrednich i łącznych. W tabeli 1 przedstawiono ranking poszczególnych aspektów życia pod względem bezpośredniego i łącznego wpływu na zadowolenie z życia. Oczywiście musimy wziąć pod uwagę efekty standaryzowane, ponieważ tylko one są porównywalne pomiędzy zmiennymi. Tabela 1. Ranking aspektów życia pod względem wpływu na zadowolenie z życia Aspekt życia Standaryzowany efekt bezpośredni Aspekt życia Standaryzowany efekt łączny małżeństwo 0,367 małżeństwo 0,367 finanse 0,232 finanse 0,282 zdrowie 0,102 dzieci 0,173 dzieci 0 (nieistotny) zdrowie 0,102 Pierwsze dwa miejsca okupują małżeństwo i finanse, niezależnie od tego, według czego je uporządkujemy. Natomiast, jeżeli pozostalibyśmy przy efektach bezpośrednich, a więc przy tym, co możemy uzyskać, używając zwykłej regresji liniowej, na trzecim miejscu umieścilibyśmy zdrowie, a dzieci uznali za nieistotne. Tymczasem, uwzględnienie wpływów pośrednich uwidoczniło istotność wpływu zadowolenia z dzieci na zadowolenie z życia i, co więcej, wpływ ten okazał się łącznie wyższy, niż zdrowia. Modelowanie strukturalne pozwoliło więc nie tylko lepiej zrozumieć relacje pomiędzy poszczególnymi aspektami życia, ale także trafniej ocenić ich wagę. Patrząc na zamieszczony w tabeli 1. ranking, każdy pewnie ma swoje osobiste komentarze. Osoby starsze pewnie wyżej uplasowałyby zdrowie, Panie umieściłyby zadowolenie z dzieci jeszcze wyżej, a Panowie mogliby przedkładać finanse nad małżeństwo. To wszystko można sprawdzić, szacując model w podgrupach wyróżnionych ze względu na płeć lub wiek. Jak to zrobić? Dowiemy się już w kolejnym artykule. Predictive Solutions ul. Racławicka 58 30-017 Kraków tel. 12 636 96 80 faks wew. 102 e-mail [info@predictivesolutions.pl] [www.predictivesolutions.pl]