ANALIZY WIELOZMIENNOWE



Podobne dokumenty
Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

(x j x)(y j ȳ) r xy =

TESTY I KORELACJE cz.2

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

8.1. Syndrom wypalenia zawodowego a dopasowanie do środowiska pracy - analiza korelacji. Rozdział 8. Dane uzyskane w badaniach

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

ANALIZA REGRESJI SPSS

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Wprowadzenie do analizy korelacji i regresji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Zmienne zależne i niezależne

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Rozdział 8. Regresja. Definiowanie modelu

Badanie zależności skala nominalna

MODELE LINIOWE. Dr Wioleta Drobik

Ścieżki dostępu do STATISTICA

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Analiza regresji wielokrotnej - hierarchiczna

Ekonometria. Weryfikacja modelu. Paweł Cibis 6 kwietnia 2006

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Analiza wariancji jednej zmiennej (UNIANOVA)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Testy nieparametryczne

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

KORELACJE I REGRESJA LINIOWA

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

R-PEARSONA Zależność liniowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Testowanie hipotez statystycznych

Regresja logistyczna (LOGISTIC)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KORELACJE (zmienne ilościowe i porządkowe)

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Analiza współzależności zjawisk

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Analiza korelacji

Metodologia badań psychologicznych. Wykład 12. Korelacje

Wykorzystanie technologii Blockchain w Centrach Usług Wspólnych

Gimnastyka artystyczna

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Żródło:

Jeżeli A wpływa na B, a B wpływa na C, to A wpływa na C czyli o efektach łącznych

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Hipoteza: Dziewczynki częściej niż chłopcy mają sprecyzowane plany dotyczące dalszego kształcenia (dlaczego?)

Wykład 3 Hipotezy statystyczne

ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Własności statystyczne regresji liniowej. Wykład 4

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Żródło:

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

TABELE WIELODZIELCZE

Podstawy obsługi SPSS

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Wyniki badań PBQ i MAAS wykonanych w lipcu-październiku 2015

STATYSTYKA MATEMATYCZNA

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

TESTY I KORELACJE cz.1

2. Pewien psycholog w przeprowadzonym przez siebie badaniu międzykulturowym chciał sprawdzić czy narodowość badanych osób różnicuje je pod względem

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Zadania ze statystyki, cz.6

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Jednoczynnikowa analiza wariancji

Transkrypt:

ANALIZY WIELOZMIENNOWE ANALIZA REGRESJI Charakterystyka: Rozszerzenie analizy korelacji o badanie zależności pomiędzy wieloma zmiennymi jednocześnie; Podstawowe zastosowanie (ale przez nas w tym momencie niewykorzystywane) to przewidywanie wartości zmiennej zależnej, gdy zmieniają się wartości zmiennych niezależnych. Założenia: Budujemy pewien model, w którym będzie jedna zmienna zależna i grupa zmiennych niezależnych; Interesuje nas oddziaływanie zmiennych niezależnych na zależną łącznie a nie każdej z nich osobno (tak jak to było w podstawowych testach statystycznych); Zmienne niezależne nazywamy predyktorami; Zmienna zależna i zmienne niezależne mają mieć rozkład normalny; Wszystkie zmienne w modelu (i zależna, i niezależne) muszą być ilościowe; Jeśli chcemy włączyć do modelu zmienne kategorialne (nominalne, porządkowe) to należy wcześniej przekodować je do postaci zero-jedynkowej; Predyktor musi być określony dla min. 15 jednostek; Predyktory nie powinny ze sobą silnie korelować w zasadzie to nie powinno być między nimi żadnej korelacji, ale wiemy, że jest to niemożliwe: stąd warunek został osłabiony i eliminujemy z modelu tylko silnie skorelowane predyktory. Przykład: Filtr: rok 2010 Model: o Zmienna zależna: re6 Mężczyz. zarabiać, kobieta w domu o Zmienne niezależne: q9age wiek q49a liczba dzieci r31 religijność q8 płeć Aby móc włączyć do modelu zmienną kategorialną płeć należy ją przekodować na dwie zmienne, gdzie: q8_m bycie mężczyzną (kody: 1 mężczyzna, 0 kobieta) q8_k bycie kobietą (kody: 0 mężczyzna, 1 kobieta). 1

Ze zrekodowanych zmiennych płci wybieramy jedną i włączamy do modelu. Nie bierzemy obu, bo wiemy, że są ze sobą silnie skorelowane (kto jest kobietą, ten nie jest mężczyzną i na odwrót). Model wygląda teraz tak: o Zmienna zależna: re6 Mężczyz. zarabiać, kobieta w domu o Zmienne niezależne: q9age wiek q49a liczba dzieci r31 religijność q8_m bycie mężczyzną Jednym z podstawowych warunków analizy regresji jest również to, by zmienne niezależne nie były wzajemnie silnie skorelowane. Sprawdzamy to, wykonując serię testów r-pearsona. Do serii korelacji dołączymy również zmienną zależną sprawdzając przy okazji, czy jest korelacja między nią, a zmiennymi niezależnymi brak takiej korelacji osłabiłby model. Syntax CORRELATIONS /VARIABLES=re6 q9age q49a re31 q8_m /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE Korelacje Mężczyz Wiek Liczba Resp osobą mężczyzna zarabiać, kobieta w domu respondenta wszystkich dzieci respondenta religijną/nierelig ijną Korelacja Pearsona 1 -,228 ** -,138 **,188 ** -,129 ** Mężczyz zarabiać, Istotność (dwustronna),000,000,000,000 kobieta w domu N 1230 1230 1221 1213 1230 Korelacja Pearsona -,228 ** 1,427 ** -,187 ** -,091 ** Wiek respondenta Istotność (dwustronna),000,000,000,001 N 1230 1263 1253 1241 1263 Korelacja Pearsona -,138 **,427 ** 1 -,166 ** -,127 ** Liczba wszystkich Istotność (dwustronna),000,000,000,000 dzieci respondenta N 1221 1253 1253 1231 1253 Korelacja Pearsona,188 ** -,187 ** -,166 ** 1,162 ** Resp osobą Istotność (dwustronna),000,000,000,000 religijną/niereligijną N 1213 1241 1231 1241 1241 Korelacja Pearsona -,129 ** -,091 ** -,127 **,162 ** 1 mężczyzna Istotność (dwustronna),000,001,000,000 N 1230 1263 1253 1241 1263 **. Korelacja jest istotna na poziomie 0.01 (dwustronnie). 2

Po pierwsze sprawdzamy, czy zmienna zależna jest skorelowana z każdą zmienną niezależną z osobna. Okazało się, że jest (szara kolumna): re6 x wiek: p<0,05, r xy = -0,228 re6 x liczba dzieci: p<0,05, r xy = -0,138 re6 x religijność: p<0,05, r xy = 0,188 re6 x bycie mężczyzną: p<0,05, r xy = -0,129 Gdy analizujemy związki zależnej z każdą zmienną niezależną z osobna, to korelacje nie są bardzo wysokie. Regresja powie nam, czy wartość współczynnika korelacji zmieni się (będzie to związek silniejszy lub słabszy), gdy sprawdzimy działanie wszystkich zmiennych niezależnych razem. Po drugie sprawdzamy korelacje między zmiennymi niezależnymi (zaznaczone w tabeli na żółto): wiek x liczba dzieci: p<0,05, r xy = 0,427 wiek x religijność: p<0,05, r xy = -0,187 wiek x bycie mężczyzną: p<0,05, r xy = -0,091 liczba dzieci x religijność: p<0,05, r xy = -0,166 liczba dzieci x bycie mężczyzną: p<0,05, r xy = -0,127 religijność x bycie mężczyzną: p<0,05, r xy = 0,162 Niestety, wszystkie zmienne niezależne w naszym modelu są ze sobą skorelowane. Ale jak już było wspomniane wcześniej, brak korelacji jest utopią. Patrzymy więc na siłę stwierdzonych zależności. Generalnie są słabe, poza jedną: wiek x liczba dzieci. W takim przypadku należy z modelu wykluczyć jedną z silnie korelujących zmiennych. To jest decyzja raczej merytoryczna: która zmienna jest dla nas ważniejsza? która jest mniej istotna? Tutaj możemy zadecydować o wykluczeniu zmiennej liczba dzieci. W efekcie model wygląda teraz tak: o Zmienna zależna: re6 Mężczyz. zarabiać, kobieta w domu o Zmienne niezależne: q9age wiek r31 religijność q8_m bycie mężczyzną Dlaczego tak ważne jest, by predyktory nie były skorelowane? Bo jeśli umieścimy w modelu skorelowane predyktory, to możemy mieć podejrzenia, że mierzą to samo. I co za tym idzie: ich związki z zależną też są podobne. I nie wiemy wówczas, jaki jest rzeczywisty wpływ każdego z nich na zmienna zależną. Może w skrajnych przypadkach dojść do sytuacji, że predykator każdy z osobna włączony do modelu jest istotnie związany z zależną, ale wprowadzone razem znoszą się i ich wspólny wpływ będzie nieistotny. 3

ANALIZA -> REGRESJA -> LINIOWA W zakładce Statystyki oprócz domyślnych oszacowania dopasowanie modelu warto jeszcze zaznaczyć statystyki opisowe Resztę ustawień pozostawiamy domyślnie. Syntax REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT re6 /METHOD=ENTER q9age re31 q8_m. W ostatnich dwóch liniach kodu są zmienne: w linii: /DEPENDENT [zmienna zależna] w linii /METHOD=ENTER [zmienne niezależne] Interpretacja tabel wynikowych: a) statystyki opisowe prosta analiza średnich i odchyleń nieużyteczne w przypadku zdekodowanych zmiennych kategorialnych (nie da się interpretować wartości średniej i odchylenia) b) korelacje seria korelacji r-pearsona informacje, które już znamy, bo wykonaliśmy takie obliczenia przed przystąpieniem do analizy regresji możemy tu upewnić się: o czy zmienna zależna jest skorelowana ze zmiennymi niezależnymi; o czy i jak mocno zmienne niezależne skorelowane są między sobą. 4

c) Zmienne wprowadzone / usunięte Jeśli SPSS zdecydowałby o usunięciu z modelu jakiś zmiennych, to poinformowałby o tym właśnie tutaj; Program usuwa zmienne niezależna bardzo silnie ze sobą korelujące; U nas nie ma zmiennych wycofanych z modelu, wszystkie zostały poddane dalszym analizom. d) Model podsumowanie Model - Podsumowanie Model R R-kwadrat Skorygowane R-kwadrat Błąd standardowy oszacowania 1,322 a,104,101 1,140 a. Predyktory: (Stała), mężczyzna, Wiek respondenta, Resp osobą religijną/niereligijną Tabela podaje wartości współczynników korelacji wielozmiennowej: R to siła związku pomiędzy zmienną zależną a predyktorami im więcej predyktorów, tym trudniejsza jego interpretacja; R-kwadrat jaki odsetek wariancji wyjaśnia model (u nas: 10% czyli niewiele) Skorygowane R-kwadrat wartość współczynnika z poprawką na liczbę analizowanych jednostek i liczbę predyktorów w modelu. Interpretujemy wartość skorygowanego R-kwadrat: 0,101. Interpretacja jest taka sama jak w przypadku wszystkich współczynników korelacji. U nas: wartość R 2 kor = 0,101, co oznacza korelację słabą pomiędzy wiązką zmiennych niezależnych a zmienną zależną. e) ANOVA Informuje nas, czy stwierdzona korelacja wielozmiennowa jest istotna statystycznie; Jeśli istotność jest mniejsza niż 0,05, to korelacja wielozmiennowa jest istotna statystycznie; W naszym przypadku tak właśnie jest, czyli mamy istotną, ale słabą korelację w modelu regresji: F(3, 1209) = 46,585; p<0,05 Anova a Model Suma kwadratów df Średni kwadrat F Istotność Regresja 181,692 3 60,564 46,585,000 b 1 Reszta 1571,416 1209 1,300 Ogółem 1753,108 1212 a. Zmienna zależna: Mężczyz zarabiać, kobieta w domu b. Predyktory: (Stała), mężczyzna, Wiek respondenta, Resp osobą religijną/niereligijną 5

f) Współczynniki Współczynniki a Model Współczynniki niestandaryzowane Współczynniki standaryzowane t Istotność B Błąd standardowy Beta (Stała) 3,096,152 20,373,000 Wiek respondenta -,015,002 -,209-7,541,000 1 Resp osobą religijną/niereligijną,205,032,179 6,378,000 mężczyzna -,424,067 -,176-6,374,000 a. Zmienna zależna: Mężczyz zarabiać, kobieta w domu Analiza regresji oprócz informacji nt. korelacji całego modelu, udostępnia też informacje, jak ze zmienną zależną korelują w ramach modelu zmienne niezależne. To w ramach modelu oznacza, że patrzymy na korelację dwóch zmiennych, ale przy jednoczesnym oddziaływaniu zmiennych sąsiadujących. Pokazane wcześniej korelacje r-pearsona były liczone w sposób wyizolowany, tutaj mamy korelację + jej otoczenie. Z tabeli odczytujemy: Istotność jeśli mniejsza niż 0,05, to korelacja jest istotna statystycznie; o Jeśli byłaby nieistotna korelacja, to znaczy, że mamy w modelu Albo zmienną niezależną nieskorelowaną ze zmienną zależną Albo ten predyktor jest mocno skorelowany z innymi predyktorami. Beta (współczynnik standaryzowany) o Interpretujemy jak każdy współczynnik korelacji; o Informuje o wielkości wpływu poszczególnych predyktorów na zmienną zależną. Opis i interpretacja całej przeprowadzonej analizy regresji: Analizę regresji przeprowadzono dla następującego modelu: zmienną zależną była opinia nt. podziału ról w rodzinie, a predyktorami zmienne wiek, religijność respondenta i płeć (bycie mężczyzną). Zaproponowany model okazał się istotny statystycznie F(3, 1209) = 46,585; p<0,05. Wartość współczynnika R 2 kor = 0,101 wskazuje, że korelacja stwierdzona w ramach modelu jest słaba (wyjaśnia ok. 10% wariancji). Wartości poszczególnych współczynników predyktorów były istotne statystycznie i wyniosły: dla zmiennej wiek = -0,209, p<0,05 ; dla zmiennej religijność = 0,179, p<0,05 ; dla zmiennej płeć (bycie mężczyzną) = -0,176, p<0,05. Dla zmiennych wiek i płeć wartości współczynników są ujemne, co oznacza, że wyższy wiek respondenta oraz bycie mężczyzną sprzyjają akceptacji twierdzenia o podziale ról. Z kolei dla zmiennej religijność wartość współczynnika była dodatnia, co oznacza, że im mniej religijny był respondent, tym częściej analizowane twierdzenie odrzucał. 6