Zmienne zależne i niezależne

Podobne dokumenty
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Analiza składowych głównych. Wprowadzenie

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Analiza składowych głównych

PDF created with FinePrint pdffactory Pro trial version

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie do analizy korelacji i regresji

KORELACJE I REGRESJA LINIOWA

Metodologia badań psychologicznych. Wykład 12. Korelacje

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Analiza kanoniczna w pigułce

ANALIZA CZYNNIKOWA Przykład 1

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Elementy statystyki wielowymiarowej

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

MODELE LINIOWE. Dr Wioleta Drobik

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Rozdział 8. Regresja. Definiowanie modelu

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

JEDNOCZYNNIKOWA ANOVA

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

10. Podstawowe wskaźniki psychometryczne

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Analiza korelacji

Weryfikacja hipotez statystycznych

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Niepewności pomiarów

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Analiza współzależności zjawisk

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Regresja logistyczna (LOGISTIC)

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

(x j x)(y j ȳ) r xy =

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka Matematyczna Anna Janicka

Prawdopodobieństwo i statystyka

Ekonometria. Zajęcia

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

CELE ANALIZY CZYNNIKOWEJ

5. WNIOSKOWANIE PSYCHOMETRYCZNE

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Testowanie hipotez statystycznych

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny

Stosowana Analiza Regresji

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Stanisław Cichocki. Natalia Nehrebecka

Jednoczynnikowa analiza wariancji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

R-PEARSONA Zależność liniowa

Statystyka i eksploracja danych

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Kolokwium ze statystyki matematycznej

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

POLITECHNIKA OPOLSKA

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Inteligentna analiza danych

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Własności statystyczne regresji liniowej. Wykład 4

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Analiza regresji - weryfikacja założeń

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Transkrypt:

Analiza kanoniczna

Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p } { Y1, Y2,..., Y q }. powiązanie? Badanie zależności między jedną zmienną zależną a grupą p zmiennych niezależnych może odbyć się przy użyciu regresji wielorakiej. Jeżeli jednak przedmiotem badania jest zbiór zmiennych zależnych, to nie powinno się stosować modelu regresji wielorakiej dla każdej wyizolowanej zmiennej. Rozpatrywanie bowiem oddzielnie zmiennych zależnych zniekształca obraz analizowanego zjawiska tracimy informację o relacjach zachodzących w zbiorze zmiennych { Y1, Y2,..., Y q }. Analiza kanoniczna jest uogólnieniem regresji wielorakiej na dwie grupy zmiennych umożliwia badanie związku między dwoma zbiorami zmiennych.

Motywacja (2) Podstawowe pojęcia i koncepcje analizy kanonicznej zostały opracowane w latach 1935-36 przez H. Hotellinga. Badał on zależność między zbiorami zmiennych dotyczących umiejętności szybkiego czytania ze zrozumieniem a szybkiego wykonywania obliczeń arytmetycznych. Metodę tę można użyć do analizy powiązań między zmiennymi dotyczącymi ekonomicznej polityki rządu a wskaźnikami opisującymi sytuację makroekonomiczną kraju lub do badania związku między wynikami studentów w trakcie studiów a zmiennymi podsumowującymi ich wiedzę w momencie rozpoczęcia edukacji akademickiej. 3

Motywacja (3) Analiza korelacji kanonicznych polega na wyznaczeniu korelacji między liniowymi kombinacjami zmiennych z obu analizowanych zbiorów. Najpierw wyznaczana jest para liniowych kombinacji, która ma możliwie największą korelację. Następnie wyznaczana jest kolejna para liniowych kombinacji, która ma największą korelację przy ograniczeniu, że wyznaczone kombinacje nie są skorelowane z tymi wyznaczonymi w pierwszym kroku, itd.. Wyznaczone korelacje mierzą siłę związku między dwoma zbiorami zmiennych. Celem analizy jest podsumowanie wielowymiarowych relacji między zbiorami zmiennych za pomocą kilku par liniowych kombinacji (zmiennych kanonicznych). 4

Zmienne zależne i niezależne Zwykle zmienne Y są interpretowane jako zmienne zależne (objaśniane), natomiast X jako zmienne niezależne (objaśniające). Zmienne Y mogą być trudne do zmierzenia lub pomiar taki jest kosztowny w porównaniu ze zmiennymi X. Wówczas zmienne z grupy X chcemy użyć w celu wyjaśnienia jak największej zmienności zmiennych z grupy Y. 5

Analiza kanoniczna - cele Ocena charakteru oddziaływania zbioru zmiennych niezależnych na zbiór zmiennych zależnych. Wyselekcjonowanie zbioru zmiennych niezależnych, który wyjaśnia najlepiej zmienność w zbiorze zmiennych zależnych. Testowanie siły zależności między oboma zbiorami 6 zmiennych.

Idea analizy 7 Celem analizy jest ocena związku między szkodliwymi warunkami pracy (5 zmiennych) a stanem zdrowia pracujących (10 zmiennych). Chcemy ocenić wpływ warunków pracy na ocenę stanu zdrowia. Analiza 10 regresji nie ma sensu, gdyż nie uchwycimy zależności między zmiennymi zależnymi. Dodanie do siebie odpowiedzi w obrębie obu grup i analizowanie korelacji między tak uzyskanymi dwoma zmiennymi powoduje zbytnią utratę informacji dodawanie jabłek i gruszek. Bardziej rozsądne wydaje się badanie korelacji między sumami ważonymi. Główna idea analizy kanonicznej sprowadza badanie zależności między dwoma zbiorami zmiennych do analizowania powiązań między ukrytymi zmiennymi. Zmienne ukryte, będące sumami ważonymi zmiennych pierwszego i drugiego zbioru, są syntetycznym wskaźnikiem mierzącym korelacje.

Algebra modelu (1) Naszym celem jest analiza powiązań między dwoma zbiorami zmiennych: { X1, X 2,..., X p }- zmienne niezależne (objaśniające), { Y1, Y2,..., Y q } - zmienne zależne (objaśniane). Analiza kanoniczna polega na znalezieniu takiej liniowej kombinacji Y-ów: U a Y a Y a Y 1 1 1 2 2... q q oraz takiej liniowej kombinacji X-ów: V b X b X b X 1 1 1 2 2... p p dla której korelacja między U i V przyjmuje maksymalną wartość. Utworzone zmienne nazywamy pierwszymi zmiennymi kanonicznymi, natomiast korelację między nimi pierwszą korelacją kanoniczną. Współczynniki a i b noszą nazwę wag kanonicznych. 8

Algebra modelu (2) Wagi kanoniczne pozwalają na zrozumienie i prostą interpretację zmiennych kanonicznych. Im większa bezwzględna wartość wagi, tym większy wkład danej zmiennej do zmiennej kanonicznej. Aby ułatwić porównywanie między wagami są one podawane dla zmiennych standaryzowanych. 9 Spełnienie warunku maksymalnego skorelowania oznacza, że otrzymane zmienne możemy uważać za dobrą reprezentację danych wejściowych. Niska korelacja może świadczyć o złym dobraniu modelu lub braku powiązań między analizowanymi zbiorami zmiennych

Algebra modelu (3) 10 Kolejne zmienne kanoniczne są wyznaczane w taki sposób, aby każda kolejna zmienna wyjaśniała dodatkową część zmienności w analizowanym zbiorze zmienne kanoniczne są ze sobą nieskorelowane i wyjaśniają coraz mniejszą zmienność. Dla drugiej zmiennej kanonicznej współczynniki a i b są dobierane zatem w taki sposób, aby: 1. V było nieskorelowane z V i U. 2 1 1 2. U było nieskorelowane z i U. 2 V 1 1 3. Przy ograniczeniach 1 i 2, V2 i U 2mają możliwie największą korelację. Liczba zmiennych kanonicznych jest równa minimum z liczby zmiennych w pierwszym i drugim zbiorze.

Algebra modelu (4) W literaturze statystycznej można znaleźć wiele równoważnych podejść do wyznaczenia wag kanonicznych. Oto jedno z możliwych rozwiązań: Niech S XX oznacza macierz zawierającą korelacje między zmiennymi należącymi do X-ów, S YY - macierz korelacji dla Y-ów, natomiast S XY oznacza macierz zawierającą korelację między X-ami a Y-ami. Wówczas wektory własne macierzy 1 1 są wagami dla zmiennych kanonicznych dla zbioru 1 1 zmiennych X, natomiast wektory własne macierzy S S S S są wagami dla zmiennych kanonicznych dla zbioru zmiennych Y. Wartości własne tych macierzy to kwadraty korelacji kanonicznych. S S S S YY XY XX XY XX XY YY XY 11

Algebra modelu (5) Jeżeli analizę przeprowadzamy na zmiennych zestandaryzowanych (odejmujemy średnią i dzielimy przez odchylenie standardowe) to: korelacje kanoniczne są równe tym policzonym dla zmiennych niewystandaryzowanych; wagi kanoniczne są równe wyjściowym wagom pomnożonym przez odchylenia standardowe niewystandaryzowanych zmiennych. 12

Własność korelacji kanonicznych Wartość bezwzględna pierwszej korelacji kanonicznej jest zawsze większa od wartości bezwzględnej z każdej wyjściowej korelacji między zmiennymi z obu zbiorów: corr( Y, X ) corr( Ya, Xb) max corr( Ya, Xb), i j gdzie: a, b są wektorami kolumnowymi zawierającymi 1 odpowiednio na i-tym oraz j-tym miejscu oraz 0 na pozostałych miejscach, Y i X są macierzami danych obu zbiorów zmiennych. ab, 1 13

Testowanie istotności korelacji kanonicznych Test istotności zmiennych kanonicznych jest procedurą sekwencyjną: 1. Najpierw testujemy łączną istotność wszystkich korelacji kanonicznych. Hipoteza zerowa mówi, że wszystkie korelacje są nieistotne, natomiast hipoteza alternatywna stwierdza, iż przynajmniej jedna jest istotna. 2. Jeżeli odrzucamy hipotezę zerową, to w następnym kroku testujemy łączną istotność k 1 najmniejszych korelacji kanonicznych. 3. Procedurę przerywamy w momencie przyjęcia hipotezy zerowej. W przypadku zbiorów danych o większej liczbie zmiennych procedura ta jest bardzo efektywna w wyborze liczby istotnych zmiennych kanonicznych do dalszej analizy. 14

Kanoniczne ładunki czynnikowe (1) Zmienne kanoniczne jako liniowe kombinacje zmiennych, które są mierzone (zwykle) na różnych skalach lub zmiennych standaryzowanych, nie interpretujemy. Korelacje między zmiennymi kanonicznymi a zmiennymi w każdym zbiorze są nazywane kanonicznymi ładunkami czynnikowymi. Im większy ładunek czynnikowy, tym większy kładziemy nacisk na tę zmienną przy interpretacji zmiennej kanonicznej. Jeżeli jeden ze zbiorów zmiennych użytych w analizie jest nieskorelowany, to ładunki czynnikowe są równe wagą. 15

Kanoniczne ładunki czynnikowe (2) Korelacje te jednakże muszą być interpretowane w sposób bardzo uważny. Zapewniają one tylko jednowymiarową informację w tym sensie, iż nie dostarczają informacji w jaki sposób wyjściowe zmienne wchodzą w sposób łączny do zmiennych kanonicznych. Jeżeli niektóre z wyjściowych zmiennych są ze sobą silnie skorelowane w obrębie jednego ze zbiorów, to wagi i ładunki czynnikowe mogą się znacznie od siebie różnić. Może się zdarzyć na przykład, że dwie zmienne ze zbioru X-ów są ze sobą silnie skorelowane oraz każda z nich jest dodatnio skorelowana ze zmienną kanoniczną, a dla jednej z nich waga jest dodatnia a dla drugiej ujemna. Dlatego zwykle interpretuje się ładunki czynnikowe a nie wagi. 16

Proporcja wyjaśnionej wariancji (1) Zakładamy, że wyjściowe zmienne są zestandaryzowane oraz min(q, p) = q. Macierz korelacji pomiędzy pierwszym wyjściowym zbiorem zmiennych a zmiennymi kanonicznymi powstałymi jako liniowe kombinacje zmiennych z tego zbioru: ru, Y ru, Y L ru, Y ru, Y ru, Y L ru, Y M M O M ru, Y ru, Y L ru, Y 1 1 2 1 q 1 1 2 2 2 q 2 1 q 2 q q q 17

Proporcja wyjaśnionej wariancji (2) Ponieważ wyjściowe zmienne są zestandaryzowane, całkowita wariancja w wyjściowym zbiorze zmiennych jest równa q (liczba zmiennych). Wkład pierwszych r zmiennych kanonicznych do całkowitej (standaryzowanej) wariancji w pierwszym wyjściowym zbiorze: r q 2 r i1 j1 Ui, Yj Część całkowitej (standaryzowanej) wariancji pierwszego zbioru zmiennych wyjaśniona przez pierwszych r zmiennych kanonicznych: r q i1 j1 r 2 U, Y i j / q 18

Analiza redundacji Jeżeli podniesiemy wartości ładunków czynnikowych do kwadratu, to otrzymamy udział w wariancji danej zmiennej wyjaśniony przez zmienną kanoniczną. Gdy dla danej zmiennej kanonicznej obliczymy średnią z kwadratów ładunków czynnikowych, to otrzymamy informację jaki procent wariancji w wyjściowym zbiorze danych wyjaśnia średnio dana zmienna kanoniczna (wariancja wyodrębniona). Jeżeli pomnożymy wariancję wyodrębnioną dla jednego zbioru zmiennych wyjściowych przez kwadrat korelacji kanonicznej, to otrzymamy wskaźnik nazywany redundacją. Redundacja danej zmiennej kanonicznej mówi, ile przeciętnie wariancji w jednym zbiorze jest wyjaśnione przez daną zmienną kanoniczną w oparciu o drugi zbiór. Jeżeli redundacja pierwszej zmiennej kanonicznej dla zbioru X-ów wynosi 0,5, to oznacza to, że pierwsza zmienna kanoniczna wyjaśnia przeciętnie 50% zmienności w zbiorze Y-ów. 19

Etapy analizy Wyznaczenie wag kanonicznych, opisujących czysty wkład każdej zmiennej do zmiennej kanonicznej. Obliczenie ładunków czynnikowych, które określają korelację każdej zmiennej ze zmienną kanoniczną. Wyliczenie redundacji, która wskazuje ile przeciętnie wariancji jednego zbioru jest wyjaśnione przez daną zmienną kanoniczną za pomocą zmiennych z drugiego zbioru. Analiza kanoniczna poprzez stworzenie skrótowych i syntetycznych wskaźników jest doskonałym narzędziem analizy struktury zależności dwóch zbiorów zmiennych. 20

Uwagi i ograniczenia Analiza kanoniczna, podobnie jak analiza regresji, jest bardzo wrażliwa na punkty odstające. Należy więc przed rozpoczęciem analizy prześledzić histogramy i wykresy rozproszenia dla wyjściowych zmiennych. Badacz powinien sprawdzić istotność korelacji kanonicznych zanim przejdzie do interpretacji uzyskanych wyników. Ważnym jest, żeby uzyskana wartość korelacji kanonicznej nie była wynikiem zależności między jedną zmienną zależną i jedną zmienną niezależną. Test hipotezy o istotności korelacji kanonicznych zakłada, że dane pochodzą z wielowymiarowego rozkładu normalnego. Aby otrzymać rzetelne wyniki, zalecane jest co najmniej 20 razy tyle obserwacji co zmiennych do analizy. Zmienne w dwóch zbiorach nie powinny być współliniowe. Wówczas mogą pojawić się problemy związane z odwróceniem macierzy korelacji. 21