Analiza kanoniczna w pigułce

Podobne dokumenty
Elementy statystyki wielowymiarowej

Zmienne zależne i niezależne

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Metoda największej wiarygodności

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

MODELE LINIOWE. Dr Wioleta Drobik

Własności statystyczne regresji liniowej. Wykład 4

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Analiza regresji - weryfikacja założeń

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Testy adaptacyjne dla problemu k prób

Wykład 12 Testowanie hipotez dla współczynnika korelacji

KLASYFIKACJA. Słownik języka polskiego

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Analiza składowych głównych

Testowanie hipotez statystycznych

ANALIZA WARIANCJI - PRZYPOMNIENIE

Ekonometria. Zajęcia

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Metoda największej wiarogodności

Prawdopodobieństwo i statystyka r.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka Matematyczna Anna Janicka

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Stosowana Analiza Regresji

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Rozpoznawanie obrazów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Ekonometryczne modele nieliniowe

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

KORELACJE I REGRESJA LINIOWA

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Testowanie hipotez statystycznych.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Metody systemowe i decyzyjne w informatyce

ANALIZA CZYNNIKOWA Przykład 1

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA MATEMATYCZNA

Stosowana Analiza Regresji

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Testy post-hoc. Wrocław, 6 czerwca 2016

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Metody systemowe i decyzyjne w informatyce

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Skalowanie wielowymiarowe idea

Pobieranie prób i rozkład z próby

PDF created with FinePrint pdffactory Pro trial version

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Elementy statystyki STA - Wykład 5

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

KARTA PRZEDMIOTU / SYLABUS

Stosowana Analiza Regresji

KARTA PRZEDMIOTU / SYLABUS

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Testowanie hipotez statystycznych

Przykład 2. Stopa bezrobocia

Analiza składowych głównych. Wprowadzenie

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Metody systemowe i decyzyjne w informatyce

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Regresja liniowa wprowadzenie

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

Quick Launch Manual:

KARTA PRZEDMIOTU / SYLABUS

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Programowanie liniowe metoda sympleks

KARTA PRZEDMIOTU / SYLABUS

Transkrypt:

Analiza kanoniczna w pigułce Przemysław Biecek Seminarium Statystyka w medycynie Propozycje tematów prac dyplomowych 1/14

Plan 1 Słów kilka o podobnych metodach (PCA, regresja) 2 Motywacja, czyli jakiego wyniku oczekujemy 3 Wyprowadzenie podstawowych wzorów 4 Przykład użycia w R (pakiet CCA) 5 Przykładowe zastosowanie Propozycje tematów prac dyplomowych 2/14

Podobne metody Analiza kanoniczna jest ogólną metodą analizy danych, którą można zredukować lub którą można przedstawić podobnie do PCA (Principal component analysis), Regresji wielokrotnej, ANOVA i MANOVA, modeli strukturalnych. Propozycje tematów prac dyplomowych 3/14

Słów kilka o historii Podstawowe problemy i wyniki analizy kanonicznej zostały sformułowane przez Harolda Hotellinga (wybitny ekonomista, matematyk, statystyk) w latach 1935-36. Powstała jako metoda do badania zależności pomiędzy dwoma zbiorami zmiennych. Do dziś doczekała się wielu uogólnień i rozszerzeń, np. na badanie relacji pomiędzy wieloma zbiorami zmiennych, na badane relacji w obecności współliniowych zmiennych (przez regularyzację) itp. Propozycje tematów prac dyplomowych 4/14

Problem Mamy dwa zbiory zmiennych {X 1,..., X p } i {Y 1,..., Y q }. Chcemy znaleźć taką kombinację liniową zmiennych z pierwszego zbioru, aby korelowała ona możliwie najsilniej ze zmiennymi z drugiego zbioru. Innymi słowy, szukamy wektorów współczynników a i b, takich, że jest możliwie największa. cor(a X, b Y ) Propozycje tematów prac dyplomowych 5/14

Rozwiązanie Wektor współczynników a to wektor własny odpowiadający największej wartości własnej macierzy S 1 22 S 21S 1 11 S 12 (1) a wektor współczynników b to wektor własny odpowiadający największej wartości własnej macierzy S 1 11 S 12S 1 22 S 21. (2) Korelacja cor(a X, b Y ) to wartość największa wartość własna z powyższych macierzy. [Wyprowadzenie na tablicy] Propozycje tematów prac dyplomowych 6/14

Kontynuacja Nowe zmienne u 1 = a X i v 1 = b Y wyjaśniają największą część korelacji pomiędzy zbiorami wektorów X i Y, ale nie całą. Kolejnym krokiem jest znalezienie kolejnych zmiennych u i = a i X i v i = b i Y, tak by: wektory u i są nieskorelowane pomiędzy sobą, wektory v i są nieskorelowane pomiędzy sobą, korelacje cor(u i, v i ) tworzą nierosnący ciąg odpowiadający możliwie największym cząstkowym korelacjom. Propozycje tematów prac dyplomowych 7/14

Testowanie (1/2) Jeżeli obserwacje pochodzą z wielowymiarowego modelu normalnego N (µ, Σ) to możemy testować: H 0 : R i = 0 i Statystyka testowa dla testu ilorazu wiarogodności s LRT = n log(1 Ri 2 ) ma asymptotyczny rozkład χ 2 pq. i=1 Propozycje tematów prac dyplomowych 8/14

Testowanie (2/2) H 0 : R i = 0 i>k Statystyka testowa dla testu ilorazu wiarogodności LRT = n s i=k+1 log(1 R 2 i ) ma asymptotyczny rozkład χ 2 (p k)(q k). Wartość n w statystykach testowych zamienia się czasem na n 1 2 (p + q + 3), co poprawia test. Propozycje tematów prac dyplomowych 9/14

Uwagi praktyczne Założenia wielowymiarowa normalność, brak obserwacji odstających (miara Cooka, Leverage, test Grubbsa, test Dixona) brak współliniowości (reguła kciuka, wyznacznik > 10 5 ) Liczba obserwacji powinna być większa od około 20 liczba zmiennych. Propozycje tematów prac dyplomowych 10/14

Jak to zrobić w R Analiza kanoniczna jest zaimplementowana między innymi w pakiecie CCA w funkcji cc(). Prześledźmy poniższy kod R-kod > library(cca) > dane = read.table("dane.csv",header=t,sep=";") > X = dane[,c(9:10)] # kolumny z waga > Y = dane[,c(11:17)] # kolumny z MDRD > wynik = cc(x,y) > wynik$cor [1] 0.3754946 0.1907164 Propozycje tematów prac dyplomowych 11/14

Jak to zrobić w R R-kod > wynik$xcoef [,1] [,2] wagastart 0.1047822-0.09276486 wagaend -0.1154909 0.01404359 > wynik$ycoef [,1] [,2] MDRD7 0.056059823 0.05799373 MDRD30-0.059196976-0.03981322 MDRD6m -0.006987328 0.02870234 MDRD12m -0.094082377 0.07732582 MDRD24m 0.119735985-0.09688825 MDRD36m -0.024980200-0.01744831 MDRD60m -0.007345604 0.04083270 > plot(wynik$cor,type="b") > plt.cc(wynik,var.label=t) Propozycje tematów prac dyplomowych 12/14

Przykładowe wyniki wynik$cor 0.1 0.2 0.3 0.4 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Index Propozycje tematów prac dyplomowych 13/14

Przykładowe wyniki Dimension 2 1.0 0.5 0.0 0.5 1.0 iek.dawcy wiek.biorcy wagastart MDRD7 MDRD60m MDRD36m MDRD24m wagaend MDRD12m MDRD30 MDRD6m Dimension 2 3 2 1 0 1 2 3 4 101 85 98 103 124 36 87 60 79 134 27 95 113 117 19 3413 30 69 94 97 74 136 1 59 80 88 105 96 12 359 116 2949 53 22 21 7 47 57 93 62 25 70 4123 43 86 108 99 107 90 71127 126 2 89 32 33 111 38 63 55 76 6150 18 92 64 46 31 58 125 129 28 40 119 48 83 26 51 45 66 54 68 109 112 133 77 82 11 581 17 8472 75 67 1188 132 6 20 10 100 102 78 15 24 115 114 4 52 44 37 65 104 135 121 1223 39 73 56 14 42 91 130 120 106 16 110 128 131 123 1.0 0.5 0.0 0.5 1.0 2 1 0 1 2 Dimension 1 Dimension 1 Propozycje tematów prac dyplomowych 14/14