Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

Podobne dokumenty
Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Algorytmy MCMC i ich zastosowania statystyczne

Weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Regresyjne metody łączenia klasyfikatorów

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Rozpoznawanie obrazów

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Kolokwium ze statystyki matematycznej

Testowanie hipotez statystycznych

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Metoda najmniejszych kwadratów

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wykład 10 Testy jednorodności rozkładów

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Metody systemowe i decyzyjne w informatyce

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Własności statystyczne regresji liniowej. Wykład 4

Monte Carlo, bootstrap, jacknife

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testy adaptacyjne dla problemu k prób

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Stosowana Analiza Regresji

Prawdopodobieństwo i rozkład normalny cd.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Prawdopodobieństwo i statystyka r.

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Metody Obliczeniowe w Nauce i Technice

Statystyka Matematyczna Anna Janicka

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Wykład 7 Testowanie zgodności z rozkładem normalnym

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Rozpoznawanie obrazów

Metody Ekonometryczne

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 3: Regresja: Regresja liniowa

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Rozpoznawanie obrazów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Konferencja Statystyka Matematyczna Wisła 2013

Elementy statystyki STA - Wykład 5

Stosowana Analiza Regresji

Czasowy wymiar danych

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Stosowana Analiza Regresji

Wykład 9 Testy rangowe w problemie dwóch prób

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Metody systemowe i decyzyjne w informatyce

Metoda największej wiarogodności

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Metody statystyczne w lokalizacji genów

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Natalia Neherbecka. 11 czerwca 2010

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Matematyka ubezpieczeń majątkowych r.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Ekonometryczne modele nieliniowe

Dynamiczne stochastyczne modele równowagi ogólnej

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

Statystyczna analiza danych

Wykład 8 Dane kategoryczne

Metody systemowe i decyzyjne w informatyce

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Stosowana Analiza Regresji

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Prawdopodobieństwo i statystyka

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyka matematyczna. Wykład VI. Zesty zgodności

1 Gaussowskie zmienne losowe

Transkrypt:

w zastosowaniu do wykrywania interakcji SNPów Instytut Matematyczny, Uniwersytet Wrocławski Wisła, 9 grudnia 2009

DNA

Zmienność genetyczna Polimorfizm to zmiana w strukturze DNA, obecna u co najmniej 1% populacji Polimorfizm pojedynczego nukleotydu SNP(Single Nucleotide Polimorphism-zmiany dotycza różnicy na pojedynczej bazie GŁÓWNY CEL: znalezienie mutacji w ciągu DNA, mających wpływ na badaną cechę. METODY: regresja logiczna (Ruczinski, Kooperberg, LeBlanc (2003 - zmiennymi objaśniającymi są wyrażenia logiczne otrzymane ze zmiennych binarnych regresja logiczna z algorytmem Monte Carlo (Ruczinski, Kooperberg (2005 w pełni bayesowska wersja logicznej regresji (Fritsch(2006 bayesowska wersja regresji logistycznej, w której zmiennymi objaśniającymi są iloczyny binarnych predykatorów

Regresja Logiczna z predykatorami genetycznymi Predykatorami są SNPy o możliwych trzech wartościach: 0, 1 lub 2. Zmienne pomocnicze (Kooperberg et.al(2001: { 0, SNP = 0 X d - efekt dominujący, X d = 1, SNP = 1, 2, { 0, SNP = 0, 1 X r -efekt recesywny, X r =. 1, SNP = 2 SNP X d X r Genotyp 0 0 0 Homozygota (reference 1 1 0 Heterozygota 2 1 1 Homozygota (variant

Wyrażenia logiczne Niech X 1, X 2,..., X m będą predykatorami binarnymi. Wówczas: wyrażeniem logicznym jest każda kombinacja zmiennych X i, uzyskana przez zastosowanie operatorów logicznych (AND, (OR oraz C (NOT Każde wyrażenie logiczne może być przedstawione za pomocą drzewa binarnego, np: L = (A B c C możemy przedstawić w postaci drzewa

Model regresji logicznej Dopasowujemy model regresji g(e[y ] = β 0 + t β j L j, gdzie L j są wyrażeniami logicznymi otrzymanymi ze zmiennych binarnych X i, i = 1, 2,..., m. Rozmiar modelu to liczba liści w modelu; ustalany w oparciu o zbiór testowy i treningowy metodę kroswalidacji Przykład: X = (X 1, X 2,..., X m - macierz zmiennych binarnych; Y - status chory/zdrowy j=1 Model Regresji Logicznej: log( E[Y ] = X1 (X2 X3 1 E[Y ] Model Regresji Logistycznej z iloczynami : = X1 + X2 X3 X1 X2 X3 log( E[Y ] 1 E[Y ]

W pełni bayesowska wersja Logicznej Regresji (FBLR Fritsch (2006 zaproponował wersję bayesowską logicznej regresji (FBLR wyrażenia logiczne tylko ze spójnikiem AND w jednoznacznej reprezentacji np.: X 4 X C 1 X 7 jako (1C, 4, 7 Rozkłady a priori: k - liczba predykatorów, p(k U({0, 1,..., k max }, β - wektor parametrów regresji, p(β v, k N (0, v I k+1, p(v InvGamma(τ = 0.001; ν = 0.1, (Holmes, Denison(2003. s i - liczba zmiennych binarnych w wyrażeniu logicznym L i, p(s i (a si, (a = 0.7 bin - wektor indeksów zmiennych binarnych włączonych do modelu p(bin s i = ( 1 2m s i p(θ = p(k p(v p(β v, k k p(s i p(bin s i, i=1

Rozważany model Rozważamy prosty model z jedną zmienną objaśniającą: i = 1, 2,..., n; x ij b(1, p, p znane, M 1 : y i = β 0 + β 1 x ij + ε i, j = 1, 2,..., m,, ε i N (0, σ 2, σ jest znane. β = (β 0, β 1, ˆβ - estymator największej wiarogodności dla β, f (β M 1 = p(vp(β v - gęstość a priori rozkładu β w modelu M 1, p(β v = 1 2πv exp( 1 2v (β2 0 + β 2 1, p(v = ντ exp( ν v I v τ+1 Γ(τ (0,+ (v. π(m K a K 1 m K - prawdopodobieństwo a priori modelu M K, K = 0, 1, m K - liczba modeli rozmiaru K. prawdopodobieństwo a posteriori modelu M K : P(M K Y L(Y M K π(m K

Rozważany model Testujemy hipotezę H0 : β 1 = 0 przy alternatywie H1 : β 1 0. metoda FBLR odrzuca hipotezę H0, gdy P(M 1 Y > P(M 0 Y. funkcja wiarogodności w K-tym modelu: L(Y M K = L(Y M K, βf (β M K dβ czyli L(Y M 1 = ντ τ2 τ+1 ( 2πσ n 2π + + ( exp (2ν + β 2 0 + β 2 1 (τ+1 dβ 0 dβ 1 n i=1 (y i (β 0 + β 1 x ij 2 2σ 2

Stosując aproksymację Laplace a otrzymujemy oszacowanie log(l(y M 1 = log(l(y M 1, ˆβ log(n + log(r 1, gdzie i podobnie R 1 = ν τ τ2 τ+1 σ 2 S(2ν + ˆβ 2 0 + ˆβ 2 1 τ+1, gdzie log(l(y M 0 = log(l(y M 0, ˆβ + log(r 0, R 0 = ντ τ2 τ+1 σ 2 2πS(2ν τ+1. A więc odrzucamy hipotezę H 0 gdy ( L(Y M 1, log ˆβ ( m1 L(Y M 0, ˆβ > log(n + log log(r 1 + log(r 0. a

Oszacowanie prawdopodobieństwa błędu I rodzaju Przy założeniu, że X T X = ni (m+1 (m+1, mamy ( L(Y M 1, log ˆβ L(Y M 0, ˆβ = n ˆβ 2 1 2σ 2. Przy c = 2(log(n + log ( m 1 a log(r1 + log(r 0, prawdopodobieństwo błędu I rodzaju α n,m1 wynosi (n P ˆβ 2 1 > c σ 2 n ˆβ1 = 2P( > c, gdzie σ n ˆβ1 N (0, 1. σ Stosując oszacowanie : P( n ˆβ 1 σ > c 1 2πc exp ( c 2 dostajemy a α n,m1 = n m 1 π(log(n + log( m 1 a log(r. 1 + log(r 0 R 0 R 1

Korekta na wielokrotne testowanie W modelu z interakcjami rzędu 2 α int,n,m2 = n m 2 π(log(n + log( m 2. a log(r 2 1 + log(r 0 R 0 Przy pominięciu składników resztowych R 0, R 1 : α n,m1 = α int,n,m2 = a 2 a n m 1 π(log(n + log( m 1 a, a 2 n m 2 π(log(n + log( m 2 a 2. - automatyczna korekta na wielokrotne testowanie. R 1

Całkowity błąd I rodzaju - oszacowanie Laplace a Liczba obserwacji n rośnie od 50 do 2500:

Badanie wpływu czynników R 0 i R 1 Badamy wartości α n i α int,n z włączeniem czynników R 0, R 1 i z ich pominięciem. Liczba obserwacji n rośnie od 50 do 2500:

Uwzględnienie rozkładu składników resztowych Gdy R 0, R 1 uwzględniamy jako mające wpływ na rozkład Prawdopodobieństwo błędu I rodzaju dla FBLR: ( ( m1 ( (2ν (τ+1 α n,m1 = P Z > log(n + log log, a 2π gdzie Z = n ˆβ 1 2 σ 2 (τ + 1 log(2ν + ˆβ 0 2 + ˆβ1 2. Konsekwencją asymptotycznej normalności estymatorów największej wiarogodności ˆβ jest, że ( n ˆβ 2 nν + (τ + 1σ 2 n 2 p 2 ν 0 σ 2 ν σ 2 (nνp + (τ + 1σ 2 χ 2 (1 oraz ( n ˆβ 2 nνp + (τ + 1σ 2 n 2 p 2 ν 1 σ 2 ν σ 2 (nν + (τ + 1σ 2 χ 2 (1

Uwzględnienie rozkładu składników resztowych Stąd i z dwustronnego oszacowania logarytmu ˆβ ( 2 p 2 +1 ( ( 1 2ν 2 1 + ˆβ ( log 1 + ˆβ 2 p 2 ( + 1 1 p 2 +1 2ν ˆβ 2 p 2 + 1 1 2ν 1 2ν otrzymujemy ( t R następujące oszacowanie rozkładu zmiennej Z ( ( c 1 (t + (τ + 1 log(2ν c 1 (t + (τ + 1 log(2ν F χ2 (1 F 1 2σ (τ + 1 p2 +1 Z (t F χ2 (1, 1 2 2νn 2σ (τ + 1 p2 +1 2 3νn gdzie F χ 2 (1( oznacza dystrybuantę centralnego rozkładu χ 2 (1 z jednym stopniem swobody i ( nνp + (τ + 1σ 2 n 2 p 2 ν c 1 = σ 2 ν σ 2 (nν + (τ + 1σ 2.

Oszacowanie prawdopodobieństwa błędu I rodzaju Twierdzenie: Dla testowania hipotezy H 0 : β 1 = 0 przy alternatywie H 1 : β 1 0 w metodzie FBLR dla pojedynczych zmiennych prawdopodobieństwo błędu pierwszego rodzaju dla pojedynczego testu α n,m1 spełnia warunek ( c1 log ( ( 2πm 1 c1 log ( 2πm 1 1 F χ2 (1 1 2σ (τ + 1 p2 +1 2 3νn a α n,m1 1 F χ2 (1 1 2σ (τ + 1 p2 +1 2 2νn gdzie F χ 2 (1( oznacza dystrybuantę centralnego rozkładu χ 2 (1 z jednym stopniem swobody i ( nνp + (τ + 1σ 2 n 2 p 2 ν c 1 = σ 2 ν σ 2 (nν + (τ + 1σ 2. a

Literatura [1]Ruczinski I., Kooperberg C., LeBlanc M., Logic regression, J. Comput. Graphical Statist. 12 (3,(2003,474-511, [2]Kooperberg C., Ruczinski I., Identifying Interacting SNPs Using Monte Carlo Logic Regression, Genetic Epidemiology 28, 157-170 (2005 [3]Fritsch A., Ickstadt K., Comparing Logic Regression Based Methods for Identifying SNP Interactions, Springer Berlin / Heidelberg, Lecture Notes in Computer Science, Volume 4414/2007, pp 90-103 [4]Fritsch A., A Full Bayesian Version of Logic regression for SNP Data, Diploma Thesis, (2006 [5]Scott J.G. and Berger J.O., Bayes and empirical-bayes multiplicity adjustment in the variable-selection problem., Duke University Department of Statistical Science Technical Report (2008. [6]Holmes,C.C and Denison D.G.T, Classification with Bayesian MARS, Mach. Learn.50(2003, 159-173 [7]Green, P.J. (1995. Reversible jump Markov chain Monte Carlo computation and Bayesian model determination. Biometrika 82, 711-732.

Symulacje DANE: Uproszczona wersja danych SNP-owych: po 1000 osób, z 50, 200 i 300 SNP-ami; METODY: FBLR: logit(p(y = 1 = β 0 + k j=1 βjlj, - w L i możliwe dopełnienia Bayesowska wersja regresji logistycznej dla interakcji: logit(p(y = 1 = γ 0 + t γjij, j=1 - I j proste iloczyny zmiennych, bez dopełnień Dla każdego modelu tworzymy 20 zbiorów danych Dla każdego zbioru danych obliczamy liczbę właściwie i niewłaściwie klasyfikowanych interakcji SNPów Wynik uśredniony przez 20 zbiorów danych Pojedynczy SNP reprezentowany przez dwie zmienne X i z rozkładu b(1, 0.25

Liczba interakcji SNPów w prawdziwym modelu=1 Model 1. Z = X 1d X 2d + X 11d + ε, ε N (0, 1 #SNP Poprawne Niepoprawne FBLR 50 0.3 0.0 200 0.05 0.0 300 0.0 0.0 Bayesowska 50 0.65 0.0 Regresja 200 0.2 0.0 Logistyczna 300 0.05 0.05 Model 2. Z = X7d C X 9d C X 11d C + ε, ε N (0, 1 #SNP Poprawne Poprawne Niepoprawne rzędu 2 lub 3 rzędu 1 FBLR 50 1.0 0.0 0.0 200 0.85 0.3 0.15 300 0.7 0.3 0.1 Bayesowska 50 0.15 2.75 0.2 Regresja 200 0.0 2.65 0.15 Logistyczna 300 0.0 2.85 0.1

Wyniki symulacji (Fritsch, Ickstadt(2007 10 zbiorów danych dla każdego modelu Dla każdego zbioru danych obliczamy liczbę właściwie i niewłaściwie klasyfikowanych interakcji SNPów Wynik uśredniony przez 10 zbiorów danych Pojedynczy SNP reprezentowany przez dwie zmienne X i z rozkładu b(1, 0.3 P(Y =1 η = log( P(Y =0 1. η = 0.70 + 1.0 (X 1d X C 2d + 1.0 (X 3d X 4d + 1.0 (X 5d X 6d Liczba interakcji SNPów w prawdziwym modelu= 3 MODEL 1 poprawne niepoprawne Regresja Logiczna 1.3 2.9 MCLR t = 2, a = 1 2 1.8 1.4 MCLR t = 3, a = 1 2 2.6 1.3 FBLR 2.7 0.0

Wyniki symulacji(fritsch, Ickstadt(2007 2. η = 0.45 + 0.6 (X 1d X C 2d + 0.6 (X 3d X 4d + 0.6 (X 5d X 6d Liczba interakcji SNPów w prawdziwym modelu= 3 MODEL 2 poprawne niepoprawne Regresja Logiczna 0.0 1.3 MCLR t = 2, a = 1 2 0.5 0.3 MCLR t = 3, a = 1 2 0.9 0.7 FBLR 1.1 0.1 3. η = 0.40 + 1.0 (X 1d (X C 2d X 3d Liczba interakcji SNPów w prawdziwym modelu= 3 MODEL 3 poprawne niepoprawne Regresja Logiczna 0.1 2.1 MCLR t = 2, a = 1 2 1.5 0.3 MCLR t = 3, a = 1 2 1.4 0.4 FBLR 0.9 0.2