Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów"

Dagmara Grzybowska
8 lat temu
Przeglądów:

1 w zastosowaniu do wykrywania interakcji SNPów Instytut Matematyczny, Uniwersytet Wrocławski Wisła, 9 grudnia 2009

2 DNA

3 Zmienność genetyczna Polimorfizm to zmiana w strukturze DNA, obecna u co najmniej 1% populacji Polimorfizm pojedynczego nukleotydu SNP(Single Nucleotide Polimorphism-zmiany dotycza różnicy na pojedynczej bazie GŁÓWNY CEL: znalezienie mutacji w ciągu DNA, mających wpływ na badaną cechę. METODY: regresja logiczna (Ruczinski, Kooperberg, LeBlanc ( zmiennymi objaśniającymi są wyrażenia logiczne otrzymane ze zmiennych binarnych regresja logiczna z algorytmem Monte Carlo (Ruczinski, Kooperberg (2005 w pełni bayesowska wersja logicznej regresji (Fritsch(2006 bayesowska wersja regresji logistycznej, w której zmiennymi objaśniającymi są iloczyny binarnych predykatorów

4 Regresja Logiczna z predykatorami genetycznymi Predykatorami są SNPy o możliwych trzech wartościach: 0, 1 lub 2. Zmienne pomocnicze (Kooperberg et.al(2001: { 0, SNP = 0 X d - efekt dominujący, X d = 1, SNP = 1, 2, { 0, SNP = 0, 1 X r -efekt recesywny, X r =. 1, SNP = 2 SNP X d X r Genotyp Homozygota (reference Heterozygota Homozygota (variant

5 Wyrażenia logiczne Niech X 1, X 2,..., X m będą predykatorami binarnymi. Wówczas: wyrażeniem logicznym jest każda kombinacja zmiennych X i, uzyskana przez zastosowanie operatorów logicznych (AND, (OR oraz C (NOT Każde wyrażenie logiczne może być przedstawione za pomocą drzewa binarnego, np: L = (A B c C możemy przedstawić w postaci drzewa

6 Model regresji logicznej Dopasowujemy model regresji g(e[y ] = β 0 + t β j L j, gdzie L j są wyrażeniami logicznymi otrzymanymi ze zmiennych binarnych X i, i = 1, 2,..., m. Rozmiar modelu to liczba liści w modelu; ustalany w oparciu o zbiór testowy i treningowy metodę kroswalidacji Przykład: X = (X 1, X 2,..., X m - macierz zmiennych binarnych; Y - status chory/zdrowy j=1 Model Regresji Logicznej: log( E[Y ] = X1 (X2 X3 1 E[Y ] Model Regresji Logistycznej z iloczynami : = X1 + X2 X3 X1 X2 X3 log( E[Y ] 1 E[Y ]

7 W pełni bayesowska wersja Logicznej Regresji (FBLR Fritsch (2006 zaproponował wersję bayesowską logicznej regresji (FBLR wyrażenia logiczne tylko ze spójnikiem AND w jednoznacznej reprezentacji np.: X 4 X C 1 X 7 jako (1C, 4, 7 Rozkłady a priori: k - liczba predykatorów, p(k U({0, 1,..., k max }, β - wektor parametrów regresji, p(β v, k N (0, v I k+1, p(v InvGamma(τ = 0.001; ν = 0.1, (Holmes, Denison(2003. s i - liczba zmiennych binarnych w wyrażeniu logicznym L i, p(s i (a si, (a = 0.7 bin - wektor indeksów zmiennych binarnych włączonych do modelu p(bin s i = ( 1 2m s i p(θ = p(k p(v p(β v, k k p(s i p(bin s i, i=1

8 Rozważany model Rozważamy prosty model z jedną zmienną objaśniającą: i = 1, 2,..., n; x ij b(1, p, p znane, M 1 : y i = β 0 + β 1 x ij + ε i, j = 1, 2,..., m,, ε i N (0, σ 2, σ jest znane. β = (β 0, β 1, ˆβ - estymator największej wiarogodności dla β, f (β M 1 = p(vp(β v - gęstość a priori rozkładu β w modelu M 1, p(β v = 1 2πv exp( 1 2v (β2 0 + β 2 1, p(v = ντ exp( ν v I v τ+1 Γ(τ (0,+ (v. π(m K a K 1 m K - prawdopodobieństwo a priori modelu M K, K = 0, 1, m K - liczba modeli rozmiaru K. prawdopodobieństwo a posteriori modelu M K : P(M K Y L(Y M K π(m K

9 Rozważany model Testujemy hipotezę H0 : β 1 = 0 przy alternatywie H1 : β 1 0. metoda FBLR odrzuca hipotezę H0, gdy P(M 1 Y > P(M 0 Y. funkcja wiarogodności w K-tym modelu: L(Y M K = L(Y M K, βf (β M K dβ czyli L(Y M 1 = ντ τ2 τ+1 ( 2πσ n 2π + + ( exp (2ν + β β 2 1 (τ+1 dβ 0 dβ 1 n i=1 (y i (β 0 + β 1 x ij 2 2σ 2

10 Stosując aproksymację Laplace a otrzymujemy oszacowanie log(l(y M 1 = log(l(y M 1, ˆβ log(n + log(r 1, gdzie i podobnie R 1 = ν τ τ2 τ+1 σ 2 S(2ν + ˆβ ˆβ 2 1 τ+1, gdzie log(l(y M 0 = log(l(y M 0, ˆβ + log(r 0, R 0 = ντ τ2 τ+1 σ 2 2πS(2ν τ+1. A więc odrzucamy hipotezę H 0 gdy ( L(Y M 1, log ˆβ ( m1 L(Y M 0, ˆβ > log(n + log log(r 1 + log(r 0. a

11 Oszacowanie prawdopodobieństwa błędu I rodzaju Przy założeniu, że X T X = ni (m+1 (m+1, mamy ( L(Y M 1, log ˆβ L(Y M 0, ˆβ = n ˆβ 2 1 2σ 2. Przy c = 2(log(n + log ( m 1 a log(r1 + log(r 0, prawdopodobieństwo błędu I rodzaju α n,m1 wynosi (n P ˆβ 2 1 > c σ 2 n ˆβ1 = 2P( > c, gdzie σ n ˆβ1 N (0, 1. σ Stosując oszacowanie : P( n ˆβ 1 σ > c 1 2πc exp ( c 2 dostajemy a α n,m1 = n m 1 π(log(n + log( m 1 a log(r. 1 + log(r 0 R 0 R 1

12 Korekta na wielokrotne testowanie W modelu z interakcjami rzędu 2 α int,n,m2 = n m 2 π(log(n + log( m 2. a log(r log(r 0 R 0 Przy pominięciu składników resztowych R 0, R 1 : α n,m1 = α int,n,m2 = a 2 a n m 1 π(log(n + log( m 1 a, a 2 n m 2 π(log(n + log( m 2 a 2. - automatyczna korekta na wielokrotne testowanie. R 1

13 Całkowity błąd I rodzaju - oszacowanie Laplace a Liczba obserwacji n rośnie od 50 do 2500:

14 Badanie wpływu czynników R 0 i R 1 Badamy wartości α n i α int,n z włączeniem czynników R 0, R 1 i z ich pominięciem. Liczba obserwacji n rośnie od 50 do 2500:

15 Uwzględnienie rozkładu składników resztowych Gdy R 0, R 1 uwzględniamy jako mające wpływ na rozkład Prawdopodobieństwo błędu I rodzaju dla FBLR: ( ( m1 ( (2ν (τ+1 α n,m1 = P Z > log(n + log log, a 2π gdzie Z = n ˆβ 1 2 σ 2 (τ + 1 log(2ν + ˆβ ˆβ1 2. Konsekwencją asymptotycznej normalności estymatorów największej wiarogodności ˆβ jest, że ( n ˆβ 2 nν + (τ + 1σ 2 n 2 p 2 ν 0 σ 2 ν σ 2 (nνp + (τ + 1σ 2 χ 2 (1 oraz ( n ˆβ 2 nνp + (τ + 1σ 2 n 2 p 2 ν 1 σ 2 ν σ 2 (nν + (τ + 1σ 2 χ 2 (1

16 Uwzględnienie rozkładu składników resztowych Stąd i z dwustronnego oszacowania logarytmu ˆβ ( 2 p 2 +1 ( ( 1 2ν ˆβ ( log 1 + ˆβ 2 p 2 ( p ν ˆβ 2 p ν 1 2ν otrzymujemy ( t R następujące oszacowanie rozkładu zmiennej Z ( ( c 1 (t + (τ + 1 log(2ν c 1 (t + (τ + 1 log(2ν F χ2 (1 F 1 2σ (τ + 1 p2 +1 Z (t F χ2 (1, 1 2 2νn 2σ (τ + 1 p νn gdzie F χ 2 (1( oznacza dystrybuantę centralnego rozkładu χ 2 (1 z jednym stopniem swobody i ( nνp + (τ + 1σ 2 n 2 p 2 ν c 1 = σ 2 ν σ 2 (nν + (τ + 1σ 2.

17 Oszacowanie prawdopodobieństwa błędu I rodzaju Twierdzenie: Dla testowania hipotezy H 0 : β 1 = 0 przy alternatywie H 1 : β 1 0 w metodzie FBLR dla pojedynczych zmiennych prawdopodobieństwo błędu pierwszego rodzaju dla pojedynczego testu α n,m1 spełnia warunek ( c1 log ( ( 2πm 1 c1 log ( 2πm 1 1 F χ2 (1 1 2σ (τ + 1 p νn a α n,m1 1 F χ2 (1 1 2σ (τ + 1 p νn gdzie F χ 2 (1( oznacza dystrybuantę centralnego rozkładu χ 2 (1 z jednym stopniem swobody i ( nνp + (τ + 1σ 2 n 2 p 2 ν c 1 = σ 2 ν σ 2 (nν + (τ + 1σ 2. a

18 Literatura [1]Ruczinski I., Kooperberg C., LeBlanc M., Logic regression, J. Comput. Graphical Statist. 12 (3,(2003, , [2]Kooperberg C., Ruczinski I., Identifying Interacting SNPs Using Monte Carlo Logic Regression, Genetic Epidemiology 28, (2005 [3]Fritsch A., Ickstadt K., Comparing Logic Regression Based Methods for Identifying SNP Interactions, Springer Berlin / Heidelberg, Lecture Notes in Computer Science, Volume 4414/2007, pp [4]Fritsch A., A Full Bayesian Version of Logic regression for SNP Data, Diploma Thesis, (2006 [5]Scott J.G. and Berger J.O., Bayes and empirical-bayes multiplicity adjustment in the variable-selection problem., Duke University Department of Statistical Science Technical Report (2008. [6]Holmes,C.C and Denison D.G.T, Classification with Bayesian MARS, Mach. Learn.50(2003, [7]Green, P.J. (1995. Reversible jump Markov chain Monte Carlo computation and Bayesian model determination. Biometrika 82,

19 Symulacje DANE: Uproszczona wersja danych SNP-owych: po 1000 osób, z 50, 200 i 300 SNP-ami; METODY: FBLR: logit(p(y = 1 = β 0 + k j=1 βjlj, - w L i możliwe dopełnienia Bayesowska wersja regresji logistycznej dla interakcji: logit(p(y = 1 = γ 0 + t γjij, j=1 - I j proste iloczyny zmiennych, bez dopełnień Dla każdego modelu tworzymy 20 zbiorów danych Dla każdego zbioru danych obliczamy liczbę właściwie i niewłaściwie klasyfikowanych interakcji SNPów Wynik uśredniony przez 20 zbiorów danych Pojedynczy SNP reprezentowany przez dwie zmienne X i z rozkładu b(1, 0.25

20 Liczba interakcji SNPów w prawdziwym modelu=1 Model 1. Z = X 1d X 2d + X 11d + ε, ε N (0, 1 #SNP Poprawne Niepoprawne FBLR Bayesowska Regresja Logistyczna Model 2. Z = X7d C X 9d C X 11d C + ε, ε N (0, 1 #SNP Poprawne Poprawne Niepoprawne rzędu 2 lub 3 rzędu 1 FBLR Bayesowska Regresja Logistyczna

21 Wyniki symulacji (Fritsch, Ickstadt( zbiorów danych dla każdego modelu Dla każdego zbioru danych obliczamy liczbę właściwie i niewłaściwie klasyfikowanych interakcji SNPów Wynik uśredniony przez 10 zbiorów danych Pojedynczy SNP reprezentowany przez dwie zmienne X i z rozkładu b(1, 0.3 P(Y =1 η = log( P(Y =0 1. η = (X 1d X C 2d (X 3d X 4d (X 5d X 6d Liczba interakcji SNPów w prawdziwym modelu= 3 MODEL 1 poprawne niepoprawne Regresja Logiczna MCLR t = 2, a = MCLR t = 3, a = FBLR

22 Wyniki symulacji(fritsch, Ickstadt( η = (X 1d X C 2d (X 3d X 4d (X 5d X 6d Liczba interakcji SNPów w prawdziwym modelu= 3 MODEL 2 poprawne niepoprawne Regresja Logiczna MCLR t = 2, a = MCLR t = 3, a = FBLR η = (X 1d (X C 2d X 3d Liczba interakcji SNPów w prawdziwym modelu= 3 MODEL 3 poprawne niepoprawne Regresja Logiczna MCLR t = 2, a = MCLR t = 3, a = FBLR

Podobne dokumenty

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika