WSTĘP Oprogramowanie dla GWAS

ANALIZA DANYCH 1. Wykład wstępny 2. Charakterystyka danych 3. Analiza wstępna genomiczna charakterystyka cech 4. Prezentacje grup roboczych analiza wstępna 5. Prezentacje grup roboczych analiza wstępna 6. Metodyka Genome-wide Association Studies 7. Opis programu preznaczonego do ostatecznej analizy 8. Przegląd literatury GWAS dla analizowanych cech 9. Przegląd literatury GWAS dla analizowanych cech 10. Przegląd literatury GWAS dla analizowanych cech 11. Przegląd literatury GWAS dla analizowanych cech 12. Przegląd literatury GWAS dla analizowanych cech 14. Prezentacje grup roboczych ostateczna analiza 15. Prezentacje grup roboczych ostateczna analiza

SKN Bioinformatyków

WSTĘP Oprogramowanie dla GWAS 1. PLINK Struktura plików wsadowych Wykonanie programu Interpretacja wyników 2. GCTA Struktura plików wsadowych Wykonanie programu Interpretacja wyników 3. GVCBLUP Modele statystyczne Wykonanie programu Interpretacja wyników 4. Przykłady innych programów Copyright 2018, Joanna Szyda

PLINK Zastosowanie Edycja danych: proste manipulacje na zbiorach danych, detekcja błędnych obserwacji, zmiany formatów, Podstawowe statystyki opisowe: brakujące dane, średnia, frekwencje alleli Obliczanie spokrewnienia IBD / IBS Analiza asocjacyjna: cechy ciągłe i dyskretne, różne struktury danych Permutacje danych Obliczanie LD Identyfikacja haplotypów Imputacja uzupełnienie brakujących genotypów... Copyright 2018, Joanna Szyda

PLINK plik wsadowy *.ped: genotypy, pochodzenie, cechy 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP) Copyright 2018, Joanna Szyda

PLINK plik wsadowy *.map: mapa markerów 1 rs1 0 1427 1 rs2 0 2253 1 rs3 0 249 1 rs4 0 284 1 rs5 0 3429 1 rs6 0 4153 1 rs7 0 4447 1 rs8 0 4561 1 rs9 0 4738 1 rs10 0 4831 chromosom nazwa markera SNP położenie [ M ] 0=nieznane położenie [ bp ] 0=nieznane Copyright 2018, Joanna Szyda

PLINK plik plink.qassoc: wyniki CHR SNP BP NMISS BETA SE R2 T P 1 rs3 249 50-1.459 1.693 0.015-0.8617 0.393 1 rs4 284 50 NA NA NA NA NA 1 rs1 1427 50-0.860 1.219 0.010-0.7059 0.484 1 rs2 2253 50 2.914 2.414 0.023 1.207 0.233 1 rs5 3429 50 0.235 3.579 0.000 0.0658 0.948 1 rs6 4153 50 7.096 2.642 0.1306 2.686 0.010 chromosom nazwa markera lokalizacja [ bp ] liczba zaobserwowanych danych współczynnik regresji liniowej b 1 odchylenie standardowe b 1 R 2 wartość testu Walda a T Copyright 2018, Joanna Szyda

PLINK test Walda H 0 : SNP nie wykazuje powiązania z cechą i = 0 H 1 : SNP wykazuje powiązanie z cechą i 0 maksymalny błąd I-go rodzaju a MAX = 0.01 SNP1 = -0.862 a T =0.3931 SNP2 = NA NA SNP3 = -0.706 a T =0.4832 SNP4 = 1.207 a T =0.2332 SNP5 = 0.066 a T =0.9478 SNP6 = 2.868 a T =0.0099 SNP7 = 2.868 a T =0.0099 SNP8 = -1.558 a T =0.1258 SNP9 = 1.084 a T =0.2838 SNP10 = -0.201 a T =0.8415 H 0 : SNP1, SNP3, SNP4, SNP5, SNP8, SNP9, SNP10 H 1 : SNP6, SNP7 W 3 2 1 0-1 -2 249 1427 2253 3429 4153 4447 4561 4738 4831 bp Copyright 2018, Joanna Szyda

PLINK literatura DOI: http://dx.doi.org/10.1086/519795

GCTA genotypy, pochodzenie, cechy *.ped 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP) Copyright 2018, Joanna Szyda

GCTA wykonanie programu z linii komend gcta64 --mlma --bfile test --pheno test.phen --out test opcja analizy modeli mieszanych y = Xb + Zu + e y u b e X Z fenotyp połączony efekt wszystkich SNP inne efekty np. wiek błąd macierz wystąpień dla b macierz wystąpień dla u var u = Gσ u 2 var e = Iσ e 2 Copyright 2018, Joanna Szyda

GCTA wykonanie programu Jak uzyskać efekty poszczególnych SNP (g) z modelu: g = W G 1 u W G macierz wystąpień dla genotypów macierz kowariancji pomiędzy osobnikami w ij = x ij 2p i 2p i 1 p i element macierzy W dla i-ego SNP u osobnika j g lm = 1 N σ N x il 2p i x im 2p i i=1 2p i 1 p i element macierzy G dla osobników l oraz m Copyright 2018, Joanna Szyda

GCTA wyniki 1 s1 1001 A T 0.366 0.0143857 0.0411682 0.726 1 s2 1002 C T 0.326-0.0240756 0.0421248 0.567 1 s3 1003 C G 0.146-0.0921772 0.0565541 0.103 1 s4 1004 T A 0.386-0.0771376 0.0394826 0.050 1 s5 1005 A G 0.166 0.00251276 0.0526821 0.961 1 s6 1006 G C 0.119-0.0153568 0.059891 0.797 1 s7 1007 C A 0.167-0.0487809 0.0512279 0.340 chromosom nr SNP pz allel referencyjny allele alternatywny frekwencja allelu referencyjnego efekt allelu referencyjnego błąd standardowy P Copyright 2018, Joanna Szyda

GCTA literatura DOI: http://dx.doi.org/10.1016/j.ajhg.2010.11.011

GVCBLUP

GVCBLUP model model GWAS y = Wb + ZT α α + ZT δ δ + e y b a d e fenotyp inne efekty np. wiek addytywny efekt wszystkich SNP dominacyjny efekt wszystkich SNP błąd α~n 0, A g σ α 2 δ~n 0, D g σ δ 2 e~n 0, Iσ e 2 W macierz wystąpień dla b Z macierz wystąpień dla SNP T α macierz dla efektów addytywnych SNP T δ macierz dla efektów dominacyjnych SNP Copyright 2017, Joanna Szyda

GVCBLUP uruchomienie programu Uruchomienie w linii komend: Windows c:\greml\reml_ce.exe gparameter.dat Linux >./reml_ce.exe gparameter.dat ce moduł do analizy dużej liczby SNP Copyright 2017, Joanna Szyda

Inne programy

GWAS dane wejściowe fenotypy 431 20.02.98 07.03.00 1 305 4493 227 5.05 173 3.86 431 20.02.98 13.03.01 2 273 4712 224 4.76 181 3.85 431 20.02.98 12.02.02 3 267 4986 240 4.81 188 3.77 431 20.02.98 01.01.03 4 305 7173 353 4.91 2283 3.95 431 20.02.98 23.12.03 5 305 6681 319 4.78 253 3.79 432 19.04.00 23.05.02 1. 3639 213 5.85 136 3.73 433 22.03.00 13.04.02 1 293 3663 202 5.51 139 3.79 434 07.07.98 23.07.00 1 275 2977 158 5.32 108 3.64 434 07.07.98 12.06.01 2 282 4085 210 5.14 150 3.66 434 07.07.98 30.05.02 3 290 5016 269 5.36 195 3.88 434 07.07.99 06.05.03 4 305 5892 306 5.20 214 3.64 Copyright 2017, Joanna Szyda

GWAS dane wejściowe genotypy 431 0 1 1 432 0 1 1 433 0 1 1 434 0 1 0 435 0 1 1 436 0 1 1 437 0 1 1 438 0 1 1 439 0 1 1 440 0 1 1 441 0 1 1 442 0 1 1 443 0 1 1 444 0 1 1 445 0 1 1 446 0 1 1 Copyright 2017, Joanna Szyda

GWAS kod R PHEN <- read.table("c:/asia/class/bioinformatics2/data/laktacjejersey.prn", col.names=c("iid","bdate","cdate","parity","dim","my","fy","fp","py","pp")) PHEN1 <- PHEN[PHEN$PARITY==1,] GEN <- read.table("c:/asia/class/bioinformatics2/data/genotypejerseyc.txt", col.names=c("iid","snp1","snp2","snp3")) ALLDAT <- merge(phen1, GEN, by="iid", all=false) REGSNP1 = lm(my ~ SNP1, data=alldat) summary(regsnp1) results=matrix(0,3,3) for (i in 1:3) { model=summary(lm(alldat$my ~ ALLDAT[,i+10])) results[i,1]=model$coef[2,1] results[i,2]=model$coef[2,3] results[i,3]=model$coef[2,4] } results=as.data.frame(results) colnames(results)=c("effect","t-test","p-value") rownames(results)=c("snp1","snp2","snp3") results Copyright 2017, Joanna Szyda

SAS kod programu *************************************************************/ /* 25.06.2017 J.Szyda */ /* program fitts various linear mixed repeatability models */ /* to jersey data */ /*************************************************************/ options obs=max; options ls=70; %let INFILE1 ='C:/ASIA/CLASS/bioinformatics2/data/genotypejerseyC.txt' ; %let INFILE2 ='C:/ASIA/CLASS/bioinformatics2/data/laktacjejersey.prn' ; * read phenotypes ; data PHEN ; infile "&INFILE2" ; input IID BDAY 9-10 BMONTH 12-13 BYEAR 15-16 CDAY 20-21 CMONTH 23-24 CYEAR 26-27 PARITY DIM MY FY FP PY PP ; if PARITY ne 1 then delete ; run ; proc sort data=phen nodupkey ; by IID ; run ; Copyright 2017, Joanna Szyda

SAS kod programu * read genotypes ; data GEN ; infile "&INFILE1" ; input IID LEPR DGAT LEP ; if LEP=9 then LEP=. ; if LEPR=9 then LEPR=. ; if DGAT=9 then DGAT=. ; run ; proc sort data=gen nodupkey ; by IID ; run ; data ALL ; merge PHEN (in=a) GEN (in=b) ; by IID ; if A and B ; run ; * fitting models ; proc reg data=all ; eq1: model MY = DIM LEPR ; eq2: model MY = DIM LEP ; eq2: model MY = DIM DGAT ; run ; Copyright 2017, Joanna Szyda

SAS wyniki Parameter Estimates eq1 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1777.61878 959.57186-1.85 0.0657 DIM 1 20.16203 3.247736.21 <.0001 LEPR 1 61.72476 85.35723 0.72 0.4706 Parameter Estimates eq2 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1849.01805 980.46069-1.89 0.061 DIM 1 20.38565 3.26871 6.24 <.0001 LEP 1 47.15725 106.67432 0.44 0.659 Parameter Estimates eq3 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1780.30105 962.62453-1.85 0.0661 DIM 1 20.35737 3.2789 6.21 <.0001 DGAT 1-28.49101 95.72009-0.3 0.7663 Copyright 2017, Joanna Szyda

Oprogramowanie dla GWAS 1. PLINK 2. GCTA 3. GVCBLUP 4. Przykłady innych programów 5. R 6. SAS