BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji 7. Sekwencjonowanie nowej generacji 8. Funkcjonalna adnotacja polimorfizmów 9. Funkcjonalna adnotacja polimorfizmów 10. Wybrane algorytmy 11. Wybrane algorytmy 12. Literatura 2017-2018 13. Literatura 2017-2018 14. Literatura 2017-2018 15. Literatura 2017-2018
WSTĘP Oprogramowanie dla GWAS 1. PLINK Struktura plików wsadowych Wykonanie programu Interpretacja wyników 2. GCTA Struktura plików wsadowych Wykonanie programu Interpretacja wyników 3. Przykłady innych programów
WSTĘP Tworzenie własnych programów 4. R Kod programu Wykonanie programu Interpretacja wyników 5. SAS Kod programu Wykonanie programu Interpretacja wyników
PLINK
PLINK http://zzz.bwh.harvard.edu/plink/
PLINK 1. Darmowy 2. Dobra dokumentacja 3. Różne systemy operacyjne Linia komend Interfejs graficzny (Java)
PLINK Zastosowanie Edycja danych: proste manipulacje na zbiorach danych, detekcja błędnych obserwacji, zmiany formatów, Podstawowe statystyki opisowe: brakujące dane, średnia, frekwencje alleli Obliczanie spokrewnienia IBD / IBS Analiza asocjacyjna: cechy ciągłe i dyskretne, różne struktury danych Permutacje danych Obliczanie LD Identyfikacja haplotypów Imputacja uzupełnienie brakujących genotypów...
PLINK plik wsadowy *.ped: genotypy, pochodzenie, cechy 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP)
PLINK plik wsadowy *.map: mapa markerów 1 rs1 0 1427 1 rs2 0 2253 1 rs3 0 249 1 rs4 0 284 1 rs5 0 3429 1 rs6 0 4153 1 rs7 0 4447 1 rs8 0 4561 1 rs9 0 4738 1 rs10 0 4831 chromosom nazwa markera SNP położenie [ M ] 0=nieznane położenie [ bp ] 0=nieznane
PLINK wykonanie programu z linii komend plink --noweb --file test --assoc nazwa zbiorów danych *.map, *.ped test.map, test.ped opcja analizy asocjacyjnej
PLINK plik plink.qassoc: wyniki CHR SNP BP NMISS BETA SE R2 T P 1 rs3 249 50-1.459 1.693 0.015-0.8617 0.393 1 rs4 284 50 NA NA NA NA NA 1 rs1 1427 50-0.860 1.219 0.010-0.7059 0.484 1 rs2 2253 50 2.914 2.414 0.023 1.207 0.233 1 rs5 3429 50 0.235 3.579 0.000 0.0658 0.948 1 rs6 4153 50 7.096 2.642 0.1306 2.686 0.010 chromosom nazwa markera lokalizacja [ bp ] liczba zaobserwowanych danych współczynnik regresji liniowej b 1 odchylenie standardowe b 1 R 2 wartość testu Walda a T
PLINK regresja liniowa efekt SNP y 0 1 x wartość cechy kod genotypu SNP
PLINK regresja liniowa jaka część obserwowanej zmienności została wyjaśniona przez równanie regresji R 2 n i 1 n y y i i 1 yˆ i y 2 2
PLINK test Walda W ˆ 0 1 ~ ˆ 1 t n p
PLINK test Walda H 0 : SNP nie wykazuje powiązania z cechą i = 0 H 1 : SNP wykazuje powiązanie z cechą i 0 maksymalny błąd I-go rodzaju a MAX = 0.01 SNP1 = -0.862 a T =0.3931 SNP2 = NA NA SNP3 = -0.706 a T =0.4832 SNP4 = 1.207 a T =0.2332 SNP5 = 0.066 a T =0.9478 SNP6 = 2.868 a T =0.0099 SNP7 = 2.868 a T =0.0099 SNP8 = -1.558 a T =0.1258 SNP9 = 1.084 a T =0.2838 SNP10 = -0.201 a T =0.8415 H 0 : SNP1, SNP3, SNP4, SNP5, SNP8, SNP9, SNP10 H 1 : SNP6, SNP7 W 3 2 1 0-1 -2 249 1427 2253 3429 4153 4447 4561 4738 4831 bp Copyright 2017 Joanna Szyda
PLINK literatura DOI: http://dx.doi.org/10.1086/519795
PLINK publikacja Copyright 2017 Joanna Szyda
GCTA
GCTA http://cnsgenomics.com/software/gcta/#overview
GCTA 1. Genome-wide Complex Trait Analysis 2. Darmowy 3. Różne systemy operacyjne 4. Wersja wykonawcza oraz kod źródłowy 5. Często uaktualniany 6. Słaba dokumentacja Copyright 201,7 Joanna Szyda
GCTA Zastosowanie analiza danych GREML estymacja wariancji genetycznej determinowanej przez SNP GWAS vróżne modele LD obliczanie i analiza Genetyka populacji F st, PCA
GCTA genotypy, pochodzenie, cechy *.ped 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP)
GCTA fenotypy *.phen 1 1 0.1 1 2 0.2 2 3 0.1... 10 100 0.5 nr rodziny nr osobnika wartość cechy
GCTA wykonanie programu z linii komend gcta64 --mlma --bfile test --pheno test.phen --out test opcja analizy modeli mieszanych y = Xb + Zu + e y u b e X Z fenotyp połączony efekt wszystkich SNP inne efekty np. wiek błąd macierz wystąpień dla b macierz wystąpień dla u var u = Gσ u 2 var e = Iσ e 2
GCTA wykonanie programu Jak uzyskać efekty poszczególnych SNP (g) z modelu: g = W G 1 u W macierz wystąpień dla genotypów
GCTA wyniki 1 s1 1001 A T 0.366 0.0143857 0.0411682 0.726 1 s2 1002 C T 0.326-0.0240756 0.0421248 0.567 1 s3 1003 C G 0.146-0.0921772 0.0565541 0.103 1 s4 1004 T A 0.386-0.0771376 0.0394826 0.050 1 s5 1005 A G 0.166 0.00251276 0.0526821 0.961 1 s6 1006 G C 0.119-0.0153568 0.059891 0.797 1 s7 1007 C A 0.167-0.0487809 0.0512279 0.340 chromosom nr SNP pz allel referencyjny allele alternatywny frekwencja allelu referencyjnego efekt allelu referencyjnego błąd standardowy P
GCTA literatura DOI: http://dx.doi.org/10.1016/j.ajhg.2010.11.011
GCTA publikacja Copyright 2017 Joanna Szyda
Inne programy
GVCBLUP https://animalgene.umn.edu/gvcblub Copyright 2017 Joanna Szyda
GenABEL http://www.genabel.org/packages/genabelc Copyright 2017 Joanna Szyda
R
SAS - dane 1. 219 krów Jersey 2. Cechy: wydajność mleka-, białka-, tłuszczu 3. Geny: leptyna, receptor leptynhy, dgat1 Copyright 2017 Joanna Szyda
GWAS dane wejściowe fenotypy 431 20.02.98 07.03.00 1 305 4493 227 5.05 173 3.86 431 20.02.98 13.03.01 2 273 4712 224 4.76 181 3.85 431 20.02.98 12.02.02 3 267 4986 240 4.81 188 3.77 431 20.02.98 01.01.03 4 305 7173 353 4.91 2283 3.95 431 20.02.98 23.12.03 5 305 6681 319 4.78 253 3.79 432 19.04.00 23.05.02 1. 3639 213 5.85 136 3.73 433 22.03.00 13.04.02 1 293 3663 202 5.51 139 3.79 434 07.07.98 23.07.00 1 275 2977 158 5.32 108 3.64 434 07.07.98 12.06.01 2 282 4085 210 5.14 150 3.66 434 07.07.98 30.05.02 3 290 5016 269 5.36 195 3.88 434 07.07.99 06.05.03 4 305 5892 306 5.20 214 3.64
GWAS dane wejściowe genotypy 431 0 1 1 432 0 1 1 433 0 1 1 434 0 1 0 435 0 1 1 436 0 1 1 437 0 1 1 438 0 1 1 439 0 1 1 440 0 1 1 441 0 1 1 442 0 1 1 443 0 1 1 444 0 1 1 445 0 1 1 446 0 1 1
GWAS kod R PHEN <- read.table("c:/asia/class/bioinformatics2/data/laktacjejersey.prn", col.names=c("iid","bdate","cdate","parity","dim","my","fy","fp","py","pp")) PHEN1 <- PHEN[PHEN$PARITY==1,] GEN <- read.table("c:/asia/class/bioinformatics2/data/genotypejerseyc.txt", col.names=c("iid","snp1","snp2","snp3")) ALLDAT <- merge(phen1, GEN, by="iid", all=false) REGSNP1 = lm(my ~ SNP1, data=alldat) summary(regsnp1) results=matrix(0,3,3) for (i in 1:3) { model=summary(lm(alldat$my ~ ALLDAT[,i+10])) results[i,1]=model$coef[2,1] results[i,2]=model$coef[2,3] results[i,3]=model$coef[2,4] } results=as.data.frame(results) colnames(results)=c("effect","t-test","p-value") rownames(results)=c("snp1","snp2","snp3") results
GWAS wyniki effect t-test P-value SNP1 61.99695 0.6883651 0.4920625 SNP2 85.36016 0.8719759 0.3843221 SNP3-46.71094-0.4008142 0.6890073
SAS
SAS kod programu *************************************************************/ /* 25.06.2017 J.Szyda */ /* program fitts various linear mixed repeatability models */ /* to jersey data */ /*************************************************************/ options obs=max; options ls=70; %let INFILE1 ='C:/ASIA/CLASS/bioinformatics2/data/genotypejerseyC.txt' ; %let INFILE2 ='C:/ASIA/CLASS/bioinformatics2/data/laktacjejersey.prn' ; * read phenotypes ; data PHEN ; infile "&INFILE2" ; input IID BDAY 9-10 BMONTH 12-13 BYEAR 15-16 CDAY 20-21 CMONTH 23-24 CYEAR 26-27 PARITY DIM MY FY FP PY PP ; if PARITY ne 1 then delete ; run ; proc sort data=phen nodupkey ; by IID ; run ;
SAS kod programu * read genotypes ; data GEN ; infile "&INFILE1" ; input IID LEPR DGAT LEP ; if LEP=9 then LEP=. ; if LEPR=9 then LEPR=. ; if DGAT=9 then DGAT=. ; run ; proc sort data=gen nodupkey ; by IID ; run ; data ALL ; merge PHEN (in=a) GEN (in=b) ; by IID ; if A and B ; run ; * fitting models ; proc reg data=all ; eq1: model MY = DIM LEPR ; eq2: model MY = DIM LEP ; eq2: model MY = DIM DGAT ; run ;
SAS wyniki Parameter Estimates eq1 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1777.61878 959.57186-1.85 0.0657 DIM 1 20.16203 3.247736.21 <.0001 LEPR 1 61.72476 85.35723 0.72 0.4706 Parameter Estimates eq2 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1849.01805 980.46069-1.89 0.061 DIM 1 20.38565 3.26871 6.24 <.0001 LEP 1 47.15725 106.67432 0.44 0.659 Parameter Estimates eq3 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1780.30105 962.62453-1.85 0.0661 DIM 1 20.35737 3.2789 6.21 <.0001 DGAT 1-28.49101 95.72009-0.3 0.7663
1. PLINK 2. GCTA 3. Przykłady innych programów 4. R 5. SAS