ANALIZA DANYCH 1. Wykład wstępny 2. Charakterystyka danych 3. Analiza wstępna genomiczna charakterystyka cech 4. Prezentacje grup roboczych analiza wstępna 5. Prezentacje grup roboczych analiza wstępna 6. Metodyka Genome-wide Association Studies 7. Opis programu preznaczonego do ostatecznej analizy 8. Przegląd literatury GWAS dla analizowanych cech 9. Przegląd literatury GWAS dla analizowanych cech 10. Przegląd literatury GWAS dla analizowanych cech 11. Przegląd literatury GWAS dla analizowanych cech 12. Przegląd literatury GWAS dla analizowanych cech 14. Prezentacje grup roboczych ostateczna analiza 15. Prezentacje grup roboczych ostateczna analiza
SKN Bioinformatyków
WSTĘP Oprogramowanie dla GWAS 1. PLINK Struktura plików wsadowych Wykonanie programu Interpretacja wyników 2. GCTA Struktura plików wsadowych Wykonanie programu Interpretacja wyników 3. GVCBLUP Modele statystyczne Wykonanie programu Interpretacja wyników 4. Przykłady innych programów Copyright 2018, Joanna Szyda
WSTĘP Tworzenie własnych programów 5. R Kod programu Wykonanie programu Interpretacja wyników 6. SAS Kod programu Wykonanie programu Interpretacja wyników Copyright 2018, Joanna Szyda
PLINK
PLINK http://zzz.bwh.harvard.edu/plink/ Copyright 2018, Joanna Szyda
PLINK 1. Darmowy 2. Dobra dokumentacja 3. Różne systemy operacyjne Linia komend Interfejs graficzny (Java) Copyright 2018, Joanna Szyda
PLINK Zastosowanie Edycja danych: proste manipulacje na zbiorach danych, detekcja błędnych obserwacji, zmiany formatów, Podstawowe statystyki opisowe: brakujące dane, średnia, frekwencje alleli Obliczanie spokrewnienia IBD / IBS Analiza asocjacyjna: cechy ciągłe i dyskretne, różne struktury danych Permutacje danych Obliczanie LD Identyfikacja haplotypów Imputacja uzupełnienie brakujących genotypów... Copyright 2018, Joanna Szyda
PLINK plik wsadowy *.ped: genotypy, pochodzenie, cechy 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP) Copyright 2018, Joanna Szyda
PLINK plik wsadowy *.map: mapa markerów 1 rs1 0 1427 1 rs2 0 2253 1 rs3 0 249 1 rs4 0 284 1 rs5 0 3429 1 rs6 0 4153 1 rs7 0 4447 1 rs8 0 4561 1 rs9 0 4738 1 rs10 0 4831 chromosom nazwa markera SNP położenie [ M ] 0=nieznane położenie [ bp ] 0=nieznane Copyright 2018, Joanna Szyda
PLINK wykonanie programu z linii komend plink --noweb --file test --assoc nazwa zbiorów danych *.map, *.ped test.map, test.ped opcja analizy asocjacyjnej Copyright 2018, Joanna Szyda
PLINK plik plink.qassoc: wyniki CHR SNP BP NMISS BETA SE R2 T P 1 rs3 249 50-1.459 1.693 0.015-0.8617 0.393 1 rs4 284 50 NA NA NA NA NA 1 rs1 1427 50-0.860 1.219 0.010-0.7059 0.484 1 rs2 2253 50 2.914 2.414 0.023 1.207 0.233 1 rs5 3429 50 0.235 3.579 0.000 0.0658 0.948 1 rs6 4153 50 7.096 2.642 0.1306 2.686 0.010 chromosom nazwa markera lokalizacja [ bp ] liczba zaobserwowanych danych współczynnik regresji liniowej b 1 odchylenie standardowe b 1 R 2 wartość testu Walda a T Copyright 2018, Joanna Szyda
PLINK regresja liniowa efekt SNP y 0 1 x wartość cechy kod genotypu SNP Copyright 2018, Joanna Szyda
PLINK regresja liniowa jaka część obserwowanej zmienności została wyjaśniona przez równanie regresji R 2 n i 1 n y y i i 1 yˆ i y 2 2 Copyright 2018, Joanna Szyda
PLINK test Walda W ˆ 0 1 ~ ˆ 1 t n p Copyright 2018, Joanna Szyda
PLINK test Walda H 0 : SNP nie wykazuje powiązania z cechą i = 0 H 1 : SNP wykazuje powiązanie z cechą i 0 maksymalny błąd I-go rodzaju a MAX = 0.01 SNP1 = -0.862 a T =0.3931 SNP2 = NA NA SNP3 = -0.706 a T =0.4832 SNP4 = 1.207 a T =0.2332 SNP5 = 0.066 a T =0.9478 SNP6 = 2.868 a T =0.0099 SNP7 = 2.868 a T =0.0099 SNP8 = -1.558 a T =0.1258 SNP9 = 1.084 a T =0.2838 SNP10 = -0.201 a T =0.8415 H 0 : SNP1, SNP3, SNP4, SNP5, SNP8, SNP9, SNP10 H 1 : SNP6, SNP7 W 3 2 1 0-1 -2 249 1427 2253 3429 4153 4447 4561 4738 4831 bp Copyright 2018, Joanna Szyda
PLINK literatura DOI: http://dx.doi.org/10.1086/519795
PLINK publikacja Copyright 2018, Joanna Szyda
GCTA
GCTA http://cnsgenomics.com/software/gcta/#overview Copyright 2018, Joanna Szyda
GCTA 1. Genome-wide Complex Trait Analysis 2. Darmowy 3. Różne systemy operacyjne 4. Wersja wykonawcza oraz kod źródłowy 5. Często uaktualniany 6. Słaba dokumentacja Copyright 2018, Joanna Szyda
GCTA Zastosowanie analiza danych GREML estymacja wariancji genetycznej determinowanej przez SNP GWAS vróżne modele LD obliczanie i analiza Genetyka populacji F st, PCA Copyright 2018, Joanna Szyda
GCTA genotypy, pochodzenie, cechy *.ped 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP) Copyright 2018, Joanna Szyda
GCTA fenotypy *.phen 1 1 0.1 1 2 0.2 2 3 0.1... 10 100 0.5 nr rodziny nr osobnika wartość cechy Copyright 2018, Joanna Szyda
GCTA wykonanie programu z linii komend gcta64 --mlma --bfile test --pheno test.phen --out test opcja analizy modeli mieszanych y = Xb + Zu + e y u b e X Z fenotyp połączony efekt wszystkich SNP inne efekty np. wiek błąd macierz wystąpień dla b macierz wystąpień dla u var u = Gσ u 2 var e = Iσ e 2 Copyright 2018, Joanna Szyda
GCTA wykonanie programu Jak uzyskać efekty poszczególnych SNP (g) z modelu: g = W G 1 u W G macierz wystąpień dla genotypów macierz kowariancji pomiędzy osobnikami w ij = x ij 2p i 2p i 1 p i element macierzy W dla i-ego SNP u osobnika j g lm = 1 N σ N x il 2p i x im 2p i i=1 2p i 1 p i element macierzy G dla osobników l oraz m Copyright 2018, Joanna Szyda
GCTA wyniki 1 s1 1001 A T 0.366 0.0143857 0.0411682 0.726 1 s2 1002 C T 0.326-0.0240756 0.0421248 0.567 1 s3 1003 C G 0.146-0.0921772 0.0565541 0.103 1 s4 1004 T A 0.386-0.0771376 0.0394826 0.050 1 s5 1005 A G 0.166 0.00251276 0.0526821 0.961 1 s6 1006 G C 0.119-0.0153568 0.059891 0.797 1 s7 1007 C A 0.167-0.0487809 0.0512279 0.340 chromosom nr SNP pz allel referencyjny allele alternatywny frekwencja allelu referencyjnego efekt allelu referencyjnego błąd standardowy P Copyright 2018, Joanna Szyda
GCTA literatura DOI: http://dx.doi.org/10.1016/j.ajhg.2010.11.011
GCTA publikacja Copyright 2018, Joanna Szyda
GVCBLUP
GVCBLUP download https://animalgene.umn.edu/gvcblub Copyright 2017, Joanna Szyda
GVCBLUP publikacja https://doi.org/10.1186/1471-2105-15-270 Copyright 2017, Joanna Szyda
GVCBLUP publikacja https://doi.org/10.1371/journal.pone.0087666 Copyright 2017, Joanna Szyda
GVCBLUP model model GWAS y = Wb + ZT α α + ZT δ δ + e y b a d e fenotyp inne efekty np. wiek addytywny efekt wszystkich SNP dominacyjny efekt wszystkich SNP błąd α~n 0, A g σ α 2 δ~n 0, D g σ δ 2 e~n 0, Iσ e 2 W macierz wystąpień dla b Z macierz wystąpień dla SNP T α macierz dla efektów addytywnych SNP T δ macierz dla efektów dominacyjnych SNP Copyright 2017, Joanna Szyda
GVCBLUP model α~n 0, A g σ α 2 A g =T α T α δ~n 0, D g σ δ 2 D δ =T δ T δ A g = 1 1 0 0 1 1 1 1 0 D g = 0 0 1 1 0 0 0 0 1 Copyright 2017, Joanna Szyda
GVCBLUP parameter file estymatory efektów SNP w pliku wynikowym Copyright 2017, Joanna Szyda
GVCBLUP genotype file Copyright 2017, Joanna Szyda
GVCBLUP phenotype file Copyright 2017, Joanna Szyda
GVCBLUP map.txt file Snp1 1 234 Snp2 1 10056 Snp3 1 26900 Snp3 1 5876120 Copyright 2017, Joanna Szyda
GVCBLUP uruchomienie programu Uruchomienie w linii komend: Windows c:\greml\reml_ce.exe gparameter.dat Linux >./reml_ce.exe gparameter.dat ce moduł do analizy dużej liczby SNP Copyright 2017, Joanna Szyda
GVCBLUP wariancje Copyright 2017, Joanna Szyda
GVCBLUP wartości addytywne i dominacyjne osobników Copyright 2017, Joanna Szyda
GVCBLUP wartości addytywne i dominacyjne SNPów Copyright 2018, Joanna Szyda
Inne programy
GenABEL http://www.genabel.org/packages/genabel Copyright 2018 Joanna Szyda
EMMAX http://genetics.cs.ucla.edu/emmax/index.html Copyright 2018 Joanna Szyda
GEMMA http://www.xzlab.org/software.html Copyright 2018 Joanna Szyda
R
SAS - dane 1. 219 krów Jersey 2. Cechy: wydajność mleka-, białka-, tłuszczu 3. Geny: leptyna, receptor leptyny, dgat1 Copyright 2018 Joanna Szyda
GWAS dane wejściowe fenotypy 431 20.02.98 07.03.00 1 305 4493 227 5.05 173 3.86 431 20.02.98 13.03.01 2 273 4712 224 4.76 181 3.85 431 20.02.98 12.02.02 3 267 4986 240 4.81 188 3.77 431 20.02.98 01.01.03 4 305 7173 353 4.91 2283 3.95 431 20.02.98 23.12.03 5 305 6681 319 4.78 253 3.79 432 19.04.00 23.05.02 1. 3639 213 5.85 136 3.73 433 22.03.00 13.04.02 1 293 3663 202 5.51 139 3.79 434 07.07.98 23.07.00 1 275 2977 158 5.32 108 3.64 434 07.07.98 12.06.01 2 282 4085 210 5.14 150 3.66 434 07.07.98 30.05.02 3 290 5016 269 5.36 195 3.88 434 07.07.99 06.05.03 4 305 5892 306 5.20 214 3.64 Copyright 2017, Joanna Szyda
GWAS dane wejściowe genotypy 431 0 1 1 432 0 1 1 433 0 1 1 434 0 1 0 435 0 1 1 436 0 1 1 437 0 1 1 438 0 1 1 439 0 1 1 440 0 1 1 441 0 1 1 442 0 1 1 443 0 1 1 444 0 1 1 445 0 1 1 446 0 1 1 Copyright 2017, Joanna Szyda
GWAS kod R PHEN <- read.table("c:/asia/class/bioinformatics2/data/laktacjejersey.prn", col.names=c("iid","bdate","cdate","parity","dim","my","fy","fp","py","pp")) PHEN1 <- PHEN[PHEN$PARITY==1,] GEN <- read.table("c:/asia/class/bioinformatics2/data/genotypejerseyc.txt", col.names=c("iid","snp1","snp2","snp3")) ALLDAT <- merge(phen1, GEN, by="iid", all=false) REGSNP1 = lm(my ~ SNP1, data=alldat) summary(regsnp1) results=matrix(0,3,3) for (i in 1:3) { model=summary(lm(alldat$my ~ ALLDAT[,i+10])) results[i,1]=model$coef[2,1] results[i,2]=model$coef[2,3] results[i,3]=model$coef[2,4] } results=as.data.frame(results) colnames(results)=c("effect","t-test","p-value") rownames(results)=c("snp1","snp2","snp3") results Copyright 2017, Joanna Szyda
GWAS wyniki effect t-test P-value SNP1 61.99695 0.6883651 0.4920625 SNP2 85.36016 0.8719759 0.3843221 SNP3-46.71094-0.4008142 0.6890073 Copyright 2017, Joanna Szyda
SAS
SAS kod programu *************************************************************/ /* 25.06.2017 J.Szyda */ /* program fitts various linear mixed repeatability models */ /* to jersey data */ /*************************************************************/ options obs=max; options ls=70; %let INFILE1 ='C:/ASIA/CLASS/bioinformatics2/data/genotypejerseyC.txt' ; %let INFILE2 ='C:/ASIA/CLASS/bioinformatics2/data/laktacjejersey.prn' ; * read phenotypes ; data PHEN ; infile "&INFILE2" ; input IID BDAY 9-10 BMONTH 12-13 BYEAR 15-16 CDAY 20-21 CMONTH 23-24 CYEAR 26-27 PARITY DIM MY FY FP PY PP ; if PARITY ne 1 then delete ; run ; proc sort data=phen nodupkey ; by IID ; run ; Copyright 2017, Joanna Szyda
SAS kod programu * read genotypes ; data GEN ; infile "&INFILE1" ; input IID LEPR DGAT LEP ; if LEP=9 then LEP=. ; if LEPR=9 then LEPR=. ; if DGAT=9 then DGAT=. ; run ; proc sort data=gen nodupkey ; by IID ; run ; data ALL ; merge PHEN (in=a) GEN (in=b) ; by IID ; if A and B ; run ; * fitting models ; proc reg data=all ; eq1: model MY = DIM LEPR ; eq2: model MY = DIM LEP ; eq2: model MY = DIM DGAT ; run ; Copyright 2017, Joanna Szyda
SAS wyniki Parameter Estimates eq1 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1777.61878 959.57186-1.85 0.0657 DIM 1 20.16203 3.247736.21 <.0001 LEPR 1 61.72476 85.35723 0.72 0.4706 Parameter Estimates eq2 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1849.01805 980.46069-1.89 0.061 DIM 1 20.38565 3.26871 6.24 <.0001 LEP 1 47.15725 106.67432 0.44 0.659 Parameter Estimates eq3 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1780.30105 962.62453-1.85 0.0661 DIM 1 20.35737 3.2789 6.21 <.0001 DGAT 1-28.49101 95.72009-0.3 0.7663 Copyright 2017, Joanna Szyda
Oprogramowanie dla GWAS 1. PLINK 2. GCTA 3. GVCBLUP 4. Przykłady innych programów 5. R 6. SAS