WSTĘP Oprogramowanie dla GWAS

Podobne dokumenty
Oprogramowanie dla GWAS

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE

Modelowanie danych hodowlanych

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

INFORMATYKA W SELEKCJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

METODY STATYSTYCZNE W BIOLOGII

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

STATYSTYKA MATEMATYCZNA

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

WSTĘP. Copyright 2011, Joanna Szyda

BIOMETRIA 3. Wprowadzenie do pakietu SAS

PAKIETY STATYSTYCZNE 5. SAS wprowadzenie - środowisko Windows

Opis wykonanych badań naukowych oraz uzyskanych wyników

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

1. KEGG 2. GO. 3. Klastry

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

BIOINFORMATYKA 8. Analiza asocjacyjna - teoria

Informatyka w selekcji - Wykªad 4

Badania asocjacyjne w skali genomu (GWAS)

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Modelowanie danych hodowlanych

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

Pytania i odpowiedzi

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Dziedziczenie poligenowe

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

PRZYGODY DGV. historia programu selekcji genomowej w Polsce. Joanna Szyda, Andrzej Żarnecki

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Modelowanie danych hodowlanych

STATYSTYKA MATEMATYCZNA

INFORMATYKA W SELEKCJI

ADNOTACJE WARIANTÓW GENETYCZNYCH

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

STATYSTYKA MATEMATYCZNA

Rozdział 8. Regresja. Definiowanie modelu

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

Definicja. Odziedziczalność. Definicja. w potocznym rozumieniu znaczy tyle co dziedziczenie. Fenotyp( P)=Genotyp(G)+Środowisko(E) V P = V G + V E

Mapowanie genów cz owieka. podstawy

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Z poprzedniego wykładu

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Badanie normalności rozkładu

Ekologia molekularna. wykład 14. Genetyka ilościowa

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Badania asocjacyjne w skali genomu (GWAS)

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Czynniki genetyczne sprzyjające rozwojowi otyłości

Zarządzanie populacjami zwierząt. Ocena wartości hodowlanej Wykład 7

Stosowana Analiza Regresji

1 Podstawowe pojęcia z zakresu genetyki. 2 Podstawowy model dziedziczenia

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Anna Szewczyk. Wydział Geodezji Górniczej i InŜynierii środowiska AGH

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

PDF created with FinePrint pdffactory Pro trial version

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

PODSTAWY GENETYKI. Prowadzący wykład: prof. dr hab. Jarosław Burczyk

a) Zapisz genotyp tego mężczyzny... oraz zaznacz poniżej (A, B, C lub D), jaki procent gamet tego mężczyzny będzie miało genotyp ax b.

Genetyka populacji. Ćwiczenia 7

STATYSTYKA MATEMATYCZNA

Podstawy genetyki człowieka. Cechy wieloczynnikowe

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

SAS Podstawowe informacje przed ćwiczeniem 1

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ. Ocena wartości hodowlanej bydła mlecznego wprowadzenie

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

INFORMATYKA W SELEKCJI 9 MODELE MIESZANE

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stosowana Analiza Regresji

Weryfikacja hipotez statystycznych

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Regresja liniowa wprowadzenie

Zmienność. środa, 23 listopada 11

Testowanie hipotez statystycznych

Transkrypt:

ANALIZA DANYCH 1. Wykład wstępny 2. Charakterystyka danych 3. Analiza wstępna genomiczna charakterystyka cech 4. Prezentacje grup roboczych analiza wstępna 5. Prezentacje grup roboczych analiza wstępna 6. Metodyka Genome-wide Association Studies 7. Opis programu preznaczonego do ostatecznej analizy 8. Przegląd literatury GWAS dla analizowanych cech 9. Przegląd literatury GWAS dla analizowanych cech 10. Przegląd literatury GWAS dla analizowanych cech 11. Przegląd literatury GWAS dla analizowanych cech 12. Przegląd literatury GWAS dla analizowanych cech 14. Prezentacje grup roboczych ostateczna analiza 15. Prezentacje grup roboczych ostateczna analiza

SKN Bioinformatyków

WSTĘP Oprogramowanie dla GWAS 1. PLINK Struktura plików wsadowych Wykonanie programu Interpretacja wyników 2. GCTA Struktura plików wsadowych Wykonanie programu Interpretacja wyników 3. GVCBLUP Modele statystyczne Wykonanie programu Interpretacja wyników 4. Przykłady innych programów Copyright 2018, Joanna Szyda

WSTĘP Tworzenie własnych programów 5. R Kod programu Wykonanie programu Interpretacja wyników 6. SAS Kod programu Wykonanie programu Interpretacja wyników Copyright 2018, Joanna Szyda

PLINK

PLINK http://zzz.bwh.harvard.edu/plink/ Copyright 2018, Joanna Szyda

PLINK 1. Darmowy 2. Dobra dokumentacja 3. Różne systemy operacyjne Linia komend Interfejs graficzny (Java) Copyright 2018, Joanna Szyda

PLINK Zastosowanie Edycja danych: proste manipulacje na zbiorach danych, detekcja błędnych obserwacji, zmiany formatów, Podstawowe statystyki opisowe: brakujące dane, średnia, frekwencje alleli Obliczanie spokrewnienia IBD / IBS Analiza asocjacyjna: cechy ciągłe i dyskretne, różne struktury danych Permutacje danych Obliczanie LD Identyfikacja haplotypów Imputacja uzupełnienie brakujących genotypów... Copyright 2018, Joanna Szyda

PLINK plik wsadowy *.ped: genotypy, pochodzenie, cechy 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP) Copyright 2018, Joanna Szyda

PLINK plik wsadowy *.map: mapa markerów 1 rs1 0 1427 1 rs2 0 2253 1 rs3 0 249 1 rs4 0 284 1 rs5 0 3429 1 rs6 0 4153 1 rs7 0 4447 1 rs8 0 4561 1 rs9 0 4738 1 rs10 0 4831 chromosom nazwa markera SNP położenie [ M ] 0=nieznane położenie [ bp ] 0=nieznane Copyright 2018, Joanna Szyda

PLINK wykonanie programu z linii komend plink --noweb --file test --assoc nazwa zbiorów danych *.map, *.ped test.map, test.ped opcja analizy asocjacyjnej Copyright 2018, Joanna Szyda

PLINK plik plink.qassoc: wyniki CHR SNP BP NMISS BETA SE R2 T P 1 rs3 249 50-1.459 1.693 0.015-0.8617 0.393 1 rs4 284 50 NA NA NA NA NA 1 rs1 1427 50-0.860 1.219 0.010-0.7059 0.484 1 rs2 2253 50 2.914 2.414 0.023 1.207 0.233 1 rs5 3429 50 0.235 3.579 0.000 0.0658 0.948 1 rs6 4153 50 7.096 2.642 0.1306 2.686 0.010 chromosom nazwa markera lokalizacja [ bp ] liczba zaobserwowanych danych współczynnik regresji liniowej b 1 odchylenie standardowe b 1 R 2 wartość testu Walda a T Copyright 2018, Joanna Szyda

PLINK regresja liniowa efekt SNP y 0 1 x wartość cechy kod genotypu SNP Copyright 2018, Joanna Szyda

PLINK regresja liniowa jaka część obserwowanej zmienności została wyjaśniona przez równanie regresji R 2 n i 1 n y y i i 1 yˆ i y 2 2 Copyright 2018, Joanna Szyda

PLINK test Walda W ˆ 0 1 ~ ˆ 1 t n p Copyright 2018, Joanna Szyda

PLINK test Walda H 0 : SNP nie wykazuje powiązania z cechą i = 0 H 1 : SNP wykazuje powiązanie z cechą i 0 maksymalny błąd I-go rodzaju a MAX = 0.01 SNP1 = -0.862 a T =0.3931 SNP2 = NA NA SNP3 = -0.706 a T =0.4832 SNP4 = 1.207 a T =0.2332 SNP5 = 0.066 a T =0.9478 SNP6 = 2.868 a T =0.0099 SNP7 = 2.868 a T =0.0099 SNP8 = -1.558 a T =0.1258 SNP9 = 1.084 a T =0.2838 SNP10 = -0.201 a T =0.8415 H 0 : SNP1, SNP3, SNP4, SNP5, SNP8, SNP9, SNP10 H 1 : SNP6, SNP7 W 3 2 1 0-1 -2 249 1427 2253 3429 4153 4447 4561 4738 4831 bp Copyright 2018, Joanna Szyda

PLINK literatura DOI: http://dx.doi.org/10.1086/519795

PLINK publikacja Copyright 2018, Joanna Szyda

GCTA

GCTA http://cnsgenomics.com/software/gcta/#overview Copyright 2018, Joanna Szyda

GCTA 1. Genome-wide Complex Trait Analysis 2. Darmowy 3. Różne systemy operacyjne 4. Wersja wykonawcza oraz kod źródłowy 5. Często uaktualniany 6. Słaba dokumentacja Copyright 2018, Joanna Szyda

GCTA Zastosowanie analiza danych GREML estymacja wariancji genetycznej determinowanej przez SNP GWAS vróżne modele LD obliczanie i analiza Genetyka populacji F st, PCA Copyright 2018, Joanna Szyda

GCTA genotypy, pochodzenie, cechy *.ped 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP) Copyright 2018, Joanna Szyda

GCTA fenotypy *.phen 1 1 0.1 1 2 0.2 2 3 0.1... 10 100 0.5 nr rodziny nr osobnika wartość cechy Copyright 2018, Joanna Szyda

GCTA wykonanie programu z linii komend gcta64 --mlma --bfile test --pheno test.phen --out test opcja analizy modeli mieszanych y = Xb + Zu + e y u b e X Z fenotyp połączony efekt wszystkich SNP inne efekty np. wiek błąd macierz wystąpień dla b macierz wystąpień dla u var u = Gσ u 2 var e = Iσ e 2 Copyright 2018, Joanna Szyda

GCTA wykonanie programu Jak uzyskać efekty poszczególnych SNP (g) z modelu: g = W G 1 u W G macierz wystąpień dla genotypów macierz kowariancji pomiędzy osobnikami w ij = x ij 2p i 2p i 1 p i element macierzy W dla i-ego SNP u osobnika j g lm = 1 N σ N x il 2p i x im 2p i i=1 2p i 1 p i element macierzy G dla osobników l oraz m Copyright 2018, Joanna Szyda

GCTA wyniki 1 s1 1001 A T 0.366 0.0143857 0.0411682 0.726 1 s2 1002 C T 0.326-0.0240756 0.0421248 0.567 1 s3 1003 C G 0.146-0.0921772 0.0565541 0.103 1 s4 1004 T A 0.386-0.0771376 0.0394826 0.050 1 s5 1005 A G 0.166 0.00251276 0.0526821 0.961 1 s6 1006 G C 0.119-0.0153568 0.059891 0.797 1 s7 1007 C A 0.167-0.0487809 0.0512279 0.340 chromosom nr SNP pz allel referencyjny allele alternatywny frekwencja allelu referencyjnego efekt allelu referencyjnego błąd standardowy P Copyright 2018, Joanna Szyda

GCTA literatura DOI: http://dx.doi.org/10.1016/j.ajhg.2010.11.011

GCTA publikacja Copyright 2018, Joanna Szyda

GVCBLUP

GVCBLUP download https://animalgene.umn.edu/gvcblub Copyright 2017, Joanna Szyda

GVCBLUP publikacja https://doi.org/10.1186/1471-2105-15-270 Copyright 2017, Joanna Szyda

GVCBLUP publikacja https://doi.org/10.1371/journal.pone.0087666 Copyright 2017, Joanna Szyda

GVCBLUP model model GWAS y = Wb + ZT α α + ZT δ δ + e y b a d e fenotyp inne efekty np. wiek addytywny efekt wszystkich SNP dominacyjny efekt wszystkich SNP błąd α~n 0, A g σ α 2 δ~n 0, D g σ δ 2 e~n 0, Iσ e 2 W macierz wystąpień dla b Z macierz wystąpień dla SNP T α macierz dla efektów addytywnych SNP T δ macierz dla efektów dominacyjnych SNP Copyright 2017, Joanna Szyda

GVCBLUP model α~n 0, A g σ α 2 A g =T α T α δ~n 0, D g σ δ 2 D δ =T δ T δ A g = 1 1 0 0 1 1 1 1 0 D g = 0 0 1 1 0 0 0 0 1 Copyright 2017, Joanna Szyda

GVCBLUP parameter file estymatory efektów SNP w pliku wynikowym Copyright 2017, Joanna Szyda

GVCBLUP genotype file Copyright 2017, Joanna Szyda

GVCBLUP phenotype file Copyright 2017, Joanna Szyda

GVCBLUP map.txt file Snp1 1 234 Snp2 1 10056 Snp3 1 26900 Snp3 1 5876120 Copyright 2017, Joanna Szyda

GVCBLUP uruchomienie programu Uruchomienie w linii komend: Windows c:\greml\reml_ce.exe gparameter.dat Linux >./reml_ce.exe gparameter.dat ce moduł do analizy dużej liczby SNP Copyright 2017, Joanna Szyda

GVCBLUP wariancje Copyright 2017, Joanna Szyda

GVCBLUP wartości addytywne i dominacyjne osobników Copyright 2017, Joanna Szyda

GVCBLUP wartości addytywne i dominacyjne SNPów Copyright 2018, Joanna Szyda

Inne programy

GenABEL http://www.genabel.org/packages/genabel Copyright 2018 Joanna Szyda

EMMAX http://genetics.cs.ucla.edu/emmax/index.html Copyright 2018 Joanna Szyda

GEMMA http://www.xzlab.org/software.html Copyright 2018 Joanna Szyda

R

SAS - dane 1. 219 krów Jersey 2. Cechy: wydajność mleka-, białka-, tłuszczu 3. Geny: leptyna, receptor leptyny, dgat1 Copyright 2018 Joanna Szyda

GWAS dane wejściowe fenotypy 431 20.02.98 07.03.00 1 305 4493 227 5.05 173 3.86 431 20.02.98 13.03.01 2 273 4712 224 4.76 181 3.85 431 20.02.98 12.02.02 3 267 4986 240 4.81 188 3.77 431 20.02.98 01.01.03 4 305 7173 353 4.91 2283 3.95 431 20.02.98 23.12.03 5 305 6681 319 4.78 253 3.79 432 19.04.00 23.05.02 1. 3639 213 5.85 136 3.73 433 22.03.00 13.04.02 1 293 3663 202 5.51 139 3.79 434 07.07.98 23.07.00 1 275 2977 158 5.32 108 3.64 434 07.07.98 12.06.01 2 282 4085 210 5.14 150 3.66 434 07.07.98 30.05.02 3 290 5016 269 5.36 195 3.88 434 07.07.99 06.05.03 4 305 5892 306 5.20 214 3.64 Copyright 2017, Joanna Szyda

GWAS dane wejściowe genotypy 431 0 1 1 432 0 1 1 433 0 1 1 434 0 1 0 435 0 1 1 436 0 1 1 437 0 1 1 438 0 1 1 439 0 1 1 440 0 1 1 441 0 1 1 442 0 1 1 443 0 1 1 444 0 1 1 445 0 1 1 446 0 1 1 Copyright 2017, Joanna Szyda

GWAS kod R PHEN <- read.table("c:/asia/class/bioinformatics2/data/laktacjejersey.prn", col.names=c("iid","bdate","cdate","parity","dim","my","fy","fp","py","pp")) PHEN1 <- PHEN[PHEN$PARITY==1,] GEN <- read.table("c:/asia/class/bioinformatics2/data/genotypejerseyc.txt", col.names=c("iid","snp1","snp2","snp3")) ALLDAT <- merge(phen1, GEN, by="iid", all=false) REGSNP1 = lm(my ~ SNP1, data=alldat) summary(regsnp1) results=matrix(0,3,3) for (i in 1:3) { model=summary(lm(alldat$my ~ ALLDAT[,i+10])) results[i,1]=model$coef[2,1] results[i,2]=model$coef[2,3] results[i,3]=model$coef[2,4] } results=as.data.frame(results) colnames(results)=c("effect","t-test","p-value") rownames(results)=c("snp1","snp2","snp3") results Copyright 2017, Joanna Szyda

GWAS wyniki effect t-test P-value SNP1 61.99695 0.6883651 0.4920625 SNP2 85.36016 0.8719759 0.3843221 SNP3-46.71094-0.4008142 0.6890073 Copyright 2017, Joanna Szyda

SAS

SAS kod programu *************************************************************/ /* 25.06.2017 J.Szyda */ /* program fitts various linear mixed repeatability models */ /* to jersey data */ /*************************************************************/ options obs=max; options ls=70; %let INFILE1 ='C:/ASIA/CLASS/bioinformatics2/data/genotypejerseyC.txt' ; %let INFILE2 ='C:/ASIA/CLASS/bioinformatics2/data/laktacjejersey.prn' ; * read phenotypes ; data PHEN ; infile "&INFILE2" ; input IID BDAY 9-10 BMONTH 12-13 BYEAR 15-16 CDAY 20-21 CMONTH 23-24 CYEAR 26-27 PARITY DIM MY FY FP PY PP ; if PARITY ne 1 then delete ; run ; proc sort data=phen nodupkey ; by IID ; run ; Copyright 2017, Joanna Szyda

SAS kod programu * read genotypes ; data GEN ; infile "&INFILE1" ; input IID LEPR DGAT LEP ; if LEP=9 then LEP=. ; if LEPR=9 then LEPR=. ; if DGAT=9 then DGAT=. ; run ; proc sort data=gen nodupkey ; by IID ; run ; data ALL ; merge PHEN (in=a) GEN (in=b) ; by IID ; if A and B ; run ; * fitting models ; proc reg data=all ; eq1: model MY = DIM LEPR ; eq2: model MY = DIM LEP ; eq2: model MY = DIM DGAT ; run ; Copyright 2017, Joanna Szyda

SAS wyniki Parameter Estimates eq1 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1777.61878 959.57186-1.85 0.0657 DIM 1 20.16203 3.247736.21 <.0001 LEPR 1 61.72476 85.35723 0.72 0.4706 Parameter Estimates eq2 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1849.01805 980.46069-1.89 0.061 DIM 1 20.38565 3.26871 6.24 <.0001 LEP 1 47.15725 106.67432 0.44 0.659 Parameter Estimates eq3 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1780.30105 962.62453-1.85 0.0661 DIM 1 20.35737 3.2789 6.21 <.0001 DGAT 1-28.49101 95.72009-0.3 0.7663 Copyright 2017, Joanna Szyda

Oprogramowanie dla GWAS 1. PLINK 2. GCTA 3. GVCBLUP 4. Przykłady innych programów 5. R 6. SAS