Oprogramowanie dla GWAS

Podobne dokumenty
WSTĘP Oprogramowanie dla GWAS

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE

WSTĘP. Copyright 2011, Joanna Szyda

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Modelowanie danych hodowlanych

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

INFORMATYKA W SELEKCJI

METODY STATYSTYCZNE W BIOLOGII

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

PAKIETY STATYSTYCZNE 5. SAS wprowadzenie - środowisko Windows

BIOINFORMATYKA 8. Analiza asocjacyjna - teoria

BIOMETRIA 3. Wprowadzenie do pakietu SAS

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

STATYSTYKA MATEMATYCZNA

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

STATYSTYKA MATEMATYCZNA WYKŁAD 1

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Szacowanie wartości hodowlanej. Zarządzanie populacjami

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

Badania asocjacyjne w skali genomu (GWAS)

ADNOTACJE WARIANTÓW GENETYCZNYCH

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

Pytania i odpowiedzi

STATYSTYKA MATEMATYCZNA

PAKIETY STATYSTYCZNE

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Mapowanie genów cz owieka. podstawy

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Badania asocjacyjne w skali genomu (GWAS)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

INFORMATYKA W SELEKCJI

Modelowanie danych hodowlanych

Dziedziczenie poligenowe

PRZYGODY DGV. historia programu selekcji genomowej w Polsce. Joanna Szyda, Andrzej Żarnecki

STATYSTYKA MATEMATYCZNA

Informatyka w selekcji - Wykªad 4

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

PODSTAWY GENETYKI. Prowadzący wykład: prof. dr hab. Jarosław Burczyk

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

Ekologia molekularna. wykład 3

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Podstawy genetyki człowieka. Cechy wieloczynnikowe

Z poprzedniego wykładu

Zadania do cz. II (z frekwencji i prawa Hardy ego-weinberga)

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

GENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /

Wprowadzenie do genetyki medycznej i sądowej

INFORMATYKA W SELEKCJI 9 MODELE MIESZANE

1 Podstawowe pojęcia z zakresu genetyki. 2 Podstawowy model dziedziczenia

Dryf genetyczny i jego wpływ na rozkłady próbek z populacji - modele matematyczne. Adam Bobrowski, IM PAN Katowice

Genetyka Populacji

SAS Podstawowe informacje przed ćwiczeniem 1

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Mapowanie genów cz owieka i badania asocjacji. podstawy

Analiza sprzężeń u człowieka. Podstawy

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Zmienność. środa, 23 listopada 11

Anna Szewczyk. Wydział Geodezji Górniczej i InŜynierii środowiska AGH

Testowanie hipotez statystycznych.

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ

Czynniki genetyczne sprzyjające rozwojowi otyłości

Analiza sprzężeń u człowieka. Podstawy

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zarządzanie populacjami zwierząt. Ocena wartości hodowlanej Wykład 7

STATYSTYKA MATEMATYCZNA

Opis wykonanych badań naukowych oraz uzyskanych wyników

a) Zapisz genotyp tego mężczyzny... oraz zaznacz poniżej (A, B, C lub D), jaki procent gamet tego mężczyzny będzie miało genotyp ax b.

Regresja liniowa wprowadzenie

STATYSTYKA MATEMATYCZNA

Ekologia molekularna. wykład 14. Genetyka ilościowa

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

METODY STATYSTYCZNE W BIOLOGII

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

METODY STATYSTYCZNE W BIOLOGII

EGZAMIN MAGISTERSKI, Biomatematyka

Definicja. Odziedziczalność. Definicja. w potocznym rozumieniu znaczy tyle co dziedziczenie. Fenotyp( P)=Genotyp(G)+Środowisko(E) V P = V G + V E

1. KEGG 2. GO. 3. Klastry

Rozdział 8. Regresja. Definiowanie modelu

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Bliskie Spotkanie z Biologią. Genetyka populacji

Zmodyfikowane wg Kadowaki T in.: J Clin Invest. 2006;116(7):

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 2. PRZEDMIOTY PRZYRODNICZE

Modelowanie danych hodowlanych

METODOLOGICZNE ASPEKTY BADAŃ W BIOLOGII CZŁOWIEKA. WYJAŚNIANIE STRATEGII ADAPTACYJNEJ CZŁOWIEKA METODAMI GENETYKI ILOŚCIOWEJ.

STATYSTYKA MATEMATYCZNA

BioTe21, Pracownia Kryminalistyki i Badań Ojcostwa.

Transkrypt:

BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji 7. Sekwencjonowanie nowej generacji 8. Funkcjonalna adnotacja polimorfizmów 9. Funkcjonalna adnotacja polimorfizmów 10. Wybrane algorytmy 11. Wybrane algorytmy 12. Literatura 2017-2018 13. Literatura 2017-2018 14. Literatura 2017-2018 15. Literatura 2017-2018

WSTĘP Oprogramowanie dla GWAS 1. PLINK Struktura plików wsadowych Wykonanie programu Interpretacja wyników 2. GCTA Struktura plików wsadowych Wykonanie programu Interpretacja wyników 3. Przykłady innych programów

WSTĘP Tworzenie własnych programów 4. R Kod programu Wykonanie programu Interpretacja wyników 5. SAS Kod programu Wykonanie programu Interpretacja wyników

PLINK

PLINK http://zzz.bwh.harvard.edu/plink/

PLINK 1. Darmowy 2. Dobra dokumentacja 3. Różne systemy operacyjne Linia komend Interfejs graficzny (Java)

PLINK Zastosowanie Edycja danych: proste manipulacje na zbiorach danych, detekcja błędnych obserwacji, zmiany formatów, Podstawowe statystyki opisowe: brakujące dane, średnia, frekwencje alleli Obliczanie spokrewnienia IBD / IBS Analiza asocjacyjna: cechy ciągłe i dyskretne, różne struktury danych Permutacje danych Obliczanie LD Identyfikacja haplotypów Imputacja uzupełnienie brakujących genotypów...

PLINK plik wsadowy *.ped: genotypy, pochodzenie, cechy 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP)

PLINK plik wsadowy *.map: mapa markerów 1 rs1 0 1427 1 rs2 0 2253 1 rs3 0 249 1 rs4 0 284 1 rs5 0 3429 1 rs6 0 4153 1 rs7 0 4447 1 rs8 0 4561 1 rs9 0 4738 1 rs10 0 4831 chromosom nazwa markera SNP położenie [ M ] 0=nieznane położenie [ bp ] 0=nieznane

PLINK wykonanie programu z linii komend plink --noweb --file test --assoc nazwa zbiorów danych *.map, *.ped test.map, test.ped opcja analizy asocjacyjnej

PLINK plik plink.qassoc: wyniki CHR SNP BP NMISS BETA SE R2 T P 1 rs3 249 50-1.459 1.693 0.015-0.8617 0.393 1 rs4 284 50 NA NA NA NA NA 1 rs1 1427 50-0.860 1.219 0.010-0.7059 0.484 1 rs2 2253 50 2.914 2.414 0.023 1.207 0.233 1 rs5 3429 50 0.235 3.579 0.000 0.0658 0.948 1 rs6 4153 50 7.096 2.642 0.1306 2.686 0.010 chromosom nazwa markera lokalizacja [ bp ] liczba zaobserwowanych danych współczynnik regresji liniowej b 1 odchylenie standardowe b 1 R 2 wartość testu Walda a T

PLINK regresja liniowa efekt SNP y 0 1 x wartość cechy kod genotypu SNP

PLINK regresja liniowa jaka część obserwowanej zmienności została wyjaśniona przez równanie regresji R 2 n i 1 n y y i i 1 yˆ i y 2 2

PLINK test Walda W ˆ 0 1 ~ ˆ 1 t n p

PLINK test Walda H 0 : SNP nie wykazuje powiązania z cechą i = 0 H 1 : SNP wykazuje powiązanie z cechą i 0 maksymalny błąd I-go rodzaju a MAX = 0.01 SNP1 = -0.862 a T =0.3931 SNP2 = NA NA SNP3 = -0.706 a T =0.4832 SNP4 = 1.207 a T =0.2332 SNP5 = 0.066 a T =0.9478 SNP6 = 2.868 a T =0.0099 SNP7 = 2.868 a T =0.0099 SNP8 = -1.558 a T =0.1258 SNP9 = 1.084 a T =0.2838 SNP10 = -0.201 a T =0.8415 H 0 : SNP1, SNP3, SNP4, SNP5, SNP8, SNP9, SNP10 H 1 : SNP6, SNP7 W 3 2 1 0-1 -2 249 1427 2253 3429 4153 4447 4561 4738 4831 bp Copyright 2017 Joanna Szyda

PLINK literatura DOI: http://dx.doi.org/10.1086/519795

PLINK publikacja Copyright 2017 Joanna Szyda

GCTA

GCTA http://cnsgenomics.com/software/gcta/#overview

GCTA 1. Genome-wide Complex Trait Analysis 2. Darmowy 3. Różne systemy operacyjne 4. Wersja wykonawcza oraz kod źródłowy 5. Często uaktualniany 6. Słaba dokumentacja Copyright 201,7 Joanna Szyda

GCTA Zastosowanie analiza danych GREML estymacja wariancji genetycznej determinowanej przez SNP GWAS vróżne modele LD obliczanie i analiza Genetyka populacji F st, PCA

GCTA genotypy, pochodzenie, cechy *.ped 0 305 0 0 1-9 1 2 1 1 0 306 0 0 1-9 1 2 1 1 0 321 0 0 2-9 2 2 1 2 0 322 0 0 2-9 1 2 1 1 0 324 0 0 2-9 1 2 1 1 1 746 305 322 1 35.22 1 2 1 1 1 747 305 322 2 23.32 1 1 1 1 1 748 305 322 1 25.59 1 2 1 1... nr rodziny nr osobnika nr ojca nr matki płeć cecha genotypy markerów (tylko bialleliczne = SNP)

GCTA fenotypy *.phen 1 1 0.1 1 2 0.2 2 3 0.1... 10 100 0.5 nr rodziny nr osobnika wartość cechy

GCTA wykonanie programu z linii komend gcta64 --mlma --bfile test --pheno test.phen --out test opcja analizy modeli mieszanych y = Xb + Zu + e y u b e X Z fenotyp połączony efekt wszystkich SNP inne efekty np. wiek błąd macierz wystąpień dla b macierz wystąpień dla u var u = Gσ u 2 var e = Iσ e 2

GCTA wykonanie programu Jak uzyskać efekty poszczególnych SNP (g) z modelu: g = W G 1 u W macierz wystąpień dla genotypów

GCTA wyniki 1 s1 1001 A T 0.366 0.0143857 0.0411682 0.726 1 s2 1002 C T 0.326-0.0240756 0.0421248 0.567 1 s3 1003 C G 0.146-0.0921772 0.0565541 0.103 1 s4 1004 T A 0.386-0.0771376 0.0394826 0.050 1 s5 1005 A G 0.166 0.00251276 0.0526821 0.961 1 s6 1006 G C 0.119-0.0153568 0.059891 0.797 1 s7 1007 C A 0.167-0.0487809 0.0512279 0.340 chromosom nr SNP pz allel referencyjny allele alternatywny frekwencja allelu referencyjnego efekt allelu referencyjnego błąd standardowy P

GCTA literatura DOI: http://dx.doi.org/10.1016/j.ajhg.2010.11.011

GCTA publikacja Copyright 2017 Joanna Szyda

Inne programy

GVCBLUP https://animalgene.umn.edu/gvcblub Copyright 2017 Joanna Szyda

GenABEL http://www.genabel.org/packages/genabelc Copyright 2017 Joanna Szyda

R

SAS - dane 1. 219 krów Jersey 2. Cechy: wydajność mleka-, białka-, tłuszczu 3. Geny: leptyna, receptor leptynhy, dgat1 Copyright 2017 Joanna Szyda

GWAS dane wejściowe fenotypy 431 20.02.98 07.03.00 1 305 4493 227 5.05 173 3.86 431 20.02.98 13.03.01 2 273 4712 224 4.76 181 3.85 431 20.02.98 12.02.02 3 267 4986 240 4.81 188 3.77 431 20.02.98 01.01.03 4 305 7173 353 4.91 2283 3.95 431 20.02.98 23.12.03 5 305 6681 319 4.78 253 3.79 432 19.04.00 23.05.02 1. 3639 213 5.85 136 3.73 433 22.03.00 13.04.02 1 293 3663 202 5.51 139 3.79 434 07.07.98 23.07.00 1 275 2977 158 5.32 108 3.64 434 07.07.98 12.06.01 2 282 4085 210 5.14 150 3.66 434 07.07.98 30.05.02 3 290 5016 269 5.36 195 3.88 434 07.07.99 06.05.03 4 305 5892 306 5.20 214 3.64

GWAS dane wejściowe genotypy 431 0 1 1 432 0 1 1 433 0 1 1 434 0 1 0 435 0 1 1 436 0 1 1 437 0 1 1 438 0 1 1 439 0 1 1 440 0 1 1 441 0 1 1 442 0 1 1 443 0 1 1 444 0 1 1 445 0 1 1 446 0 1 1

GWAS kod R PHEN <- read.table("c:/asia/class/bioinformatics2/data/laktacjejersey.prn", col.names=c("iid","bdate","cdate","parity","dim","my","fy","fp","py","pp")) PHEN1 <- PHEN[PHEN$PARITY==1,] GEN <- read.table("c:/asia/class/bioinformatics2/data/genotypejerseyc.txt", col.names=c("iid","snp1","snp2","snp3")) ALLDAT <- merge(phen1, GEN, by="iid", all=false) REGSNP1 = lm(my ~ SNP1, data=alldat) summary(regsnp1) results=matrix(0,3,3) for (i in 1:3) { model=summary(lm(alldat$my ~ ALLDAT[,i+10])) results[i,1]=model$coef[2,1] results[i,2]=model$coef[2,3] results[i,3]=model$coef[2,4] } results=as.data.frame(results) colnames(results)=c("effect","t-test","p-value") rownames(results)=c("snp1","snp2","snp3") results

GWAS wyniki effect t-test P-value SNP1 61.99695 0.6883651 0.4920625 SNP2 85.36016 0.8719759 0.3843221 SNP3-46.71094-0.4008142 0.6890073

SAS

SAS kod programu *************************************************************/ /* 25.06.2017 J.Szyda */ /* program fitts various linear mixed repeatability models */ /* to jersey data */ /*************************************************************/ options obs=max; options ls=70; %let INFILE1 ='C:/ASIA/CLASS/bioinformatics2/data/genotypejerseyC.txt' ; %let INFILE2 ='C:/ASIA/CLASS/bioinformatics2/data/laktacjejersey.prn' ; * read phenotypes ; data PHEN ; infile "&INFILE2" ; input IID BDAY 9-10 BMONTH 12-13 BYEAR 15-16 CDAY 20-21 CMONTH 23-24 CYEAR 26-27 PARITY DIM MY FY FP PY PP ; if PARITY ne 1 then delete ; run ; proc sort data=phen nodupkey ; by IID ; run ;

SAS kod programu * read genotypes ; data GEN ; infile "&INFILE1" ; input IID LEPR DGAT LEP ; if LEP=9 then LEP=. ; if LEPR=9 then LEPR=. ; if DGAT=9 then DGAT=. ; run ; proc sort data=gen nodupkey ; by IID ; run ; data ALL ; merge PHEN (in=a) GEN (in=b) ; by IID ; if A and B ; run ; * fitting models ; proc reg data=all ; eq1: model MY = DIM LEPR ; eq2: model MY = DIM LEP ; eq2: model MY = DIM DGAT ; run ;

SAS wyniki Parameter Estimates eq1 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1777.61878 959.57186-1.85 0.0657 DIM 1 20.16203 3.247736.21 <.0001 LEPR 1 61.72476 85.35723 0.72 0.4706 Parameter Estimates eq2 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1849.01805 980.46069-1.89 0.061 DIM 1 20.38565 3.26871 6.24 <.0001 LEP 1 47.15725 106.67432 0.44 0.659 Parameter Estimates eq3 VariableDF Parameter Standard t Value Pr > t Estimate Error Intercept 1-1780.30105 962.62453-1.85 0.0661 DIM 1 20.35737 3.2789 6.21 <.0001 DGAT 1-28.49101 95.72009-0.3 0.7663

1. PLINK 2. GCTA 3. Przykłady innych programów 4. R 5. SAS