Pytania i odpowiedzi

Podobne dokumenty
Badania asocjacyjne w skali genomu (GWAS)

Badania asocjacyjne w skali genomu (GWAS)

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

Ekologia molekularna. wykład 14. Genetyka ilościowa

Podstawy genetyki człowieka. Cechy wieloczynnikowe

Szacowanie wartości hodowlanej. Zarządzanie populacjami

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Sekwencjonowanie nowej generacji i rozwój programów selekcyjnych w akwakulturze ryb łososiowatych

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

Oprogramowanie dla GWAS

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

Dziedziczenie poligenowe

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

MODELE LINIOWE. Dr Wioleta Drobik

Zmienność populacji człowieka. Polimorfizmy i asocjacje

Definicja. Odziedziczalność. Definicja. w potocznym rozumieniu znaczy tyle co dziedziczenie. Fenotyp( P)=Genotyp(G)+Środowisko(E) V P = V G + V E

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

STATYSTYKA MATEMATYCZNA WYKŁAD 1

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych

PRZYGODY DGV. historia programu selekcji genomowej w Polsce. Joanna Szyda, Andrzej Żarnecki

STATYSTYKA MATEMATYCZNA

WSTĘP. Copyright 2011, Joanna Szyda

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

Zarządzanie populacjami zwierząt. Ocena wartości hodowlanej Wykład 7

Zmienność. środa, 23 listopada 11

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

WSTĘP Oprogramowanie dla GWAS

METODY STATYSTYCZNE W BIOLOGII

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

METODY STATYSTYCZNE W BIOLOGII

Testowanie hipotez statystycznych.

METODY STATYSTYCZNE W BIOLOGII

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Opis wykonanych badań naukowych oraz uzyskanych wyników

Zmienność populacji cz owieka. Polimorfizmy i asocjacje

Analizy wielkoskalowe w badaniach chromatyny

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Modelowanie danych hodowlanych

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Rozkłady statystyk z próby. Statystyka

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA MATEMATYCZNA

Wykład 3 Hipotezy statystyczne

Testowanie hipotez statystycznych.

Ekologia molekularna. wykład 3

1. KEGG 2. GO. 3. Klastry

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

METODOLOGICZNE ASPEKTY BADAŃ W BIOLOGII CZŁOWIEKA. WYJAŚNIANIE STRATEGII ADAPTACYJNEJ CZŁOWIEKA METODAMI GENETYKI ILOŚCIOWEJ.

Genetyka człowieka II. Cechy wieloczynnikowe, polimorfizmy i asocjacje

Wprowadzenie do genetyki medycznej i sądowej

Ekonometryczne modele nieliniowe

Czynniki genetyczne sprzyjające rozwojowi otyłości

ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

Ocena interakcji genotypu i środowiska w doświadczeniu proweniencyjno - rodowym z sosną zwyczajną IBL Jan Kowalczyk IBL

Anna Szewczyk. Wydział Geodezji Górniczej i InŜynierii środowiska AGH

era genomowa w hodowli bydła mlecznego Instytut Zootechniki Państwowy Instytut Badawczy

Elementy statystyki wielowymiarowej

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Genetyka człowieka II. Cechy wieloczynnikowe, polimorfizmy i asocjacje

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Dziedziczenie wieloczynnikowe. Problem przewidywalności

Mitochondrialna Ewa;

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

PRAWO CZYSTOŚCI GAMET (I Prawo Mendla) RELACJE MIĘDZY ALLELAMI TEGO SAMEGO GENU

3. Modele tendencji czasowej w prognozowaniu

Sekwencje mikrosatelitarne. SNP Single Nucleotide Polymorphism (mutacje punktowe, polimorfizm jednonukleotydowy)

Genetyka dla (trochę) zaawansowanych III. Interakcje genetyczne II, dziedziczenie wieloczynnikowe

Oszacowanie i rozkład t

Elementy statystyki STA - Wykład 5

GENETYKA POPULACJI. Ćwiczenia 5 Biologia I MGR

Genetyka populacji. Ćwiczenia 7

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Człowiek mendlowski? Genetyka człowieka w XX i XXI w.

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Testy nieparametryczne

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wnioskowanie statystyczne. Statystyka w 5

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

ANALIZA WARIANCJI - PRZYPOMNIENIE

Monte Carlo, bootstrap, jacknife

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Zadania ze statystyki cz.8. Zadanie 1.

Transkrypt:

Pytania i odpowiedzi

Czy kontrola jakości płytek w programach analizy danych jest dostosowywana do przeprowadzanego badania, czy też przyjmuje się jednakową jej wartość dla różnych analiz? We wstępnym etapie w zależności od programu (Genome Studio vs Axiom Analysis Suite) są progi polecane przez producenta, ale również można je modyfikować Są pewne standardowe progi jak MAF > 0.05 lub 0.01 GENO > 0.9 HWE pvalue > 10-4 Czasami należy je jednak zmodyfikować dla konkretnej analizy.

Czy podział na klastry wykonany na podstawie danych z mikromacierzy SNP w programie Structure pokrywa się z podziałem na subpopulacje dokonanym podczas analizy PCA w programie R? Źródło: Xing et al., 2010 Toward a more uniform sampling of human genetic diversity: A survey of worldwide populations by highdensity genotyping. Genomics 96: 199-210.

Jak wygląda wykorzystanie mikrosond w rozpoznawaniu i leczeniu nowotworów? Czy na podstawie znajomości odczytu z sondy DNA komórki nowotworowej jesteśmy w stanie zadecydować o leczeniu nowotworu? Za pomocą mikromacierzy jesteśmy w stanie szybko sprawdzić ekspresję tysięcy genów w komórkach nowotworowych. Podwyższona ekspresja wybranych genów została skorelowana ze skutecznością terapii. W testach komercyjnych na płytce umieszczamy sondy tylko dla genów o których mamy informacje. Przykład: podwyższona ekspresja genu kodującego receptor dla estrogenów jest pozytywnie skorelowana ze skutecznością terapii w której wpływa się na syntezę estrogenów lub blokuje receptory estrogenowe. Stosowane testy: Oncotype DX - 21 genów w próbkach z biopsji.

Czy możliwe jest wykorzystanie w przyszłości mikromacierzy DNA w kryminalystyce lub sprawdzaniu ojcostwa? Jest możliwe. Przykład Parental Support, Ryan et al. 2013. Informaticsbased, highly accurate, noninvasive prenatal paternity testing. Do niedawna była to jednak droższa metoda. Czy często się przeprowadza kontrole pochodzenia z wykorzystaniem mikromacierzy SNP np. w hodowlach kotów rasowych? Są tańsze metody, przykładowo mikromacierz dla kotów (Illumina Infinium iselect 63K Cat DNA Array) jest dostępna stosunkowo od niedawna i służy do badań populacyjnych oraz GWAS.

Czy korzystanie z GWAS ma rację bytu w przypadku badania alleli o małym wpływie na zmienność i jak duży ma to wpływ na diagnostykę? Czy powoduje to całkowite przeoczenie takich alleli? Jak bardzo trzeba zwiększyć liczbę prób żeby do tego nie doszło? Park et al., 2010. Nature Genetics 42: 570-575 Oszacowanie rozkładu wielkości efektu dla loci wpływających na wzrost, chorobę Crohna oraz nowotwory: a ) zaobserwowane loci b ) szacowane loci Odziedziczalność: Wzrost: 80-90% Choroba Crohna: wysoka Nowotwory: średnia

Badania asocjacyjne w skali genomu (GWAS) Wykład 5 Bioinżynieria, I mgr Bioinformatyczna analiza danych Wykład 4 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Niejednorodna populacja Metody korekty GWAS na niejednorodna populacje: Kontrola genomowa (ang. genomic control) polega na skalowaniu statystyki testowej tak aby jej mediana stała się medianą oczekiwaną (wg rozkładu). Przeprowadzenie GWAS w obrębie subpopulacji Analiza struktury genetycznej populacji (PCA, MDS) oraz użycie kilku wybranych głównych składowych jako zmienne objaśniające w modelu (eigenstrat). Modele mieszane (ang. mixed models) macierz spokrewnień genomowych jest dodawana jako efekt losowy do modelu.

Kontrola genomowa ang. genomic control Korekta na niejednorodną strukturę populacji zaproponowana przez Devlin and Roeder w 1999 roku Dla każdego markera wyliczamy statystykę testową np. statystykę trendu Armitage: Gdzie: -N liczba loci (markerów) -r 2 korelacja pomiędzy genotypem oraz fenotypem do kwadratu G S genotyp dla markera s Y fenotyp

Kontrola genomowa ang. genomic control Różnicę w statystyce obserwowanej i oczekiwanej wyrażamy za pomocą czynnika inflacji lambda Gdzie: -0.456 mediana dla statystyki testowej chi-kwadrat przy jednym stopniu swobody - A rs wartość statystyki trendu Armitage

Kontrola genomowa ang. genomic control Brak wyraźnej struktury populacji: Rozkład dla statystyki A rs będzie taki jak rozkład statystyki chikwadrat dla jednego stopnia swobody Wyraźna struktura populacji Rozkład dla statystyki A rs będzie odbiegał od rozkładu statystyki chi-kwadrat dla jednego stopnia swobody z powodu zawyżonej wariancji Lambda = 1 Lambda > 1

EIGENSTRAT Metoda zaproponowana przez Price i wsp. 2006 dla próby niespokrewnionych osobników, z podziałem na subpopulacje Wykonujemy PCA lub MDS i używamy kilku pierwszych głównych komponentów (objaśniających największą część wariancji, PCA) jako zmiennych objaśniających w modelu regresji X genotyp PC1, PC2, PC3 główne komponenty

Liniowe modele mieszane ang. Linear Mixed models Komponenty wariancji: y=μ+a+g+e gdzie: - μ średnia - a efekty addytywne - g efekty poligeniczne - e błąd losowy Li and Zhu, 2013 Testowany jest każdy marker, sprawdzamy czy wariancja efektu jest istotnie większa od 0

Liniowe modele mieszane ang. Linear Mixed models Model mieszany: y = Xβ+g+e gdzie: X macierz efektów stałych, β współczynnik regresji dla efektów stałych, g-efekty losowe uwarunkowane poligenicznie, e-błąd Wariancja g (σ g2 ) jest zależna od macierzy spokrewnień Var(g) = Kσ g 2 gdzie K jest macierzą spokrewnień (Kinship matrix)

Współczynnik kinship Wyliczany dla każdej pary próbek, na podstawie danych rodowodowych lub molekularnych Genomowy współczynnik kinship (ang. genomic kinship) Gdzie: -L liczba loci (markerów) -p l frekwencja allelu w locus l -g l,j genotyp próbki j w locus l (jako 0,1/2,1) Macierz spokrewnień genomowych odzwierciedla strukturę populacji oraz powiązanie rodzinowe

Zagubiona odziedziczalność Warianty zidentyfikowane przez GWAS nie wyjaśniają w 100% zmienności genetycznej złożonych cech Odziedziczalność: Maher B. 2008. Personal genomes: The case of the missing heritability. Nature 456, 18-21.

Oczekiwania podstawowego modelu GWAS SNP Rzeczywistość Gen Fenotyp

Co jest odpowiedzialne za zagubioną odziedziczalność? Teorie: Oddziaływania epistatyczne? Warianty strukturalne? Epigenetyka? Odziedziczalność jest błędnie oszacowana niedoszacowane efekty środowiskowe? Rzadkie warianty? Błędy w danych fenotypowych lub złożone symptomy chorobowe? Wpływ mikrobiomu? Dla ciekawskich: Santhosh Girirajan, 2017. Missing heritability and where to find it. Genome Biology 18:89.

Interakcje epistatyczne Epistaza współdziałanie niealleliczne genów. Gen epistatyczny maskuje fenotypowa ekspresję genu hipostatycznego kształtując fenotyp Niel et al., 2015. A survey about methods dedicated to epistasis detection. Front. Genet., 10.

Interakcje epistatyczne Czy możemy uwzględnić interakcję każdego markera z każdym? Zakładamy 500 000 markerów Analiza jednej interakcji zajmie sekundę Dzień ma 86400 sekund Daje to: 2.979 x 10 21 dni na przeanalizowanie wszystkich interakcji czyli 8.163 x 10 18 lat

Co możemy zrobić? Analiza wszystkich możliwych interakcji często zbyt czasochłonna i przez to niemożliwa Analiza wybranych interakcji dla najistotniejszych markerów czy na pewno uwzględniamy wszystkie istotne interakcje? Włączenie wiedzy biologicznej do modelu Ogólnodostępne bazy danych Włączenie informacji o genomie, transkryptomie oraz proteomie Umożliwia wybranie markerów/genów, dla których spodziewamy się interakcji i jedynie dla nich wykonujemy analizę

Imputacja Termin haplotyp przy GWAS odnosi się do zestawu alleli markerów dziedziczonych wspólnie we fragmencie genomu Imputacja to wykorzystanie informacji haplotypowej w próbie referencyjnej w celu poznania genotypów markerów w grupie badanej. Po co? Zwiększona moc Zwiększona rozdzielczość Meta-analiza wykorzystanie wcześniej opublikowanych danych Uwaga! Imputacja może mieć różną dokładność, na co wpływ będzie miał: Dobór grupy referencyjnej oraz jej wielkość Liczba zgenotypowanych osobników oraz markerów w grupie badanej Frekwencja rzadkich alleli

Literatura Li G., Zhu H. 2013. Genetic Studies: The Linear Mixed Models in Genomewide Association Studies. The Open Bioinformatics Journal 7: 27 33. Bowcock, A. M. 2015. Finding Genes for Common Diseases Using GWAS. Nature Education 8(5):5 Personal genomes: The case of the missing heritability. 2008. Nature 456, 18-21.