Pytania i odpowiedzi
Czy kontrola jakości płytek w programach analizy danych jest dostosowywana do przeprowadzanego badania, czy też przyjmuje się jednakową jej wartość dla różnych analiz? We wstępnym etapie w zależności od programu (Genome Studio vs Axiom Analysis Suite) są progi polecane przez producenta, ale również można je modyfikować Są pewne standardowe progi jak MAF > 0.05 lub 0.01 GENO > 0.9 HWE pvalue > 10-4 Czasami należy je jednak zmodyfikować dla konkretnej analizy.
Czy podział na klastry wykonany na podstawie danych z mikromacierzy SNP w programie Structure pokrywa się z podziałem na subpopulacje dokonanym podczas analizy PCA w programie R? Źródło: Xing et al., 2010 Toward a more uniform sampling of human genetic diversity: A survey of worldwide populations by highdensity genotyping. Genomics 96: 199-210.
Jak wygląda wykorzystanie mikrosond w rozpoznawaniu i leczeniu nowotworów? Czy na podstawie znajomości odczytu z sondy DNA komórki nowotworowej jesteśmy w stanie zadecydować o leczeniu nowotworu? Za pomocą mikromacierzy jesteśmy w stanie szybko sprawdzić ekspresję tysięcy genów w komórkach nowotworowych. Podwyższona ekspresja wybranych genów została skorelowana ze skutecznością terapii. W testach komercyjnych na płytce umieszczamy sondy tylko dla genów o których mamy informacje. Przykład: podwyższona ekspresja genu kodującego receptor dla estrogenów jest pozytywnie skorelowana ze skutecznością terapii w której wpływa się na syntezę estrogenów lub blokuje receptory estrogenowe. Stosowane testy: Oncotype DX - 21 genów w próbkach z biopsji.
Czy możliwe jest wykorzystanie w przyszłości mikromacierzy DNA w kryminalystyce lub sprawdzaniu ojcostwa? Jest możliwe. Przykład Parental Support, Ryan et al. 2013. Informaticsbased, highly accurate, noninvasive prenatal paternity testing. Do niedawna była to jednak droższa metoda. Czy często się przeprowadza kontrole pochodzenia z wykorzystaniem mikromacierzy SNP np. w hodowlach kotów rasowych? Są tańsze metody, przykładowo mikromacierz dla kotów (Illumina Infinium iselect 63K Cat DNA Array) jest dostępna stosunkowo od niedawna i służy do badań populacyjnych oraz GWAS.
Czy korzystanie z GWAS ma rację bytu w przypadku badania alleli o małym wpływie na zmienność i jak duży ma to wpływ na diagnostykę? Czy powoduje to całkowite przeoczenie takich alleli? Jak bardzo trzeba zwiększyć liczbę prób żeby do tego nie doszło? Park et al., 2010. Nature Genetics 42: 570-575 Oszacowanie rozkładu wielkości efektu dla loci wpływających na wzrost, chorobę Crohna oraz nowotwory: a ) zaobserwowane loci b ) szacowane loci Odziedziczalność: Wzrost: 80-90% Choroba Crohna: wysoka Nowotwory: średnia
Badania asocjacyjne w skali genomu (GWAS) Wykład 5 Bioinżynieria, I mgr Bioinformatyczna analiza danych Wykład 4 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt
Niejednorodna populacja Metody korekty GWAS na niejednorodna populacje: Kontrola genomowa (ang. genomic control) polega na skalowaniu statystyki testowej tak aby jej mediana stała się medianą oczekiwaną (wg rozkładu). Przeprowadzenie GWAS w obrębie subpopulacji Analiza struktury genetycznej populacji (PCA, MDS) oraz użycie kilku wybranych głównych składowych jako zmienne objaśniające w modelu (eigenstrat). Modele mieszane (ang. mixed models) macierz spokrewnień genomowych jest dodawana jako efekt losowy do modelu.
Kontrola genomowa ang. genomic control Korekta na niejednorodną strukturę populacji zaproponowana przez Devlin and Roeder w 1999 roku Dla każdego markera wyliczamy statystykę testową np. statystykę trendu Armitage: Gdzie: -N liczba loci (markerów) -r 2 korelacja pomiędzy genotypem oraz fenotypem do kwadratu G S genotyp dla markera s Y fenotyp
Kontrola genomowa ang. genomic control Różnicę w statystyce obserwowanej i oczekiwanej wyrażamy za pomocą czynnika inflacji lambda Gdzie: -0.456 mediana dla statystyki testowej chi-kwadrat przy jednym stopniu swobody - A rs wartość statystyki trendu Armitage
Kontrola genomowa ang. genomic control Brak wyraźnej struktury populacji: Rozkład dla statystyki A rs będzie taki jak rozkład statystyki chikwadrat dla jednego stopnia swobody Wyraźna struktura populacji Rozkład dla statystyki A rs będzie odbiegał od rozkładu statystyki chi-kwadrat dla jednego stopnia swobody z powodu zawyżonej wariancji Lambda = 1 Lambda > 1
EIGENSTRAT Metoda zaproponowana przez Price i wsp. 2006 dla próby niespokrewnionych osobników, z podziałem na subpopulacje Wykonujemy PCA lub MDS i używamy kilku pierwszych głównych komponentów (objaśniających największą część wariancji, PCA) jako zmiennych objaśniających w modelu regresji X genotyp PC1, PC2, PC3 główne komponenty
Liniowe modele mieszane ang. Linear Mixed models Komponenty wariancji: y=μ+a+g+e gdzie: - μ średnia - a efekty addytywne - g efekty poligeniczne - e błąd losowy Li and Zhu, 2013 Testowany jest każdy marker, sprawdzamy czy wariancja efektu jest istotnie większa od 0
Liniowe modele mieszane ang. Linear Mixed models Model mieszany: y = Xβ+g+e gdzie: X macierz efektów stałych, β współczynnik regresji dla efektów stałych, g-efekty losowe uwarunkowane poligenicznie, e-błąd Wariancja g (σ g2 ) jest zależna od macierzy spokrewnień Var(g) = Kσ g 2 gdzie K jest macierzą spokrewnień (Kinship matrix)
Współczynnik kinship Wyliczany dla każdej pary próbek, na podstawie danych rodowodowych lub molekularnych Genomowy współczynnik kinship (ang. genomic kinship) Gdzie: -L liczba loci (markerów) -p l frekwencja allelu w locus l -g l,j genotyp próbki j w locus l (jako 0,1/2,1) Macierz spokrewnień genomowych odzwierciedla strukturę populacji oraz powiązanie rodzinowe
Zagubiona odziedziczalność Warianty zidentyfikowane przez GWAS nie wyjaśniają w 100% zmienności genetycznej złożonych cech Odziedziczalność: Maher B. 2008. Personal genomes: The case of the missing heritability. Nature 456, 18-21.
Oczekiwania podstawowego modelu GWAS SNP Rzeczywistość Gen Fenotyp
Co jest odpowiedzialne za zagubioną odziedziczalność? Teorie: Oddziaływania epistatyczne? Warianty strukturalne? Epigenetyka? Odziedziczalność jest błędnie oszacowana niedoszacowane efekty środowiskowe? Rzadkie warianty? Błędy w danych fenotypowych lub złożone symptomy chorobowe? Wpływ mikrobiomu? Dla ciekawskich: Santhosh Girirajan, 2017. Missing heritability and where to find it. Genome Biology 18:89.
Interakcje epistatyczne Epistaza współdziałanie niealleliczne genów. Gen epistatyczny maskuje fenotypowa ekspresję genu hipostatycznego kształtując fenotyp Niel et al., 2015. A survey about methods dedicated to epistasis detection. Front. Genet., 10.
Interakcje epistatyczne Czy możemy uwzględnić interakcję każdego markera z każdym? Zakładamy 500 000 markerów Analiza jednej interakcji zajmie sekundę Dzień ma 86400 sekund Daje to: 2.979 x 10 21 dni na przeanalizowanie wszystkich interakcji czyli 8.163 x 10 18 lat
Co możemy zrobić? Analiza wszystkich możliwych interakcji często zbyt czasochłonna i przez to niemożliwa Analiza wybranych interakcji dla najistotniejszych markerów czy na pewno uwzględniamy wszystkie istotne interakcje? Włączenie wiedzy biologicznej do modelu Ogólnodostępne bazy danych Włączenie informacji o genomie, transkryptomie oraz proteomie Umożliwia wybranie markerów/genów, dla których spodziewamy się interakcji i jedynie dla nich wykonujemy analizę
Imputacja Termin haplotyp przy GWAS odnosi się do zestawu alleli markerów dziedziczonych wspólnie we fragmencie genomu Imputacja to wykorzystanie informacji haplotypowej w próbie referencyjnej w celu poznania genotypów markerów w grupie badanej. Po co? Zwiększona moc Zwiększona rozdzielczość Meta-analiza wykorzystanie wcześniej opublikowanych danych Uwaga! Imputacja może mieć różną dokładność, na co wpływ będzie miał: Dobór grupy referencyjnej oraz jej wielkość Liczba zgenotypowanych osobników oraz markerów w grupie badanej Frekwencja rzadkich alleli
Literatura Li G., Zhu H. 2013. Genetic Studies: The Linear Mixed Models in Genomewide Association Studies. The Open Bioinformatics Journal 7: 27 33. Bowcock, A. M. 2015. Finding Genes for Common Diseases Using GWAS. Nature Education 8(5):5 Personal genomes: The case of the missing heritability. 2008. Nature 456, 18-21.