Pytania i odpowiedzi
PCA PCA a MDS - PCA bazuje na macierzy kowariancji, MDS bazuje na macierzy dystansów genetycznych Będą identyczne jeśli kowariancja będzie równa odległości euklidesowej. W badaniach typu GWAS są stosowane wymiennie, choć wyniki mogą się nieznacznie różnić Druga współrzędna musi być prostopadła do pierwszej! Niejednorodna populacja może być skutkiem nieprawidłowego doboru próby GWAS z dodatkowymi zmiennymi Tam, gdzie mają one istotny wpływ na badaną zmienną Np. wiek i masa ciała może mieć istotny wpływ na wystąpienie cukrzycy i innych chorób ogólnoustrojowych
Poprawki Bonferroni vs Permutacje Najczęściej stosowaną poprawką jest Bonferroni - jest to najprostsza i najbardziej znana poprawka, posiada wiele modyfikacji Polega na korekcie istniejących wyników Permutacje: Polega na wygenerowaniu pseudo-danych poprzez losowanie ze zbioru danych rzeczywistych bez zwracania wymagają większej mocy obliczeniowej i są trudniejsze do przeprowadzenia niż Bonfferoni Podobna metoda: Bootstrap tak samo jak permutacje z jedną różnicą losowanie odbywa się ze zwracaniem
Nierównowaga sprzężeń (z ang. LD) Nierównowaga sprzężeń (z ang. LD) jest nielosową asocjacją dwóch lub więcej markerów wynikającą z ich segregacji we wspólnym haplotypie Przyczyny: Różnice w częstości rekombinacji w regionach Selekcja naturalna bądź sztuczna Wielkość populacji Dryf genetyczny Częstość mutacji
Gorące miejsca rekombinacji Gorące miejsca rekombinacji (ang. recombination hot spots) są to miejsca ze zwiększona częstością crossing-over Zazwyczaj mają długość 1-2 kpz (u ssaków) Istotne: Nie są rozłożone równomiernie w genomie, spotykane w obrębie wybranych genów np. MHC-II u człowieka oraz regionów (np. powtórzenia tandemowe) Występowanie jest gatunkowo, ale również osobniczo zmienne. Rekombinacja zachodzi częściej u kobiet niż u mężczyzn
Częstość rekombinacji dla ludzkiego chromosomu 12 Źródło: Paigen and Petkov, 2010. Mammalian recombination hot spots: properties, control and evolution. Nature Genet.
Analizy asocjacyjne a epigenomika Epigenome-wide association studies (EWAS) Z wykorzystanie macierzy metylacyjnych np. Infinium HumanMethylation450K BeadChip Kit - analiza ponad 850K CpG w formacie 8 prób na macierz Źródło: Flanagan, JM. 2015. Epigenome-wide association studies (EWAS): past, present, and future. Methods Mol Biol. 2015;1238:51-63. Tradycyjny GWAS + epigenetyka? Większość sygnałów przypada na regiony nie kodujące. Część wyników wskazywała na polimorfizm funkcjonalny w regionie nie kodującym, co można tłumaczyć zmianami w ekspresji genów. Tak i Farnham, 2015. Making sense of GWAS: using epigenomics and genome engineering to understand the functional relevance of SNPs in non-coding regions of the human genome
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 8 Analiza funkcjonalna wariantów Dr Wioleta Drobik-Czwarno
Sekwencjonowanie i co dalej? Po wykryciu wariantów zestawiamy tą informację z danymi na temat adnotacji funkcjonalnej i przewidujemy wpływ wariantów na funkcję genów i ich produktów Źródło: Kamps et al., 2017
Plik VCF
Funkcjonalna klasyfikacja wariantów Przykładowe narzędzia: SnpEff ANNOVAR Variant Effect Predictor (ensembl)
Funkcjonalna klasyfikacja wariantów Źródło: SnpEff, sourceforge
Ogólna klasyfikacja wariantów HIGH warianty o destrukcyjnym wpływie na białko. Przykłady: skrócenie łańcucha, utrata funkcji MODERATE Wpływ na białko nie jest destrukcyjny. Może dojść np. do zmiany w wydajności reakcji z udziałem białka, zmiany powinowactwa do receptora LOW nie powodują zmiany funkcji białka i mają bardzo mały wpływ na fenotyp. MODIFIER warianty w regionach intergenicznych, genach nie kodujących białek (np. ncrna), trudna predykcja funkcji z uwagi na brak danych eksperymentalnych.
Ontologia sekwencji ang. Sequence ontology Źródło: http://www.ensembl.org/info/genome/variation/predicted_data.html Mamy warianty i ich wpływ na produkt genu. Co dalej?
Od listy regionów do listy genów Biomart jest narzędziem, który umożliwia zebranie informacji i utworzenie podsumowania w formie tabelarycznej, dla regionów genomowych oraz genów Jak szukamy? Wszystkie geny dla danego gatunku Geny znajdujące się wybranych regionach Najważniejsze ustawienia: Gatunek, genom referencyjny oraz wersja adnotacji Filtry: informacje, które posiadamy i na których chcemy się skoncentrować Atrybuty: informacje, które chcemy znaleźć
Ontologia genów ang. Gene onthology (GO) Ontologia jest nauką zajmującą się tworzeniem słownika pojęć i powiązań między tymi pojęciami w danej dziedzinie Ontologia genów opisuje właściwości genów i ich produktów, umożliwiając wykonanie analizy funkcjonalnej, powiązania produktów danego genu z obiektami komórkowymi lub procesami biologicznymi Początek w roku 2000 Dlaczego jest potrzebna: Umożliwia zautomatyzowaną analizę funkcjonalną wielu genów Zapewnia publiczny dostęp do danych i narzędzi Umożliwia radzenie sobie ze zwiększającą się ilością informacji
Jak szybko zwiększa się ilość informacji? wyczyszczenie bazy z powtórzeń dla bakterii Źródło: https://www.ebi.ac.uk/uniprot/tremblstats
Ontologia genów ang. Gene onthology (GO) Wyróżniamy trzy podstawowe rodzaje ontologii: Funkcja molekularna (ang. molecular function, MF) podstawowa funkcja molekularna produktu genu np. aktywność kinazy białkowej, aktywność receptora insuliny Proces biologiczny (ang. biological process, BP) rola produktu genu w wieloetapowych procesach biologicznych np. podział komórkowy Składnik komórkowy (ang. cellular components, CC) informacja gdzie w komórce zlokalizowany jest produkt genu np. jądro komórkowe, błona komórkowa Rodzaje są niezależne, jednak od 2009 roku wprowadza się powiązania pomiędzy nimi
Gene Ontology Consortium Wkleić screen shot z http://www.geneontology.org/
Ontologia genów ang. Gene onthology (GO)
Struktura ontologii genów Terminy ontologii są połączone poprzez następujące związki: I = Is_a P = Part_of R = Regulates (+/-) H = Has_part O = Occurs_in Wszystkie: http://www.geneontology.org/page/ontology-relations
Struktura ontologii genów
Źródła ontologii genów Adnotacja automatyczna Szybka Jedyne źródło informacji dla gatunków nie modelowych Informacja często nie jest zweryfikowana Stanowi większość w bazach danych Dotyczy często ogólnych terminów GO Adnotacja manualna Eksperyment, stwierdzenie autora publikacji lub biokuratora Wymaga dużo czasu, pracy Dotyczy szczegółowych terminów ontologii genów Dotychczas stosunkowo niewiele w stosunku do nie eksperymentalnych
Źródło: www.geneontology.org
Gdzie szukać ontologii genów (GO)? Gene ontology consotrium: http://www.geneontology.org/ + wyszukiwarka: AmiGO2 Pozostałe:
Obecny stan GO u człowieka Źródło: Hu et al., 2016. Annotating the Function of the Human Genome with Gene Ontology and Disease Ontology. BioMed Research International
Analiza wzbogacenia ang. GO enrichment analysis Jak znaleźć charakterystyczne funkcje biologiczne dla zestawu genów, który różnicuje grupy? Porównanie do predefiniowanych grup genów dostępnych w bazach danych Wykorzystywana jest zarówno statystyka jak i data mining Ma na celu przypisanie funkcji biologicznej do pewnej grupy genów oraz ocenie czy dany zbiór genów wykazuje istotną nadinterpretację dla danej funkcji biologicznej.
Analiza wzbogacenia ang. GO enrichment analysis Stosujemy przede wszystkim dla: Zestaw genów uzyskany z macierzy ekspresyjnych lub RNASeq Pomocniczo: Geny znajdujące się w regionach wskazanych przez GWAS Geny znajdujące się regionach: w których znajdują się polimorfizmy od dużym znaczeniu funkcjonalnym mających znamiona sygnatur selekcji
Bazy ścieżek metabolicznych i sygnałowych Wybrane bazy: KEGG Kyoto Encyclopedia of Genes and Genomes WikiPathways Reactome Pathway Database Panther Classification system HumanCyc Encyclopedia of Human Genes and Metabolism PathwayCommons NCI-Nature
Przykładowe narzędzia:
Animal QTL database QTL (Quantitative trait loci) loci cech ilościowych Polimorfizm DNA wykazujący sprzężenie z cechą ilościową polimorfizm znajduje się w lub jest sprzężony z genem warunkującym cechę ilościową Dawniej identyfikowane na podstawie sekwencji mikrosatelitarnych QTL a geny o dużym efekcie: Identyfikowany u homozygot przeciwstawnych Wartość cechy różnic się o co najmniej jedno odchylenie standardowe
Animal QTL database Dane na temat QTLi (fenotyp/ekspresja, eqtl), genów kandydujących, badania asocjacyjne w skali genomu (GWAS), warianty liczby kopii (CNV) Liczba QTLi dostępnych na stronie na maj 2017: Bydło 98081 QTLi dla 563 cech z 772 publikacji Kura 6791 QTLi dla 365 cech z 262 publikacji Koń 1275 QTLi dla 49 cechz 72 publikacji Świnia 17955 dla 635 cechz 576 publikacji Pstrąg tęczowy 127 QTLi dla 14 cech z 10 publikacji Owce - 1515 QTLi dla 222 cech z 126 publikacji Sum w przygotowaniu
Animal QTL database
Inne źródła: Bazy specyficzne gatunkowo
Literatura Khoury M. 2010. Dealing With the Evidence Dilemma in Genomics and Personalized Medicine. Clinical Pharmacology & Therapeutics, 87, 635-638, doi:10.1038/clpt.2010.4. http://www.nature.com/ clpt/journal/v87/n6/full/clpt20104a.html Rudy G. 2010. A Hitchhiker s Guide to Next-Generation Sequencing. http://blog.goldenhelix.com/grudy/a-hitchhikers-guide-to-next-generationsequencing-part-1/ Higgs P.G., Attwood T.K. 2011. Bioinformatyka i ewolucja molekularna. Wydawnictow naukowe PWN