ALEKSANDRA ŚWIERCZ
Różnorodność osobników gatunku Single Nucleotide Polymorphism (SNP) Różnica na jednej pozycji, małe delecje, insercje (INDELs) SNP pojawia się ~1/1000 pozycji Można je znaleźć porównując odczyty z jednego osobnika do genomu referencyjnego Structural variations to duże różnice w genomach. Mogą to być duże: Delecje brak fragmentu genomu Insercje wstawienie fragmentu genomu Inwersje odwrócenie fragmentu genomu Translokacje zmiana położenia fragmentu genomu (może być również na innym chromosomie) Duplikacje powtórzenia fragmentów genomu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2
SNP Niedopasowania SNP Screen z mapowania IGV Błąd sekwencjonowania SNP homozygota SNP heterozygota A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 3
Który z osobników jest rodzicem, a który dzieckiem? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 4
R.Nielsen, JS.Paul, A.Albrechtsen, YS.Song Genotype and SNP calling from next-generation sequencing data Nature Reviews Genetics 12, 443-451 (2011) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 5
dbsnp oraz HapMap dbsnp obecnie 139 wersja bazy. Pojawiły się nowe organizmy wraz z listą różnic (dotychczas zbadaną) między osobnikami HapMap międzynarodowy projekt, który ma na celu wykrycie i skatalogowanie podobieństw i różnic pomiędzy organizmami ludzkimi. Ośrodki biorące udział w projekcie pochodzą z Japonii, Wielkiej Brytanii, Kanady, Chin, Nigerii oraz Stanów Zjednoczonych. Projekt HapMap jest ogólnodostępny, i ma na celu pomoc środowisku biomedycznemu w znalezieniu genów powodujących choroby i odpowiedzi na leki terapeutyczne. W bazie HapMap analizowano DNA z 270 osobników populacji Afrykańskiej, Azjatyckiej i Europejskiej. Badano zarówno osobników pojedynczych, jak i trio, czyli rodziców wraz z ich dorosłym potomkiem A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 6
Różnice strukturalne SV Monya Baker Structural variation: the genome's hidden architecture Nature Methods 9,133 137 (2012) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 7
Sposoby na wykrywanie SV RD Read Depth badanie głębokości pokrycia RP Read Pairs sprawdzenie mapowania odczytów sparowanych, czy mapują się z taką samą odległością (wg. rozkładu), czy mapują się w odpowiednią stronę, czy mapują się oba odczyty z pary SR Split Reads szukanie odczytów, które nie mapują się w całości do genomu referencyjnego, lecz jego fragmenty mapują się w odległych miejscach odczyty te świadczą o nietypowym (innym niż w gen. ref.) połączeniu między fragmentami genomu AS AsseMbly de novo asemblacja de novo (bez mapowania) odczytów, następnie porównanie, czy zasemblowane kontigi pokrywają się z genomem referencyjnym A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 8
Jakie SV można odkryć dzięki różnym podejściom? Monya Baker Structural variation: the genome's hidden architecture Nature Methods 9,133 137 (2012) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 9
R.E. Mills et al., Mapping copy number variation by population-scale genome sequencing, Nature 470, 59 65, 2011 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 10
Read Depth A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 11
Kropka zielona to średnie pokrycie odczytami dla okna 1kbp zdrowej tkanki pacjenta Kropka czerwona to średnie pokrycie odczytami dla okna 1kbp chorej tkanki pacjenta Takie same falowanie kropek zielonych i czerwonych oznacza, że nie ma różnic między zdrową i chorą tkanką (tego samego) pacjenta, tylko są różnice między genomem pacjenta, a genomem referencyjnym Średnie pokrycie dla zdrowej tkanki jest ok. 52, natomiast dla chorej tkanki ok. 40 Zmiana w zachowaniu między kropkami zielonymi i czerwonymi oznacza zmianę liczby kopii danego fragmentu Dzięki analizie zmiany głębokości pokrycia można znaleźć jedynie różnice w liczbie kopii poszczególnych fragmentów, nie wiemy jednak nic na temat położenia fragmentów w genomie. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 12
Głębokość pokrycia wykrywanie duplikacji Badany genom Genom referencyjny A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 13
Wykrywanie SV za pomocą odczytów sparowanych Długość fragmentu Badany genom Genom referencyjny Odległość mapowania Brak różnic w strukturze genomu badanego i referencyjnego, gdyż: Długość fragmentu jest taka sama jak odległość mapowania na genomie referencyjnym Odczyty są zmapowane na genomie referencyjnym zgodnie z oryginalnym fragmentem A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 14
Insercja insert Badany genom Długość fragmentu Genom referencyjny Odległość mapowania Insercja w genomie badanym, gdyż: Odległość mapowania w genomie referencyjnym jest mniejsza niż długość fragmentu długość insertu = długość fragmentu - odległość mapowania (± rozrzut długości) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 15
Insercja przypadek czy na pewno? insert Długość fragmentu Badany genom Genom referencyjny Odległość mapowania Spójność przy mapowaniu innych odczytów w tym miejscu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 16
Insercja przypadek czy na pewno? insert Długość fragmentów Badany genom Genom referencyjny Odległość mapowania Długość fragmentów nie jest równa, może się różnić ± 10% (zależy od przygotowania biblioteki) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 17
Insercja przypadek czy na pewno? insert? Długość fragmentu Badany genom Genom referencyjny Odległość mapowania Zbyt długi fragment wziął udział w sekwencjonowaniu, a reszta odczytów nie potwierdza insercji. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 18
Inwersja Badany genom Długość fragmentu Genom referencyjny Odległość mapowania = m m długość fragmentu < długość inwersji Fragment genomu uległ inwersji, gdyż: Odczyty zmapowane są na genomie referencyjnym odwrotnie (discordant) Długość fragmentu oraz odległość mapowania są różne (to nie jest konieczne!) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 19
Inwersja jaka jest długość fragmentu? Długość fragmentu Badany genom Odległość mapowania = m Genom referencyjny m długość fragmentu < długość inwersji < m+ długość fragmentu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 20
Inwersja spójność mapowania x a Badany genom x' a x b x' b Genom referencyjny Odległość mapowania A Odległość mapowania B Odległość mapowania A = odległość mapowania B A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 21
Inwersja Badany genom Genom referencyjny A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 22
Delecja Badany genom Długość fragmentu Genom referencyjny Odległość mapowania Fragment genomu uległ delecji w genomie badanym, gdyż: Długość fragmentu jest krótsza niż odległość mapowania na genomie referencyjnym A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 23
Translokacja, duplikacja? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 24
Split reads Odczyty, które nie mapują się w całości do genomu referencyjnego, lecz jego fragmenty zmapowane w odległych miejscach świadczą o rearanżacjach chromosomowych Sekwencjonowanie => odczyty sparowane Mapowanie do genomu referencyjnego Odczyty zmapowane do genomu Odczyty niezmapowane mogą leżeć na łączeniu wariantów strukturalnych A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 25
Split reads Ht-seq_2012_module3.pdf Canadian Bioinformatics Workshop www.bioinformatics.ca A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 26
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 27
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 28
Jak duże są różnice SV? Ile SV jest pomiędzy dwoma osobnikami? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 29
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 30
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 31
Różnice między ludźmi Ludzie różnią się: kilkoma tysiącami delecji Kilkuset duplikacjami Kilkuset inwersjami Kilkuset insercjami transpozonów Kilkuset przesunięciami genów W wynikach różnych metod do wykrywania SV mamy: Wiele błędów pozytywnych Wiele błędów negatywnych Trudności w wykryciu SV, które nachodzą na sekwencje repetytywne A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 32
False positives http://www.completegenomics.com/faqs/cnv-analysis/ Walidacja innymi metodami, w celu likwidacji błędów false positives A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 33
Wpływ wariantów strukturalnych na dawkę genów Feuk, L. et al. Structural variation in the human genome. Nature Review Genetics 7, 92 (2006) Did you know that a large number of your genes exist in variable numbers of copies? While they can overlap with disease-related genes, these variants exist in healthy individuals too. Większość zmian liczby kopii można znaleźć w zdrowych osobnikach. Podejrzewa się że te zmiany powodują choroby poprzez szereg mechanizmów pokazanych na rysunku. Po pierwsze różna liczba kopii może spowodować różną dawkę genu poprzez delecje lub insercje, które może spowodować że odmienny gen ulegnie ekspresji potencjalnie powodując chorobę. Dawka genu opisuje liczbę kopii genu w komórce, co się przekłada na zwiększoną lub zmniejszoną ekspresję tego genu. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 34
Delecje mogą spowodować zmniejszoną dawkę genu, poprzez usunięcie jednego allelu lub poprzez delecję allelu (dominującego) ujawni się recesywna wersja genu. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 35
Jeśli warianty strukturalne nakładają się na geny, to może zostać zredukowana lub w ogóle zablokowana ekspresja genu poprzez inwersję, translokację czy delecję. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 36
Warianty SV mogą także mieć wpływ na elementy regulatorowe, jeśli zostanie on usunięty może zostać zwiększona lub zmniejszona ekspresja genu. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 37
Czasami kombinacja dwóch lub większej liczby wariantów może spowodować złożoną chorobę, podczas gdy pojedyncze zmiany nie powodują żadnego efektu. Dodatkowo złożone choroby mogą się pojawić jeśli różna liczba kopii jest połączona z innymi genetycznymi lub środowiskowymi czynnikami. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 38
Podsumowanie Różne podejścia do sekwencjonowania wysokoprzepustowego: Wady i zalety metod Długość odczytów Jakość sekwencji na końcówkach sewkencji Odczyty sparowane, pojedyncze Specyficzne rodzaje błędów Mapowanie do genomu referencyjnego: Algorytmy dopasowania lokalnego, globalnego i semiglobalnego Macierze kropkowe (dotmatrix) Tworzenie indeksu BWT Haszowanie A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 39
Podsumowanie 2 Asemblacja de novo Trudności w asemblacji Powtórzenia zaburzają obliczenia Overlap layout consensus Grafy de Bruijna(błędne ścieżki w grafach) Wady i zalety obu podejść RNA-sequencing: Algorytmy mapowania sekwencji RNA (różne podejścia: asemblacja de novo, mapowanie do transkryptomu, mapowanie do genomu) Przeszkody w mapowaniu RNA do genomu Trudność w rozpoznawaniu nowych transkryptów Różnicowa ekspresja genów i alternatywny splicing(warianty splicingowe) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 40