Reswkwencjonowanie vs asemblacja de novo

Transkrypt

1 ALEKSANDRA ŚWIERCZ

2 Reswkwencjonowanie vs asemblacja de novo Resekwencjonowanie to odtworzenie badanej sekwencji poprzez mapowanie odczytów do genomu/transkryptomu referencyjnego (tego samego gatunku lub homologicznego). Asemblacja de novo to odtworzenie badanej sekwencji poprzez sklejanie odczytów nakładających się na siebie. Proces sklejania odbywa się wyłącznie w oparciu o odczyty (bez informacji o sekwencji genomu, transkryptu, białek lub homologii). A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 2

3 Human Genome Project Rozpoczął się w 1990 roku porozumienie Departamentu Energetycznego USA oraz Narodowego Instytutu Zdrowia USA Rząd USA zgodził się zainwestować 3 mld$, na okres 15 lat (do 2005r) Do projektu dołączyły także UK, Chiny, Francja, Niemcy i Japonia W 2001 opublikowano 2 niezależne artykuły w Science i Nature opisujące metodologię i opis zsekwencjonowanego genomu ludzkiego przez HGP i Celerę. Pokryte zostało 80-90% genomu Kolejne publikacje w 2003 i 2005 roku uzupełniły luki w genomie HapMap projekt zajmujący się różnicami genetycznymi w genomie ludzkim A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 3

4 Human Genome Project rok Liczba znanych genów niemożliwe ~4,000,000 lat ~1000 lat 2000 ~25,000 wersja robocza Przewidywnany czas potrzebny do zsekwencjonwania całego genomu 2005 ~30,000 Nowa wersja + szympans, kurczak, pies, mysz, świnia, szczur ,384-31,784 Wyzwanie: 1000$ za ludzki genom A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 4

5 Jeffrey P. Tomkins How Genomes are Sequenced and Why it Matters: Implications for Studies in Comparative Genomics of Humans and Chimpanzees Answers Research Journal 4 (2011): A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 5

6 A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 6

7 Human Genome Project Sequencing strategies. Celera Genomics (Venter) Waterston R H et al. PNAS 2002;99:

10 IUPAC IUPAC (International Union of Pure and Applied Chemistry) organizacja, która standaryzuje symbolikę nazewnictwo chemiczne. Wynik asemblacji jest reprezentowany w formacie multi-fasta; każdy kontig jest wylistowany, razem z nagłówkiem. Każdy kontig jest ciągiem liter A, C, G, T oraz N symbol nieznanej litery. Czasami jest możliwość zapisu za pomocą innych liter, np.: Y reprezentuje pirymidyny C i T, a R reprezentuje puryny A i G A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 10

11 Film o sekwencjonowaniu A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 11

12 Asemblery, kontigi, scaffoldy Asemblery opierają się na założeniu że odczyty, które zawierają wspólny podciąg, pochodzą z tej samej pozycji w genomie. Poprzez analizę nakładających się podciągów jest możliwa rekonstrukcja sekwencji genomu. Odczyty łączone są w kontigi, kontigi w scaffoldy (superkontigi, metakontigi), a scaffoldy w chromosomy. Kontigi to ciągłe sekwencje (contigous sequence) powstałe w wyniku połączenia odczytów Scaffoldy definiują ułożenie względem siebie kontigów i odległość między nimi. Scaffoldy są następnie umieszczane na odpowiednich chromosomach. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 12

13 Kontigi, scaffoldy, chromosom A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 13

14 Trudności w asemblacji 1. Odczyty są znacznie krótsze niż sekwencja badanego genomu 2. Trudność w rekonstrukcji zwiększa ogromna liczba odczytów. Nie ma dokładnych metod wyznaczających końcową sekwencję, gdyż nie doczekalibyśmy się końca obliczeń 3. Błędy w odczytach (często rodzaj błędu jest charakterystyczny dla sekwenatora), które uniemożliwiają poprawne złożenie genomu kontigi są krótsze albo wręcz niepoprawne 4. Odczyty pochodzą z obu nici DNA, czyli na wejściu mamy 2 razy więcej sekwencji 5. Nierównomierny rozkład odczytów na genomie niektóre miejsca mogą nie być w ogóle pokryte odczytami 6. Powtórzenia w badanej sekwencji, szczególnie uciążliwe, gdy są dłuższe niż odczyty A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 14

15 Błędy w odczytach insercja CTATGGCTT TATG_CTTG ACTATG_C TG_CTTGCG ACTATG_CTTGCG delecja CTATGGCTT TA_GGCTTG ACTATGGC TGGCTTGCG ACTATGGCTTGCG błędny nukleotyd CTATGGCTT TATGGCCTG ACTATGGC TGGCTTGCG ACTATGGCTTGCG A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 15

16 Odczyty z obu nici sekwencjonowanie asemblacja kontigi A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 16

17 Nierównomierny rozkład odczytów Nie ma możliwości odtworzenia badanej sekwencji, gdyż niektóre jej fragmenty nie są w ogóle pokryte odczytami Stąd też sekwencje wynikowe są często poszatkowane na kontigi A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 17

18 Powtórzenia w badanej sekwencji Zielonego fragmentu nie udało się odtworzyć w sekwencji wynikowej, odczyty powtórzone mylnie zostały połączone, gdyż pochodziły z innych miejsc na chromosomie. Zielony fragment będzie zwrócony jako oddzielny kontig A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 18

19 Powtórzenia w badanej sekwencji Wariant I Wariant II Często powtórzonych fragmentów nie udaje się w całości zrekonstruować A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 19

20 Powtórzenia w badanej sekwencji Powtórzenia są zlokalizowane w jednym miejscu, albo rozprzestrzenione w całym genomie, pomiędzy chromosomami. Powtórzenia dzielimy na różne klasy w zależności od częstości powtórzeń oraz od ich długości. Wyróżniamy: o transpozony wędrujące fragmenty DNA o 2-3 nukleotydowe powtórzenia (w milionach kopii, często zgrupowane w długie bloki) o klasa powtórzeń Alu (~300pz, powtórzone 500tys razy w ludzkim genomie) A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 20

21 Złożoność obliczeniowa Asemblacja de novo jest problemem trudnym obliczeniowo, nawet w wersji bez błędów problem najkrótszego wspólnego superciągu jest problemem silnie NP-trudnym. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 21

22 Asemblacja sformułowanie problemu Instancja: multizbiór S sekwencji (odczytów) pochodzących z obu nici badanego łańcucha DNA Rozwiązanie: Sekwencja wynikowa o maksymalnej wiarygodności zawierająca, z dopuszczoną pewną liczbą niezgodności, wszystkie sekwencje z S czytane wprost lub jako odwrotnie komplementarne. Ze względu na błędy rozwiązaniem jest często zbiór kontigów (ciągłych fragmentów sekwencji) A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 22

23 Podejścia do asemblacji o Graf nałożeń w grafie wierzchołki są odczytami, a łuki łączą ze sobą wierzchołki, których odczyty nakładają się na siebie. W grafie poszukiwana jest ścieżka przechodząca przez wszystkie wierzchołki (ścieżka Hamiltona). overlap layout consensus o Graf tzw. de Bruijna, graf k-merowy w grafie wierzchołkami są sekwencje o długości k, a odczyty są wrysowywane w graf poprzez połączenie łukami kolejnych wierzchołków A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 23

24 Overlap layout - consensus W celu zbudowania grafu nałożeń należy porównać sekwencje ze sobą, aby wyznaczyć dopasowania. Ze względu na ogromną liczbę odczytów nie można wyznaczyć wszystkich dopasowań potrzebna jest wstępna selekcja i wybór par obiecujących. Wstępna selekcja może się odbywać np. poprzez porównanie k-merów różnych odczytów; para sekwencji, która składa się z wielu takich samych k-merów uznawana jest za obiecującą Dla wybranych par wyznaczane jest dopasowanie metodą dokładną, np. algorytm Smitha-Watermana Ze względu na to że odczyty mogą być z obu nici należy dodać do każdego odczytu a jego sekwencje odwróconą komplementarnie a. Tworzą one często jeden podwójny wierzchołek A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 26

25 Overlap layout - consensus Utworzony graf nałożeń można następnie poprawiać, np. jeśli istnieje łuk między wierzchołkiem a i b, to musi istnieć również łuk między wierzchołkami b i a W grafie szukane są ścieżki, które przechodzą przez jak największą liczbę wierzchołków; można przechodzić tylko przez jeden wierzchołek z pary a lub a Powtórzenia w badanej sekwencji powodują, że w grafie istnieją dwa (lub więcej) rozgałęzienia, a w związku z tym dwie ścieżki, którymi możemy pójść. Nie można łączyć wierzchołków na siłę, gdyż możemy zupełnie źle skleić odczyty A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 27

26 Overlap layout - consensus Jako wynik przeszukiwania grafu otrzymujemy zestaw ścieżek w grafie. Trzeba każdą z nich zamienić na sekwencję konsensusową, inaczej też zwaną kontigiem Jest to problem dopasowania wielu sekwencji. Kolejne sekwencje nakładają się na siebie z przesunięciem; sekwencje mogą zawierać błędy. W efekcie sekwencja konsenusowa może zawierać na niektórych pozycjach nie pojedynczą literę, np. A, lecz informację o prawodopobieństwie wystąpienia litery 62% - A, 38% - G A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 28

27 Overlap layout - consensus Metoda Newbler Początkowo działał w wersji pojedynczych odczytów 100pz, później również dla odczytów dłuższych i sparowanych. Zintegrowany z sekwenatorem 454 Dwie rundy tworzenia i przeglądania grafu. W pierwszej rundzie OLC tworzone są idealne minikontigi (unitigs), które służą jako wstępne, wysoce-pewne kontigi. W drugiej rundzie, tworzone są z nich dłuższe kontigi poprzez porównanie parami minikontigów Specjalne poprawki dla odczytów z błędami homopolimerowymi Metoda CABOG (Celera Assembler) Również dla odczytów 454 (nierówna długość). Jeśli w odczycie pojawiają się homopolimery, to zamieniane są na pojedyncze litery. Korekcja błędów poprzez dopasowanie z innymi odczytami jeśli zbyt dużo błędów w dopasowaniu, połączenie nie jest brane pod uwagę. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 29

28 Overlap layout - consensus Metoda Edena Adresowana dla odczytów o równej długości: z Illuminy i SOLiD Usuwane są odczyty zduplikowane, a następnie znajdowane są dokładne nałożenia między sekwencjami, o założonej minimalnej długości Nałożenia, które powielają tą samą informację, są usuwane, podobnie jak i błędne ścieżki w grafie wynikające z błędów w odczytach Kontigi są tworzone tylko ze ścieżek bez rozgałęzień A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 30

29 Overlap layout - consensus Wady Przechowywanie odczytów zabiera dużo pamięci Porównanie wszystkich odczytów między sobą jest niewykonalne czasowo Zalety Nie jest tracona informacja tak jak w przypadku rozbijania odczytów na k- mery, w związku z tym metoda jest bardziej odporna na krótkie powtórzenia A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 31

30 Pevznerowskie grafy de Bruijna Każdy odczyt rozbijany jest na krótsze k-mery wierzchołki w grafie, które następnie są połączone ze sobą łukami TTGGCCTAATC k=8 TTGGCCTA TGGCCTAA GGCCTAAT GCCTAATC A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 32

31 Pevznerowskie grafy de Bruijna Połączenie ze sobą dwóch odczytów nakładających się ze sobą w sposób naturalny wydłuża ścieżkę TTGGCCTAATC k=8 GGCCTAATCGT TTGGCCTA TGGCCTAA GGCCTAAT GCCTAATC GGCCTAAT GCCTAATC A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 33

32 Pevznerowskie grafy de Bruijna Błędy w odczycie na jednej pozycji będą powodowały powstawanie dziwnych ścieżek w grafie tzw. bubbles są efektem błędu w środku odczytu tzw. spurs, czyli boczne drogi spowodowane są błędem na końcu odczytu lub brakiem pokrycia w genomie A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 34

33 Pevznerowskie grafy de Bruijna Powtórzenia odczytów, lub powtórzenia fragmentów odczytów będą powodowały kształt postrzępionej liny, tzw. frayed rope cykle, czyli ścieżki zamknięte A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 35

34 Pevznerowskie grafy de Bruijna - zalety Nie ma potrzeby szukania połączeń między odczytami, gdyż one w naturalny sposób łączą się ze sobą, gdy mają wspólne k-mery Przyspieszany jest znacznie czas obliczeń Stały rozmiar pamięci, zależny od wielkości k. Nie są przechowywane całe odczyty, więc nie jest ważne czy odczytów jest dużo, czy więcej. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 36

35 Pevznerowskie grafy de Bruijna - wady Ze względu, na to że odczyty są dzielone na mniejsze fragmenty, możemy mieć później problem z rekonstrukcją właściwej ścieżki: Podwójna nić odczyty pochodzą z obu nici, trzeba wiec je zduplikować, należy zapewnić, aby przechodzić potem wzdłuż jakiegoś odczytu Palindromy palindromy powodują że ścieżki w grafie zwijają się w siebie Błędy sekwencjonowania powodują powstawanie dodatkowych błędnych ścieżek. Algorytmy radzą sobie w ten sposób, że wstępnie skanują graf (po kilka razy) w celu usunięcia odczytów z błędami. Powtórzenia: odwrócone, tandemowe, niedokładne, zagnieżdżone; wszystkie powtórzenia dłuższe niż k, będą powodowały strukturę postrzępionej liny i będą trudne do rozwiązania pomocą mogą być tu odczyty sparowane A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 37

36 Pevznerowskie grafy de Bruijna Metoda Euler Metoda Pevznera dla odczytów Sangera (Pevzner et al. 2001), odczytów 454 (Chaisson et al. 2004), odczytów Illuminy pojedynczych i sparowanych (Chaisson et al. 2008, 2009). Wstępne filtrowanie błędów, poprzez detekcję rzadko występujących k-merów. Odczyty zawierające te k-mery są albo naprawiane, albo odrzucane (i wykorzystywane do późniejszego sklejania słabo pokrytych miejsc w genomie) Powtórzenia (postrzępiona lina) są rozwiązywane za pomocą odczytów sparowanych Prefiksy odczytów są pewniejsze niż sufiksy utrata jakości w metodach sekwencjonowania Większa wartość k może spowodować że fragmentów genomu słabiej pokrytych nie da się zrekonstruować k-mery sąsiadujących odczytów się nie pokryją. EULER tworzy dwa grafy z różnymi wartościami k. Łuki w grafie o mniejszym k są dodawane i wykorzystywane przez graf o większym k jako mostki, które łączą kontigi w miejscach słabo pokrytych (analogicznie do zapełniania dziur w podejściu OLC) A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 38

37 Pevznerowskie grafy de Bruijna Metoda Velvet Proste ścieżki bez rozgałęzień są zamieniane na pojedynczy wierzchołek Graf jest przeszukiwany w celu znalezienia bąbli, ścieżek bez wyjścia (strategia jest podobna do Eulerowskiej oraz do wygładzania bąbli w grafach nałożeń) W ostatniej fazie łączone są ścieżki na podstawie odczytów sparowanych (mate pairs) Metoda ABySS Działa w środowisku rozproszonym, wykorzystując pamięć wielu komputerów. Wierzchołki grafu są przydzielane do odpowiednich komputerów, w taki sposób, aby k-mer oraz jego komplementarny k-mer trafiły do tego samej jednostki. Strategia podobna do Eulera i Velveta. Jeśli z danego wierzchołka wychodzą łuki do wierzchołków przechowywanych na innym komputerze, to w oczekiwaniu na odpowiedź przetwarzane są inne wierzchołki. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 39

38 Połączenie DBG i OLC Metoda SOAPdenovo Połączenie technik DBG i OLC z nastawieniem na minimalizację pamięci Wstępne przetwarzanie w celu poprawy błędów w odczytach (częstość występowania k-merów); budowa grafu DBG; rozplatanie fragmentów grafu o kształcie postrzępionej liny; SOAPdenovo w sposób bardziej efektywny pamięciowo niż Velvet i Euler przetwarza graf Kontigi są budowane z odczytów, na podstawie grafu DBG, następnie DBG jest usuwany Tworzony jest graf kontigów; kontigi są wierzchołkami, a łuki łączą kontigi zgodnie ze wskazaniem odczytów sparowanych Aby zapobiec przeplataniu się kontigów, graf przetwarzany jest od małych kontigów do większych A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 40

39 Odczyty sparowane A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 41

40 Podsumowanie Asemblery: Wstępnie przetwarzają odczyty w celu korekcji błędów, usunięcia duplikatów, usunięcia odczytów o słabej jakości, a czasami nawet przycinają końcówki o słabej jakości lub będących pozostałością po adapterach Łączenie ścieżek bez rozgałęzień w grafie w jeden wierzchołek lub po prostu w kontig Próba rozwikłania powtórzeń w sekwencji poprzez wykorzystanie informacji o odczytach sparowanych tworzenie scaffoldów, czyli połączonych ze sobą kontigów, często położonych w pewnej odległości od siebie Są dwa podejścia do asemblacji overlap-layout-consensus oraz grafy de Bruijn a; ze względu ograniczeń pamięciowych te drugie są częściej wykorzystywane Wraz z rozwojem technologicznym będzie wzrastało zapotrzebowanie na asemblery, działające dla większej liczby odczytów, oraz dla dłuższych odczytów A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 42