Reswkwencjonowanie vs asemblacja de novo

Podobne dokumenty
Sekwencjonowanie, przewidywanie genów

Różnorodność osobników gatunku

Algorytmy kombinatoryczne w bioinformatyce

Sekwencjonowanie DNA

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Streszczenie rozprawy doktorskiej Wojciecha Frohmberga pt. GRASShopPER - wydajna metoda asemblacji

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Filtrowanie tekstur. Kinga Laurowska

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Suma dwóch grafów. Zespolenie dwóch grafów

PODSTAWY BIOINFORMATYKI

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Algorytm. a programowanie -

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

DNA musi współdziałać z białkami!

Algorytmiczna teoria grafów

Wstęp do Sztucznej Inteligencji

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Wyznaczanie optymalnej trasy problem komiwojażera

Matematyczne Podstawy Informatyki

Testowanie hipotez statystycznych

Algorytmy genetyczne

Załącznik 2a: Autoreferat

Dopasowanie sekwencji (sequence alignment)

Algorytm genetyczny (genetic algorithm)-

Wstęp do Biologii Obliczeniowej

PRZYRÓWNANIE SEKWENCJI

Aproksymacja funkcji a regresja symboliczna

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

xx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

Wykład 5 Dopasowywanie lokalne

1. System analizy danych NGS z paneli genów

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

dr inż. Jarosław Forenc

dr inŝ. Jarosław Forenc

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Porównywanie i dopasowywanie sekwencji

Algorytmy kombinatoryczne w bioinformatyce

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Diagram Przepływu Danych - podstawowe bloki składowe i reguły konstrukcji

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

Pole wielokąta. Wejście. Wyjście. Przykład

Algorytmy kombinatoryczne w bioinformatyce

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PROCES TWORZENIA DOKUMENTU

2 Kryptografia: algorytmy symetryczne

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

Heurystyki. Strategie poszukiwań

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

PLAN WYKŁADU OPTYMALIZACJA GLOBALNA OPERATOR KRZYŻOWANIA ETAPY KRZYŻOWANIA

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Programowanie współbieżne Wykład 2. Iwona Kochańska

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Matematyka dyskretna

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

PORÓWNANIE NARZĘDZI DOSTĘPNYCH W OBSZARZE ROBOCZYM SZKICOWNIKA NX Z POLECENIAMI ZAWARTYMI W ANALOGICZNEJ PRZESTRZENI GEOMETRYCZNEJ CATIA V5

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI

Bioinformatyka. Program UGENE

Przewidywanie miejsc wiązania nukleosomów w genomie drożdży

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Przykładowe rozwiązania

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Porównanie czasów działania algorytmów sortowania przez wstawianie i scalanie

Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania,

Transkrypt:

ALEKSANDRA ŚWIERCZ

Reswkwencjonowanie vs asemblacja de novo Resekwencjonowanie to odtworzenie badanej sekwencji poprzez mapowanie odczytów do genomu/transkryptomu referencyjnego (tego samego gatunku lub homologicznego). Asemblacja de novo to odtworzenie badanej sekwencji poprzez sklejanie odczytów nakładających się na siebie. Proces sklejania odbywa się wyłącznie w oparciu o odczyty (bez informacji o sekwencji genomu, transkryptu, białek lub homologii). A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 2

Human Genome Project Rozpoczął się w 1990 roku porozumienie Departamentu Energetycznego USA oraz Narodowego Instytutu Zdrowia USA Rząd USA zgodził się zainwestować 3 mld$, na okres 15 lat (do 2005r) Do projektu dołączyły także UK, Chiny, Francja, Niemcy i Japonia W 2001 opublikowano 2 niezależne artykuły w Science i Nature opisujące metodologię i opis zsekwencjonowanego genomu ludzkiego przez HGP i Celerę. Pokryte zostało 80-90% genomu Kolejne publikacje w 2003 i 2005 roku uzupełniły luki w genomie HapMap projekt zajmujący się różnicami genetycznymi w genomie ludzkim A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 3

Human Genome Project rok Liczba znanych genów 1970 0 niemożliwe 1980 3 ~4,000,000 lat 1990 12 ~1000 lat 2000 ~25,000 wersja robocza Przewidywnany czas potrzebny do zsekwencjonwania całego genomu 2005 ~30,000 Nowa wersja + szympans, kurczak, pies, mysz, świnia, szczur 2007 30,384-31,784 Wyzwanie: 1000$ za ludzki genom www.cbs.dtu.dk/phdcourse/cookbooks/27apr_1_genomics.ppt A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 4

Jeffrey P. Tomkins How Genomes are Sequenced and Why it Matters: Implications for Studies in Comparative Genomics of Humans and Chimpanzees Answers Research Journal 4 (2011): 81-88. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 5

A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 6

Human Genome Project Sequencing strategies. Celera Genomics (Venter) Waterston R H et al. PNAS 2002;99:3712-3716

http://www.youtube.com/watch?v=ufshl5_2rmw A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 8

A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 9

IUPAC IUPAC (International Union of Pure and Applied Chemistry) organizacja, która standaryzuje symbolikę nazewnictwo chemiczne. Wynik asemblacji jest reprezentowany w formacie multi-fasta; każdy kontig jest wylistowany, razem z nagłówkiem. Każdy kontig jest ciągiem liter A, C, G, T oraz N symbol nieznanej litery. Czasami jest możliwość zapisu za pomocą innych liter, np.: Y reprezentuje pirymidyny C i T, a R reprezentuje puryny A i G A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 10

Film o sekwencjonowaniu http://www.youtube.com/watch?v=mvuyath7y74 A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 11

Asemblery, kontigi, scaffoldy Asemblery opierają się na założeniu że odczyty, które zawierają wspólny podciąg, pochodzą z tej samej pozycji w genomie. Poprzez analizę nakładających się podciągów jest możliwa rekonstrukcja sekwencji genomu. Odczyty łączone są w kontigi, kontigi w scaffoldy (superkontigi, metakontigi), a scaffoldy w chromosomy. Kontigi to ciągłe sekwencje (contigous sequence) powstałe w wyniku połączenia odczytów Scaffoldy definiują ułożenie względem siebie kontigów i odległość między nimi. Scaffoldy są następnie umieszczane na odpowiednich chromosomach. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 12

Kontigi, scaffoldy, chromosom A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 13

Trudności w asemblacji 1. Odczyty są znacznie krótsze niż sekwencja badanego genomu 2. Trudność w rekonstrukcji zwiększa ogromna liczba odczytów. Nie ma dokładnych metod wyznaczających końcową sekwencję, gdyż nie doczekalibyśmy się końca obliczeń 3. Błędy w odczytach (często rodzaj błędu jest charakterystyczny dla sekwenatora), które uniemożliwiają poprawne złożenie genomu kontigi są krótsze albo wręcz niepoprawne 4. Odczyty pochodzą z obu nici DNA, czyli na wejściu mamy 2 razy więcej sekwencji 5. Nierównomierny rozkład odczytów na genomie niektóre miejsca mogą nie być w ogóle pokryte odczytami 6. Powtórzenia w badanej sekwencji, szczególnie uciążliwe, gdy są dłuższe niż odczyty A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 14

Błędy w odczytach insercja CTATGGCTT TATG_CTTG ACTATG_C TG_CTTGCG ACTATG_CTTGCG delecja CTATGGCTT TA_GGCTTG ACTATGGC TGGCTTGCG ACTATGGCTTGCG błędny nukleotyd CTATGGCTT TATGGCCTG ACTATGGC TGGCTTGCG ACTATGGCTTGCG A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 15

Odczyty z obu nici sekwencjonowanie asemblacja kontigi A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 16

Nierównomierny rozkład odczytów Nie ma możliwości odtworzenia badanej sekwencji, gdyż niektóre jej fragmenty nie są w ogóle pokryte odczytami Stąd też sekwencje wynikowe są często poszatkowane na kontigi A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 17

Powtórzenia w badanej sekwencji Zielonego fragmentu nie udało się odtworzyć w sekwencji wynikowej, odczyty powtórzone mylnie zostały połączone, gdyż pochodziły z innych miejsc na chromosomie. Zielony fragment będzie zwrócony jako oddzielny kontig A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 18

Powtórzenia w badanej sekwencji Wariant I Wariant II Często powtórzonych fragmentów nie udaje się w całości zrekonstruować A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 19

Powtórzenia w badanej sekwencji Powtórzenia są zlokalizowane w jednym miejscu, albo rozprzestrzenione w całym genomie, pomiędzy chromosomami. Powtórzenia dzielimy na różne klasy w zależności od częstości powtórzeń oraz od ich długości. Wyróżniamy: o transpozony wędrujące fragmenty DNA o 2-3 nukleotydowe powtórzenia (w milionach kopii, często zgrupowane w długie bloki) o klasa powtórzeń Alu (~300pz, powtórzone 500tys razy w ludzkim genomie) A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 20

Złożoność obliczeniowa Asemblacja de novo jest problemem trudnym obliczeniowo, nawet w wersji bez błędów problem najkrótszego wspólnego superciągu jest problemem silnie NP-trudnym. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 21

Asemblacja sformułowanie problemu Instancja: multizbiór S sekwencji (odczytów) pochodzących z obu nici badanego łańcucha DNA Rozwiązanie: Sekwencja wynikowa o maksymalnej wiarygodności zawierająca, z dopuszczoną pewną liczbą niezgodności, wszystkie sekwencje z S czytane wprost lub jako odwrotnie komplementarne. Ze względu na błędy rozwiązaniem jest często zbiór kontigów (ciągłych fragmentów sekwencji) A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 22

Podejścia do asemblacji o Graf nałożeń w grafie wierzchołki są odczytami, a łuki łączą ze sobą wierzchołki, których odczyty nakładają się na siebie. W grafie poszukiwana jest ścieżka przechodząca przez wszystkie wierzchołki (ścieżka Hamiltona). overlap layout consensus o Graf tzw. de Bruijna, graf k-merowy w grafie wierzchołkami są sekwencje o długości k, a odczyty są wrysowywane w graf poprzez połączenie łukami kolejnych wierzchołków A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 23

Overlap layout - consensus W celu zbudowania grafu nałożeń należy porównać sekwencje ze sobą, aby wyznaczyć dopasowania. Ze względu na ogromną liczbę odczytów nie można wyznaczyć wszystkich dopasowań potrzebna jest wstępna selekcja i wybór par obiecujących. Wstępna selekcja może się odbywać np. poprzez porównanie k-merów różnych odczytów; para sekwencji, która składa się z wielu takich samych k-merów uznawana jest za obiecującą Dla wybranych par wyznaczane jest dopasowanie metodą dokładną, np. algorytm Smitha-Watermana Ze względu na to że odczyty mogą być z obu nici należy dodać do każdego odczytu a jego sekwencje odwróconą komplementarnie a. Tworzą one często jeden podwójny wierzchołek A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 26

Overlap layout - consensus Utworzony graf nałożeń można następnie poprawiać, np. jeśli istnieje łuk między wierzchołkiem a i b, to musi istnieć również łuk między wierzchołkami b i a W grafie szukane są ścieżki, które przechodzą przez jak największą liczbę wierzchołków; można przechodzić tylko przez jeden wierzchołek z pary a lub a Powtórzenia w badanej sekwencji powodują, że w grafie istnieją dwa (lub więcej) rozgałęzienia, a w związku z tym dwie ścieżki, którymi możemy pójść. Nie można łączyć wierzchołków na siłę, gdyż możemy zupełnie źle skleić odczyty A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 27

Overlap layout - consensus Jako wynik przeszukiwania grafu otrzymujemy zestaw ścieżek w grafie. Trzeba każdą z nich zamienić na sekwencję konsensusową, inaczej też zwaną kontigiem Jest to problem dopasowania wielu sekwencji. Kolejne sekwencje nakładają się na siebie z przesunięciem; sekwencje mogą zawierać błędy. W efekcie sekwencja konsenusowa może zawierać na niektórych pozycjach nie pojedynczą literę, np. A, lecz informację o prawodopobieństwie wystąpienia litery 62% - A, 38% - G A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 28

Overlap layout - consensus Metoda Newbler Początkowo działał w wersji pojedynczych odczytów 100pz, później również dla odczytów dłuższych i sparowanych. Zintegrowany z sekwenatorem 454 Dwie rundy tworzenia i przeglądania grafu. W pierwszej rundzie OLC tworzone są idealne minikontigi (unitigs), które służą jako wstępne, wysoce-pewne kontigi. W drugiej rundzie, tworzone są z nich dłuższe kontigi poprzez porównanie parami minikontigów Specjalne poprawki dla odczytów z błędami homopolimerowymi Metoda CABOG (Celera Assembler) Również dla odczytów 454 (nierówna długość). Jeśli w odczycie pojawiają się homopolimery, to zamieniane są na pojedyncze litery. Korekcja błędów poprzez dopasowanie z innymi odczytami jeśli zbyt dużo błędów w dopasowaniu, połączenie nie jest brane pod uwagę. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 29

Overlap layout - consensus Metoda Edena Adresowana dla odczytów o równej długości: z Illuminy i SOLiD Usuwane są odczyty zduplikowane, a następnie znajdowane są dokładne nałożenia między sekwencjami, o założonej minimalnej długości Nałożenia, które powielają tą samą informację, są usuwane, podobnie jak i błędne ścieżki w grafie wynikające z błędów w odczytach Kontigi są tworzone tylko ze ścieżek bez rozgałęzień A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 30

Overlap layout - consensus Wady Przechowywanie odczytów zabiera dużo pamięci Porównanie wszystkich odczytów między sobą jest niewykonalne czasowo Zalety Nie jest tracona informacja tak jak w przypadku rozbijania odczytów na k- mery, w związku z tym metoda jest bardziej odporna na krótkie powtórzenia A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 31

Pevznerowskie grafy de Bruijna Każdy odczyt rozbijany jest na krótsze k-mery wierzchołki w grafie, które następnie są połączone ze sobą łukami TTGGCCTAATC k=8 TTGGCCTA TGGCCTAA GGCCTAAT GCCTAATC A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 32

Pevznerowskie grafy de Bruijna Połączenie ze sobą dwóch odczytów nakładających się ze sobą w sposób naturalny wydłuża ścieżkę TTGGCCTAATC k=8 GGCCTAATCGT TTGGCCTA TGGCCTAA GGCCTAAT GCCTAATC GGCCTAAT GCCTAATC A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 33

Pevznerowskie grafy de Bruijna Błędy w odczycie na jednej pozycji będą powodowały powstawanie dziwnych ścieżek w grafie tzw. bubbles są efektem błędu w środku odczytu tzw. spurs, czyli boczne drogi spowodowane są błędem na końcu odczytu lub brakiem pokrycia w genomie A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 34

Pevznerowskie grafy de Bruijna Powtórzenia odczytów, lub powtórzenia fragmentów odczytów będą powodowały kształt postrzępionej liny, tzw. frayed rope cykle, czyli ścieżki zamknięte A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 35

Pevznerowskie grafy de Bruijna - zalety Nie ma potrzeby szukania połączeń między odczytami, gdyż one w naturalny sposób łączą się ze sobą, gdy mają wspólne k-mery Przyspieszany jest znacznie czas obliczeń Stały rozmiar pamięci, zależny od wielkości k. Nie są przechowywane całe odczyty, więc nie jest ważne czy odczytów jest dużo, czy więcej. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 36

Pevznerowskie grafy de Bruijna - wady Ze względu, na to że odczyty są dzielone na mniejsze fragmenty, możemy mieć później problem z rekonstrukcją właściwej ścieżki: Podwójna nić odczyty pochodzą z obu nici, trzeba wiec je zduplikować, należy zapewnić, aby przechodzić potem wzdłuż jakiegoś odczytu Palindromy palindromy powodują że ścieżki w grafie zwijają się w siebie Błędy sekwencjonowania powodują powstawanie dodatkowych błędnych ścieżek. Algorytmy radzą sobie w ten sposób, że wstępnie skanują graf (po kilka razy) w celu usunięcia odczytów z błędami. Powtórzenia: odwrócone, tandemowe, niedokładne, zagnieżdżone; wszystkie powtórzenia dłuższe niż k, będą powodowały strukturę postrzępionej liny i będą trudne do rozwiązania pomocą mogą być tu odczyty sparowane A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 37

Pevznerowskie grafy de Bruijna Metoda Euler Metoda Pevznera dla odczytów Sangera (Pevzner et al. 2001), odczytów 454 (Chaisson et al. 2004), odczytów Illuminy pojedynczych i sparowanych (Chaisson et al. 2008, 2009). Wstępne filtrowanie błędów, poprzez detekcję rzadko występujących k-merów. Odczyty zawierające te k-mery są albo naprawiane, albo odrzucane (i wykorzystywane do późniejszego sklejania słabo pokrytych miejsc w genomie) Powtórzenia (postrzępiona lina) są rozwiązywane za pomocą odczytów sparowanych Prefiksy odczytów są pewniejsze niż sufiksy utrata jakości w metodach sekwencjonowania Większa wartość k może spowodować że fragmentów genomu słabiej pokrytych nie da się zrekonstruować k-mery sąsiadujących odczytów się nie pokryją. EULER tworzy dwa grafy z różnymi wartościami k. Łuki w grafie o mniejszym k są dodawane i wykorzystywane przez graf o większym k jako mostki, które łączą kontigi w miejscach słabo pokrytych (analogicznie do zapełniania dziur w podejściu OLC) A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 38

Pevznerowskie grafy de Bruijna Metoda Velvet Proste ścieżki bez rozgałęzień są zamieniane na pojedynczy wierzchołek Graf jest przeszukiwany w celu znalezienia bąbli, ścieżek bez wyjścia (strategia jest podobna do Eulerowskiej oraz do wygładzania bąbli w grafach nałożeń) W ostatniej fazie łączone są ścieżki na podstawie odczytów sparowanych (mate pairs) Metoda ABySS Działa w środowisku rozproszonym, wykorzystując pamięć wielu komputerów. Wierzchołki grafu są przydzielane do odpowiednich komputerów, w taki sposób, aby k-mer oraz jego komplementarny k-mer trafiły do tego samej jednostki. Strategia podobna do Eulera i Velveta. Jeśli z danego wierzchołka wychodzą łuki do wierzchołków przechowywanych na innym komputerze, to w oczekiwaniu na odpowiedź przetwarzane są inne wierzchołki. A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 39

Połączenie DBG i OLC Metoda SOAPdenovo Połączenie technik DBG i OLC z nastawieniem na minimalizację pamięci Wstępne przetwarzanie w celu poprawy błędów w odczytach (częstość występowania k-merów); budowa grafu DBG; rozplatanie fragmentów grafu o kształcie postrzępionej liny; SOAPdenovo w sposób bardziej efektywny pamięciowo niż Velvet i Euler przetwarza graf Kontigi są budowane z odczytów, na podstawie grafu DBG, następnie DBG jest usuwany Tworzony jest graf kontigów; kontigi są wierzchołkami, a łuki łączą kontigi zgodnie ze wskazaniem odczytów sparowanych Aby zapobiec przeplataniu się kontigów, graf przetwarzany jest od małych kontigów do większych A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 40

Odczyty sparowane A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 41

Podsumowanie Asemblery: Wstępnie przetwarzają odczyty w celu korekcji błędów, usunięcia duplikatów, usunięcia odczytów o słabej jakości, a czasami nawet przycinają końcówki o słabej jakości lub będących pozostałością po adapterach Łączenie ścieżek bez rozgałęzień w grafie w jeden wierzchołek lub po prostu w kontig Próba rozwikłania powtórzeń w sekwencji poprzez wykorzystanie informacji o odczytach sparowanych tworzenie scaffoldów, czyli połączonych ze sobą kontigów, często położonych w pewnej odległości od siebie Są dwa podejścia do asemblacji overlap-layout-consensus oraz grafy de Bruijn a; ze względu ograniczeń pamięciowych te drugie są częściej wykorzystywane Wraz z rozwojem technologicznym będzie wzrastało zapotrzebowanie na asemblery, działające dla większej liczby odczytów, oraz dla dłuższych odczytów A. Świercz PRZETWARZANIE DANYCH WYSOKOPRZEPUSTOWYCH 42