Sekwencjonowanie DNA

Podobne dokumenty
Sekwencjonowanie, przewidywanie genów

Reswkwencjonowanie vs asemblacja de novo

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Algorytmy kombinatoryczne w bioinformatyce

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Różnorodność osobników gatunku

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Suma dwóch grafów. Zespolenie dwóch grafów

Matematyczne Podstawy Informatyki

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Algorytmika Problemów Trudnych

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Ekologia molekularna. wykład 11

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Teoria grafów - Teoria rewersali - Teoria śladów

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Wykład 4. Droga i cykl Eulera i Hamiltona

Wstęp do programowania

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Droga i cykl Eulera Przykłady zastosowania drogi i cyku Eulera Droga i cykl Hamiltona. Wykład 4. Droga i cykl Eulera i Hamiltona

Wstęp. Jak programować w DNA? Idea oraz przykład. Problem FSAT charakterystyka i rozwiązanie za pomocą DNA. Jak w ogólności rozwiązywać problemy

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

PODSTAWY BIOINFORMATYKI 2 SEKWENCJONOWANIE GENOMÓW

Metody analizy genomu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Analiza stanów gry na potrzeby UCT w DVRP

Matematyka dyskretna

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Opracowanie prof. J. Domsta 1

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Substancje stosowane do osadzania enzymu na stałym podłożu Biotyna (witamina H, witamina B 7 ) Tworzenie aktywnej powierzchni biosensorów

PRZYRÓWNANIE SEKWENCJI

Przybliżone algorytmy analizy ekspresji genów.

Programowanie dynamiczne cz. 2

PODSTAWY BIOINFORMATYKI

Wykład 5 Dopasowywanie lokalne

Metody Programowania

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

xx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy

Dopasowania par sekwencji DNA

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące.

EGZAMIN - Wersja A. ALGORYTMY I STRUKTURY DANYCH Lisek89 opracowanie kartki od Pani dr E. Koszelew

Wstęp do programowania

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Elementy teorii grafów Elementy teorii grafów

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wstęp do programowania

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

GRADIENT TEMPERATUR TOUCH DOWN PCR. Standardowy PCR RAPD- PCR. RealTime- PCR. Nested- PCR. Digital- PCR.

Algorytmy aproksymacyjne i parametryzowane

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

Grafy dla każdego. dr Krzysztof Bryś. Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska.

Powodzenie reakcji PCR wymaga właściwego doboru szeregu parametrów:

Glimmer umożliwia znalezienie regionów kodujących

Podstawy techniki cyfrowej. Układy asynchroniczne Opracował: R.Walkowiak Styczeń 2014

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Analizy wielkoskalowe w badaniach chromatyny

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

UNIKANIE IMPASÓW W SYSTEMACH PROCESÓW WSPÓŁBIEŻNYCH

Historia Bioinformatyki

Algorytmy i Struktury Danych

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Routing. mgr inż. Krzysztof Szałajko

Bioinformatyka Laboratorium, 30h. Michał Bereta

PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE

Kalibracja. W obu przypadkach jeśli mamy dane, to możemy znaleźć równowagę: Konwesatorium z Ekonometrii, IV rok, WNE UW 1

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

Biologia medyczna, materiały dla studentów

Programowanie dynamiczne

Statystyczna analiza danych

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

TEORETYCZNE PODSTAWY INFORMATYKI

Porównanie czasów działania algorytmów sortowania przez wstawianie i scalanie

Aproksymacja funkcji a regresja symboliczna

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Wstęp do Techniki Cyfrowej... Teoria automatów

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Transkrypt:

BIOINFORMATYKA edycja 2016 / 2017 wykład 7 Sekwencjonowanie DNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net

Plan wykładu 1. Techniki sekwencjonowania 2. Problemy bioinformatyczne 3. Szkic algorytmów składania sekwencji 4. Przechowywanie danych slajd 2

Techniki sekwencjonowania slajd 3

Materiał genetyczny Źródło: http://genomics.energy.gov/gallery/basic_genomics/detail.np/detail-16.html slajd 4

Rozwój metod sekwencjonowania 1977 Sanger, metoda syntezy i DD-terminacji DNA; 1977 Maxam i Gilbert, metoda chemicznej degradacji; 1981 Sanger, Shotgun (hierarchiczny); 1987 automatyzacja procesu; 1995 Venter, Shotgun całego genomu; 2005 sekwencjonowanie nowej generacji; 2014 trzecia generacja slajd 5

Proces sekwencjonowania 1. Zwielokrotnienie (amplifikacja) badanej próbki 2. Reakcje chemiczne pozwalające na wyznakowanie poszczególnych nukleotydów 3. Rozdział na żelu (elektroforeza) lub odczyt czytnikiem fluorescencji slajd 6

Odczytywanie sekwencji elektroforeza slajd 7

Odczytywanie sekwencji znakowanie fluorescencyjne Fluorescent dyes (1986 -...) capillary electrophoresis computer screen Genomes, 2nd Edition slajd 8

Odczytywanie sekwencji detekcja sygnału slajd 9

Shotgun namnożone fragmenty DNA są losowo dzielone na mniejsze odcinki, każdy z nich sekwencjonowany jest oddzielnie http://www.youtube.com/watch?v=vg7y5eezsjk slajd 10

Shotgun poszczególne fragmenty częściowo zachodzą na siebie, co umożliwia odtworzenie pełnej sekwencji slajd 11

Sekwencjonowanie całego genomu czy to jest możliwe? rok liczba zmapowanych genów przewidywany czas potrzebny do zsekwencjonowania całego genomu 1970 - niemożliwe 1980 3 ~4 mln lat 1990 12 ~1000 lat 2000 ~25000 wersja robocza 2005 ~30000 nowa wersja robocza 2007 31,784 / 30,384 wyzwanie $1000 genome Źródło: www.cbs.dtu.dk/phdcourse/cookbooks/27apr_1_genomics.ppt slajd 12

Sekwencjonowanie całego genomu podejścia Human Genome Project Genome race slajd 13 Celera Genomics (C.Venter)

Nowe techniki sekwencjonowania (next generation sequencing) 1. Technika 454 pirosekwencjonowanie (na matrycy badanej nici syntetyzowana jest druga nić, co powoduje emisję kwantów światła) 2. ION Torrent mierzona jest zmiana ph wywołana wbudowaniem nukleotydu 3. Illumina (Solexa) sekwencjonowanie w oparciu o znakowane nukleotydy slajd 14

Wyzwanie $1000 Projekt Sekwencjonowania Genomu Ludzkiego (HGP) kosztował 3 mld $ Czy można go zmniejszyć do 1 tys $? Wyzwanie zostało zrealizowane w 2014 roku Illumina HiSeq X Ten System (koszt odczynników: $797, amortyzacja: $137, przygotowanie próbki: $55 $65) slajd 15

Najnowsze techniki Sekwencjonowanie pojedynczych cząsteczek DNA slajd 16

Techniki sekwencjonowania porównanie Wybrane charakterystyki metod sekwencjonowania genomów slajd 17

Porównanie (2) slajd 18

Prędkość sekwencjonowania slajd 19

Możliwości badanie zmienności genetycznej Projekt HapMap slajd 20

Projekt 100 genomów slajd 21

Możliwości medycyna personalizowana slajd 22

Możliwości medycyna personalizowana Określenie ryzyka zachorowania Określenie stopnia odporności Indywidualna strategia leczenia (oporność / wrażliwość na niektóre leki) HGMD Human Gene Mutation Database http://www.hgmd.org/ slajd 23

Problemy bioinformatyczne slajd 24

Etapy poznawania sekwencji 1. 2. 3. 4. 5. 6. Zbieranie odczytów Identyfikacja kontigów Łączenie kontigów (scaffold) Tworzenie konsensusu Kompletny chromosom Kompletny genom Etapy posekwencyjne - lokalizacja genów - przewidywanie funkcji - przechowywanie danych slajd 25

Składanie sekwencji idea slajd 26

Dlaczego to jest trudne? powtórzenia genom ludzki zawiera mnóstwo powtarzających się sekwencji, niektóre pojawiają się w genomie więcej niż 100000 razy. Przykładowo powtórzenie Alu ma długość 300 nukleotydów, pojawia się 1000000 razy w ludzkim genomie. slajd 27

Dlaczego to jest trudne? przerwy niektórych fragmentów DNA nie da się zsekwencjonować. błędy w sekwencjonowaniu związane zarówno z ograniczeniami technologicznymi jak i z ludzkimi pomyłkami nieznana orientacja sekwencjonujemy DNA dwuniciowe; nie wiadomo, z której nici pochodzi dany odczyt slajd 28

Orientacja Fragment może pochodzić z dowolnego łańcucha CACGT ACGT ACTACG GTACT ACTGA CTGA CACGT -ACGT --CGTAGT -----AGTAC --------ACTGA ---------CTGA jeśli odczyt pochodzi z drugiej nici, musimy składać sekwencję komplementarną czytaną od końca; ale tego, z której nici jest dany fragment, nie wiemy slajd 29

Powtórzenia Krótkie powtórzenia nie stanowią dużego problemu jeśli powtarzająca się sekwencja jest krótsza od długości analizowanego klonu, zapewne uda się właściwie dopasować końce sekwencji. Jednak powtórzenie dłuższe od długości odczytu może być błędnie złożone. a) zgubienie powtórzenia Źródło: Pop, M.; Salzberg, S.L.; Shumway, M.; Genome Sequence Assembly:Algorithms and Issues, 2002, IEEE Computer 35(7):47-54 slajd 30

Powtórzenia (2) b) zmiana kolejności A X A X B C X X slajd 31 C B X D X D

Powtórzenia (3) b) zmiana kolejności A X A X B D Y Y C C slajd 32 X X D B Y E Y E

Powtórzenia (4) c) odwrócone powtórzenia X X X X slajd 33

Błędy odczytu --ACCGT-----CGTGC TTAC-----TGCCGT TTACCGTGC --ACC-GT-----CAGTGC TTAC------TACC-GT TTACC-GTGC --ACCGT-----CGTGC TTAC-----TAC-GT TTACCGTGC błędna insercja błędna delecja błędny odczyt nukleotydu slajd 34

Ilustracja Problemy: - nieznana orientacja - błędy sekwencjonowania - niepełne pokrycie - powtórzenia slajd 35

Szkic algorytmów składania sekwencji slajd 36

Najkrótsze wspólne nadsłowo (SCS shortest common superstring) Definicja: Dany jest zbiór słów P = {s1, s2,..., sn} Najkrótszym wspólnym nadsłowem zbioru P nazywany słowo S, najkrótsze spośród spełniających warunek, że każde słowo si P jest podsłowem S Załóżmy dodatkowo, bez straty ogólności, że słowa z P, nie zawierają się w sobie. Przykład: P = {fabcc, efab, bccla}. Słowa bcclabccefabcc i efabccla są nadsłowami P. efabccla jest najkrótszym nadsłowem P. slajd 37

Złożoność problemu Problem jest NP-zupełny. Klasyczny algorytm dokładny: O(2k) czas, O(2k) pamięć (Held,Karp,1962 TSP). Zachłanny algorytm aproksymacyjny: 4-aproksymacja (Blumetal.,1991) 3,5-aproksymacja (Kaplan,Shafrir,2005) 2-aproksymacja? (hipoteza,blumetal.). Algorytm 2,5-aproksymacyjny (Breslaueretal.,1997+Kaplanetal.,2005). slajd 38

Jakość aproksymacji ρ-aproksymacja Algorytm A nazywamy ρ-aproksymacyjnym, jeśli dla dowolnych poprawnych danych wejściowych x, oraz Wartość ρ określa ile razy otrzymane rozwiązanie jest gorsze od optimum. W przypadku gdy algorytm zwraca rozwiązanie optymalne, ρ = 1. Jeżeli rozwiązanie może być dowolnie odległe od optimum, to wartość ρ jest nieskończonością. slajd 39

Algorytm zachłanny S {s1, s2,..., sk} while S > 1 do (si, sj ) para si, sj S maks. ov(si, sj ) u sklej (si, sj) S S \{si, sj} {u} Da się go zaimplementować w czasie O(n log Σ) (Tarhio, Ukkonen,1986), a nawet O(n + suf ), gdzie suf to czas konstrukcji tablicy sufiksowej (Kociumaka, 2010). slajd 40

Wady prostego podejścia bazującego na SCS - orientacja odczytów musi być znana - nie uwzględnia pokrycia - nie uwzględnia błędnych odczytów - zakłada kompletność sekwencji x x x x slajd 41

Rekonstrukcja Uwzględnia błędy odczytu i nieznaną orientację. Definicja: f jest przybliżonym podciągiem S na poziomie błędu ε, gdy ds(f, S) ε f gdzie: ds odległość mierzona jako stopień niedopasowania (np. dopasowanie: 0, niedopasowanie: 1, przerwa: 1) Zadanie: Znaleźć najkrótsze możliwe słowo S, takie że dla każdego f P: ( ( )) min d s ( f, S ), d s f, S ε f slajd 42

Przykład Wejście: P = {ATCAT, GTCG, CGAG, TACCA} ε = 0.25 Wyjście: ATCAT ATGAT ------CGAC -CGAG ----TACCA ACGATACGAC GTCG ds(cgag, ACGATACGAC) = 1 = 0.25 4 Odległość akceptowalna dla ε = 0.25 slajd 43

Przykład (2) Uwzględniane są również przerwy w odczytach. AT-GA----ATCGATAGAC ds = 1 slajd 44

Konkluzja Ten model jednak nadal ma wady: uwzględnia błędy odczytu i nieznaną orientację, ale: - nie uwzględnia powtórzeń - nie modeluje pokrycia - zawsze generuje pojedynczy kontig (nie uwzględnia luk w sekwencji) slajd 45

Problem SCS dla sekwencjonowania Wejście: Zbiór słów nad alfabetem {A,C,G,T} Wyjście: Najkrótsze wspólne nadsłowo (poszukiwana sekwencja?) Przykład: {ACGTAC, CATAC, TACAT} -> TACATACGTAC Problem najkrótszego wspólnego nadsłowa (SCS) można sprowadzić do problemu komiwojażera (TSP). slajd 46

Konstrukcja grafu dla TSP (overlap-layout-consensus) Przykład: {ACGTAC, CATAC, TACAT} - wierzchołki grafu reprezentują odczyty (reads) -krawędzie grafu opisują nałożenia (overlaps) -wagi to długości nakładających się prefiksów/sufiksów ACGTAC 2 1 3 CATAC 3 3 Szukamy ścieżki Hamiltona o największym koszcie. TACAT Rozwiązaniem TSP jest SCS. slajd 47

Podejścia bazujące na teorii grafów 1. Overlap-layout-consensus J.D. Kececioglu and E.W. Myers, Combinatorial Algorithms for DNA Sequence Assembly, Algorithmica, vol. 13, 1995, pp. 7-51. wierzchołki reprezentują odczyty krawędzie reprezentują nałożenia (overlaps) - Szukamy takiej ścieżki, na której każdy wierzchołek występuje przynajmniej raz 2. Eulerian path P.A. Pevzner, H. Tang, and M.S. Waterman, An Eulerian Path Approach to DNA Fragment Assembly, Proc. Nat l Academy of Science USA, vol. 98, no. 17, 2001, pp. 9748-9753. Krawędzie reprezentują odczyty. Szukamy ścieżki Eulera (ścieżki przechodzącej przez wszystkie krawędzie grafu). slajd 48

Grafy de Brujina k ustalony parametr Wierzchołki to (k-1)-krotki. Krawędzie to k-krotki. Zbiór k-krotek nazywamy k-spektrum. Znalezienie najkrótszego słowa dla danego k-spektrum jest równoważne rozwiązaniu problemu chińskiego listonosza (Chinesse Postman Problem) { AGC,ATC,ATT,CAG, CAT,GCA,TCA,TTC} TT TC CA GC slajd 49 AT AG

Problem chińskiego listonosza Dana jest sieć ulic oraz poczta. Aby listonosz dostarczył korespondencję musi przejść wzdłuż każdej ulicy co najmniej raz i powrócić do punktu wyjścia. Rozwiązaniem problemu jest cykl Eulera. Jeśli graf nie jest Eulerowski, odpowiednio go przekształcamy: { AGC,ATC,ATT,CAG,CAT, GCA,TCA,TTC} TT TC AT CA GC slajd 50 AG

Graf de Brujina ze spacerami Problem: znaleźć ścieżkę zawierającą wszystkie szlaki odczytów. slajd 51

Niedoskonałości algorytmu Wady podejścia opartego na grafach De Bruijna: - arbitralny podział na k-krotki; - algorytm wrażliwy na błędy w sekwencjonowaniu - nieefektywny pamięciowo (jeden wierzchołek na każdą k-krotkę) slajd 52

Kontigi Czasem nie jesteśmy w stanie połączyć wszystkich fragmentów w jedną ciągłą sekwencję.? Nie wiemy jak długi jest brakujący fragment sekwencji. slajd 53 Nie wiemy jak uporządkować te kontigi.

Łączenie kontigów slajd 54

Łączenie kontigów (2) Znajdujemy linki między unikalnymi kontigami. Łączymy je ze sobą. slajd 55

Łączenie kontigów (3) Pozostałe luki wypełniamy powtarzającymi się sekwencjami. slajd 56

Etapy składania genomów Some Terminology 1. read Find overlapping reads a 25-200 long word that comes out of sequencer mate pair a pair of reads from two ends 2. Merge pairs of reads of thesome same good insert fragment into longer contigs contig a contiguous sequence formed by several overlapping reads with no gaps 3. Link contigs to form supercontigs supercontig an ordered and oriented set (scaffold) of contigs, usually by mate pairs 4. consensus Derive consensus sequence sequence derived from the sequene multiple alignment of reads in a contig slajd 57..ACGATTACAATAGGTT..

Pokrycie Średnia liczba odczytów zawierających dany fragment DNA (oczywiście, dla poszczególnych odcinków może być ona mniejsza lub większa). inaczej łączny rozmiar sekwencji poddanych analizie w porównaniu do długości całego genomu. Lander & Waterman (1988) dla idealnego projektu (bez trudnych obszarów) pokrycie 8x-10x jest wystarczające do skompletowania genomu. // sekwencjonowanie shotgun W metodach nowej generacji, gdzie odczyty są znacznie krótsze, stosuje się większe pokrycie (np. 50x-100x) slajd 58

Dokańczanie - zamknięcie przerw pomiędzy kontigami; - korekcja niepoprawnych dopasowań; - powtórne sekwencjonowanie obszarów o niskim pokryciu lub niskiej jakości Zwykle jest to najbardziej czasochłonny etap prac. slajd 59

Metoda bazująca na grafach De Brujina podsumowanie slajd 60

Sekwencjonowanie podsumowanie Wejście: Duża liczba (miliony) krótkich (po kilkadziesiąt znaków) odczytów. Problemy: - nieznana orientacja (bezpośredni odczyt lub komplementarna odwrócona sekwencja) - błędy w danych wejściowych (nieprawidłowa, brak lub nadmiarowa litera) - powtórzenia (pokrywające się odczyty pochodzące z różnych miejsc genomu) - luki (nie wszystkie fragmenty są sekwencjonowane) slajd 61

Sekwencjonowanie podsumowanie Metody: - algorytmy słowne - podejścia grafowe: - overlap-layout-consensus (szukamy ścieżki Hamiltona) - grafy de Brujina (szukamy ścieżki Eulera) Etapy: - identyfikacja kontigów - łączenie kontigów - tworzenie konsensusu slajd 62

Narzędzia TIGR Assembler, G.G. Sutton et al., TIGR Assembler: A New Tool for Assembling Large Shotgun Sequencing Projects, Genome Science and Technology, 1995, vol. 1, pp. 9-19. Phrap, P. Green, Phrap Documentation: Algorithms, Phred/Phrap/Consed System Home Page; http://www.phrap.org (current June 2002). CAP3 http://genome.cshlp.org/content/9/9/868.long Euler Velvet slajd 63

Przewidywanie genów slajd 64

Przechowywanie danych slajd 65

Zagadnienia - Przechowywanie danych - Transmisja danych - Kompresja danych slajd 66

Częsta praktyka Laboratoria nie przechowują danych z sekwencjonowania, ale zamrożone próbki genu. Bardziej opłaca się ponownie zsekwencjonować daną próbkę, niż przechowywać surowe dane. slajd 67

Przesyłanie danych przykład z życia Laboratorium poprosiło pracowników z działu IT o zestawienie połączenia sftp, po których chcieli przesłać dane sekwencyjne do współpracującego laboratorium. IT zamiast FTP wystawił aplikację webową zdolną przesyłać maksymalnie 1 plik jednocześnie (pojedynczy eksperyment zawierał ponad 16 000 plików). Ostatecznie udało się uzyskać sftp. Łącze szybko się zapchało, ponieważ allokowano tylko 120 GB transferu (roczne potrzeby: 1-2 TB). slajd 68

Źródło: http://www.sciencecartoonsplus.com