Bioinformatyka VI. Przetwarzanie wielkich zbiorów danych

Podobne dokumenty
wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU KSZTAŁT BIAŁEK.

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

Analizy wielkoskalowe w badaniach chromatyny

Chemiczne składniki komórek

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Przegląd budowy i funkcji białek

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Specjalność (studia II stopnia) Oczyszczanie i analiza produktów biotechnologicznych

EWOLUCJA GENOMÓW. Bioinformatyka, wykład 6 (22.XI.2010) krzysztof_pawlowski@sggw.pl

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Ekologia molekularna. wykład 11

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Informacje. W sprawach organizacyjnych Slajdy z wykładów

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Powodzenie reakcji PCR wymaga właściwego doboru szeregu parametrów:

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Algorytmy kombinatoryczne w bioinformatyce

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Potencjał naukowo-badawczy Działu Genomiki i Biologii Molekularnej Zwierząt IZ PIB

21. Wstęp do chemii a-aminokwasów

46 i 47. Wstęp do chemii -aminokwasów

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Nowoczesne systemy ekspresji genów

Wybrane techniki badania białek -proteomika funkcjonalna

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Biologia medyczna, materiały dla studentów

PODSTAWY BIOINFORMATYKI

WYPOSAŻENIE LABORATORIÓW CENTRUM NOWYCH TECHNOLOGII UW W APARATURĘ NIEZBĘDNĄ DO PROWADZENIA BADAŃ NA RZECZ PRZEMYSŁU I MEDYCYNY

1. Na podanej sekwencji przeprowadź proces replikacji, oraz do obu nici proces transkrypcji i translacji, podaj zapis antykodonów.

Informatyka w medycynie Punkt widzenia kardiologa

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

(13) B1 PL B1. Hoechst Aktiengesellschaft, Frankfurt nad Menem, DE. Gugała Barbara, PATPOL Spółka z o. o.

Wykład 14 Biosynteza białek

TRANSKRYPCJA - I etap ekspresji genów

Metody analizy genomu

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Wybrane techniki badania białek -proteomika funkcjonalna

Struktura biomakromolekuł chemia biologiczna III rok

GRADIENT TEMPERATUR TOUCH DOWN PCR. Standardowy PCR RAPD- PCR. RealTime- PCR. Nested- PCR. Digital- PCR.

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

WYBRANE RODZAJE REAKCJI PCR. RAPD PCR Nested PCR Multipleks PCR Allelo-specyficzny PCR Real Time PCR

Seminarium odbędzie się w dniu 13 marca 2014 roku w Centrum Edukacyjnym KAWA.SKA Sp. z o.o., ul. Techniczna 5, Piaseczno

Inżynieria genetyczna- 6 ECTS. Inżynieria genetyczna. Podstawowe pojęcia Część II Klonowanie ekspresyjne Od genu do białka

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU PCR sposób na DNA.

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

REPLIKACJA, NAPRAWA i REKOMBINACJA DNA

Substancje stosowane do osadzania enzymu na stałym podłożu Biotyna (witamina H, witamina B 7 ) Tworzenie aktywnej powierzchni biosensorów

PCR - ang. polymerase chain reaction

ĆWICZENIE 1 i 2 Modyfikacja geu wołowej beta-laktoglobuliny przy użyciu metody Overlap Extension PCR (wydłużania nakładających się odcinków)

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Wstęp. Jak programować w DNA? Idea oraz przykład. Problem FSAT charakterystyka i rozwiązanie za pomocą DNA. Jak w ogólności rozwiązywać problemy

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Przykładowe zadania. przygotowujące do egzaminu maturalnego

Ekologia molekularna. wykład 1

Numer pytania Numer pytania

Podstawy biologii. Informacja, struktura i metabolizm.

Podstawy biologii. Informacja, struktura i metabolizm.

Ćwiczenia 1 Wirtualne Klonowanie Prowadzący: mgr inż. Joanna Tymeck-Mulik i mgr Lidia Gaffke. Część teoretyczna:

Sekwencjonowanie, przewidywanie genów

Metody inżynierii genetycznej SYLABUS A. Informacje ogólne

Transformacja pośrednia składa się z trzech etapów:

AmpliTest GMO screening-nos (Real Time PCR)

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

GENOMIKA PROTEOMIKA METABOLOMIKA

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Informacje dotyczące pracy kontrolnej

AmpliTest Salmonella spp. (Real Time PCR)

mikrosatelitarne, minisatelitarne i polimorfizm liczby kopii

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Wykład 9: HUMAN GENOME PROJECT HUMAN GENOME PROJECT

Genomika Badanie genomu czyli bazy genetycznej organizmu Badanie oddziaływań genom-środowisko W oparciu o nowoczesne narzędzia badawcze

Zawartość. Wstęp 1. Historia wirusologii. 2. Klasyfikacja wirusów

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Techniki molekularne w biologii SYLABUS A. Informacje ogólne

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Hybrydyzacja kwasów nukleinowych

etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

AmpliTest Chlamydia/Chlamydophila (Real Time PCR)

Tematyka zajęć z biologii

OBLICZENIA ZA POMOCĄ PROTEIN

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Testowanie hipotez statystycznych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty)

Podstawy genetyki II. Metody badawcze i strategie genetyki i genomiki. Organizmy modelowe.

Transkrypt:

Bioinformatyka VI Przetwarzanie wielkich zbiorów danych Warszawa 08.06.2015

PLAN Źródła danych genomika proteomika *omika ekspresja genów Metody sekwencjonowania Metoda Sangera Metody nowej generacji Rekonstrukcja genomu

ŹRÓDŁA DANYCH *omics genomics lipidomics proteomics metabolomics transcriptomics farmakologia toksykologia

GENOMIKA Sekwencjonowanie, rekonstrukcja i analiza całych genomów (kompletnego DNA komórkowego). Pozwala na stworzenie precyzyjnych map genetycznych dla wszystkich genów, analizę wariantów genetycznych i ich powiązania z fenotypem a także analizę powiązań pomiędzy genami (heterozja, epistaza, plejotropia i inne).

GENOMIKA Genomika komparatywna - porównania genomów pomiędzy gatunkami lub odmianami Genomika funkcjonalna - opis funkcji i oddziaływań genów (i kodowanych przez nie białek) Genomika Metagenomika - badanie genomów całych próbek pobieranych ze środowiska Genomika osobista - badanie indywidualnych genomów, głównie w kontekście różnic międzyosobniczych i chorób genetycznych Epigenomika - analiza modyfikacji genomu w organizmie

EKSPRESJA GENÓW Ekspresja genów - przepisywanie informacji z DNA na RNA. Poziom ekspresji genów zależy od stanu fizjologicznego komórki

EKSPRESJA GENÓW Ekspresja genów - przepisywanie informacji z DNA na RNA. Coding Strand 5' RNAP 3' 3' 5' emplate 5' Strand

EKSPRESJA GENÓW Ekspresja genów - przepisywanie informacji z DNA na RNA. 5' 3' Coding Strand RNAP emplate Strand 5' Genetic code 1 : standard C A G Phe Phe Leu Leu C CC CA CG Ser Ser Ser Ser A AC AA AG yr yr Stp Stp G GC GA GG Cys Cys Stp rp C C C C C A G Leu Leu Leu Leu C C CCC CCA CCG Pro Pro Pro Pro CA CA C CA A CA G His His Gln Gln C G C GC C GA C GG Arg Arg Arg Arg A A A A C A G Ile Ile Ile Met A A A A C CC CA CG hr hr hr hr AA AAC AAA AAG Asn Asn Lys Lys A A A A G GC GA GG Ser Ser Arg Arg G G G G C A G Val Val Val Val GC GC C GC A GC G Ala Ala Ala Ala GA GA C GA A GA G Asp Asp Glu Glu G G GGC G GA GGG Gly Gly Gly Gly Białystok 08.06.2015 3' 5'

EKSPRESJA GENÓW Poziom ekspresji genów zależy od stanu fizjologicznego komórki - badanie ekspresji pozwala na zrozumienie podstaw różnych procesów

MEODY SEKWENCJONOWANIA Metoda Sangera - pierwsza generacja Metody nowej generacji Roche 454 sequencing illumina sequencing Applied Biosystems Nanopore ion torrent life technologies

MEODY SEKWENCJONOWANIA

MEODY SEKWENCJONOWANIA Pierwsza generacja - metoda Sangera

MEODY SEKWENCJONOWANIA Pierwsza generacja - metoda Sangera oparta na nieodwracalnej terminacji łańcucha identyczne cząstki DNA (otrzymane metodą PCR) są uzupełniane o identyczny fragment początkowy (primer) i dzielone na 4 kanały

MEODY SEKWENCJONOWANIA w każdym kanale jest dużo cząstek dnp (N=A,C,G,) i również niewielka ilość (rzędu 1000 razy mniejsza) jednego wybranego ddnp, który jest nieodwracalnym terminatorem syntezy DNA (ddnp ma na węglu 3 wodór zamiast grupy OH) oraz polimeraza DNA

MEODY SEKWENCJONOWANIA w każdym kanale powstaje mieszanina cząstek o różnej długości zakończonych tym samym ddnp. rozdzielamy cząstki o różnej długości przy pomocy dyfuzji dzięki znakowaniu cząstek możemy uzyskać układ prążków pokazujący sekwencję wyjściowego DNA

MEODY SEKWENCJONOWANIA

MEODY SEKWENCJONOWANIA Roche 454 sequencing: NOWEJ GENERACJI pierwsza metoda, stosunkowo droga i podatna na błędy przy fragmentach identycznych nukleotydów daje fragmenty o długości ~1000 par zasad oparta na założeniu sekwencjonowanie przez syntezę polega na rejestracji błysku światła wysyłanego przez enzym lucyferazę zasilaną trójfosforanem uwalnianym w reakcji replikacji DNA. Siła błysku jest proporcjonalna do ilości przeprowadzonych reakcji jeden cykl wymaga dodania kolejno 4 nukleotydów.

MEODY SEKWENCJONOWANIA illumina sequencing NOWEJ GENERACJI metoda najczęściej używana. polega syntezie DNA przy pomocy odwracalnie zablokowanych nukleotydów

MEODY SEKWENCJONOWANIA illumina sequencing: NOWEJ GENERACJI 1. DNA podzielone mechanicznie na krótkie fragmenty 2. Do końców każdego fragmentu przymocowane dwa primery. Primer przymocowany do końca 3 jest innny niż ten przymocowany do końca 5. 3. Rozszerzone sekwencje przytwierdzane do powierzchni podłoża 4. Metodą PCR tworzone są kolonie identycznych kopii wyjściowej molekuły 5. dodajemy do roztworu zablokowane barwnikami nukleotydy 6. oświetlamy i robimy zdjęcie - każda kolonia będzie świecić kolorem barwnika związanego z ostatnio przyłączonym nukleotydem 7. przeprowadzamy reakcję odłączenia barwnika - w ten sposób przywracamy możliwość kontynuacji reakcji syntezy DNA

MEODY SEKWENCJONOWANIA NOWEJ GENERACJI http://www.oxbridgebiotech.com/

REKONSRUKCJA "trzeba cenić, ten ty" "ylko się dowie, Kto " "rzeba cenić, ten tyl" " ten tylko się dowie" " jesteś jak zdrowie;" " cenić, ten tylko si" "jak zdrowie; Ile cię" "enić, ten tylko się" "cię trzeba cenić, t" "tylko się dowie, Kto" "a! ty jesteś jak zdr" "eba cenić, ten tylko" "się dowie, Kto cię " " ś jak zdrowie; Ile c" " Ojczyzno moja! ty je" "ś jak zdrowie; Ile ci" "ten tylko się dowie," "ty jesteś jak zdrowi" " trzeba cenić, ten t" "a cenić, ten tylko s" "dowie, Kto cię strac" "o, Ojczyzno moja! ty " " ty jesteś jak zdrow" " się dowie, Kto cię" "no moja! ty jesteś j" "ię trzeba cenić, te" " tylko się dowie, Kt" "two, Ojczyzno moja! t" " Ile cię trzeba ceni" "n tylko się dowie, K" Litwo, Ojczyzno moja! ty jesteś jak zdrowie; Ile cię trzeba cenić, ten tylko się dowie, Kto cię stracił. 0011223444444555555666667665557787777776654444444554456677899+++99+*+**??*+++*+9899999877653333211111000 two, Ojczyzno moja! ty jesteś jak zdrowie; Ile cię trzeba cenić, ten tylko się dowie, Kto cię strac

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg tgat gatt gatt attt attt attt attt tttt tttt tttt tttt tttt ttga ttga tgac tgac tgac acgc cgct cgct cgct gcta gcta gcta ctac tacc accc accc ccca ccca ccat cata cata atag atag atag atag atag tagc tagc agcg agcg gcgt gcgt gcgt REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg REKONSRUKCJA

tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg tgat REKONSRUKCJA

ASSEMBLACJA cata cata atag atag atag atag atag tagc tagc agcg agcg gcgt gcgt gcgt tttttgacgctacccatagcgtgcaaatgcca cctg tgtg tgat gatt gatt attt attt attt attt tttt tttt tttt tttt tttt ttga ttga tgac tgac tgac acgc cgct cgct cgct gcta gcta gcta ctac tacc accc accc ccca ccca ccat 5 x t tttttttttgacgctacccatagcgtgcaaatgcca cctg tgtg tgat gatt gatt attt attt attt attt tttttttt tttt tttt tttt ttga ttga tgac tgac tgac acgc cgct cgct cgct gcta gcta gcta ctac tacc accc accc ccca ccca ccat cata cata atag atag atag atag atag tagc tagc agcg agcg gcgt gcgt gcgt 9 x t

PROBLEMY I WYZWANIA Biologia Problemy wynikające z natury badanych obiektów echnologia Problemy wynikające z niedokładności stosowanych procedur Informatyka problemy natury algorytmicznej problemy technologiczne wydajność przechowywanie korekcja błędów

OGRANICZENIA BIOLOGICZNE występowanie fragmentów z wielką liczbą powtórzeń wiele kopii niewiele różniących się od siebie genów (problem przypisania sekwencjonowanych fragmentów) Polimeraza DNA robi błędy, bez korekty to jest około 1 błędu na 1000 nukleotydów.

ECHNOLOGIA Powtarzamy wielokrotnie proces, który ma skończony poziom błędu. możliwe błędy niedokładność terminacji niedokładność odblokowania w efekcie dostajemy coraz słabszy sygnał zakładając wyjściowy poziom błędu x dostajemy następujący poziom bezbłędnych odczytów w N- tym kroku: O = (1- x) N czyli dla N~1/x dostajemy (1-1/N) N ~e - x.

ECHNOLOGIA Powtarzamy wielokrotnie proces, który ma skończony poziom błędu. O = (1- x) N czyli dla N~1/x dostajemy (1-1/N) N ~e - x. Praktycznie to ogranicza długość sekwencjonowanego fragmentu. W metodzie 454 praktyczna długość to około 1000 nukleotydów, w metodzie Illuminy około 100 (teoretycznie maszyna wykonuje do 150 cykli).

INFORMAYKA Dwie sytuacje! Kolejne skwencjonowanie: mamy sekwencję wzorcową i mapujemy na nią odczytywane fragmenty na sekwencję wzorca

INFORMAYKA Dwie sytuacje! Kolejne skwencjonowanie: mamy sekwencję wzorcową i mapujemy na nią odczytywane fragmenty na sekwencję wzorca Sekwencjonowanie de nowo: nie mamy żadnego wzorca

INFORMAYKA powtórne sekwencjonowanie znanego genomu lub sekwencjonowanie genomu podobnego do znanego już łatwiejsze pozwala na mniejszą liczbę powtórzeń (pokrywanie na poziomie 10-20) wyznaczenie odstępst od wzorca w danym genomie (SNP, strukturalna zmienność genomu)

INFORMAYKA sekwencjonowanie de- novo trudniejsze musimy znaleźć sekwencję wyłącznie na podstawie nakładających się na siebie fragmentów wymaga dużej liczby powtórzeń (deep sequencing - pokrywanie na poziomie > 30)

INFORMAYKA Źródła błędów niedokładne sekwencje fragmentów (1-3 błędy w fragmencie) błędne dopasowanie fragmentów do niewłaściwej grupy sekwencje powtarzające się - ślizganie się po sekwencji

INFORMAYKA Wyzwania technologiczne szybkość obliczeń - problem formalnie rzędu O(N 2 ) dla N rzędu 10 9 możliwość przechowania danych - jeden przebieg sekwenatora generuje ~500 GB danych o sekwencjach i jakości fragmentów. Dane obrazowe są wielokrotnie większe i nie są przechowywane.

MEODY SEKWENCJONOWANIA