Bioinformatyka VI Przetwarzanie wielkich zbiorów danych Warszawa 08.06.2015
PLAN Źródła danych genomika proteomika *omika ekspresja genów Metody sekwencjonowania Metoda Sangera Metody nowej generacji Rekonstrukcja genomu
ŹRÓDŁA DANYCH *omics genomics lipidomics proteomics metabolomics transcriptomics farmakologia toksykologia
GENOMIKA Sekwencjonowanie, rekonstrukcja i analiza całych genomów (kompletnego DNA komórkowego). Pozwala na stworzenie precyzyjnych map genetycznych dla wszystkich genów, analizę wariantów genetycznych i ich powiązania z fenotypem a także analizę powiązań pomiędzy genami (heterozja, epistaza, plejotropia i inne).
GENOMIKA Genomika komparatywna - porównania genomów pomiędzy gatunkami lub odmianami Genomika funkcjonalna - opis funkcji i oddziaływań genów (i kodowanych przez nie białek) Genomika Metagenomika - badanie genomów całych próbek pobieranych ze środowiska Genomika osobista - badanie indywidualnych genomów, głównie w kontekście różnic międzyosobniczych i chorób genetycznych Epigenomika - analiza modyfikacji genomu w organizmie
EKSPRESJA GENÓW Ekspresja genów - przepisywanie informacji z DNA na RNA. Poziom ekspresji genów zależy od stanu fizjologicznego komórki
EKSPRESJA GENÓW Ekspresja genów - przepisywanie informacji z DNA na RNA. Coding Strand 5' RNAP 3' 3' 5' emplate 5' Strand
EKSPRESJA GENÓW Ekspresja genów - przepisywanie informacji z DNA na RNA. 5' 3' Coding Strand RNAP emplate Strand 5' Genetic code 1 : standard C A G Phe Phe Leu Leu C CC CA CG Ser Ser Ser Ser A AC AA AG yr yr Stp Stp G GC GA GG Cys Cys Stp rp C C C C C A G Leu Leu Leu Leu C C CCC CCA CCG Pro Pro Pro Pro CA CA C CA A CA G His His Gln Gln C G C GC C GA C GG Arg Arg Arg Arg A A A A C A G Ile Ile Ile Met A A A A C CC CA CG hr hr hr hr AA AAC AAA AAG Asn Asn Lys Lys A A A A G GC GA GG Ser Ser Arg Arg G G G G C A G Val Val Val Val GC GC C GC A GC G Ala Ala Ala Ala GA GA C GA A GA G Asp Asp Glu Glu G G GGC G GA GGG Gly Gly Gly Gly Białystok 08.06.2015 3' 5'
EKSPRESJA GENÓW Poziom ekspresji genów zależy od stanu fizjologicznego komórki - badanie ekspresji pozwala na zrozumienie podstaw różnych procesów
MEODY SEKWENCJONOWANIA Metoda Sangera - pierwsza generacja Metody nowej generacji Roche 454 sequencing illumina sequencing Applied Biosystems Nanopore ion torrent life technologies
MEODY SEKWENCJONOWANIA
MEODY SEKWENCJONOWANIA Pierwsza generacja - metoda Sangera
MEODY SEKWENCJONOWANIA Pierwsza generacja - metoda Sangera oparta na nieodwracalnej terminacji łańcucha identyczne cząstki DNA (otrzymane metodą PCR) są uzupełniane o identyczny fragment początkowy (primer) i dzielone na 4 kanały
MEODY SEKWENCJONOWANIA w każdym kanale jest dużo cząstek dnp (N=A,C,G,) i również niewielka ilość (rzędu 1000 razy mniejsza) jednego wybranego ddnp, który jest nieodwracalnym terminatorem syntezy DNA (ddnp ma na węglu 3 wodór zamiast grupy OH) oraz polimeraza DNA
MEODY SEKWENCJONOWANIA w każdym kanale powstaje mieszanina cząstek o różnej długości zakończonych tym samym ddnp. rozdzielamy cząstki o różnej długości przy pomocy dyfuzji dzięki znakowaniu cząstek możemy uzyskać układ prążków pokazujący sekwencję wyjściowego DNA
MEODY SEKWENCJONOWANIA
MEODY SEKWENCJONOWANIA Roche 454 sequencing: NOWEJ GENERACJI pierwsza metoda, stosunkowo droga i podatna na błędy przy fragmentach identycznych nukleotydów daje fragmenty o długości ~1000 par zasad oparta na założeniu sekwencjonowanie przez syntezę polega na rejestracji błysku światła wysyłanego przez enzym lucyferazę zasilaną trójfosforanem uwalnianym w reakcji replikacji DNA. Siła błysku jest proporcjonalna do ilości przeprowadzonych reakcji jeden cykl wymaga dodania kolejno 4 nukleotydów.
MEODY SEKWENCJONOWANIA illumina sequencing NOWEJ GENERACJI metoda najczęściej używana. polega syntezie DNA przy pomocy odwracalnie zablokowanych nukleotydów
MEODY SEKWENCJONOWANIA illumina sequencing: NOWEJ GENERACJI 1. DNA podzielone mechanicznie na krótkie fragmenty 2. Do końców każdego fragmentu przymocowane dwa primery. Primer przymocowany do końca 3 jest innny niż ten przymocowany do końca 5. 3. Rozszerzone sekwencje przytwierdzane do powierzchni podłoża 4. Metodą PCR tworzone są kolonie identycznych kopii wyjściowej molekuły 5. dodajemy do roztworu zablokowane barwnikami nukleotydy 6. oświetlamy i robimy zdjęcie - każda kolonia będzie świecić kolorem barwnika związanego z ostatnio przyłączonym nukleotydem 7. przeprowadzamy reakcję odłączenia barwnika - w ten sposób przywracamy możliwość kontynuacji reakcji syntezy DNA
MEODY SEKWENCJONOWANIA NOWEJ GENERACJI http://www.oxbridgebiotech.com/
REKONSRUKCJA "trzeba cenić, ten ty" "ylko się dowie, Kto " "rzeba cenić, ten tyl" " ten tylko się dowie" " jesteś jak zdrowie;" " cenić, ten tylko si" "jak zdrowie; Ile cię" "enić, ten tylko się" "cię trzeba cenić, t" "tylko się dowie, Kto" "a! ty jesteś jak zdr" "eba cenić, ten tylko" "się dowie, Kto cię " " ś jak zdrowie; Ile c" " Ojczyzno moja! ty je" "ś jak zdrowie; Ile ci" "ten tylko się dowie," "ty jesteś jak zdrowi" " trzeba cenić, ten t" "a cenić, ten tylko s" "dowie, Kto cię strac" "o, Ojczyzno moja! ty " " ty jesteś jak zdrow" " się dowie, Kto cię" "no moja! ty jesteś j" "ię trzeba cenić, te" " tylko się dowie, Kt" "two, Ojczyzno moja! t" " Ile cię trzeba ceni" "n tylko się dowie, K" Litwo, Ojczyzno moja! ty jesteś jak zdrowie; Ile cię trzeba cenić, ten tylko się dowie, Kto cię stracił. 0011223444444555555666667665557787777776654444444554456677899+++99+*+**??*+++*+9899999877653333211111000 two, Ojczyzno moja! ty jesteś jak zdrowie; Ile cię trzeba cenić, ten tylko się dowie, Kto cię strac
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg tgat gatt gatt attt attt attt attt tttt tttt tttt tttt tttt ttga ttga tgac tgac tgac acgc cgct cgct cgct gcta gcta gcta ctac tacc accc accc ccca ccca ccat cata cata atag atag atag atag atag tagc tagc agcg agcg gcgt gcgt gcgt REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg REKONSRUKCJA
tttttgacgctacccatagcgtgcaaatgccagggggagcgaacgggaaaag "cctg"% "tgtg"% "tgat"% "acgc"% "ctac"% "tacc"% "accc"% "accc"% "ccca"% "ccca"% "ccat"% "cata"% "cata"% "tagc"% "tagc"% "cgtg"% "tgca"% "gcaa"% "gcaa"% "aatg"% "ccag"% "ccag"% "aggg"% "aggg"% "ggga"% "gagc"% "gagc"% "gcga"% "gcga"% "cgaa"% "gaac"% "aacg"% "acgg"% cctg tgtg tgat REKONSRUKCJA
ASSEMBLACJA cata cata atag atag atag atag atag tagc tagc agcg agcg gcgt gcgt gcgt tttttgacgctacccatagcgtgcaaatgcca cctg tgtg tgat gatt gatt attt attt attt attt tttt tttt tttt tttt tttt ttga ttga tgac tgac tgac acgc cgct cgct cgct gcta gcta gcta ctac tacc accc accc ccca ccca ccat 5 x t tttttttttgacgctacccatagcgtgcaaatgcca cctg tgtg tgat gatt gatt attt attt attt attt tttttttt tttt tttt tttt ttga ttga tgac tgac tgac acgc cgct cgct cgct gcta gcta gcta ctac tacc accc accc ccca ccca ccat cata cata atag atag atag atag atag tagc tagc agcg agcg gcgt gcgt gcgt 9 x t
PROBLEMY I WYZWANIA Biologia Problemy wynikające z natury badanych obiektów echnologia Problemy wynikające z niedokładności stosowanych procedur Informatyka problemy natury algorytmicznej problemy technologiczne wydajność przechowywanie korekcja błędów
OGRANICZENIA BIOLOGICZNE występowanie fragmentów z wielką liczbą powtórzeń wiele kopii niewiele różniących się od siebie genów (problem przypisania sekwencjonowanych fragmentów) Polimeraza DNA robi błędy, bez korekty to jest około 1 błędu na 1000 nukleotydów.
ECHNOLOGIA Powtarzamy wielokrotnie proces, który ma skończony poziom błędu. możliwe błędy niedokładność terminacji niedokładność odblokowania w efekcie dostajemy coraz słabszy sygnał zakładając wyjściowy poziom błędu x dostajemy następujący poziom bezbłędnych odczytów w N- tym kroku: O = (1- x) N czyli dla N~1/x dostajemy (1-1/N) N ~e - x.
ECHNOLOGIA Powtarzamy wielokrotnie proces, który ma skończony poziom błędu. O = (1- x) N czyli dla N~1/x dostajemy (1-1/N) N ~e - x. Praktycznie to ogranicza długość sekwencjonowanego fragmentu. W metodzie 454 praktyczna długość to około 1000 nukleotydów, w metodzie Illuminy około 100 (teoretycznie maszyna wykonuje do 150 cykli).
INFORMAYKA Dwie sytuacje! Kolejne skwencjonowanie: mamy sekwencję wzorcową i mapujemy na nią odczytywane fragmenty na sekwencję wzorca
INFORMAYKA Dwie sytuacje! Kolejne skwencjonowanie: mamy sekwencję wzorcową i mapujemy na nią odczytywane fragmenty na sekwencję wzorca Sekwencjonowanie de nowo: nie mamy żadnego wzorca
INFORMAYKA powtórne sekwencjonowanie znanego genomu lub sekwencjonowanie genomu podobnego do znanego już łatwiejsze pozwala na mniejszą liczbę powtórzeń (pokrywanie na poziomie 10-20) wyznaczenie odstępst od wzorca w danym genomie (SNP, strukturalna zmienność genomu)
INFORMAYKA sekwencjonowanie de- novo trudniejsze musimy znaleźć sekwencję wyłącznie na podstawie nakładających się na siebie fragmentów wymaga dużej liczby powtórzeń (deep sequencing - pokrywanie na poziomie > 30)
INFORMAYKA Źródła błędów niedokładne sekwencje fragmentów (1-3 błędy w fragmencie) błędne dopasowanie fragmentów do niewłaściwej grupy sekwencje powtarzające się - ślizganie się po sekwencji
INFORMAYKA Wyzwania technologiczne szybkość obliczeń - problem formalnie rzędu O(N 2 ) dla N rzędu 10 9 możliwość przechowania danych - jeden przebieg sekwenatora generuje ~500 GB danych o sekwencjach i jakości fragmentów. Dane obrazowe są wielokrotnie większe i nie są przechowywane.
MEODY SEKWENCJONOWANIA