Sekwencjonowanie, przewidywanie genów

Podobne dokumenty
Reswkwencjonowanie vs asemblacja de novo

Różnorodność osobników gatunku

Sekwencjonowanie DNA

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Bioinformatyka. Program UGENE

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

PODSTAWY BIOINFORMATYKI 2 SEKWENCJONOWANIE GENOMÓW

Metody analizy genomu

Bioinformatyka, edycja 2016/2017, laboratorium

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

PODSTAWY BIOINFORMATYKI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Ekologia molekularna. wykład 11

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

a) 7 b) 19 c) 21 d) 34

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

1. System analizy danych NGS z paneli genów

DNA musi współdziałać z białkami!

Bioinformatyka. Michał Bereta

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Porównywanie i dopasowywanie sekwencji

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Informacje dotyczące pracy kontrolnej

Scenariusz lekcji biologii z wykorzystaniem metody CILIL Lekcja dla klasy IV technikum o rozszerzonym zakresie kształcenia

Programowanie dynamiczne i algorytmy zachłanne

Streszczenie rozprawy doktorskiej Wojciecha Frohmberga pt. GRASShopPER - wydajna metoda asemblacji

Analizy wielkoskalowe w badaniach chromatyny

Wstęp. Jak programować w DNA? Idea oraz przykład. Problem FSAT charakterystyka i rozwiązanie za pomocą DNA. Jak w ogólności rozwiązywać problemy

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Algorytmy sztucznej inteligencji

Wstęp do programowania

Instrukcje dla zawodników

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

KONSPEKT LEKCJI MATEMATYKI (2 LEKCJE) W III KLASIE GIMNAZJUM OPRACOWAŁA RENATA WOŁCZYŃSKA

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Matematyczne Podstawy Informatyki

Digraf. 13 maja 2017

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Teoria grafów - Teoria rewersali - Teoria śladów

Jak napisać program obliczający pola powierzchni różnych figur płaskich?

Powodzenie reakcji PCR wymaga właściwego doboru szeregu parametrów:

Przygotowanie spisów zdawczo-odbiorczych w aplikacji Kancelaria Komornika

Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania.

Podstawy programowania 2. Temat: Funkcje i procedury rekurencyjne. Przygotował: mgr inż. Tomasz Michno

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Algorytmy sortujące i wyszukujące

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Wstęp do programowania

5.4. Tworzymy formularze

Analiza sekwencji promotorów

Uczeń otrzymuje ocenę z przedmiotu uzależnioną od opanowania przez niego wymagań edukacyjnych na określonym poziomie.

Instrukcja do ćwiczenia laboratoryjnego nr 5

Wiadomości i umiejętności

Uwaga. Łącząc układ pomiarowy należy pamiętać o zachowaniu zgodności biegunów napięcia z generatora i zacisków na makiecie przetwornika.

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Bioinformatyka. Michał Bereta

Historia Bioinformatyki

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

CZĘŚĆ A PIERWSZE KROKI Z KOMPUTEREM

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Klient poczty elektronicznej - Thunderbird

Mapowanie sekwencji na genom (Ultrafast and memory-efficient alignment of short DNA sequences to the human gemone)

Misja#3. Robimy film animowany.

Spis treści. 1 Moduł RFID (APA) 3

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Nowoczesne systemy ekspresji genów

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Statystyczna analiza danych

MIO - LABORATORIUM. Imię i nazwisko Rok ak. Gr. Sem. Komputer Data / EC3 VIII LAB...

Instrukcja obsługi Systemu monitorowania pomocy publicznej DEMINIMIS (v. 2.00)

Wykład 14 Biosynteza białek

Biotechnologia i inżynieria genetyczna

Analiza zmienności czasowej danych mikromacierzowych

Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane

Instrukcje dla zawodników

Metody przeszukiwania

Instrukcja rejestracji zgłoszeń serwisowych dla Działu Wparcia Technicznego

7. Zagadnienie parkowania ciężarówki.

Glimmer umożliwia znalezienie regionów kodujących

Wygra Polska czy Brazylia, czyli o tym jak zwięźle zapisywać informacje

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Transkrypt:

Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Sekwencjonowanie, przewidywanie genów 1. Technologie sekwencjonowania Genomem nazywamy sekwencję DNA zawartą w pojedynczym zestawie chromosomów. U wirusów zdarza się czasem, że genom jest zapisywany na nośniku RNA (np. genom wirusa HIV). Mówi się też o genomie mitochondrialnym, zawartym w mitochondrium (fabryce energii organizmu), który jest dziedziczony w całości po matce. Rysunek 1. Chromosomy człowieka (źródło: http://www.ajnr.org/content/28/3/406/f1.expansion.html) 1

Rysunek 2: Genom bakterii E.coli - jedna, bardzo poskręcana pętla. Sekwencjonowanie to proces odczytu informacji genetycznej danego organizmu, czyli odczytanie sekwencji nici DNA, bądź RNA. Sanger sequencing W 1975 Frederick Sanger opracował pierwszą metodę, która pozwalała dość sprawnie odczytywać relatywnie długie fragmenty sekwencji (do kilkuset zasad). Metoda jest używana do dzisiaj, przy czym odczytywać można nieco dłuższe fragmenty długości 1-2 Kbp. Podstawą metody są specjalne nukleotydy, które nie pozwalają na dalsze dobudowywanie nici komplementarnej. W ten sposób jeśli w danej próbówce mieliśmy naszą nić w wielu kopiach i określony nukleotyd - mamy pewność jaka zasada jest na końcu nici. Następnie sekwencje z każdej z probówek rozdzielamy w żelu przykładając napięcie. Ponieważ nić DNA ma ładunek ujemny, będzie przesuwała się w kierunku dodatnim. Nici dłuższe są cięższe i będą poruszać się wolniej, co umożliwi dokładne rozdzielenie ze względu na długość. Teraz możemy już odczytać sekwencję. Filmik opisujący metodę Sangera: http://www.youtube.com/watch?v=oypllbi0qf8 Tą metodą Frederick Sanger odczytał pierwszy genom w roku 1977. Był to bakteriofag ΦX174, którego długość genomu wynosiła 5386 bp. Sekwencję odczytywano fragment po fragmencie, łącząc je w całość, dlatego cały proces był bardzo czasochłonny i wymagał dużego udziału człowieka. Zaczęto sekwencjonować różne organizmy, myśląc powoli o sekwencjonowaniu człowieka, którego genom ma długość ok. 3.2 Gbp. 2

Rysunek 3: Schemat metody Sanger'a. Shotgun sequencing Aby przyspieszyć i zrównoleglić proces sekwencjonowania wprowadzono metodę shotgun sequencing, która dzieli genom na losowe fragmenty, a następnie zsekwencjonowane odczyty składa za pomocą komputera - dokładnie za pomocą programów nazywanych assemblerami. Rysunek 4: Odczytywanie genomu za pomocą shotgun sequencing. 3

2. Human Genome Project W roku 1990 wystartował Human Genome Project, którego celem było odczytanie pełnej sekwencji ludzkiego genomu. Projekt został oficjalnie zakończony w 2003 roku, wcześniej niż planowano, gdyż rozwój technologii, w szczególności metoda shotgun, pozwoliła na przyspieszenie prac nad ludzkim genomem. W tej chwili mamy dostępne już pełne sekwencje genomów wielu organizmów, w tym wielu ssaków. Oczywiście można je znaleźć w bazach NCBI. Zadanie 1. Wejdź na NCBI i znajdź genomy różnych organizmów. (Resources -> Genomes and Maps -> Genome -> Using Genome -> Download = FTP) Zobacz jakie genomy są dostępne, znajdź genom człowieka i ściągnij chromosom Y z genomu referencyjnego w formacie fasta. 3. Next generation sequencing Obecnie sekwencjonowanie przebiega bardzo szybko dzięki rozwiniętym technologiom nowej generacji. Zapewniają one dużo mniejszy koszt niż metody używane jeszcze przy HGP. Rysunek 5: Spadek kosztu sekwencjonowania (koszt 1 Mbp). 4

Przykładowo, technologia firmy Illumina nieco przypomina podejście Sangera do sekwencjonowania, przy czym proces jest masowo równoległy, odczyty mają ok. 100 bp i może być ich do 3 miliardów z jednego eksperymentu. Rysunek 6: Przykład technologii sekwencjonowania nowej generacji. W każdym cyklu maszyny dołączany jest jeden nukleotyd, który wzbudzony laserem emituje światło o określonej częstotliwości. Punkty świetlne są skanowane i rozpoczyna się następny cykl. Obecnie, przy użyciu technologii nowej generacji trwa program sekwencjonowania 1000 genomów, jest to następny krok milowy w dziedzinie sekwencjonowania: www.1000genomes.org 4. Genome assembly Zagadnienie genome assembly czyli składania genomu z odczytów sekwencji możemy podzielić na dwa podzagadnienia: - składanie z wykorzystaniem genomu referencyjnego (o ile jest dostępny) - sprowadza się głównie do używania wydajnych algorytmów dopasowania sekwencji; - składanie bez genomu referencyjnego - de novo assembly - składanie genomu tylko na podstawie odczytów sekwencji, bez dodatkowych informacji o genomie Terminologia: - sekwencje, które zostały odczytane nazywamy odczytami (reads); - dzięki assemblerom odczyty możemy połączyć w ciągłe fragmenty - tzw. kontigi (contigs); - STS (sequence tag sites) charakterystyczne miejsca w sekwencji, dzięki, którym można eksperymentalnie zlokalizować dany fragment na chromosomie z dużą dokładnością; - pokrycie sekwencji - średnia liczba odczytów, w których wystąpił nukleotyd z danego miejsca w sekwencji. Oczywiście im większe pokrycie naszej sekwencji tym dłuższe kontigi uzyskamy. Idealnie byłoby, gdyby assembler zwracał na wyjściu np. cały chromosom jako jeden kontig, jednak tak się z reguły nie dzieje ze względu na poziom pokrycia oraz różne utrudnienia w sekwencji. Dlatego poprawne uszeregowanie kontigów wymaga walidowań specjalnych, Ten etap jest eksperymentalny i zwykle bardzo drogi, dlatego należy go zminimalizować, bądź w ogóle wyeliminować. 5

Rysunek 7: Analogia dla sekwencjonowania z genomem referencyjnym i de novo Zadanie 2. Otwórz chromosom Y z genomu człowieka i zaobserwuj podział na kontigi. Technologie sekwencjonowania nowej generacji pozwalają na szybsze odczytywanie sekwencji, ale ich długość jest ograniczona do kilkuset zasad, dlatego pokrycie takiej sekwencji musi być duże. Odczyty z nowoczesnych sekwencjonerów są deponowane w Sequnce read archive na NCBI, gdzie można znaleźć i pobrać wyniki eksperymentów. Rysunek 8: Wpływ pokrycia na liczbę kontigów. 6

Zadanie 3. Wejdź na NCBI, w wyszukiwarce zaznacz bazę SRA i wpisz w pole wyszukiwania HIV genome. Odnalezione zostaną eksperymenty dotyczące sekwencjonowania wirusa HIV. Wybierz pierwszy z nich dotyczący analizy pętli V3 - pętla ta koduje białko, które umożliwia zarażenie się wirusem HIV przez człowieka W tabelce eksperymetów (Run) wybierz jeden z nich, zobacz jak wygląda ten zbiór odczytów (reads). Sekwencjonowanie bardzo utrudniają tzw. sekwencje repetytywne, czyli powtórzenia, które zdarzają się bardzo często i mogą powodować błędy w składaniu, w szczególności tzw. repeat collapse. Rysunek 9: Wpływ powtórzeń na efekt składania sekwencji. 5. Algorytmy składania sekwencji Strategia zachłanna Szukamy dwóch najbardziej nakładających się odczytów w zbiorze, łączymy je i dołączamy do zbioru. Rysunek 10: Podejście zachłanne. 7

Overlap-layout-consensus Tworzymy graf, którego wierzchołkami są odczyty. Krawędź łączy wierzchołki wtedy kiedy odczyty nakładają się. Rozwiązaniem jest ścieżka przechodząca przez wszystkie wierzchołki grafu. Rysunek 11: Overlap-layout-consensus. Szukamy ścieżki przechodzącej przez wszystkie wierzchołki. Graf de Bruijn'a 1. Dzielimy odczyty na k-mery: 2. Szukamy ścieżki przechodzącej przez wszystkie krawędzie grafu. 8

Rysunek 12: De Brujin graph dla genomu pewnej bakterii. W sieci dostępne są różne asemblery np.: - Celera Assembler - Cap3 - Phrap - Euler - Velvet Na użytek ćwiczeń możemy sprawdzić program Cap3, działający według podejścia overlaplayout-consensus. Jest on dostępny online na pbil.univ-lyon1.fr/cap3.php Zadanie 4. Na podstawie ciągłego fragmentu chromosomu Y człowieka wygeneruj odczyty ustalonej długości. Sprawdź czy program Cap3 poprawnie złoży je w jeden kontig. Zadanie 5. Napisz: (a) funkcję implementującą generację losowych odczytów fragmentów sekwencji; (b) funkcję implementującą prosty algorytm zachłanny składania zadanych na wejściu odczytów w jedną sekwencję. (c) Przetestuj swoje rozwiązanie na ciągłym fragmencie (ok. 10000 nukleotydów) chromosomu Y człowieka. Czy wynik zgadza się z wyjściową sekwencją? Ad. a) Z zadanej ciągłej sekwencji wybieramy losowo ciągłe fragmenty o określonej długości. Parametrami wywołania funkcji powinny być: długość tych fragmentów oraz oczekiwana wielkość pokrycia. Wygenerowane fragmenty należy zapisać do pliku w formacie fasta (każdy fragment traktujemy jako jedną samodzielną sekwencję, wszystkie zapisujemy w jednym pliku). Ad. b) Dane wejściowe (zbiór fragmentów sekwencji) odczytujemy z (jednego) pliku w formacie fasta. W algorytmie zachłannym rekurencyjnie łączymy ze sobą te odczyty, które 9

mają najdłuższe wspólne sufikso-prefiksy (końcówka jednego odczytu pokrywa się z początkiem drugiego). W przypadku niejednoznaczności, gdy kilka par odczytów ma jednakowo długą część wspólną, wybieramy losowo jedną z nich. Program ma zwrócić ciągłe kontigi (w idealnym przypadku jeden) pokrywające wszystkie zadane na wejściu fragmenty sekwencji. Ad. c) Chromosom Y człowieka możesz znaleźć w bazie Genome : NCBI Resources Genomes and Maps Genome Using Genome Download / FTP. Na potrzeby testu zastosuj fragmenty długości 200 i pokrycie 5 (parametry domyślne). 10