Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Podobne dokumenty
Wykład 5 Dopasowywanie lokalne

Dopasowanie sekwencji (sequence alignment)

PRZYRÓWNANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowania par sekwencji DNA

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Porównywanie i dopasowywanie sekwencji

Dopasowanie par sekwencji

Porównywanie i dopasowywanie sekwencji

Przyrównywanie sekwencji

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Bioinformatyka. Porównywanie sekwencji

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Motywy i podobieństwo

Wstęp do programowania

Programowanie dynamiczne cz. 2

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Wstęp do programowania

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Wstęp do Biologii Obliczeniowej

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy kombinatoryczne w bioinformatyce

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

WIZUALIZACJA ALGORYTMÓW OPTYMALNEGO DOPASOWANIA SEKWENCJI NUKLEOTYDÓW I AMINOKWASÓW

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

FUNKCJA REKURENCYJNA. function s(n:integer):integer; begin if (n>1) then s:=n*s(n-1); else s:=1; end;

Bioinformatyka Laboratorium, 30h. Michał Bereta

Homologia, podobieństwo i analogia

1. Nagłówek funkcji: int funkcja(void); wskazuje na to, że ta funkcja. 2. Schemat blokowy przedstawia algorytm obliczania

D: Dopasowanie sekwencji. Programowanie dynamiczne

Porównywanie sekwencji białkowych

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Programowanie dynamiczne i algorytmy zachłanne

Schemat programowania dynamicznego (ang. dynamic programming)

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Dr hab.n.med. Renata Jacewicz

Statystyczna analiza danych

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Dr hab.n.med. Renata Jacewicz

Bioinformatyka Laboratorium, 30h. Michał Bereta

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

PoniŜej znajdują się pytania z egzaminów zawodowych teoretycznych. Jest to materiał poglądowy.

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Bioinformatyka. Rodzaje Mutacji

Programowanie dynamiczne (optymalizacja dynamiczna).

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

MODEL ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZADAŃ ETAP SZKOLNY KONKURSU GEOGRAFICZNEGO

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Przykładowe B+ drzewo

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

TEORETYCZNE PODSTAWY INFORMATYKI

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Składnia funkcji i Rekurencja w języku Haskell

Generator testów Bioinformatyka wer / 0 Strona: 1

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Złożoność obliczeniowa zadania, zestaw 2

MARKERY MIKROSATELITARNE

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Programowanie w VB Proste algorytmy sortowania

Bioinformatyka wykład 10

Wprowadzenie do genetyki medycznej i sądowej

Algorytmy przeszukiwania

DNA musi współdziałać z białkami!

W kierunku równoległej implementacji pakietu T-Coffee

Klasa 2 INFORMATYKA. dla szkół ponadgimnazjalnych zakres rozszerzony. Założone osiągnięcia ucznia wymagania edukacyjne na. poszczególne oceny

Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2


Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

Algorytm. a programowanie -

Bioinformatyka wykład 8, 27.XI.2012

PROGRAMOWANIE W PYTHONIE OD PIERWSZYCH KROKÓW

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

MSA i analizy filogenetyczne

Lokalizacja genów DNA/RNA. Nukleotydy i ich łańcuchy 11/21/2013. Genom ludzki. Struktura genomu. Pirymidyny i Puryny

Uwaga: Funkcja zamień(a[j],a[j+s]) zamienia miejscami wartości A[j] oraz A[j+s].

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Wyrażenie include(sciezka_do_pliku) pozwala na załadowanie (wnętrza) pliku do skryptu php. Plik ten może zawierać wszystko, co może się znaleźć w

Sortowanie danych. Jolanta Bachan. Podstawy programowania

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Transkrypt:

Dopasowywanie sekwencji Sequence alignment

Drzewo filogenetyczne

Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry nogami Przekrzywiona strona, część bez tekstu

Typowe mutacje w genach Substytucja Delecja Insercja Indel (przerwa) Przykładowy Efekt - przykłady Pojedynczy nukleotyd (Single Nucleotide Polymorphism, SNP) Mikrosatelity (Variable Number Tandem Repeats, VNTR) Minisatelity (Short Tandem Repeat Polymorphism, STRP) Pseudogeny

Homologia vs. podobieństwo sekwencji Czym to się różni?

Kiedy możliwa homologia? Z 1 mln przeanalizowanych białek na poziomie struktury 3D i funkcji wynikło, że 90% par sekwencji białkowych o podobieństwie >30% (na poziomie sekwencji, cała długość) wykazuje podobieństwo strukturalne (B. Rost) 30% - granica redundancji (nadmiarowości) 20-30% - szara strefa (10% homologów) 20% - przy takim nałożeniu nie można zakładać homologii (przy braku wyraźnych innych przesłanek)

Dopasowanie sekwencji Co można osiągnąć? Pokrewieństwo (homologia) i drzewo filogenetyczna Geny (duże podobieństwo u różnych gatunków) Obszary bardzo konserwatywne (ważne)

Podobieństwo sekwencji jak to ocenić?

Porównanie różnych sekwencji T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A

Podobieństwo sekwencji powtórzenia liter

Podobieństwo sekwencji powtórzenia liter

Przykłady DotPlot różnych sekwencji identyczna substytucja Insercje-delecje

Geny zawierające powtórzenia Geny BRCA1-chromosom 17 i Gen BRCA2-chromosom 13 (wrażliwość na raka piersi), który zawiera wielokrotne powtórzenie krótkich odcinków (BRC- 39 aminkokwasów)

DotPlot przy częstych powtórzeniach Dopasowanie genu BRCA2

Dotplot tylko wizualizacja Spośród różnych ścieżek przekątniowych chcemy wybrać tylko jedną. Czy to jest jednoznaczne?

Szukanie optymalnej ścieżki 37 Programowanie dynamiczne Znajduje optymalną wartość funkcji celu dla całego zagadnienia rozwiązując podproblemy od najmniejszego do największego i zapisując optymalne wartości w tablicy. Pozwala to zastąpić wywołania rekurencyjne odwołaniami do odpowiednich komórek wspomnianej tablicy i gwarantuje, że każdy podproblem jest rozwiązywany tylko raz. wynik: 17165 km

Metoda optymalnej ścieżki Algorytm globalnego dopasowania sekwencji Needlemana-Wunscha (1970) Przykład programowania dynamicznego. Pierwszy w bioinformatyce

Programowanie dynamiczne Pełna przestrzeń możliwych dopasowań pomiędzy 2 białkami o długości 1000 aa to 10 (3*20) możliwych dopasowań Algorytm podzielony na podproblemy Efektywny, nie przeszukujemy bezładnie przestrzeni możliwych rozwiązań

Dopasowanie par (sekwencji) C A T W A L K C O W A R D

Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X

Schemat punktowania If przerwa (ruch nie po skosie) Else s= s-1 (liniowa kara) If a==b Else s=s+1 s=s+0 Wynik: C A T W A L K C Globalne dopasowanie O W A R D 1-1 0 1 1 0 0 0 C 1 0 C A T W A L K O 0 W 1 A 2 R 2 D 2 2 (wynik sumowania:+2)

Dopasowanie globalne (Needleman & Wunsch) Znajdowanie optymalnej ścieżki 2 najlepsze dopasowania: C A T W A L K C O W A R D 1-1 0 1 1 0 0 : +2 C A T W A L K C O - W A R D 1 0-1 1 1 0 0 : +2 - C A T W A L K - 0-1 -2-3 -4-5 -6-7 C -1 1 0-1 -2-3 -4-5 O -2 0 1 0-1 -2-3 -4 W -3-1 0 1 1 0-1 -2 A -4-2 0 0 1 2 1 0 R -5-3 -1 0 0 1 2 1 D -6-4 -2-1 0 0 1 2

Różne kary za przerwy (gap penalty) A) wysoka, B) niska

Dopasowanie lokalne sekwencji: Smith & Waterman Schemat score = 0; If (gap = = true) Else score=score - 1; If (letter1 = = letter2) score=score + 1; Else If (score<0) score=score - 0.5; score=0; Cofnij ścieżką od największej wartości aż do zera - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 O 0 W 0 A 0 R 0 D 0

Smith & Waterman Global alignment: C A T W A L K C O W A R D or C A T W A L K C O - W A R D Local alignment: CATWALK COWARD - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 1 0 0 0 0 0 0 O 0 0.5 0 0 0 0 0 W 0 0 0 0 1 0 0 0 A 0 0 1 0 0 2 1 0 R 0 0 0.5 0 1 1.5.5 D 0 0 0 0 0 0.5 1

Globalne vs. lokalne

Dopasuj samodzielnie - C T T A G A - 0 G T A A 3 rozwiązania: CTTAGA G-TA-A CTTAGA GT-A-A CTTAGA -GTA-A

Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 A R D

Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0 A 0 2 R D

Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0-1 A 0 2 R -1? D

Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0-1 A 0 2 1 R -1 1 2 D

Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0-1 -2 A 0 2 1 0 R -1 1 2 1 D -2 0 1 2

Needleman & Wunsch Najlepsze dopasowanie do tyłu C A T W A L K Rozpocznij od najwyższego wyniku z prawa lub z dołu C 1 0 O 0 W 1 0-1 -2 A 0 2 1 0 R -1 1 2 1 D -2 0 1 2

Needleman & Wunsch Najlepsze dopasowanie do tyłu C A T W A L K Rozpocznij od najwyższego wyniku z prawa lub z dołu Cofaj się po strzałkach, do tyłu Może być kilka dróg! C 1 0 O 0 W 1 0-1 -2 A 0 2 1 0 R -1 1 2 1 D -2 0 1 2

Różne kary za przerwy (gap penalty) A) wysoka, B) niska

Dopasowanie lokalne sekwencji: Smith & Waterman Schemat score = 0; If (gap = = true) Else score=score - 1; If (letter1 = = letter2) score=score + 1; Else If (score<0) score=score - 0.5; score=0; Cofnij ścieżką od największej wartości aż do zera - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 O 0 W 0 A 0 R 0 D 0

Smith & Waterman Global alignment: C A T W A L K C O W A R D or C A T W A L K C O - W A R D Local alignment: CATWALK COWARD - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 1 0 0 0 0 0 0 O 0 0.5 0 0 0 0 0 W 0 0 0 0 1 0 0 0 A 0 0 1 0 0 2 1 0 R 0 0 0.5 0 1 1.5.5 D 0 0 0 0 0 0.5 1

Globalne vs. lokalne

Dopasuj samodzielnie - R E D C E D K L - 0 A C E D E C A D E