Dopasowywanie sekwencji Sequence alignment
Drzewo filogenetyczne
Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry nogami Przekrzywiona strona, część bez tekstu
Typowe mutacje w genach Substytucja Delecja Insercja Indel (przerwa) Przykładowy Efekt - przykłady Pojedynczy nukleotyd (Single Nucleotide Polymorphism, SNP) Mikrosatelity (Variable Number Tandem Repeats, VNTR) Minisatelity (Short Tandem Repeat Polymorphism, STRP) Pseudogeny
Homologia vs. podobieństwo sekwencji Czym to się różni?
Kiedy możliwa homologia? Z 1 mln przeanalizowanych białek na poziomie struktury 3D i funkcji wynikło, że 90% par sekwencji białkowych o podobieństwie >30% (na poziomie sekwencji, cała długość) wykazuje podobieństwo strukturalne (B. Rost) 30% - granica redundancji (nadmiarowości) 20-30% - szara strefa (10% homologów) 20% - przy takim nałożeniu nie można zakładać homologii (przy braku wyraźnych innych przesłanek)
Dopasowanie sekwencji Co można osiągnąć? Pokrewieństwo (homologia) i drzewo filogenetyczna Geny (duże podobieństwo u różnych gatunków) Obszary bardzo konserwatywne (ważne)
Podobieństwo sekwencji jak to ocenić?
Porównanie różnych sekwencji T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A
Podobieństwo sekwencji powtórzenia liter
Podobieństwo sekwencji powtórzenia liter
Przykłady DotPlot różnych sekwencji identyczna substytucja Insercje-delecje
Geny zawierające powtórzenia Geny BRCA1-chromosom 17 i Gen BRCA2-chromosom 13 (wrażliwość na raka piersi), który zawiera wielokrotne powtórzenie krótkich odcinków (BRC- 39 aminkokwasów)
DotPlot przy częstych powtórzeniach Dopasowanie genu BRCA2
Dotplot tylko wizualizacja Spośród różnych ścieżek przekątniowych chcemy wybrać tylko jedną. Czy to jest jednoznaczne?
Szukanie optymalnej ścieżki 37 Programowanie dynamiczne Znajduje optymalną wartość funkcji celu dla całego zagadnienia rozwiązując podproblemy od najmniejszego do największego i zapisując optymalne wartości w tablicy. Pozwala to zastąpić wywołania rekurencyjne odwołaniami do odpowiednich komórek wspomnianej tablicy i gwarantuje, że każdy podproblem jest rozwiązywany tylko raz. wynik: 17165 km
Metoda optymalnej ścieżki Algorytm globalnego dopasowania sekwencji Needlemana-Wunscha (1970) Przykład programowania dynamicznego. Pierwszy w bioinformatyce
Programowanie dynamiczne Pełna przestrzeń możliwych dopasowań pomiędzy 2 białkami o długości 1000 aa to 10 (3*20) możliwych dopasowań Algorytm podzielony na podproblemy Efektywny, nie przeszukujemy bezładnie przestrzeni możliwych rozwiązań
Dopasowanie par (sekwencji) C A T W A L K C O W A R D
Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X
Schemat punktowania If przerwa (ruch nie po skosie) Else s= s-1 (liniowa kara) If a==b Else s=s+1 s=s+0 Wynik: C A T W A L K C Globalne dopasowanie O W A R D 1-1 0 1 1 0 0 0 C 1 0 C A T W A L K O 0 W 1 A 2 R 2 D 2 2 (wynik sumowania:+2)
Dopasowanie globalne (Needleman & Wunsch) Znajdowanie optymalnej ścieżki 2 najlepsze dopasowania: C A T W A L K C O W A R D 1-1 0 1 1 0 0 : +2 C A T W A L K C O - W A R D 1 0-1 1 1 0 0 : +2 - C A T W A L K - 0-1 -2-3 -4-5 -6-7 C -1 1 0-1 -2-3 -4-5 O -2 0 1 0-1 -2-3 -4 W -3-1 0 1 1 0-1 -2 A -4-2 0 0 1 2 1 0 R -5-3 -1 0 0 1 2 1 D -6-4 -2-1 0 0 1 2
Różne kary za przerwy (gap penalty) A) wysoka, B) niska
Dopasowanie lokalne sekwencji: Smith & Waterman Schemat score = 0; If (gap = = true) Else score=score - 1; If (letter1 = = letter2) score=score + 1; Else If (score<0) score=score - 0.5; score=0; Cofnij ścieżką od największej wartości aż do zera - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 O 0 W 0 A 0 R 0 D 0
Smith & Waterman Global alignment: C A T W A L K C O W A R D or C A T W A L K C O - W A R D Local alignment: CATWALK COWARD - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 1 0 0 0 0 0 0 O 0 0.5 0 0 0 0 0 W 0 0 0 0 1 0 0 0 A 0 0 1 0 0 2 1 0 R 0 0 0.5 0 1 1.5.5 D 0 0 0 0 0 0.5 1
Globalne vs. lokalne
Dopasuj samodzielnie - C T T A G A - 0 G T A A 3 rozwiązania: CTTAGA G-TA-A CTTAGA GT-A-A CTTAGA -GTA-A
Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 A R D
Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0 A 0 2 R D
Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0-1 A 0 2 R -1? D
Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0-1 A 0 2 1 R -1 1 2 D
Needleman & Wunsch C A T W A L K C 1 0 O 0 W 1 0-1 -2 A 0 2 1 0 R -1 1 2 1 D -2 0 1 2
Needleman & Wunsch Najlepsze dopasowanie do tyłu C A T W A L K Rozpocznij od najwyższego wyniku z prawa lub z dołu C 1 0 O 0 W 1 0-1 -2 A 0 2 1 0 R -1 1 2 1 D -2 0 1 2
Needleman & Wunsch Najlepsze dopasowanie do tyłu C A T W A L K Rozpocznij od najwyższego wyniku z prawa lub z dołu Cofaj się po strzałkach, do tyłu Może być kilka dróg! C 1 0 O 0 W 1 0-1 -2 A 0 2 1 0 R -1 1 2 1 D -2 0 1 2
Różne kary za przerwy (gap penalty) A) wysoka, B) niska
Dopasowanie lokalne sekwencji: Smith & Waterman Schemat score = 0; If (gap = = true) Else score=score - 1; If (letter1 = = letter2) score=score + 1; Else If (score<0) score=score - 0.5; score=0; Cofnij ścieżką od największej wartości aż do zera - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 O 0 W 0 A 0 R 0 D 0
Smith & Waterman Global alignment: C A T W A L K C O W A R D or C A T W A L K C O - W A R D Local alignment: CATWALK COWARD - C A T W A L K - 0 0 0 0 0 0 0 0 C 0 1 0 0 0 0 0 0 O 0 0.5 0 0 0 0 0 W 0 0 0 0 1 0 0 0 A 0 0 1 0 0 2 1 0 R 0 0 0.5 0 1 1.5.5 D 0 0 0 0 0 0.5 1
Globalne vs. lokalne
Dopasuj samodzielnie - R E D C E D K L - 0 A C E D E C A D E