Bioinformatyka -9 Bioinformatyka Wykład 4. E. Banachowicz Zakład Biofizyki Molekularnej http://www.amu.edu.pl/~ewas Porównywanie sekwencji białkowych Wykład 4,
Bioinformatyka -9 Porównywanie sekwencji elem porównania białek jest między innymi przypisanie informacji znanej dla jednej cząsteczki drugiej cząsteczce (genomika/proteomika porównawcza) DN RN białko sekwencja struktura funkcja Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: zy w bazie sekwencji są już sekwencje podobne? Sekwencje są identyczne nic nowego. Sekwencja jest podobna (ma krewnych ) nowy członek znanej rodziny Sekwencja ma kilka podobnych regionów, motywów lub domen można zaproponować funkcję Nie ma znaczącego podobieństwa dużo pracy.. Wykład 4,
Bioinformatyka -9 Identyfikacja sekwencji w BD Identyfikacja przez porównanie z innymi sekwencjami Zestawienia sekwencji = uliniowienie = =porównanie = alignment Identyfikacja sekwencji i jej funkcji Białka spokrewnione ze sobą (posiadające wspólnego przodka) mają podobne sekwencje, strukturę i funkcję Pewne istotne fragmenty (motywy) są konserwatywne i charakteryzują rodzinę białek (Bazy rodzin białkowych: PROSIE, PRINS, InterPro) Wykład 4,
Bioinformatyka -9 Identyfikacja sekwencji i jej funkcji? czy wszystkie białka spokrewnione mają tę samą funkcję?? czy podobieństwo krótkich fragmentów może być przypadkowe?? czy wszystkie białka pełniące tę samą funkcje muszą być spokrewnione? Ewolucyjne podstawy porównywania sekwencji Nic w Biologii (Bioinformatyce) nie ma sensu jeśli rozpatruje się to w oderwaniu od ewolucji. heodosis Dobzhansky (9975) Wykład 4, 4
Bioinformatyka -9 homologia/homoplazja homologia -podobieństwo ze względu na wspólnego przodka (dywergencja) homoplazja podobieństwo ze względu na konwergencję Homologia Podobieństwo Sekwencje homologiczne są podobne Sekwencje podobne nie muszą być homologiczne! Homologia = wspólny przodek Wykład 4, 5
Bioinformatyka -9 Homologi Hemoglobina (łańcuch α) Mioglobina Leghemoglobina hemoglobina, mioglobina i leghemoglobina Zachowawczość struktury przestrzennej Wykład 4, 6
Bioinformatyka -9 czas Rodziny Homologi Drzewo ewolucyjne globin. homologi: ortologi -różne gatunki, taka sama funkcja (specjacja) paralogi-podobna funkcja, ale ewoluowały niezależnie (duplikacja,ten sam organizm) analogi: różne sekwencje, różne motywy, ale identyczna orientacja ważnych aminokwasów prymitywna, pierwotna globina wiążąca tlen Molecular ell Biology,4ed. Lodish, Berk, Matsudaira, Kaiser, Krieger, Scott, Zipursky, and Darnell Wykład 4, 7
Bioinformatyka -9 Ortologi duplikacja oryginalny gen duplikacja specjacja b gatunek b,c,a c gen b b b gen a a a t t t gatunek b,a Homologi: paralogi (wspólny przodek w czasie duplikacji) ortologi (wspólny przodek w czasie specjacji: a-a) krowa Rodzina - homologi Rybonukleaza wołowa (enzym trawienny) człowiek Paralogi Rybonukleaza ludzka (enzym trawienny) angiogenina ludzka (stymuluje wzrost naczyń krwionośnych) (Biochemistry, J.Berg, J.ymoczko, L.Stryer.,PWN 5). Wykład 4, 8
Bioinformatyka -9 Dlaczego homologia jest ważna? homologia sugeruje wspólną strukturę i funkcję Homologia podobne funkcje, konserwatywność fragmentów rypsyna (myszy) P746 i trypsyna (langusty) P765 Wykład 4, 9
Bioinformatyka -9 S-S S-S S-S Składowa centrum aktywnego, odpowiedzialna za specyficzność substratową Układ przeniesienia ładunku Porównaj z: http://www.expasy.org/uniprot/p746 http://www.expasy.org/uniprot/p765 ezx.pdb, M9U P765 P746 Wykład 4,
Bioinformatyka -9 Homologia podobne funkcje a4v.pdb 5lyz.pdb nalogi Izomeraza triozofosforanowa (E 5...),4 - beta Ksylanaza Wykład 4,
Bioinformatyka -9 nalogi His57, sp, Ser95 His64, sp, Ser proteazy serynowe hydrolizujące wiązanie peptydowe Modele ewolucji Wykład 4,
Bioinformatyka -9 Modele ewolucji zy gen człowieka jest bardziej podobny do genu szympansa czy goryla? Potrzebny jest ilościowy model ewolucji. Np. wyznaczenie dopasowania sekwencji i obliczenie odsetka pozycji, na których wystąpiły różnice. Punktacja obszar dopasowania MGQKLMRVRVEGGPEVLKLRSDIVPIPKDHQVLI VRVEGPEVLRISDIVPIPKDHQVLIEIRSGS dopasowanie przerwa niedopasowanie S punktacja za dopasowanie Score = Max(S) S = (dopasowania) - (niedopasowania) - (przerwy) Wykład 4,
Bioinformatyka -9 liczba identycznych aminokwasów Jakość dopasowania globalnego Dla dopasowań globalnych: porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości przykład: dopasowanie sekwencji α hemoglobiny ludzkiej i mioglobiny ludzkiej identyczne aminokwasy identyczne aminokwasy wszystkie możliwe zestawienia sekwencji, zliczanie identycznych dopasowanie Wykład 4, 4
Bioinformatyka -9 Jakość dopasowań zestawienia sekwencji z przerwami, zliczanie identycznych 8 identyczne aminokwasy we fragmencie o długości 48 5.9% identycznych aminokwasów. zy jest to znaczące podobieństwo? S = (dopasowania) - (niedopasowania) - (przerwy) Jakość dopasowań Dla dopasowań globalnych: - porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości przypadkowe sekwencje o podobnym składzie: sekwencja jednego z białek zostaje wielokrotnie potasowna Wykład 4, 5
Bioinformatyka -9 liczba przyrównań Jakość dopasowań punktacja: tożsamość: + przerwa: 5 S = (dopasowania) - (przerwy) szansa uzyskania takiego odchylenia w przypadkowej punktacja sekwencji przyrównania wynosi : hemoglobina α i mioglobiny punktacja przyrównania Modele ewolucji sekwencji białkowej PM (point accepted mutations = punktowe mutacje utrwalone) macierz uwzględniająca tempo i typ możliwych podstawień aminokwasowych. Wykład 4, 6
Bioinformatyka -9 Wykład 4, 7 Macierz PM5 wartości w macierzy są proporcjonalne do logarytmu z (cz. docelowej/cz.tła) zbudowana na podstawie analizy par blisko spokrewnionych (PM) i ekstrapolowana do 5PM ekstrapolacje można przeprowadzić dla różnych odległości ewolucyjnych PM duże PM stosuje się do porównywania sekwencji o dużym stopniu dywergencji ewolucyjnej małe PM do badania sekwencji podobnych P 6 S W -7-8 -7-7 7 7 V 4 4 B Z X R N D Q E G H I L K M P S W V B Z X N D 4-7 -8 Q 4 E 4-7 G 5-7 H 6 I 5 4 L 6 4 K 5 M 4 6 9 7 Dayhoff PM 5 Matrix R 6
Bioinformatyka -9 Wykład 4, 8 zestawienie białek wysoka punktacja oznacza: -> podstawienia są częste + -> podstawienia są częste tam gdzie jest utrwalone tam gdzie jest utrwalone P 6 S W -7-8 -7-7 7 7 V 4 4 B Z X R N D Q E G H I L K M P S W V B Z X N D 4-7 -8 Q 4 E 4-7 G 5-7 H 6 I 5 4 L 6 4 K 5 M 4 6 9 7 R 6 Dayhoff PM 5 Matrix
Bioinformatyka -9 Wykład 4, 9 Pierwotne białko zestawieni sekwencji wysoka punktacja W W oznacza : inne podstawienia nie są możliwe tam gdzie W jest utrwalone W W W W W W W W W W W W W W W W W W W P 6 S W -7-8 -7-7 7 7 V 4 4 B Z X R N D Q E G H I L K M P S W V B Z X N D 4-7 -8 Q 4 E 4-7 G 5-7 H 6 I 5 4 L 6 4 K 5 M 4 6 9 7 R 6 Dayhoff PM 5 Matrix
Bioinformatyka -9 skład aminokwasowy białek {rgos and Mcaldon} lanina jest bardzo pospolita minokwasy % 8..7 D 5. E 6..9 G 7. H. I 5. K 5.7 L 9. M.4 N 4.4 P 5. Q 4. R 5.7 S 6.9 5.8 V 6.6 W.. ryptofan jest bardzo rzadki Małe, polarne Macierz PM5 S, Ser, hr Małe, hydrofobowe V,Val I,Ile Duże, naładowane R, rg K, Lys Wykład 4,
Bioinformatyka -9 Macierze BLOSUM Powstały w oparciu o bazę BLOKS dopasowanie sekwencji daleko spokrewnionych (oszacowanie częstotliwości docelowych, bez modelu ewolucyjnego) Rodzina macierzy: różnice (indeksu) związane są z maksymalnym stopniem identyczności sekwencji wziętych do obliczeń BLOSUM6 BLOSUM9 do analizy sekwencji blisko spokrewnionych BOLSUM do analizy odległych ewolucyjnie sekwencji Wykład 4,
Bioinformatyka -9 Reprezentacja macierzy BLOSUM 6 DEHKR naładowane NQS polarne GP hydrofobowe ILMVW duże i hydrofobowe Biochemistry, Berg, Jeremy M.; ymoczko, John L.; and Stryer, Lubert. New ork: W. H. reeman and o.; (), Rys.7.9 Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? Jaka jest wartość świadczy o homologii, a jaka o przypadkowym podobieństwie? Wykład 4,
Bioinformatyka -9 z macierzami substytucji Jakość dopasowań punktacja: BLOSUM6 otwarcie przerwy: wydłużenie przerwy: identyczne podobne = substytucje konserwatywne S = (dopasowania) - (niedopasowania) - (przerwy) z macierzami substytucji pozwala wykryć homologię białek pokrewnych w mniejszym stopniu Jakość dopasowań punktacja: BLOSUM6 otwarcie przerwy: wydłużenie przerwy: Mioglobina ludzka Leghemoglobina z łubinu identyczność: % S = (dopasowania) - (niedopasowania) - (przerwy) Wykład 4,
Bioinformatyka -9 liczba przyrównań liczba przyrównań Jakość dopasowań Mioglobina ludzka Leghemoglobina z łubinu punktacja przyrównania (tylko identyczne) punktacja przyrównania (BLOSUM6) () punktacja oparta o identyczność -szansa dopasowanie tylko na zasadzie przypadku : (B) punktacja oparta o konserwatywne substytucje - szansa dopasowanie tylko na zasadzie przypadku : Jakość dopasowania Dla sekwencji dłuższych niż aminokwasów identyczność wyższa niż 5% prawie na pewno nie jest przypadkowa prawdopodobieństwo homologii identyczność niższa niż 5% mało prawdopodobne, żeby podobieństwo było statystycznie istotne Brak statystycznej istotności nie wyklucza homologii Wykład 4, 4
Bioinformatyka -9 hemoglobina, mioglobina i leghemoglobina Zachowawczość struktury przestrzennej α hemoglobina (homo sapiens) P6995 (Expasy) mioglobina (homo sapiens) P44 (Expasy) leghemoglobina (łubin) P9 (Expasy) EMBOSS Pairwise lignment lgorithms http://www.ebi.ac.uk/emboss/align/index.html? Wykład 4, 5
Bioinformatyka -9 Global alignment SIM http://www.expasy.ch/tools/sim-prot.html P44, P6995 Wykład 4, 6
Bioinformatyka -9 Jakość dopasowania lokalnego () unkcja gęstości prawdopodobieństwa = rozkład wartości granicznej E(S) rozkład spodziewanych dopasowań, które mają wartość przynajmniej równą S E (S) = K m n exp(-λs) Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? Dla dopasowań globalnych: porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości Wykład 4, 7
Bioinformatyka -9 E (S) = K m n exp -λs Expected value, wartość oczekiwana sekwencji mających wartość co najmniej S S bit score, punktacja podobieństwa m range of alignment, długość porównywanego segmentu n wielkość bazy λ - określa wpływ systemu punktowania K liczba powtarzających się segmentów w przeszukiwanej sekwencji Bit Score unormowany score, wartość uniezależniona od długości sekwencji Dopasowanie sekwencji Wykład 4, 8
Bioinformatyka -9 lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLS, S) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrn z sekwencją genomową) 59 Wykład 4, 9
Bioinformatyka -9 Liniowe zestawienie dwóch sekwencji Pairwise Sequence lignment sekwencja BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER sekwencja Ogólne spojrzenie na problem laresansom BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER Wykład 4,
Bioinformatyka -9 BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER Wykład 4,
Bioinformatyka -9 BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER Wykład 4,
Bioinformatyka -9 Insercja/Delecja => GPS zestawienie jeden-do-jeden przerwy odzwierciedlają wydarzenia ewolucyjne (wyzwanie dla programistów) BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGLEDILGERGSOUWERM BEERNLEDLGERDWGLSOUWRRWER laresansom Wykład 4,
Bioinformatyka -9 Insercja/Delecja => GPS BEERGLEDILGERGSOUWERM BEERN-LEDLGERDWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGLEDILGERGSOUWERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Wykład 4, 4
Bioinformatyka -9 Insercja/Delecja => GPS BEERGLEDILGERG-SOUWERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGLEDILGERG--SOUWERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Wykład 4, 5
Bioinformatyka -9 Insercja/Delecja => GPS BEERGLEDILGERG---SOUWERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGLEDILGERG---SOU-WERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Wykład 4, 6
Bioinformatyka -9 Insercja/Delecja => GPS BEERGLEDILGERG---SOU--WERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Insercja/Delecja => GPS G<->W = -7 G<->G = +5 BEERGLEDILGER-G--SOU--WERM BEERN-LED-LGERDWGLSOUWRRWER laresansom Wykład 4, 7
Bioinformatyka -9 Insercja/Delecja => GPS G<->W = -7 G<->G = +5 BEERGLEDILGER-G--SOU--WERM -BEERN-LED-LGERDWGLSOUWRRWER <-> = <-> = + laresansom Macierze punktowe (DotPlot) Macierze DotPlot opierają się na ocenie wizualnej i czasami skuteczniejsze niż alignment wykrywają fragmenty powtarzające się, rearanżacje i podobieństawa lokalne http://www.biophys.uni-duesseldorf.de/local/doplo/dotplot.html Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html http://www.changbioscience.com/res/resd.html Wykład 4, 8
Bioinformatyka -9 H I S S E Q E N E H I S S E Q E N E Dotter niektóre układy punktów tworzą ścieżkę każda ścieżka odpowiada jednemu dopasowaniu M S E Q U E N E H I S S E Q E N E M S E Q U E N E H I S S E Q E N E znaleźć najlepszą ścieżkę! M S E Q U E N E Dotter kropka w miejscu dopasowania układ kropek tworzy ścieżkę M S E Q U E N E H I S S E Q E N E M S E Q U E N E H I S S E Q E N E zy wprowadzenie przerwy da lepsze dopasowanie? M S E Q U E N E Wykład 4, 9
Bioinformatyka -9 H I S S E Q E N E Dotter wprowadzenie przerwy wydłużenie ścieżki M S E Q U E N E H I S S E Q E N E M S E Q U E N E H I S S E Q E N E M S E Q U E N E M S E Q U E N E H I S S E Q - E N E Najlepsza ścieżka? G G Wykład 4, 4
Bioinformatyka -9 Najlepsza ścieżka? G G każda ścieżka odpowiada jakiemuś dopasowaniu która z nich jest optymalna? Najlepsza ścieżka Madryt Poznań http://www.viamichelin.com optymalna? najszybsza? najkrótsza? Wykład 4, 4
Bioinformatyka -9 Najlepsza ścieżka najlepsza ścieżka = Zestawienia sekwencji zależy od sposobu punktowania. tożsamości, podobieństwa, przerwy Wartości substytucji i kary za przerwy schemat wartościowania I: (match) dopasowany: + (mismatch) niedopasowany: (gap) przerwa: (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) schemat wartościowania II: dopasowany: + niedopasowany: otwarcie przerwy: G przedłużenie przerwy: L (afiniczne kary za przerwy kara za otwarcie, kary za przedłużenie ) Wykład 4, 4
Bioinformatyka -9 Punktacja obszar dopasowania GGGGGGG GGGG-GGGGG dopasowanie przerwa niedopasowanie S punktacja za dopasowanie Score = Max(S) S = (dopasowania) - (niedopasowania) - (przerwy) Punktowanie przerw non-affine model (nieafinicznie): równo (match:4, mismatch:, gap:) affine model (afinicznie): G + L n (match:4, mismatch:, gap creation:-8, gap:) GGG------G GGGGG 4 4 4 4 4 4 4 4 4 4 4 4 4 : 4 4 4 4 4 4 4 4 4 4 4 4 4 :7 GGG------G GGGGG 4 4 4 4 4 4 4 4 4 4 4 4 4 4 :6 4 4 4 4 4 4 4 4 4 4 4 4 4 : G 4 4 G 4 4 4 4 4 Wykład 4, 4
Bioinformatyka -9 DotPlot -metody najprościej: kropka w miejscu identycznych znaków w sekwencjach lepiej: zastosowanie tablicy podobieństw (macierzy substytucji) kropka w miejscu, gdzie wartość podobieństwa przekracza określoną wartość lepiej: porównywanie okienek wstawianie kropek tam, gdzie ciąg n-liter ma punktację większą niż pewna wartość, albo jest określona liczba identycznych liter jeszcze lepiej: odfiltrowanie mniej istotnych kropek DotPlot najprostsza metoda W. Makałowski, 5 Wykład 4, 44
Bioinformatyka -9 DotPlot najprostsza metoda DotPlot metoda okienkowa obliczyć punktację w okienku o zadanym rozmiarze (window size) ocenić czy punktacja spełnia określone warunki (threshold) przesunąć okienko o zadany krok (step) Wykład 4, 45
Bioinformatyka -9 DotPlot metoda okienkowa kropka= x brak kropki= o window size: 9 threshold: 6 step: DotPlot metoda okienkowa window size: 9 threshold: step: 6 Wykład 4, 46
Bioinformatyka -9 DotPlot metoda okienkowa window size: 9 threshold: step: 6 DotPlot metoda okienkowa window size: 9 threshold: step: 6 Wykład 4, 47
Bioinformatyka -9 DotPlot metoda okienkowa window size: 9 threshold: step: 6 Programowanie dynamiczne najlepsza ścieżka schemat wartościowania I: (match) dopasowany: + (mismatch) niedopasowany: (gap) przerwa: (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) G G Wykład 4, 48
Bioinformatyka -9 Programowanie dynamiczne zasady: G G dopasowane z = dopasowane z = + NULL dopasowane z = dopasowane z NULL = Programowanie dynamiczne G G + Wykład 4, 49
Bioinformatyka -9 Programowanie dynamiczne G G + stopniowe poszerzanie ścieżek Programowanie dynamiczne G G + + stopniowe poszerzanie ścieżek Wykład 4, 5
Bioinformatyka -9 Programowanie dynamiczne G G + + stopniowe poszerzanie ścieżek Programowanie dynamiczne G G + + + + + stopniowe poszerzanie ścieżek Wykład 4, 5
Bioinformatyka -9 Programowanie dynamiczne G G + + + + + + + + + + + + + stopniowe poszerzanie ścieżek wszystkie punkty musza zostać zbadane Programowanie dynamiczne G G + + -7 + + + + + + + + + + + + + + + + +4 + -7-8 + + + + + + + +4 stopniowe poszerzanie ścieżek Wykład 4, 5
Bioinformatyka -9 Programowanie dynamiczne G G + + -7 + + + + + + + + + + + + + + + + +4 + -7-8 + + + + + + + +4 stopniowe poszerzanie ścieżek G- G Programowanie dynamiczne G G stopniowe poszerzanie ścieżek G- G Wykład 4, 5
Bioinformatyka -9 G G G lgorytm Needleman -Wunsh a znaleźć zestawienie z max score! G G macierz elementy ij powtarzaj ij = max( i,j + S( i,b j ), i,j + d, i,j + d) sekwencja B sekwencja = j = i = lgorytm Needleman -Wunsh a pseudo-code (tworzenie macierzy ): for i= to lengh() (i,) <- for j= to lengh(b) (,j) <- for i= to lengh() for j= to lengh(b) { choice <- (i,j + S((i),B(j)) choice <- (i,j) + d choice <- (i,j) + d (i,j) <- max(choice,choice,choice) } i = j = Wykład 4, 54
Bioinformatyka -9 lgorytm Needleman -Wunsh a ten element macierzy ma zawsze, dla każdego zestawienia najwyższą wartość Odtworzenie zestawienia sekwencji, dającego najwyższą punktację, polega na sprawdzaniu źródeł ( możliwości), z których można dotrzeć do danego punktu i,j: jeśli choice to zestawienie (i) z B(j) jeśli choice to zestawinie (i) z przerwą jeśli choise to zestawienia B(j) z przerwą lgorytm Needleman -Wunsh a pseudo-code (budowania zestawienia): lignment <- lignmentb <- i <- length() j <- length(b) while (i> ND j>) { Score <- (i,j) ScoreDiag <- (i,j) ScoreUp <- (i, j) ScoreLeft <- (i,j) if (Score S((i),B(j))==ScoreDiag { lignment <- (i)+ lignment lignmentb <- B(j)+ lignmentb i <- i j <- j } Wykład 4, 55
Bioinformatyka -9 lgorytm Needleman -Wunsh a Score <- (i,j) ScoreDiag <- (i,j) ScoreUp <- (i, j) ScoreLeft <- (i,j) if (Score S((i),B(j))==ScoreDiag { lignment <- (i)+ lignment lignmentb <- B(j)+ lignmentb i <- i j <- j } else if (Score == ScoreLeft d) { lignment <- (i)+ lignment lignmentb <- - + lignmentb i <- i } } while (i>=) {. lgorytm Needleman -Wunsh a else if (Score == ScoreLeft d) { lignment <- (i)+ lignment lignmentb <- - + lignmentb i <- i } otherwise (Score == ScoreUp d) { lignment <- - + lignment lignmentb <- B(j)+ lignmentb j <- j } Wykład 4, 56
Bioinformatyka -9 lgorytm Needleman -Wunsh a while (i>=) { lignment <- (i) + ligment lignmentb <- - + ligmentb i <- i } while (j>=) { lignment <- - + ligment lignmentb <- B(j) + ligmentb j <- j } } Podsumowanie lgorytmy porównywania sekwencji oparte na programowaniu dynamicznym gwarantują znalezienie optymalnego (najlepszego) zestawienia dwóch sekwencji wymagają dużych rezerw pamięci i czasu Wykład 4, 57
Bioinformatyka -9 Programowanie dynamiczne Metody dynamiczne dobre są do zestawienia (porównania) dwóch sekwencji Jeśli celem jest znalezienie sekwencji homologicznych przeszukać trzeba bazę sekwencji. Przeszukać = porównać każdą sekwencję w bazie z zadaną sekwencją (query) to może być trudne.. Metody dynamiczne są raczej powolne i wymagają pamięci (na np. zapamiętanie macierzy (nm) = O(nm)) Programowanie dynamiczne Rozmiar baz danych (rośnie ekspotencjalnie) białkowa: ok. reszt aminokwasowych nukleotydowa: nukleotydów zas pracy komputera z mocą obliczeniową 7 komórek macierzy/sekundę (pełne zestawienie metodami dynamicznymi) białko aminokwasów: 5 godzin dla bazy białkowej DN nukleotydów: 5555 godzin ( dni) w GenBanku (wg. W. Makałowskiego) Wykład 4, 58
Bioinformatyka -9 Koniec Wykład 4, 59