Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM



Podobne dokumenty
Bioinformatyka. Porównywanie sekwencji

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Porównywanie sekwencji białkowych

Bioinformatyka. Podsumowanie algorytmów dynamicznych

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowania par sekwencji DNA

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Dopasowanie sekwencji (sequence alignment)

Wykład 5 Dopasowywanie lokalne

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Porównywanie i dopasowywanie sekwencji

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Przyrównywanie sekwencji

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Dopasowanie par sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Homologia, podobieństwo i analogia

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Motywy i podobieństwo

Generator testów Bioinformatyka wer / 0 Strona: 1

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Algorytmy kombinatoryczne w bioinformatyce

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Algorytmy kombinatoryczne w bioinformatyce

Wstęp do Biologii Obliczeniowej

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Statystyczna analiza danych

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Bioinformatyka wykład 3.I.2008

D: Dopasowanie sekwencji. Programowanie dynamiczne

W kierunku równoległej implementacji pakietu T-Coffee

BIOLOGICZNE BAZY DANYCH SYLABUS

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

3 Przeszukiwanie baz danych

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Bioinformatyka wykład 10

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Generator testów bioinformatyka wer / Strona: 1

Metody przeszukiwania

Bioinformatyka: Wykład 2. Algorytm Smitha Watermana implementacja w języku Python

MSA i analizy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Analiza sekwencji promotorów

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Podstawy bioinformatyki dla biotechnologów

Biologia medyczna, materiały dla studentów

Wstęp do programowania

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

PODSTAWY BIOINFORMATYKI

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Wstęp do programowania

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Acknowledgement. Drzewa filogenetyczne

Bioinformatyka. Rodzaje Mutacji

Porównywanie sekwencji białek i kwasów nukleinowych

Bioinformatyka II Modelowanie struktury białek

Heurystyki. Strategie poszukiwań

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

WIZUALIZACJA ALGORYTMÓW OPTYMALNEGO DOPASOWANIA SEKWENCJI NUKLEOTYDÓW I AMINOKWASÓW

Wstęp do programowania

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Bioinformatyka II Modelowanie struktury białek

Metody bioinformatyki (MBI) projekt, dokumentacja końcowa

Wybrane podstawowe rodzaje algorytmów

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Indukowane Reguły Decyzyjne I. Wykład 8

LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania i mutacji na skuteczność poszukiwań AE

PRZEWODNIK PO PRZEDMIOCIE

Budowa kwasów nukleinowych

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Transkrypt:

Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLS, FS) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Wykład 5, 2006 1

Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrn z sekwencją genomową) DotPlot- Dotter Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html wykrywają fragmenty powtarzalne i rearanżacje opierają się na ocenie wizualnej czasami skuteczniejszej niż alignment idealny do szukania lokalnego podobieństwa Przykład: czynnik krzepnięcia XII (F12) aktywator tkankowo specyficznego plazminogenu (PL) (Bioinformatyka. Podręcznik do analizy genów i białek..d. Baxevanis, B.F.F. Quellette, PWN, 2005 ) Wykład 5, 2006 2

Dotter - sekwencje Dotter - sekwencje Wykład 5, 2006 3

Dotter SMR (http://smart.embl-heidelberg.de/) >gi 33877196 gb H02795.2 PL protein [Homo sapiens] >gi 180359 gb 51986.1 coagulation factor XII FN1 fibrynonektyna typ I, powtarzalna jednostka FN2 fibrynonektyna typ II, powtarzalna jednostka EF moduł nabłonkowego czynnika wzrostu KR domena typu kringle ryp SPc domena katalityczna zapewniająca aktywność proteinazy serynowej Wykład 5, 2006 4

czynnik krzepnięcia krwi aktywator tkankowo specyficznego plazminogenu czynnik krzepnięcia krwi aktywator tkankowo specyficznego plazminogenu Wykład 5, 2006 5

czynnik krzepnięcia krwi aktywator tkankowo specyficznego plazminogenu Dotter niektóre układy punktów tworząścieżkę każda ścieżka odpowiada jednemu dopasowaniu M Y S E Q U E N E H I S S E Q E N E H I S S E Q E N E M Y S E Q U E N E M Y S E Q U E N E H I S S E Q E N E znaleźć najlepszą ścieżkę! Wykład 5, 2006 6

Najlepsza ścieżka Madryt Poznań http://www.viamichelin.com optymalna? najszybsza? najkrótsza? Najlepsza ścieżka? Wykład 5, 2006 7

lgorytm Needlemana-Wunscha strategia najlepszej ścieżki programowanie dynamiczne przeszukiwanie dotyczy pełnego zakresu sekwencji (obszaru dopasowania)- dopasowanie globalne każda podścieżka stanowić może fragment optymalnej ścieżki. Ścieżki szuka się poszerzając zakres podscieżek. Needlemann, Wunch (1970) J.Mol.Biol. 48, 443-453 Sekwencja Sekwencja Sekwencja Sekwencja B Sekwencja B Sekwencja B Wykład 5, 2006 8

lgorytm Smitha-Watermana dopasowanie lokalne ścieżka dopasowania nie musi osiągać krawędzi analizowanej sekwencji ścieżka jest lokalnie optymalna jeśli jej wydłużanie/skracanie nie poprawia obliczonej dla niej wartości system wartościowania dopasowania zaniża wartości w regionach słabego dopasowania = przerwanie ścieżki mogą istniećścieżki złożone z kilku połączonych ścieżek Smith, Waterman (1981) J.Mol.Biol. 147, 195-197 Szukanie wielu dopasowań -subdopasowania Metoda optymalna daje zawsze najlepsze dopasowanie nawet jeśli nie ma ono znaczenia biologicznego znaczących, niezachodzących na siebie dopasowń lokalnych można naleźć kilka subdopasownia rzeba szukać więcej niż jednego dopasowania! (lalign, SIM) Przykład: zynnik krzepnięcia IX (F9, SWISS-PRO P00740) zynnik krzepnięcia XII (F12, SWISS-PRO P00748) Wykład 5, 2006 9

Dopasowanie optymalne i suboptymalne >sp P00740 F9_HUMN oagulation factor IX precursor (E 3.4.21.22) >sp P00740 F9_HUMN oagulation factor IX precursor (E 3.4.21.22) (hristmas (hristmas factor) factor) (Plasma (Plasma thromboplastin thromboplastin component) component) (P) (P) [ontains: [ontains: oagulation oagulation factor factor IXa IXa light light chain; chain; oagulation oagulation factor factor IXa IXa heavy heavy chain] chain] - - Homo Homo sapiens sapiens (Human). (Human). MQRVNMIMESPLIILLYLLSEVFLDHENNKILNRPKRYNSKLEEFVQNL MQRVNMIMESPLIILLYLLSEVFLDHENNKILNRPKRYNSKLEEFVQNL EREMEEKSFEEREVFENEREFWKQYVDDQESNPLNSKDDINSYEWP EREMEEKSFEEREVFENEREFWKQYVDDQESNPLNSKDDINSYEWP FFEKNELDVNIKNREQFKNSDNKVVSEYRLENQKSEPVPFPR FFEKNELDVNIKNREQFKNSDNKVVSEYRLENQKSEPVPFPR VSVSQSKLREVFPDVDYVNSEEILDNIQSQSFNDFRVVEDKPQFPW VSVSQSKLREVFPDVDYVNSEEILDNIQSQSFNDFRVVEDKPQFPW QVVLNKVDFSIVNEKWIVHVEVKIVVEHNIEEEHEQKRNVIRII QVVLNKVDFSIVNEKWIVHVEVKIVVEHNIEEEHEQKRNVIRII PHHNYNINKYNHDILLELDEPLVLNSYVPIIDKEYNIFLKFSYVSWRVF PHHNYNINKYNHDILLELDEPLVLNSYVPIIDKEYNIFLKFSYVSWRVF HKRSLVLQYLRVPLVDRLRSKFIYNNMFFHERDSQDSPHVEVE HKRSLVLQYLRVPLVDRLRSKFIYNNMFFHERDSQDSPHVEVE SFLIISWEEMKKYIYKVSRYVNWIKEKKL SFLIISWEEMKKYIYKVSRYVNWIKEKKL >sp P00748 F12_HUMN >sp P00748 F12_HUMN oagulation oagulation factor factor XII XII precursor precursor (E (E 3.4.21.38) 3.4.21.38) (Hageman (Hageman factor) factor) (HF) (HF) [ontains: [ontains: oagulation oagulation factor factor XIIa XIIa heavy heavy chain; chain; Betafactor XIIa part 1; Beta-factor XIIa part 2; oagulation factor XIIa light Betafactor XIIa part 1; Beta-factor XIIa part 2; oagulation factor XIIa light chain] - Homo sapiens (Human). chain] - Homo sapiens (Human). MRLLLLFLLVSLESLSIPPWEPKEHKYKEEHVVLVEPHFPFQYHRQLYHK MRLLLLFLLVSLESLSIPPWEPKEHKYKEEHVVLVEPHFPFQYHRQLYHK HKRPPQPWPNFDQDQRWYLEPKKVKDHSKHSPQKVNMPSPHL HKRPPQPWPNFDQDQRWYLEPKKVKDHSKHSPQKVNMPSPHL PQHLNHQKEKFEPQLLRFFHKNEIWYREQVRQKPDHQRLSQR PQHLNHQKEKFEPQLLRFFHKNEIWYREQVRQKPDHQRLSQR NPLHRLEVEHRLHPVYPFDVDKSYDRLSYRLRLSPQP NPLHRLEVEHRLHPVYPFDVDKSYDRLSYRLRLSPQP WSEYRNVEQRNWLHFRNPDNDIRPWFVLNRDRLSWEYDLQQPQ WSEYRNVEQRNWLHFRNPDNDIRPWFVLNRDRLSWEYDLQQPQ PPPVSPRLHVPLMPQPPPKPQPRPPQSQPLPKREQPPSLRNPLS PPPVSPRLHVPLMPQPPPKPQPRPPQSQPLPKREQPPSLRNPLS QRLRKSLSSMRVVLVLRHPYILYWHSFSLIPWVLHLQDRPP QRLRKSLSSMRVVLVLRHPYILYWHSFSLIPWVLHLQDRPP EDLVVLQERRNHSEPQLVRSYRLHEFSPVSYQHDLLLRLQEDDSLLSP EDLVVLQERRNHSEPQLVRSYRLHEFSPVSYQHDLLLRLQEDDSLLSP YVQPVLPSRPSELQVWHQFEEEYSFLQEQVPFLSLERSPDVHS YVQPVLPSRPSELQVWHQFEEEYSFLQEQVPFLSLERSPDVHS SILPMLFLEDQDSPLVEDQERRLLQIISWSDRNKPVY SILPMLFLEDQDSPLVEDQERRLLQIISWSDRNKPVY DVYYLWIREHVS DVYYLWIREHVS P00740 P00748 ExPasy Dopasowanie optymalne i suboptymalne lalign http://www.ch.embnet.org/software/llin_form.html Wykład 5, 2006 10

oraz dopasowania 2 i 3: SIM http://www.expasy.ch/tools/sim-prot.html P00740 P00748 Wykład 5, 2006 11

Wartości substytucji i kary za przerwy schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) schemat wartościowania II: dopasowany: +1 niedopasowany: -1 otwarcie przerwy: przedłużenie przerwy: L (afiniczne kary za przerwy kara za otwarcie, kary za przedłużenie ) Punktacja obszar dopasowania - dopasowanie przerwa niedopasowanie S punktacja za dopasowanie Score = Max(S) S = Σ(dopasowania) - Σ(niedopasowania) - Σ(przerwy) Wykład 5, 2006 12

Punktowanie przerw non-affine model (nieafinicznie): równo (match:4, mismatch:-3, gap:-4) affine model (afinicznie): + L n (match:4, mismatch:-3, gap creation:-8, gap:-4) ------ -3 4 4 4 4 4 4 4-4-3 4 4 4-3-4-4-4-4-4 4 4 4 :23-3 4 4 4 4 4 4 412-3 4 4 4-312-4-4-4-4 4 4 4 :7-3 -12 4-3 -3-3 -3 4-3 -3 3-3 4-3 -3-3 -3 4 ------ -3 4 4 4 4 4 4 4-4-3 4 4 4-4-4-4 4-4-4 4 4 4 :26-3 4 4 4 4 4 4 412-3 4 4 412-4-4 412-4 4 4 :2 4-12 4-12 4-12 Programowanie dynamiczne najlepsza ścieżka schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) Wykład 5, 2006 13

Programowanie dynamiczne zasady: dopasowane z = -1 dopasowane z = +1 NULL dopasowane z = -1 dopasowane z NULL = -1 Programowanie dynamiczne 0-1 -1 +1 Wykład 5, 2006 14

Programowanie dynamiczne 0-1 -1-2 +1-2 stopniowe poszerzanie ścieżek Programowanie dynamiczne 0-1 -1-2 +1-2 0 0 +2 stopniowe poszerzanie ścieżek Wykład 5, 2006 15

Programowanie dynamiczne 0-1 -2-1 +1 0-2 0 +2 stopniowe poszerzanie ścieżek Programowanie dynamiczne 0-1 -2-3 -1-2 -3 +1 0-1 0 +2 +1-1 +1 +3 stopniowe poszerzanie ścieżek Wykład 5, 2006 16

Programowanie dynamiczne 0-1 -2-3 -4-5 -1-2 -3 +1 0-1 -2-3 0 +2 +1 0-1 -1 +1 +3 +2 +1-4 -2 0 +2 +2 +1-5 -3-1 +1 +3 +2 stopniowe poszerzanie ścieżek wszystkie punkty musza zostać zbadane Programowanie dynamiczne 0-1 -2-3 -4-5 -6-7 -1-2 -3 +1 0-1 -2-3 -4-5 0 +2 +1 0-1 -2-3 -1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3-7 -5-8 -6-3 -1 +1 +3 +3-4 -2 0 +2 +2 +2 +2 +4 stopniowe poszerzanie ścieżek Wykład 5, 2006 17

Programowanie dynamiczne 0-1 -2-3 -4-5 -6-7 -1-2 -3 +1 0-1 -2-3 -4-5 0 +2 +1 0-1 -2-3 -1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3-7 -5-8 -6-3 -1 +1 +3 +3-4 -2 0 +2 +2 +2 +2 +4 stopniowe poszerzanie ścieżek - Programowanie dynamiczne stopniowe poszerzanie ścieżek - Wykład 5, 2006 18

Wartości substytucji i kary za przerwy Schemat punktacji bardziej złożony: macierze substytucji PM: macierze oparte na modelu ewolucyjnym akceptowanych mutacji punktowych (1 jednostka PM- stopień zróznicowania ewolucyjnego, w którym zmienił się 1% aminokwasów) częstość zmian przypadkowych częstość tła częstość substytucji częstość docelowa zmiany pojawiające się w białkach spokrewnionych Macierz PM250 wartości w macierzy są proporcjonalne do logarytmu z (cz. docelowej/cz.tła) zbudowana na podstawie analizy par blisko spokrewnionych (1PM) i ekstrapolowana do 250PM ekstrapolacje można przeprowadzić dla różnych odległości ewolucyjnych PM duże PM stosuje się do porównywania sekwencji o dużym stopniu dywergencji ewolucyjnej małe PM do badania sekwencji podobnych Wykład 5, 2006 19

Macierze BLOSUM Powstały w oparciu o bazę BLOKS dopasowanie sekwencji daleko spokrewnionych (oszacowanie częstotliwości docelowych, bez modelu ewolucyjnego) Rodzina macierzy: różnice (indeksu) związane są z maksymalnym stopniem identyczności sekwencji wziętych do obliczeń () BLOSUM62 BLOSUM90 do analizy sekwencji blisko spokrewnionych BOLSUM30 do analizy odległych ewolucyjnie sekwencji Wykład 5, 2006 20

Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? Dla dopasowań globalnych: porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości Dla dopasowań lokalnych: podstawą jest rozkład wartości granicznej, scharakteryzowanej paramerami K i λ E (S) = K m n exp -λs Expected value, wartość oczekiwana sekwencji mających wartość sonajmniej S S bit score, punktacja podobieństwa m range of alignment, długość porównywanego segmentu n wielkość bazy λ - określa wpływ systemu punktowania K liczba powtarzających się segmentów w przeszukiwanej sekwencji Wykład 5, 2006 21

Następny wykład BLS, FS porównanie wielosekwencyjne w poszukiwanie wspólnego przodka KONIE Wykład 5, 2006 22