Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Podobne dokumenty
Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowania par sekwencji DNA

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji (sequence alignment)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka. Porównywanie sekwencji

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji

Wykład 5 Dopasowywanie lokalne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Statystyczna analiza danych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Przyrównywanie sekwencji

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wstęp do Biologii Obliczeniowej

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

MSA i analizy filogenetyczne

Bioinformatyka wykład 8, 27.XI.2012

Homologia, podobieństwo i analogia

Bioinformatyka wykład 10

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Dopasowanie par sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Porównywanie sekwencji białkowych

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Generator testów Bioinformatyka wer / 0 Strona: 1

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Wyróżniamy dwa typy zadań projektowych.

Budowa kwasów nukleinowych

Bioinformatyka 2 (BT172) Ukryte modele Markowa

Bioinformatyka wykład 3.I.2008

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

3 Przeszukiwanie baz danych

Algorytmika dla bioinformatyki

Bioinformatyka. Podsumowanie algorytmów dynamicznych

D: Dopasowanie sekwencji. Programowanie dynamiczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

W kierunku równoległej implementacji pakietu T-Coffee

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Podstawy bioinformatyki dla biotechnologów

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Wybrane podstawowe rodzaje algorytmów

Algorytmy kombinatoryczne w bioinformatyce

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Acknowledgement. Drzewa filogenetyczne

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bioinformatyka wykład 9

Samouczek: Konstruujemy drzewo

METODY INŻYNIERII WIEDZY

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Porównywanie sekwencji białek i kwasów nukleinowych

Algorytmy kombinatoryczne w bioinformatyce

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

METODY INŻYNIERII WIEDZY

Wstęp do programowania

Globalne zależności w klastrowaniu hierarchicznym

Heurystyczne metody przeszukiwania

Historia Bioinformatyki

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Motywy i podobieństwo

10. Wstęp do Teorii Gier

Wykład 6. Wyszukiwanie wzorca w tekście

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Bioinformatyczne bazy danych

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Bioinformatyczne bazy danych

Optymalizacja. Przeszukiwanie lokalne

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Adrian Horzyk

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Transkrypt:

Bioinformatyka Wykład 6 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) 2 Wykład 7, 2011 1

Zestawienia wielosekwencyjne Multiple Sequence Alignment 3 Zestawienia wielosekwencyjne Multiple Sequence Alignment porównanie dwóch sekwencji szukanie podobieństwa: przeniesienie informacji o strukturze i funkcji (właściciel dwóch zegarków nigdy dokładnie nie wie, która jest godzina) porównanie wielu sekwencji? znalezione podobieństwa mogą być bardziej istotne jeśli występują w wielu sekwencjach 4 Wykład 7, 2011 2

Multiple Sequence Alignment Kiedy? Tylko z sekwencjami homologicznymi Po co? wskazanie regionów podobnych, zróżnicowanych, domen oraz funkcyjnie istotnych motywów poprawienie przewidywania; poprawienie błędów! tworzenie sekwencji konsensusowej (uzgodnionej), odszukiwanie nowych motywów Jak? Metody automatyczne: Clustal, MAGI półautomatyczne: Hidden Markov Models (HMM) analiza ręczna : Jalview, Cinema 5 MSA - Metody Clustal W, MAGI http://www.ebi.ac.uk/clustalw/ (EBI) http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html (PBIL) http://www.ch.embnet.org/software/clustalw.html (EMBnet-CH) http://magi.plantgenomics.iastate.edu/blast/blast.html (MAGI) półautomatyczne: Hidden Markov Models (HMM) Ręczna analiza zestawienia: Jalview, Cinema CINEMA: http://umber.sbs.man.ac.uk/dbbrowser/cinema2.1/ 6 Wykład 7, 2011 3

hemoglobina, leghemoglobina i mioglobina Wykład 7, 2011 4

Wykład 7, 2011 5

Wykład 7, 2011 6

2GDM (leghemoglobin) vs 1HLB (hemoglobin), id.21% Wykład 7, 2011 7

Multiple Sequence Alignment (MSA) pozwala na znalezienie najbardziej podobnych fragmentów w zbiorze sekwencji domeny funkcyjne domeny strukturalne Jeśli struktura jednego z białek jest znana możliwe jest dopasowanie struktury do pozostałych członków zestawienia 15 Zestawienie wielosekwencyjne a zestawienie dwóch sekwencji Podejście macierzowe = programowanie dynamiczne prowadzi do optymalnego zestawienia dwóch sekwencji. Dla zestawień wielosekwencyjnych trudne liczba porównań rośnie gwałtownie z liczbą sekwencji. 16 Wykład 7, 2011 8

Seq2 seq 2 MSA - dynamiczne Seq 1 zestawienie optymalne dla dwóch sekwencji seq 1:seq 2 18 seq 1 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 19 Wykład 7, 2011 9

seq 2 seq 2 seq 1 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 seq 3:seq 1 20 seq 1 Optymalne zestawienie wielosekwencyjne dla więcej niż 3 sekwencji potrzebna jest przestrzeń N wymiarowa 21 Wykład 7, 2011 10

Punktacja MSA punktacja każdego zestawienia dwóch sekwencji. Suma Par (SP score). stała kara za przerwy (Gaps-constant penalty) dla dowolnego rozmiaru przerwy. 22 Siatka zestawienia 2-D i 3-D V W 2-D przestrzeń Zestawienie globalne oznacza przejście przez całą przestrzeń po przekątnej 3-D przestrzeń 23 Wykład 7, 2011 11

komórka 2-D i 3-D zestawienia W 2-D, 3 krawędzie na każdą komórkę W 3-D, 7 krawędzi na każdą komórkę 24 Architektura komórki 3-D zestawienia (i-1,j-1,k-1) (i-1,j,k-1) (i-1,j-1,k) (i-1,j,k) (i,j-1,k-1) (i,j,k-1) (i,j-1,k) (i,j,k) porównaj Wykład 4 (algorytmy programowania dynamicznego) 25 Wykład 7, 2011 12

Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 26 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 27 Wykład 7, 2011 13

Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 28 Metody hierarchiczne Wykład 7, 2011 14

Metody hierarchiczne tworzenie drzewa przewodniego Multiple sequence alignments CHERRIES PEARS CLEMENTINES GREENAPPLES CHERRIES P-EAR--S CLEMENTIN-ES 7 GRE-ENAPPLES P-EARS----- GREENAPPLES CLEMENTINES 26 4 23 GREENAPPLES CHERR---IES P-EARS----- CLEMENTINES 23 0 CHERR--I-ES ClareSansom 31 Wykład 7, 2011 15

Multiple sequence alignments GREENAPPLES CLEMENTINES CHERRIES PEARS GREENAPPLES CLEMENTINES CHERR---IES P-EARS----- 32 Multiple sequence alignments CLUSTAL W (1.7) multiple sequence alignment Q40236/1-193 GTF-DQLQLVLRWPTSFCNGKNCKRTPKDFTIHGLWPDSEAGELNFCNPRASYTIVRHGTF Q40241/1-189 -----QLQLVLRWPTSFCNGKNCKRTPKDFTIHGLWPDSEAGELNFCNPRASYTIVRHGTF Q42513/1-193 GTF-NQLQLVLRWPASFCKGKKCERTPNNFTIHGLWPDIKGTILNNCNPDAKYASVTGGKF G255586/1-194 GAF-EYMQLVLQWPTAFCHTTPCKNIPSNFTIHGLWPDNVSTTLNFCGKEDDYNIIMDGP- Q40379/1-194 GAF-EYMQLVLQWPTTFCHTTPCKNIPSNFTIHGLWPDNVSTTLNFCGKEDDYNIIMDGP- :****:**::**:. *:. *.:*********. ** *..* : * Jalview Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 EKRN---KHWPDLMRSKDNSMDNQEFWKHEYIKHGSCCTDLFNETQYFDLALVLKDRFDLLT EKRN---KHWPDLMRSKDNSMDNQEFWKHEYIKHGSCCTDLFNETQYFDLALVLKDRFDLLT VKRN---KHWPDLILTEAASLNSQGFWAYQFKKHGTCCSDLFNQEKYFDLALILKDKFDLLT EK-NGLYVRWPDLIREKADCMKTQNFWRREYIKHGTCCSEIYNQVQYFRLAMALKDKFDLLT EK-NGLYVRWPDLIREKADCMKTQNFWRREYIKHGTCCSEIYNQVQYFRLAMALKDKFDLLT :* * :****: :.:..* ** :: ***:**::::*: :** **: ***:***** Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 TFRIHGIVPRSSHTVDKIKKTIRSVTGVLPNLSCTKNMDLLEIGICFNREASKMIDCTRP TFRIHGIVPRSSHTVDKIKKTIRSVTGVLPNLSCTKNMDLLEIGICFNREASKMIDCTRP TFRNKGIIPKSTCTINKIQKTIRTVTGVVPNLSCTPTMELLEVGICFNRDASKLIDCDQP SLKNHGIIRGYKYTVQKINNTIKTVTKGYPNLSCTKGQELWEVGICFDSTAKNVIDCPNP SLKNHGIIRGYKYTVQKINNTIKTVTKGYPNLSCTKGQELWEVGICFDSTAKNVIDCPNP ::: :**:. *::**::**::** ****** :* *:****: *.::***.* Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 KTCNPGEDNLIGFP KTCNPGEDNLIGFP KTCDTSGNTEIFFP KTCKTASNQGIMFP KTCKTASNQGIMFP ***... : * ** 33 Wykład 7, 2011 16

Profile Profile Representation of Multiple Alignment na przykładzie DNA - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 34 Profile Profile Representation of Multiple Alignment - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 35 Wykład 7, 2011 17

Profile Profile Representation of Multiple Alignment - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 36 Profil porównanie profili - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 Oczywiste jest porównanie sekwencji do sekwencji. Czy można porównać/zestawić sekwencję z profilem? Czy można porównać/zestawić profil z profilem? 37 Wykład 7, 2011 18

Zestawianie zestawień Aligning alignments x GGGCACTGCAT y GGTTACGTC-- Alignment 1 z GGGAACTGCAG w GGACGTACC-- Alignment 2 v GGACCT----- 38 Zestawianie zestawień Aligning alignments Czy można porównać dwa zestawienia? zestawienia odpowiednich profili (zestawianie zestawień prowadzi do zestawienia wielosekwencyjnego nowy sposób?) x GGGCACTGCAT y GGTTACGTC-- z GGGAACTGCAG w GGACGTACC-- v GGACCT----- Combined Alignment 39 Wykład 7, 2011 19

Zestawienia wielosekwencyjne greedy aproach Zestawienie wielosekwencyjne Multiple Alignment: Greedy Approach Podejście: Wybranie najbardziej podobnej pary łańcuchów i złożenie ich w jeden profil redukcja zestawienia k sekwencji do k-1 sekwencji/profili. To jest metoda heurystyczna (heuristic greedy method) k u 1 = ACGTACGTACGT u 2 = TTAATTAATTAA u 3 = ACTACTACTACT u 1 = ACg/tTACg/tTACg/cT u 2 = TTAATTAATTAA u k = CCGGCCGGCCGG k-1 u k = CCGGCCGGCCGG greedy łakomy, pazerny 41 Wykład 7, 2011 20

Greedy Approach: Przykład s1 GATTCA s2 GTCTGA s3 GATATT s4 GTCAGC 42 Greedy Approach: Przykład 4 2 = 6 możliwych zestawień s2 GTCTGA s4 GTCAGC (score = 2) s1 GAT-TCA s2 G-TCTGA (score = 1) s1 GAT-TCA s3 GATAT-T (score = 1) s1 GATTCA-- s4 G T-CAGC(score = 0) s2 G-TCTGA s3 GATAT-T (score = -1) s3 GAT-ATT s4 G-TCAGC (score = -1) 43 Wykład 7, 2011 21

Greedy Approach: Przykład s 2 i s 4 są najbardziej podobne; kombinacja: s2 GTCTGA s4 GTCAGC s 2,4 GTCt/aGa/cA (profil) Nowy zestaw 3 sekwencji: s 1 s 3 s 2,4 GATTCA GATATT GTCt/aGa/c 44 Zestawienie progresywne Progressive Alignment Progressive alignment jest ulepszoną wersją zestawienia za pomocą podejścia greedy poprawiona strategia wybierania najlepszych sekwencji do zestawień Zestawienie progresywne dobrze działa dla podobnych sekwencji, gorzej dla odległych 45 Wykład 7, 2011 22

ClustalW numer jeden na świecie W oznacza ważone (różne fragmenty zestawienia mają różna wagę ). Trzy kroki: 1) Tworzenie zestwień dwóch sekwencji 2) Budowa Guide Tree (drzewo przewodnie/naprowadzające) 3) Zestawienie progresywne wykorzystujące drzewo 46 Krok 1: Zestwienia dwusekwencyjne Zestawienie sekwencji każda z każdą macierz podobieństwa podobieństwo = identyczne / długość sekwencji (%identycznych) v 1 v 2 v 3 v 4 v 1 - v 2.17 - v 3.87.28 - v 4.59.33.62 - (.17 oznacza 17 % identycznych) 47 Wykład 7, 2011 23

Krok 2: Drzewo (Guide Tree) Budowa drzewa na podstawie macierzy podobieństwa ClustalW stosuje metode łączenia sąsiadów (neighbor-joining) Drzewo (guide tree) odzwierciedla z grubsza związki ewolucyjne między sekwencjami 48 Krok 2: Drzewo (Guide Tree) v 1 v 2 v 3 v 4 v 1 - v 2.17 - v 3.87.28 - v 4.59.33.62 - v 1 v 3 v 4 v 2 obliczenia: v 1,3 = alignment (v 1, v 3 ) v 1,3,4 = alignment((v 1,3 ),v 4 ) v 1,2,3,4 = alignment((v 1,3,4 ),v 2 ) 49 Wykład 7, 2011 24

Krok 3: Zestwienie progresywne na początek dwie najbardziej podobne sekwencje Zgodnie z guide tree,dodawane są kolejne sekwencje, zestawiane z istniejącym zestwieniem Wstawianie przerw w razie potrzeby FOS_RAT FOS_MOUSE FOS_CHICK FOSB_MOUSE FOSB_HUMAN PEEMSVTS-LDLTGGLPEATTPESEEAFTLPLLNDPEPK-PSLEPVKNISNMELKAEPFD PEEMSVAS-LDLTGGLPEASTPESEEAFTLPLLNDPEPK-PSLEPVKSISNVELKAEPFD SEELAAATALDLG----APSPAAAEEAFALPLMTEAPPAVPPKEPSG--SGLELKAEPFD PGPGPLAEVRDLPG-----STSAKEDGFGWLLPPPPPPP-----------------LPFQ PGPGPLAEVRDLPG-----SAPAKEDGFSWLLPPPPPPP-----------------LPFQ.. : **. :.. *:.* *. * **: Kropki i gwiazdki pokazują stopień zachowania (zakonserwowania)kolumny 50 Zestawienie wielosekwencyjne: Punktacja (Scoring ) liczba dopasowań (punktacja najdłuższej wspólnej sekwencji) Entropia (Entropy score) Suma par (Sum of pairs, SP-Score) 51 Wykład 7, 2011 25

Punktacja najdłuższej wspólnej sekwencji Multiple LCS Score kolumna jest dopasowana (match) jeśli wszystkie litery w kolumnie są równe AAA AAA AAT ATC tylko dla bardzo podobnych sekwencji 52 AAA AAA AAT ATC Entropia Określa częstotliwość z jaką każda litera pojawia się w każdej kolumnie zestawienia wielosekwencyjnego p A = 1, p A = 0.75, p T = 0.25, p T = p G =p C =0 (1. kolumna) p G =p C =0 (2.kolumna) p A = 0.50, p T = 0.25, p C =0.25 p G =0 (3. kolumna) entropie oblicza się dla każdej kolumny: X A, T, G, C p X log p X 53 Wykład 7, 2011 26

przypadek najlepszy przypadek najgorszy Entropia: przykład A T entropy G C A A entropy 0 A A 1 1 log 4 4 1 4( 2) 2 4 54 Entropia zestawienia Multiple Alignment: Entropy Score Entropia zestwienia wielosekwencyjnego jest sumą entropii z wszystkich kolumn : przez wszystkie kolumny X=A,T,G,C p X logp X 55 Wykład 7, 2011 27

Entropia zestawienia : przykład entropia kolumn: -( p A logp A + p C logp C + p G logp G + p T logp T ) A A A A C C A C G A C T kolumna 1 = -[1*log(1) + 0*log0 + 0*log0 +0*log0] = 0 kolumna 2 = -[( 1 / 4 )*log( 1 / 4 ) + ( 3 / 4 )*log( 3 / 4 ) + 0*log0 + 0*log0] = -[ ( 1 / 4 )*(-2) + ( 3 / 4 )*(-.415) ] = +0.811 kolumna 3 = -[( 1 / 4 )*log( 1 / 4 )+( 1 / 4 )*log( 1 / 4 )+( 1 / 4 )*log( 1 / 4 ) +( 1 / 4 )*log( 1 / 4 )] = 4* -[( 1 / 4 )*(-2)] = +2.0 Entropia zestawienia = 0 + 0.811 + 2.0 = +2.811 56 Zestawienie wielosekwencyjne generuje zestawienia par Każde zestawienie wielosekwencyjne prowadzi do zestawienia par Pary: x: AC-GCGG-C y: AC-GC-GAG z: GCCGC-GAG x: ACGCGG-C; x: AC-GCGG-C; y: AC-GCGAG y: ACGC-GAC; z: GCCGC-GAG; z: GCCGCGAG 57 Wykład 7, 2011 28

Zestawienie par z zestawienia wielosekwencyjnego da się wyprowadzić z każdego zestawienia wielosekwencyjnego, ale nie koniecznie będzie to zestawienie optymalne projekcja 3-D ścieżki zestawienia wielosekwencyjnego na 2-D powierzchnie sześcianu 58 Projekcja zestawienia wielosekwencyjnego All 3 Pairwise Projections of the Multiple Alignment 59 Wykład 7, 2011 29

Suma Punktacji Par (SP-Score) zestawienie dwóch sekwencji v i i v j uzyskane w zestawieniu wielosekwencyjnym k sekwencji Nieoptymalna punktacja tej pary: s*(v i, v j ) suma punktacji wszystkich par: s(v 1,,v k ) = Σ i,j s*(v i, v j ) 60 Obliczanie SP-Score Zestawienie 4 sekwencji= 6 zestwień par sekwencje v 1,v 2,v 3,v 4 : s(v 1 v 4 ) = s*(v i,v j ) = s*(v 1,v 2 ) + s*(v 1,v 3 ) + s*(v 1,v 4 ) + s*(v 2,v 3 ) + s*(v 2,v 4 ) + s*(v 3,v 4 ) 61 Wykład 7, 2011 30

SP-Score: Przykład v 1. v k ATG-C-AAT A-G-CATAT ATCCCATTT do obliczenia każdej kolumny: * n S( v ) Ss * (( vi, v 1... vk j ) i, j 2 Par sekwencji A A G 1 1 Score=3 m 1 1 A C m Kolumna 1 Kolumna 3 G Score = 1 2m 62 Problemy w MSA Wielodomenowe białka ewoluowałny, nie tylko przez mutacje punktowe, ale i przed duplikacje i rekombinacje domen Nie ma algorytmu MSA, który pozwalałby na zestawienie sekwencji, które uległy rearanżacji Zwykle możliwe jest porównanie pełnej długości wielu sekwencji 63 Wykład 7, 2011 31

Źródło Chris Lee, POA, UCLA http://www.bioinformatics.ucla.edu/poa/poa_tutorial.html An introduction to Bioinformatics algorithms, N.C. Jones&P.A.Pevzner 64 Do czego prowadzą zestawienia wielosekwencyjne (MSA) wykrywanie zachowawczych(zakonserwowanych) regionów w sekwencjach i budowania ich modeli: Consensus sequences (uzgodnione, zachowacze sekwencje) Patterns (wzorce) Position Specific Score Matrices (PSSMs), Profiles (profile) etc. budowanie drzew filogenetycznych śledzenie pokrewieństwa 65 Wykład 7, 2011 32

Bazy domen i rodzin białkowych Databases of protein domains and families InterPro - Integrated Resources of Proteins Domains and Functional Sites PROSITE - PROSITE dictionary of protein sites and patterns BLOCKS - BLOCKS db Pfam - Protein families db (HMM derived) [Mirrors at St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] PRINTS - Protein Motif fingerprint db ProDom - Protein domain db (Automatically generated) PROTOMAP - An automatic hierarchical classification of Swiss-Prot proteins SBASE - SBASE domain db SMART - Simple Modular Architecture Research Tool STRING - Search Tool for the Retrieval of Interacting Genes/Proteins TIGRFAMs - TIGR protein families db (CDN) 66 Terminologia dla białek rodzina (family): grupa białek o podobnej funkcji biochemicznej i identyczności sekwencji ok. 50%. podobieństwo jest przechodnie: jeśli A B i B C, to A C nawet jeśli id<50% nadrodzina (superfamily) grupa rodzin białkowych związanych odległym ale wykrywalnym podobieństwem Wykład 7, 2011 33

Terminologia dla sekwencji Blok (block): zakonserwowany wzorzec sekwencji białkowych(pattern) nie zawierający przerw Motyw: zakonserwowany wzorzec sekwencji znaleziony dla wielu sekwencji białkowych o podobnej aktywności biochemicznej (zwykle w pobliżu miejsca aktywnego) Moduł: zakonserwowany fragment sekwencji zawierający jeden lub więcej motywów, traktowany jako fundamentalna jednostka strukturalna lub funkcyjna Terminologia dla sekwencji Domena (homologiczna): rozszerzony wzorzec (pattern) sekwencji wskazujący na wspólne ewolucyjne pochodzenie, zawierający jeden lub więcej motywów i ew. przerwy. Domena (struktulana): fragment łańcucha białkowego, który zwija się do struktury 3D niezależnie od pozostałych fragmentów (dotyczy białek wielodomenowych) Wykład 7, 2011 34

Pattern (wzorzec) The PROSITE database of protein domains, families and functional sites Prosite (http://www.expasy.org/prosite/) zbiór alternatywnych sekwencji wyrażony za pomocą regular expression 70 Definiowanie matryc sekwencji - Patterns Sposób zapisu matrycy (wzorca): motyw receptora jądrowego: C-x(2)-C-x-[DE]-x(5)-[HN]-[FY]-x(4)-C-x(2)-C-x(2)-F-F-x-R [DE]: D lub E x(5): 5 niezdefiniowanych, dowolnych pozycji {FYW}: dowolny niearomatyczny aminokwas 71 Wykład 7, 2011 35

Pattern - wzorzec <A-x-[ST](2)-x(0,1)-{V} Ala na końcu N-, dowolny aminokwas, Ser lub Thr (razy 2), 0 lub dowolny aminokwas, dowolny aminokwas z wyjątkiemval. 72 Przykład zapisu wzorca (pattern) Wykład 7, 2011 36

Profil PSSMs, HMM - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 PSSM pozycyjno specyficzna tablica wartościująca 74 Wykład 7, 2011 37

Przykłady: Zinc finger AGE1_YEAST CFTR_HUMAN (P13569) MECP2_HUMAN (P51608) L-X(6)-LX(6)-LX(6)-L Q5SWW9_HUMAN (Q5SWW9) Wykład 7, 2011 38

domena zawierająca motyw palca cynkowego zinc finger motif (Cys-x2-Cys-x(16,17)-Cys-x2-Cys) Wykład 7, 2011 39

Motywy - motyw może być powiązany ze strukturą drugorzędową E.coli trp repressor 81 Motyw zamka leucynowego Leucine zipper motif L-X(6)-LX(6)-LX(6)-L 82 Wykład 7, 2011 40

Strukturalna klasyfikacja białek Wykład 7, 2011 41

Motyw zamka leucynowego L-X(6)-LX(6)-LX(6)-L 85 Domeny Domena jednostka strukturalna Granice domen mogą wynikać ze specyficznej sekwencji podobne domeny (takie same) związane są z taką samą funkcją 86 Wykład 7, 2011 42

http://www.sanger.ac.uk/pfam 87 Pfam-A rozpoznane i opisane rodziny 75% sekwencji 7868 rodzin HMM ukryte modele Markova 88 Wykład 7, 2011 43

http://smart.embl-heidelberg.org.de/ 89 http://www.ebi.ac.uk/interpro 90 Wykład 7, 2011 44

PSI-BLAST Position-specific-interated BLAST Iteracyjne stosowanie BLASTa do znalezienia sekwencji o niskim podobieństwie: zastosowanie BLASTAp utworzenie PSSM (Position Specific Substitution Matrix) z zestawień o najwyższej puktacji powtórzenie przeszukiwania (tym razem szukanie sekwencji podobnych do PSSM 91 PSI-BLAST Query sequence Vs. database 4 1 3 PSSM 2 PSSM 5 Wykład 7, 2011 45

Position Specific Score Matrix (PSSM) PSSM jest macierzą opartą na częstotliwości występowania aminokwasów (nukleotydów) w każdej pozycji porównywanych sekwencji PSSM przypisuje aminokwasom występującym w określonym miejscu częściej niż przez przypadek nową punktację (w zestawieniu) (Profile, utryty model Markowa HMMs) 93 Position Specific Score Matrix (PSSM) macierz F macierz F: kolumna 1: f A,1 = 0/5,, f G,1 =5/5=1, kolumna 2: f A,2 =0/5,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5=0.4, f C,15 =1/5=0.2,. 94 Wykład 7, 2011 46

Position Specific Score Matrix (PSSM) kolumna 1: f A,1 = 0/5 = 0,, f G,1 =5/5=1, kolumna 2: f A,2 = 0/5 = 0,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5 = 0.4, f C,15 =1/5 = 0.2,. zbiór pseudo-counts dla 1: (1 na 20 aminokwasów) kolumna 1: f A,1 = (0+1)/(5+20) = 0.04,,f G,1 =(5+1)/(5+20)=0.24, kolumna 2: f A,2 = (0+1)/(5+20) = 0.04,.,f H,2 =(5+1)/(5+20)=0.24, kolumna 15: f A,15 =(2+1)/(5+20)=0.12, f C,15 =(1+1)/(5+20) = 0.8,. 95 Position Specific Score Matrix (PSSM) (Score) Punktacja jest liczona jako stosunek częstotliwości obserwowanej do spodziewanej (dokładniej: logarytm ze stosunku tych czestotliwości) Score ij punktacja i-tego aminokwasu w pozycji j. f ij wzglęna częstotliwość dla i- tego aminokwasu w pozycji j, q i względna spodziewana częstotliwość wystepowania i-tego aminokwasu w przypadkowej sekwencji. 96 Wykład 7, 2011 47

Position Specific Score Matrix (PSSM) 97 Position Specific Score Matrix (PSSM) szukanie sekwencji podobnej PSSM jest przesuwna wzdłuż porównywanej sekwencji i w każdej pozycji liczona jest nowa punktacja - pozycja z najwyższą punktacją przechodzi dalej 98 Wykład 7, 2011 48

99 Przykład:MJ0414 (Methanococcus jannaschii ) Wykład 7, 2011 49

102 103 Wykład 7, 2011 50

104 sekwencja podobna do siebie samej i sekwencji z 3 innych archea i bakterii 105 Wykład 7, 2011 51

106 107 Wykład 7, 2011 52

108 109 Wykład 7, 2011 53

zestawienie pozwoliło przewidzieć aktywność ligazy DNA białka porównywanego z ligazą II DNA z drożdży. ważna dla aktywności katalitycznej lizyna Zachowane w ligazach motywy 110 Problem z PSI-BLASTem A B A znajduje B B znajduje C C Nie ma podobieństwa między A a C! 111 Wykład 7, 2011 54

koniec Wykład 7, 2011 55