Motywy i podobieństwo

Motywy i podobieństwo Całość funkcja Modularna budowa białek Elementy składowe czyli miejsca wiązania, domeny 1

Motywy Motyw jest opisem określonej części trójwymiarowej struktury zawierającym charakterystyczny wzór sekwencji. Motywy identyfikuje się poprzez: Porównanie trójwymiarowych struktur, Porównanie wielu sekwencji, Zastosowanie programu do wyszukiwania wzorów sekwencyjnych. Motywy Motywy to rejony podobieństwa wyróżnione w oparciu o porównanie wielu sekwencji. Motyw Insercje 2

Konsensus Zapis sekwencji nukleotydów lub aminokwasów występujących w danym miejscu z największym prawdopodobieństwem, w oparciu o porównanie wielu sekwencji. Y D G G A V - E A L Y D G G - - - E A L F E G G I L V E A L F D - G I L V Q A V Y E G G A V V Q A L y d G G ai vl V e A L Wady: bez alternatywnych pozycji, stała długość. Reguła wzór (Regular Expressions) C-x(2,5)-C-x-[GP]-x-P-x(2,5)-C Cysteina, następnie 2-5 dowolne aminokwasy, następnie cysteina, następnie dowolny aa, następnie glicyna lub prolina, dowolny aa, prolina, następnie 2-5 dowolne aminokwasy i cysteina). Wzór może zawierać: Rejony o zmiennej długości Alternatywne AA/NTP CXXXCXGXPXXXXXC FGCAKLCAGFPLRRLPCFYG Wzór nie może zawierać: Przerw Pomyłek CXXCXGXPXXXXX-C? FGCA-CAGFPLRRLPKCFYG 3

Wzory opierają się zwykle na aminokwasach, które bezwzględnie występują na określonych pozycjach w sekwencji (regular expressions). Można również budować wzory w oparciu o aminokwasy o zbliżonych właściwościach fizykochemicznych (fuzzy regular expressions). Profil: dokładniejszy konsensus Macierz profilu: Profil (częstość występowania) aminokwasu w określonym miejscu sekwencji. Bardziej czuły przy mniej podobnych sekwencjach. Trudniejszy dla komputera. 4

Tworzenie macierzy profilu A 2 3 C 0 0 D 0 0 E 0 0 F 0 0 G 0 0 H 0 0 I 0 3 K 0 0 L 0 2 M 0 0 N 0 0 P 0 0 Q 0 0 R 0 0 S 0 0 T 0 0 V 1 4 W 2 0 Y 7 0 I tak dalej... YVTVQHKKLRTPL YVTVQHKKLRTPL YVTVQHKKLRTPL AATMKFKKLRHPL AATMKFKKLRHPL YIFATTKSLRTPA VATLRYKKLRQPL YIFGGTKSLRTPA WVFSAAKSLRTPS WIFSTSKSLQTPA YLFSKTKSLQTPA YLFSKTKSLQTPA Tak więc do opisu fragmentu sekwencji używamy określeń: Motyw Domena Element Box Signal (sygnał) Tag (etykieta) Signature (podpis) Pattern (wzór) Konsensus Regular expression (wzór) Profil Blok 5

Co to jest podobieństwo? Podobieństwo to coś co widzimy Czy te sekwencje są podobne? veracinnenkmeninclnnemeteneni nareidsdrafmeterafstandichefs laglinksvlgeniaafwendenidschi nrechtsenlinksnaardemiddellin eenhalthdenmetertssenrimtegre talleendecmmandantveracinnenk meninclnnemeteneninareidsdraf meterafstandmarshefslaglinksv lgenaafwendendschinrechtsenli nksenpdeelinhalthdenmetertsse nrimtevanafderechtervlegelmet enenvrwaartsinareidsdrafricht inggpnylengteafstandchefslagr echtsvlgenkhgerkenlinmetenenv rwaartsinareidsdrafpnylengtea fstandrichtinggmarshefslagrec htsvlgengerkenlinhfdderclnnei dichefslaglinksvlgeniaafwende nidschinrechtsenlinksnaardemi ddellineenhalthdenmetertssenr imtegretalleendecmmandantvera cinnenkmeninclnnemeteneninare idsdrafmeterafstandmarshefsla glinksvlgenaafwendendschinrec htsenlinksenpdeelinhalthdenme tertssenrimtevanafderechtervl egelmetenenvrwaartsinareidsdr africhtinggpnylengteafstandch efslagrechtsvlgenkhgerkenlinm etenenvrwaartsinareidsdrafpny lengteafstandrichtinggmarshef slagrechtsvlgengerkenlinhfdde rclnneicafwendenenplincameten envlteshalveaanrechtsiahefsla 6

Czy te struktury są podobne? Podobieństwo to wielkość obserwowalna, którą można określić np. jako % identycznych aminokwasów. Homologia określa wspólne pochodzenie porównywanych genów (to może być wniosek wyciągnięty z analizy podobieństwa) Tak więc nie ma stopni homologii geny albo są albo nie są homologiczne 7

Identyczny gdy ta sama cecha występuje w dwóch gatunkach lub populacjach Podobny - to stopień występowania identyczności między dwoma gatunkami lub populacjami Homologiczny/homolog gdy podobieństwo wynika ze wspólnego pochodzenia Analogiczny/analog gdy podobieństwo cech wynika z ewolucji konwergentnej Ortologiczny/ortolog gdy występuje homologia i funkcja jest zakonserwowana Paralogiczny/paralog gdy występuje homologia ale funkcje są odmienne sekwencji podobieństwo funkcji podobieństwo funkcji podobieństwo sekwencji 8

Porównywanie sekwencji: 1. Sequence alignment = ułożenie sekwencji lub uliniowienie sekwencji lub dopasowanie sekwencji 2. Similarity scoring = Oszacowanie poziomu podobieństwa dopasowanych sekwencji i istotności tego parametru Optymalne dopasowanie 2 sekwencji 9

Optymalne dopasowanie 2 sekwencji Optymalne dopasowanie 2 sekwencji aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt -agagaacagaaaccaatgtgcagtcactgac --agagaacagaaaccaatgtgcagtcactgac ---agagaacagaaaccaatgtgcagtcactgac ----agagaacagaaaccaatgtgcagtcactgac -----agagaacagaaaccaatgtgcagtcactgac ------agagaacagaaaccaatgtgcagtcactgac -------agagaacagaaaccaatgtgcagtcactgac --------agagaacagaaaccaatgtgcagtcactgac ---------agagaacagaaaccaatgtgcagtcactgac 10

Optymalne dopasowanie 2 sekwencji aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt -agagaacagaaaccaaatgtgcagtcactgac --agagaacagaaaccaaatgtgcagtcactgac ---agagaacagaaaccaaatgtgcagtcactgac ----agagaacagaaaccaaatgtgcagtcactgac -----agagaacagaaaccaaatgtgcagtcactgac ------agagaacagaaaccaaatgtgcagtcactgac -------agagaacagaaaccaaatgtgcagtcactgac --------agagaacagaaaccaaatgtgcagtcactgac ---------agagaacagaaaccaaatgtgcagtcactgac Dopasowanie globalne obejmuje całą długość porównywanych sekwencji Dopasowanie lokalne 11

Dot-plot Narzędzie służące do wizualizacji wyników porównań może uwidocznić wiele rejonów podobieństwa lokalnego TASFEIDTQRIELSLWDTSG T* * * A * C L * * E * * T* * * E * * E * * Q * R * V E * * L * * S * * * L * * W * D * * T* * * S * * * G * ścieżka Dot-plot (word = 2) 12

Dot-plot (word = 4) Dot-plot (word = 10) 13

B A 14

Poszukiwanie najlepszego dopasowania sekwencji Metodę programowania dynamicznego można uznać za pewne zastosowanie metody dziel i zwyciężaj. Zasada dziel i zwyciężaj polega na tym,iż problem rozmiaru n zostaje podzielony na kilka podproblemów mniejszych rozmiarów w taki sposób, że z ich rozwiązań wynika rozwiązanie zasadniczego problemu. Programowanie dynamiczne polega więc na wykonaniu obliczeń każdego podproblemu tylko raz i zapamiętaniu jego wyniku w tabeli. W każdym kolejnym kroku można z tej tabeli korzystać. Programowanie dynamiczne jest zazwyczaj stosowane w rozwiązywaniu problemów optymalizacyjnych, prowadzi to często do wyznaczenia kilku równoznacznych, optymalnych rozwiązań. Poszukiwanie najlepszego dopasowania sekwencji programowanie dynamiczne Globalne: Needleman S.B. and Wunsch C.D. 1970. J. Mol. Biol. 48: 443-453 Lokalne: Smith T.F. and Waterman M.S. 1981. J. Mol. Biol. 147: 195-197 15

Obliczanie podobieństwa Obszar ułożenia ATTGTCAAAGACTTGAGCTGATGCAT GGCAGACATGA-CTGACAAGGGTATCG brak podobieństwa Mismatch przerwa S= S(podobieństw) - S(kar za przerwy) Podobne Nukleotydy / Aminokwasy Model substytucji nukleotydów A G C Tranzycje Transwersje T Często jednak Tr/Tv > 1 16

Podobne Nukleotydy / Aminokwasy Grupy aminokwasów M I L C SS V Y F W A T P C SH K H G R S D E N Q Polarne Małe Naładowane Hydrofobowe Alifatyczne Aromatyczne C 12 S 0 2 T -2 1 3 PAM250 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0-1 1 5 N -4 1 0-1 0 0 2 D -5 0 0-1 0 1 2 4 E -5 0 0-1 0 0 1 3 4 Q -5-1 -1 0 0-1 1 2 2 4 H -3-1 -1 0-1 -2 2 1 1 3 6 R -4 0-1 0-2 -3 0-1 -1 1 2 6 K -5 0 0-1 -1-2 1 0 0 1 0 3 5 M -5-2 -1-2 -1-3 -2-3 -2-1 -2 0 0 6 I -2-1 0-2 -1-3 -2-2 -2-2 -2-2 -2 2 5 L -6-3 -2-3 -2-4 -3-4 -3-2 -2-3 -3 4 2 6 V -2-1 0-1 0-1 -2-2 -2-2 -2-2 -2 2 4 2 4 F -4-3 -3-5 -4-5 -4-6 -5-5 -2-4 -5 0 1 2-1 9 Y 0-3 -3-5 -3-5 -2-4 -4-4 0-4 -4-2 -1-1 -2 7 10 W -8-2 -5-6 -6-7 -4-7 -7-5 -3 2-3 -4-5 -2-6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W 17

A 4 B -2 6 C 0-3 9 BLOSUM62 D -2 6-3 6 E -1 2-4 2 5 F -2-3 -2-3 -3 6 G 0-1 -3-1 -2-3 6 H -2-1 -3-1 0-1 -2 8 I -1-3 -1-3 -3 0-4 -3 4 K -1-1 -3-1 1-3 -2-1 -3 5 L -1-4 -1-4 -3 0-4 -3 2-2 4 M -1-3 -1-3 -2 0-3 -2 1-1 2 5 N -2 1-3 1 0-3 0 1-3 0-3 -2 6 P -1-1 -3-1 -1-4 -2-2 -3-1 -3-2 -2 7 Q -1 0-3 0 2-3 -2 0-3 1-2 0 0-1 5 R -1-2 -3-2 0-3 -2 0-3 2-2 -1 0-2 1 5 S 1 0-1 0 0-2 0-1 -2 0-2 -1 1-1 0-1 4 T 0-1 -1-1 -1-2 -2-2 -1-1 -1-1 0-1 -1-1 1 5 V 0-3 -1-3 -2-1 -3-3 3-2 1 1-3 -2-2 -3-2 0 4 W -3-4 -2-4 -3 1-2 -2-3 -3-2 -1-4 -4-2 -3-3 -2-3 11 X -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1 Y -2-3 -2-3 -2 3-3 2-1 -2-1 -1-2 -3-1 -2-2 -2-1 2-1 7 Z -1 2-4 2 5-3 -2 0-3 1-3 -2 0-1 2 0 0-1 -2-3 -1-2 5 A B C D E F G H I K L M N P Q R S T V W X Y Z Jakie są najistotniejsze parametry podczas wyszukiwania i oceniania podobieństwa pomiędzy daną sekwencją a sekwencjami w bazie danych? Tablica podobieństw Wielkość dopasowania Wielkość bazy danych 18

PAM256 oznacza że 256 AA uległo zmianie na odcinku 100 AA 1 2 3 4 5 6 7 8 9 10 Przodek 1* 2* 3 4* 5 6* 7* 8 9 10 Ogniwo Pośrednie 1* 2* 3 4* 5 6* 7* 8 9 10 Stan dzisiejszy 1* 2* 3 4* 5* 6* 7* 8 9 10 Stan dzisiejszy Szlaki przemian mutacyjnych Arg Lys dla arginin odmiennego pochodzenia Met AUG Arg AGG Lys AAG His CAC Asn AAC Pro CCC Arg CGC Ser AGC? Arg AGG Lys AAG Arg CGG Gln CAG Jacek Leluk ICM Warszawa 19