Motywy i podobieństwo

Podobne dokumenty
Dopasowanie sekwencji (sequence alignment)

PRZYRÓWNANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowania par sekwencji DNA

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Porównywanie i dopasowywanie sekwencji

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowanie par sekwencji

Porównywanie i dopasowywanie sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Wykład 5 Dopasowywanie lokalne

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Generator testów Bioinformatyka wer / 0 Strona: 1

Przyrównywanie sekwencji

Wstęp do Biologii Obliczeniowej

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Statystyczna analiza danych

Algorytmy kombinatoryczne w bioinformatyce

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Generator testów bioinformatyka wer / Strona: 1

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Wstęp do programowania

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Programowanie dynamiczne cz. 2

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wstęp do programowania

Bioinformatyka. Porównywanie sekwencji

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Programowanie dynamiczne

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU KSZTAŁT BIAŁEK.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Porównywanie sekwencji białkowych

Bioinformatyka II Modelowanie struktury białek

Schemat programowania dynamicznego (ang. dynamic programming)

Bioinformatyka II Modelowanie struktury białek

WIZUALIZACJA ALGORYTMÓW OPTYMALNEGO DOPASOWANIA SEKWENCJI NUKLEOTYDÓW I AMINOKWASÓW

Przegląd budowy i funkcji białek

Podstawy biologii. Informacja, struktura i metabolizm.

Projektowanie i analiza algorytmów

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Algorytmy i struktury danych.

Algorytmy i Struktury Danych

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Podstawy bioinformatyki dla biotechnologów

TEORETYCZNE PODSTAWY INFORMATYKI

Programowanie dynamiczne (optymalizacja dynamiczna).

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Informacje. W sprawach organizacyjnych Slajdy z wykładów

Wstęp do programowania

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Zaawansowane algorytmy i struktury danych

Homologia, podobieństwo i analogia

Strategia "dziel i zwyciężaj"

Filogenetyka. Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

D: Dopasowanie sekwencji. Programowanie dynamiczne

3 Przeszukiwanie baz danych

Hierarchiczna analiza skupień

Chemiczne składniki komórek

(13) B1 PL B1. Hoechst Aktiengesellschaft, Frankfurt nad Menem, DE. Gugała Barbara, PATPOL Spółka z o. o.

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Programowanie Współbieżne. Algorytmy

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Programowanie dynamiczne

Wydział Matematyki. Testy zgodności. Wykład 03

MSA i analizy filogenetyczne

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

W kierunku równoległej implementacji pakietu T-Coffee

FILOGENETYKA. Bioinformatyka,, wykład 7 (29.XI.2007)

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Algorytmy sortujące. sortowanie kubełkowe, sortowanie grzebieniowe

Programowanie celowe #1

Technologia informacyjna Algorytm Janusz Uriasz

Dobór parametrów algorytmu ewolucyjnego

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Badanie doboru naturalnego na poziomie molekularnym

Transkrypt:

Motywy i podobieństwo Całość funkcja Modularna budowa białek Elementy składowe czyli miejsca wiązania, domeny 1

Motywy Motyw jest opisem określonej części trójwymiarowej struktury zawierającym charakterystyczny wzór sekwencji. Motywy identyfikuje się poprzez: Porównanie trójwymiarowych struktur, Porównanie wielu sekwencji, Zastosowanie programu do wyszukiwania wzorów sekwencyjnych. Motywy Motywy to rejony podobieństwa wyróżnione w oparciu o porównanie wielu sekwencji. Motyw Insercje 2

Konsensus Zapis sekwencji nukleotydów lub aminokwasów występujących w danym miejscu z największym prawdopodobieństwem, w oparciu o porównanie wielu sekwencji. Y D G G A V - E A L Y D G G - - - E A L F E G G I L V E A L F D - G I L V Q A V Y E G G A V V Q A L y d G G ai vl V e A L Wady: bez alternatywnych pozycji, stała długość. Reguła wzór (Regular Expressions) C-x(2,5)-C-x-[GP]-x-P-x(2,5)-C Cysteina, następnie 2-5 dowolne aminokwasy, następnie cysteina, następnie dowolny aa, następnie glicyna lub prolina, dowolny aa, prolina, następnie 2-5 dowolne aminokwasy i cysteina). Wzór może zawierać: Rejony o zmiennej długości Alternatywne AA/NTP CXXXCXGXPXXXXXC FGCAKLCAGFPLRRLPCFYG Wzór nie może zawierać: Przerw Pomyłek CXXCXGXPXXXXX-C? FGCA-CAGFPLRRLPKCFYG 3

Wzory opierają się zwykle na aminokwasach, które bezwzględnie występują na określonych pozycjach w sekwencji (regular expressions). Można również budować wzory w oparciu o aminokwasy o zbliżonych właściwościach fizykochemicznych (fuzzy regular expressions). Profil: dokładniejszy konsensus Macierz profilu: Profil (częstość występowania) aminokwasu w określonym miejscu sekwencji. Bardziej czuły przy mniej podobnych sekwencjach. Trudniejszy dla komputera. 4

Tworzenie macierzy profilu A 2 3 C 0 0 D 0 0 E 0 0 F 0 0 G 0 0 H 0 0 I 0 3 K 0 0 L 0 2 M 0 0 N 0 0 P 0 0 Q 0 0 R 0 0 S 0 0 T 0 0 V 1 4 W 2 0 Y 7 0 I tak dalej... YVTVQHKKLRTPL YVTVQHKKLRTPL YVTVQHKKLRTPL AATMKFKKLRHPL AATMKFKKLRHPL YIFATTKSLRTPA VATLRYKKLRQPL YIFGGTKSLRTPA WVFSAAKSLRTPS WIFSTSKSLQTPA YLFSKTKSLQTPA YLFSKTKSLQTPA Tak więc do opisu fragmentu sekwencji używamy określeń: Motyw Domena Element Box Signal (sygnał) Tag (etykieta) Signature (podpis) Pattern (wzór) Konsensus Regular expression (wzór) Profil Blok 5

Co to jest podobieństwo? Podobieństwo to coś co widzimy Czy te sekwencje są podobne? veracinnenkmeninclnnemeteneni nareidsdrafmeterafstandichefs laglinksvlgeniaafwendenidschi nrechtsenlinksnaardemiddellin eenhalthdenmetertssenrimtegre talleendecmmandantveracinnenk meninclnnemeteneninareidsdraf meterafstandmarshefslaglinksv lgenaafwendendschinrechtsenli nksenpdeelinhalthdenmetertsse nrimtevanafderechtervlegelmet enenvrwaartsinareidsdrafricht inggpnylengteafstandchefslagr echtsvlgenkhgerkenlinmetenenv rwaartsinareidsdrafpnylengtea fstandrichtinggmarshefslagrec htsvlgengerkenlinhfdderclnnei dichefslaglinksvlgeniaafwende nidschinrechtsenlinksnaardemi ddellineenhalthdenmetertssenr imtegretalleendecmmandantvera cinnenkmeninclnnemeteneninare idsdrafmeterafstandmarshefsla glinksvlgenaafwendendschinrec htsenlinksenpdeelinhalthdenme tertssenrimtevanafderechtervl egelmetenenvrwaartsinareidsdr africhtinggpnylengteafstandch efslagrechtsvlgenkhgerkenlinm etenenvrwaartsinareidsdrafpny lengteafstandrichtinggmarshef slagrechtsvlgengerkenlinhfdde rclnneicafwendenenplincameten envlteshalveaanrechtsiahefsla 6

Czy te struktury są podobne? Podobieństwo to wielkość obserwowalna, którą można określić np. jako % identycznych aminokwasów. Homologia określa wspólne pochodzenie porównywanych genów (to może być wniosek wyciągnięty z analizy podobieństwa) Tak więc nie ma stopni homologii geny albo są albo nie są homologiczne 7

Identyczny gdy ta sama cecha występuje w dwóch gatunkach lub populacjach Podobny - to stopień występowania identyczności między dwoma gatunkami lub populacjami Homologiczny/homolog gdy podobieństwo wynika ze wspólnego pochodzenia Analogiczny/analog gdy podobieństwo cech wynika z ewolucji konwergentnej Ortologiczny/ortolog gdy występuje homologia i funkcja jest zakonserwowana Paralogiczny/paralog gdy występuje homologia ale funkcje są odmienne sekwencji podobieństwo funkcji podobieństwo funkcji podobieństwo sekwencji 8

Porównywanie sekwencji: 1. Sequence alignment = ułożenie sekwencji lub uliniowienie sekwencji lub dopasowanie sekwencji 2. Similarity scoring = Oszacowanie poziomu podobieństwa dopasowanych sekwencji i istotności tego parametru Optymalne dopasowanie 2 sekwencji 9

Optymalne dopasowanie 2 sekwencji Optymalne dopasowanie 2 sekwencji aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt -agagaacagaaaccaatgtgcagtcactgac --agagaacagaaaccaatgtgcagtcactgac ---agagaacagaaaccaatgtgcagtcactgac ----agagaacagaaaccaatgtgcagtcactgac -----agagaacagaaaccaatgtgcagtcactgac ------agagaacagaaaccaatgtgcagtcactgac -------agagaacagaaaccaatgtgcagtcactgac --------agagaacagaaaccaatgtgcagtcactgac ---------agagaacagaaaccaatgtgcagtcactgac 10

Optymalne dopasowanie 2 sekwencji aaatagccagagaacagaaaccaatgtgcagtcactgacacacttgaccagtt -agagaacagaaaccaaatgtgcagtcactgac --agagaacagaaaccaaatgtgcagtcactgac ---agagaacagaaaccaaatgtgcagtcactgac ----agagaacagaaaccaaatgtgcagtcactgac -----agagaacagaaaccaaatgtgcagtcactgac ------agagaacagaaaccaaatgtgcagtcactgac -------agagaacagaaaccaaatgtgcagtcactgac --------agagaacagaaaccaaatgtgcagtcactgac ---------agagaacagaaaccaaatgtgcagtcactgac Dopasowanie globalne obejmuje całą długość porównywanych sekwencji Dopasowanie lokalne 11

Dot-plot Narzędzie służące do wizualizacji wyników porównań może uwidocznić wiele rejonów podobieństwa lokalnego TASFEIDTQRIELSLWDTSG T* * * A * C L * * E * * T* * * E * * E * * Q * R * V E * * L * * S * * * L * * W * D * * T* * * S * * * G * ścieżka Dot-plot (word = 2) 12

Dot-plot (word = 4) Dot-plot (word = 10) 13

B A 14

Poszukiwanie najlepszego dopasowania sekwencji Metodę programowania dynamicznego można uznać za pewne zastosowanie metody dziel i zwyciężaj. Zasada dziel i zwyciężaj polega na tym,iż problem rozmiaru n zostaje podzielony na kilka podproblemów mniejszych rozmiarów w taki sposób, że z ich rozwiązań wynika rozwiązanie zasadniczego problemu. Programowanie dynamiczne polega więc na wykonaniu obliczeń każdego podproblemu tylko raz i zapamiętaniu jego wyniku w tabeli. W każdym kolejnym kroku można z tej tabeli korzystać. Programowanie dynamiczne jest zazwyczaj stosowane w rozwiązywaniu problemów optymalizacyjnych, prowadzi to często do wyznaczenia kilku równoznacznych, optymalnych rozwiązań. Poszukiwanie najlepszego dopasowania sekwencji programowanie dynamiczne Globalne: Needleman S.B. and Wunsch C.D. 1970. J. Mol. Biol. 48: 443-453 Lokalne: Smith T.F. and Waterman M.S. 1981. J. Mol. Biol. 147: 195-197 15

Obliczanie podobieństwa Obszar ułożenia ATTGTCAAAGACTTGAGCTGATGCAT GGCAGACATGA-CTGACAAGGGTATCG brak podobieństwa Mismatch przerwa S= S(podobieństw) - S(kar za przerwy) Podobne Nukleotydy / Aminokwasy Model substytucji nukleotydów A G C Tranzycje Transwersje T Często jednak Tr/Tv > 1 16

Podobne Nukleotydy / Aminokwasy Grupy aminokwasów M I L C SS V Y F W A T P C SH K H G R S D E N Q Polarne Małe Naładowane Hydrofobowe Alifatyczne Aromatyczne C 12 S 0 2 T -2 1 3 PAM250 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0-1 1 5 N -4 1 0-1 0 0 2 D -5 0 0-1 0 1 2 4 E -5 0 0-1 0 0 1 3 4 Q -5-1 -1 0 0-1 1 2 2 4 H -3-1 -1 0-1 -2 2 1 1 3 6 R -4 0-1 0-2 -3 0-1 -1 1 2 6 K -5 0 0-1 -1-2 1 0 0 1 0 3 5 M -5-2 -1-2 -1-3 -2-3 -2-1 -2 0 0 6 I -2-1 0-2 -1-3 -2-2 -2-2 -2-2 -2 2 5 L -6-3 -2-3 -2-4 -3-4 -3-2 -2-3 -3 4 2 6 V -2-1 0-1 0-1 -2-2 -2-2 -2-2 -2 2 4 2 4 F -4-3 -3-5 -4-5 -4-6 -5-5 -2-4 -5 0 1 2-1 9 Y 0-3 -3-5 -3-5 -2-4 -4-4 0-4 -4-2 -1-1 -2 7 10 W -8-2 -5-6 -6-7 -4-7 -7-5 -3 2-3 -4-5 -2-6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W 17

A 4 B -2 6 C 0-3 9 BLOSUM62 D -2 6-3 6 E -1 2-4 2 5 F -2-3 -2-3 -3 6 G 0-1 -3-1 -2-3 6 H -2-1 -3-1 0-1 -2 8 I -1-3 -1-3 -3 0-4 -3 4 K -1-1 -3-1 1-3 -2-1 -3 5 L -1-4 -1-4 -3 0-4 -3 2-2 4 M -1-3 -1-3 -2 0-3 -2 1-1 2 5 N -2 1-3 1 0-3 0 1-3 0-3 -2 6 P -1-1 -3-1 -1-4 -2-2 -3-1 -3-2 -2 7 Q -1 0-3 0 2-3 -2 0-3 1-2 0 0-1 5 R -1-2 -3-2 0-3 -2 0-3 2-2 -1 0-2 1 5 S 1 0-1 0 0-2 0-1 -2 0-2 -1 1-1 0-1 4 T 0-1 -1-1 -1-2 -2-2 -1-1 -1-1 0-1 -1-1 1 5 V 0-3 -1-3 -2-1 -3-3 3-2 1 1-3 -2-2 -3-2 0 4 W -3-4 -2-4 -3 1-2 -2-3 -3-2 -1-4 -4-2 -3-3 -2-3 11 X -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1 Y -2-3 -2-3 -2 3-3 2-1 -2-1 -1-2 -3-1 -2-2 -2-1 2-1 7 Z -1 2-4 2 5-3 -2 0-3 1-3 -2 0-1 2 0 0-1 -2-3 -1-2 5 A B C D E F G H I K L M N P Q R S T V W X Y Z Jakie są najistotniejsze parametry podczas wyszukiwania i oceniania podobieństwa pomiędzy daną sekwencją a sekwencjami w bazie danych? Tablica podobieństw Wielkość dopasowania Wielkość bazy danych 18

PAM256 oznacza że 256 AA uległo zmianie na odcinku 100 AA 1 2 3 4 5 6 7 8 9 10 Przodek 1* 2* 3 4* 5 6* 7* 8 9 10 Ogniwo Pośrednie 1* 2* 3 4* 5 6* 7* 8 9 10 Stan dzisiejszy 1* 2* 3 4* 5* 6* 7* 8 9 10 Stan dzisiejszy Szlaki przemian mutacyjnych Arg Lys dla arginin odmiennego pochodzenia Met AUG Arg AGG Lys AAG His CAC Asn AAC Pro CCC Arg CGC Ser AGC? Arg AGG Lys AAG Arg CGG Gln CAG Jacek Leluk ICM Warszawa 19