Porównywanie i dopasowywanie sekwencji

Podobne dokumenty
Porównywanie i dopasowywanie sekwencji

Dopasowanie sekwencji (sequence alignment)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowania par sekwencji DNA

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PRZYRÓWNANIE SEKWENCJI

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Wykład 5 Dopasowywanie lokalne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Generator testów Bioinformatyka wer / 0 Strona: 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Wstęp do Biologii Obliczeniowej

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Przyrównywanie sekwencji

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Analizy filogenetyczne

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Samouczek: Konstruujemy drzewo

Porównywanie sekwencji białkowych

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Dopasowanie par sekwencji

PODSTAWY BIOINFORMATYKI

Statystyczna analiza danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

3 Przeszukiwanie baz danych

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Algorytmika dla bioinformatyki

Zmienność ewolucyjna. Ewolucja molekularna

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Biologia medyczna, materiały dla studentów

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Generator testów bioinformatyka wer / Strona: 1

Algorytmy genetyczne w optymalizacji

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Algorytmy kombinatoryczne w bioinformatyce

Acknowledgement. Drzewa filogenetyczne

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Teoria ewolucji. Podstawy wspólne pochodzenie.

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia niestacjonarne

Bioinformatyczne bazy danych

Geny i działania na nich

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Motywy i podobieństwo

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Wybrane techniki badania białek -proteomika funkcjonalna

Badanie doboru naturalnego na poziomie molekularnym

Wybrane techniki badania białek -proteomika funkcjonalna

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Bioinformatyka. Porównywanie sekwencji

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia stacjonarne i niestacjonarne

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

MSA i analizy filogenetyczne

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Bioinformatyczne bazy danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Bioinformatyka II Modelowanie struktury białek

Ewolucja informacji genetycznej

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Podstawy teorii ewolucji. Informacja i ewolucja

Porównywanie sekwencji białek i kwasów nukleinowych

Transkrypt:

Porównywanie i dopasowywanie sekwencji

Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek narodziła się nowa dyscyplina nauki ewolucja molekularna Ewolucja molekularna za przedmiot swoich badań uznaje cząsteczki DNA i białek a jej celem jest scharakteryzowanie mechanizmów mutacji i selekcji zachodzących na poziomie sekwencji. W ewolucji molekularnej nacisk kładzie się na porównywanie cząsteczek między różnymi gatunkami, co stanowi przewagę w stosunku do np. genetyki populacyjnej, która zajmuje się badaniem zróżnicowania genetycznego u osobników tego samego gatunku.

Filogenetyka to nauka wykorzystującą metody bioinformatyczne do analizy relacji ewolucyjnych na poziomie molekularnym Celem analizy filogenetycznej jest wysuwanie wniosków na temat tych relacji ewolucyjnych lub ich szacowanie. Filogenetyka molekularna obejmuje zestaw metod pozwalających wykorzystać informację zawartą w sekwencjach aminokwasowych lub nukleotydowych w celu odtworzenia historii ewolucyjnej, uwzględniając kolejność specjacji. Historia ewolucyjna odtwarzana dzięki analizie filogenetycznej, jest zwykle przedstawiana w postaci rozgałęziających się diagramów przypominających drzewo i odzwierciedlających przypuszczalne zależności genealogiczne między cząsteczkami lub organizmami.

Nic w bioinformatyce nie ma sensu, jeśli rozpatrywane jest w oderwaniu od ewolucji Za umowny początek filogenetyki - badań nad ewolucją molekularną przyjmuje się rok 1965 kiedy to ukazał się artykuł Zuckerkandala i Paulinga demonstrujący tzw. drzewo filogenetyczne skonstruowane w oparciu o sekwencje białek. T. Dobzhansky powiedział kiedyś: Nic w biologii nie ma sensu, jeśli rozpatrywane jest w oderwaniu od ewolucji

HOMOLOGIA kluczowe pojęcie, w odniesieniu do ewolucji molekularnej homologia - obecność podobnych własności ze względu na pochodzenie od wspólnego przodka, a rozbieżności między nimi są wynikiem ich różnicowania się w toku ewolucji homologię określamy na podstawie obserwowanych podobieństw homologia jest własnością binarną - nie ma stanów pośrednich homologia jest nieobserwowalna bezpośrednio, gdyż nie jesteśmy w stanie zaobserwować organizmów lub cząsteczek przodka

homologia - obecność podobnych własności ze względu na pochodzenie od wspólnego przodka, tj. jeśli związki między nimi są wynikiem ich różnicowania się w toku ewolucji

Sekwencje homologiczne mogą być: ortologami jeśli ich ostatni wspólny przodek istniał w momencie specjacji tzn. ortologami nazwywamy np. homologiczne geny w różnych organizmach, które kodują białka pełniące tę samą funkcję i które ewoluują bezpośrednio z pokolenia na pokolenie

Występowanie ortologów w różnych organizmów jest wynikiem rozdzielenia się gatunków czyli specjacji

Sekwencje homologiczne mogą być też: paralogami jeśli ich ostatni wspólny przodek istniał w momencie duplikacji w tym samym organizmie tzn. paralogami są homologiczne geny w organizmie, które kodują białka o pokrewnych, ale nie identycznych funkcjach Paralogami nazywamy spokrewnione ewolucyjnie sekwencje z jednego organizmu, których linie ewolucyjne rozeszły się w wyniku duplikacji genu.

Jak możemy zobaczyć ewolucję molekularną: Podstawową i najczęściej stosowana procedurą w bioinformatyce jest porównywanie sekwencji poprzez wyznaczenie dopasowań par sekwencji lub wielu sekwencji jednocześnie Homologię obserwujemy na podstawie podobieństwa sekwencji Podobieństwo sekwencji ustalamy przez ich dopasowanie czyli alignment

Wyznaczanie homologii nie jest jedynym celem porównywania i dopasowywania sekwencji Po co porównywać sekwencje: w celu wyznaczenia homologii czyli określenia jak przebiegała ewolucja naszej cząsteczki z ciekawości - by dowiedzieć się czym jest nasza sekwencja i co zawiera w celu określenia jej przypuszczalnej funkcji poznać przybliżoną strukturę (białka) poznać położenie eksonów (DNA), lokalizacja domen funkcyjnych (białka)

Rodzaje dopasowań (alignmentów) Pokrycie sekwencji : globalny (wszystkie elementy sekwencji są dopasowane) lokalny (tylko fragmenty sekwencji są dopasowane) Liczba dopasowywanych sekwencji : dwie (Pairwise Sequence Alignment) więcej niż dwie (Multiple Sequence Alignment) Możemy dopasowywać oczywiście sekwencje nukleotydowe aminokwasowe

Żeby móc pokazać np. ewolucję molekularną lub określić funkcję nowo poznanego odcinka DNA musimy dopasować sekwencje w dość wysublimowany sposób dopasowanie (alignment) powinno być: liniowym przedstawieniem relacji pomiędzy sekwencjami z uwzględnieniem układu jeden-do-jednego pomiędzy resztami aminokwasowymi lub nukleotydami Specyfika dopasowania umieszczenie insercji i delecji (gaps) tak aby odzwierciedlały prawdziwe wydarzenia ewolucyjne największe wyzwanie algorytmów

Algorytmy używane do porównywania i dopasowywania sekwencji dot matrix metoda okienkowa programowanie dynamiczne BLAST FASTA metody hierarchiczne wykorzystywane przede wszystkim dla dopasowań wielokrotnych w filogenetyce

Zasada algorytmów dynamicznych, które stały się podstawą narzędzi do poszukiwania podobieństwa w bazach danych polega na przesuwaniu jednej sekwencji nad drugą i obliczaniu najlepszego wyniku dopasowania Co jest składową wyniku podobieństwa? Do ogólnego wyniku (współczynnika podobieństwa sekwencji) dodawane są 1. współczynniki podobieństwa poszczególnych punktów porównania sekwencji (czyli np. pary nukleotydów lub aminokwasów) odczytywane z tzw. tablic podobieństwa 2. punktów (zwykle ujemne) wynikających z wstawienia przerwy i jej wydłużania (w jednej lub drugiej sekwencji), które obniżają końcowy wynik

Tablice podobieństwa Punktacja podobieństwa na przykładzie porównywania i dopasowywania sekwencji białkowych Wszystkie algorytmy porównujące sekwencje białkowe opierają się na współczynnikach podobieństwa dla wszystkich 210 możliwych par aminokwasów (190 par różnych aminokwasów i 20 identycznych). Pierwsze tablice opierały się właśnie na takim podobieństwie fizykochemicznych właściwości danych aminokwasów. tablice podobieństwa uwzględniają podobny charakter aminokwasów (np. I - L) i te pary mają wyższy współczynnik niż aminokwasy o różnym charakterze.

Nowsze generacje tablic podobieństwa (obecnie w powszechnym użyciu) opierają się na obserwowanej częstości substytucji (zmiany jednego aminokwasu na drugi), w zależności od stopnia pokrewieństwa. Oczywiście częstość obserwowanych substytucji odzwierciedla najczęściej podobieństwo właściwości fizyko-chemicznych, ale także bierze pod uwagę mechanizmy ewolucji molekularnej. Najpopularniejszym schematem punktowania jest tablica opracowana przez Margaret O. Dayhoff i współpracowników (1978)

Tablice podobieństwa Dayhoff Oparta jest ona na modelu ewolucji białek blisko spokrewnionych - substytucje aminokwasów są wynikiem kolejnych mutacji w obrębie odpowiednich kodonów. Częstość zmian jednego aminokwasu na drugi, obserwowanych w obrębie porównania wielu sekwencji, była dla każdego aminokwasu standaryzowana (przeliczana tak aby była uwzględniona częstość występowania tego aminokwasu we wszystkich sekwencjach bazy danych). Tak otrzymane dane zostały jeszcze skorygowane o prawdopodobieństwo wystąpienia akceptowalnej mutacji w określonym czasie ewolucji - PAM (Percentage of Acceptable point Mutations per 10 8 years) czyli są specyficzne dla określonego dystansu filogenetycznego Co to znaczy? Przy dystansie filogenetycznym określanym jako 256 PAM, podobieństwo sekwencji leży blisko granicy jego wykrycia (ok. 80% aminokwasów zmienionych) Jones i inni (1992), opierając się o dużo nowsze dane uaktualnili tablice Dayhoff i stworzyli tablice PET91. Jako że tablice PET91 obliczane są w podobny sposób jak tablice Dayhoff to analogicznie można je stosować przy różnych dystansach filogenetycznych PAM

Zasady poszukiwania podobieństwa sekwencji w bazach danych za pomocą algorytmów dynamicznych Pierwsza podstawowa zasada: Przy przeszukiwaniu baz danych stworzenie precyzyjnego dopasowania dwu sekwencji i wyznaczenie homologii nie jest celem samym w sobie (choć efekt przeszukiwania obserwujemy w postaci serii dopasowań dwu sekwencji pokazanych jako rankigowa lista trafień) - celem jest znalezienie sekwencji podobnych, które mogą (ale nie muszą) być homologiczne, spokrewnione z naszą - badaną,

Zasady poszukiwania podobieństwa sekwencji w bazach danych c.d. Drugą podstawową zasadą przeszukiwania bazy danych jest porównanie sekwencji sprawdzanej (kwerendy, zapytania - query sequence) do każdej sekwencji w bazie danych (których jest baaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaardzo duuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuużo Trzecie założenie - większość z sekwencji w bazie jest niepodobnych do sekwencji porównywanej należy więc znaleźć sposób na odrzucenie tych sekwencji Czwarte założenie - przy dopasowywaniu sekwencji nie muszą one być podobnej długości (to jest zaleta programowania dynamicznego)

Rodzaje przeszukiwań baz danych w celu znalezienia podobnych sekwencji nukleotydy do nukleotydów- niska czułość ze względu na 4-literowy alfabet i zazwyczaj jest używana jedynie matryca identyczności dobra przy porównywaniu dużych sekwencji genomowych oraz porównaniach wstępnych białko do białek- najlepiej dopracowane duża czułość nukleotydy do białek- zamienia nukleotydy na białko we wszystkich sześciu ramkach odczytu, służy do znajdowania homologicznych białek, dobrze spisuje się w przypadku genomów eukariotycznych Terminologia przy poszukiwaniu podobieństwa w bazach danych query (kwerenda, zapytanie)- sekwencja dla której chcemy znaleźć podobne sekwencje w bazie danych subject - sekwencja znaleziona w bazie (dopasowana do kwerendy, zwykle jest ich wiele)

Algorytmy do przeszukiwania baz danych: Jednym z pierwszych był algorytm Smith a i Waterman a (1981) w programie BLITZ, który dołączał do wyniku statystyczną istotność porównania. Dziś w powszechnym użyciu są dwa podstawowe narzędzia (algorytmy): FASTA BLAST Ich wspólnym mianownikiem jest rozpoczęcie wyszukiwania podobieństwa od krótkich odcinków zadanej sekwencji nt lub aa

Przybliżenia - algorytm FASTA Pierwszym powszechnie stosowanym programem do przeszukiwania baz stało się narzędzie oparte na algorytmie FASTA, stworzonym przez Pearsona i Lipmana (1985) a jego zasada polega na wyszukiwaniu najistotniejszych przekątnych analizy dot-plot.

Poszczególne etapy porównywania sekwencji programem FASTA. Początkowy etap polega na identyfikacji wszystkich identycznych odcinków dwóch sekwencji o długości k (k-tuples) i poszukiwaniu tych, które leżą na tej samej przekątnej.

FASTA - podsumowanie Oszacowuje istotność statystyczną otrzymanego alignmentu poprzez porównanie dystrybucji punktacji z białkami prawdziwie niehomologicznymi Co może być mylące dla tego algorytmu? niezwykła kompozycja sekwencji sekwencje transbłonowe sekwencje powtarzalne FASTA jest uważany za nieco wolniejszy od drugiego powszechnie używanego programu jakim jest BLAST, ale za to bardziej czuły i bardziej specyficzny (w zależności od ustawionych parametrów).

Program sugeruje wybór najlepszej bazy danych oraz formę uzyskania wyniku w zależności od wybranego algorytmu

Trafienia uszeregowane w rankig wyników

Drugi szeroko używany program do wyszukiwania podobieństw - BLAST Basic Local Alignment Search Tool Znajduje najlepsze lokalne podobieństwa z sekwencją porównywaną

Algorytm BLAST BLAST zwiększył znacząco szybkość przeszukiwania baz danych nie zmniejszając jednocześnie w sposób istotny jego czułości poprzez podział query i sekwencji w bazie danych na fragmenty - słowa ("words"), i początkowym wyszukiwaniu podobieństw pomiędzy tymi fragmentami przy zastosowaniu określonej matrycy podstawień. Takie słowa są następnie wydłużane w obie strony i tworzony jest alignment jeśli wynik przekracza określoną wartość progową (threshold)

Poszczególne etapy poszukiwania podobieństwa bez przerw programem BLAST. 1. podzielenie query na nakładające się słowa 2. przeszukanie bazy w celu znalezienia słów pokrewnych 3. wydłużenie alignmentu zaczynając od słowa pokrewnego 4. wykonanie lokalnego programowania dynamicznego 5. obliczenie statystyczne wartości wyniku tzw. E-value

Wydłużenie zgodnego słowa "najdroższy" obliczeniowo etap BLASTa wydłużenie nie jest prowadzone do momentu gdy wyniki punktacji (score) spadnie do zera lecz do osiągnięcia pewnego minimalnego progu punktacji poniżej którego lepiej (dla BLASTA) jest przerwać dopasowanie (...i np. zacząć w innym miejscu)