Porównywanie i dopasowywanie sekwencji

Podobne dokumenty
Porównywanie i dopasowywanie sekwencji

Dopasowanie sekwencji (sequence alignment)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PRZYRÓWNANIE SEKWENCJI

Dopasowania par sekwencji DNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Wykład 5 Dopasowywanie lokalne

Generator testów Bioinformatyka wer / 0 Strona: 1

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Przyrównywanie sekwencji

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Analizy filogenetyczne

Wstęp do Biologii Obliczeniowej

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Zmienność ewolucyjna. Ewolucja molekularna

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Statystyczna analiza danych

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Algorytmika dla bioinformatyki

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Samouczek: Konstruujemy drzewo

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Acknowledgement. Drzewa filogenetyczne

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Bioinformatyka Laboratorium, 30h. Michał Bereta

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Porównywanie sekwencji białkowych

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

PODSTAWY BIOINFORMATYKI

Bioinformatyczne bazy danych

Dopasowanie par sekwencji

Biologia medyczna, materiały dla studentów

Generator testów bioinformatyka wer / Strona: 1

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Badanie doboru naturalnego na poziomie molekularnym

Geny i działania na nich

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

3 Przeszukiwanie baz danych

Algorytmy genetyczne w optymalizacji

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Bioinformatyczne bazy danych

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Teoria ewolucji. Podstawy wspólne pochodzenie.

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Wybrane techniki badania białek -proteomika funkcjonalna

Podstawy teorii ewolucji. Informacja i ewolucja

Ewolucja informacji genetycznej

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Olimpiada Biologiczna

Algorytmy kombinatoryczne w bioinformatyce

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Podstawy biologii. Podstawy biologii molekularnej

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia niestacjonarne

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Porównywanie sekwencji białek i kwasów nukleinowych

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Mutacje jako źródło różnorodności wewnątrzgatunkowej

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Przybliżone algorytmy analizy ekspresji genów.

Wybrane techniki badania białek -proteomika funkcjonalna

MSA i analizy filogenetyczne

Motywy i podobieństwo

Mitochondrialna Ewa;

Transkrypt:

Porównywanie i dopasowywanie sekwencji

Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja molekularna za przedmiot swoich badań uznaje cząsteczki DNA i białek a jej celem jest scharakteryzowanie mechanizmów mutacji i selekcji zachodzących na poziomie sekwencji Analiza ewolucji molekularnej umożliwia porównywanie cząsteczek między różnymi gatunkami, co stanowi przewagę w stosunku do np. genetyki populacyjnej, która zajmuje się badaniem zróżnicowania genetycznego u osobników tego samego gatunku.

Filogenetyka to nauka wykorzystującą metody bioinformatyczne do analizy relacji ewolucyjnych na poziomie molekularnym Celem analizy filogenetycznej jest wysuwanie wniosków na temat tych relacji ewolucyjnych lub ich szacowanie. Filogenetyka molekularna obejmuje zestaw metod pozwalających wykorzystać informację zawartą w sekwencjach aminokwasowych lub nukleotydowych w celu odtworzenia historii ewolucyjnej, uwzględniając kolejność specjacji Historia ewolucyjna odtwarzana dzięki analizie filogenetycznej, jest zwykle przedstawiana w postaci rozgałęziających się diagramów przypominających drzewo i odzwierciedlających przypuszczalne zależności genealogiczne między cząsteczkami lub organizmami

Za umowny początek filogenetyki - badań nad ewolucją molekularną przyjmuje się rok 1965 kiedy to ukazał się artykuł Zuckerkandala i Paulinga demonstrujący tzw. drzewo filogenetyczne skonstruowane w oparciu o sekwencje białek.

HOMOLOGIA kluczowe pojęcie, w odniesieniu do ewolucji molekularnej homologia - obecność podobnych własności (czyli kolejności nukleotydów w DNA lub aminokwasów w białku) ze względu na pochodzenie od wspólnego przodka, rozbieżności między sekwencjami są wynikiem ich różnicowania się w toku ewolucji homologię określamy na podstawie obserwowanych podobieństw (przy czym homologia jest nieobserwowalna bezpośrednio, gdyż nie dysponujemy sekwencjami DNA lub białek przodków, ale potrafimy sobie wyobrazić jak takie sekwencje mogły wyglądać) homologia jest własnością binarną - nie ma stanów pośrednich

Sekwencje homologiczne mogą być: Ortologami jeśli ich ostatni wspólny przodek istniał w momencie specjacji tzn. ortologami nazwywamy homologiczne geny w różnych organizmach, które kodują białka pełniące tę samą funkcję i które ewoluują bezpośrednio z pokolenia na pokolenie

Występowanie ortologów w różnych organizmów jest wynikiem rozdzielenia się gatunków czyli specjacji

Sekwencje homologiczne mogą być też: paralogami jeśli ich ostatni wspólny przodek istniał w momencie duplikacji w tym samym organizmie tzn. paralogami są homologiczne geny w organizmie, które kodują białka o pokrewnych, ale nie identycznych funkcjach Paralogami nazywamy spokrewnione ewolucyjnie sekwencje z jednego organizmu, których linie ewolucyjne rozeszły się w wyniku duplikacji genu

Jak możemy zobaczyć ewolucję molekularną: Do wyznaczenia homologii konieczne jest porównywanie sekwencji poprzez wyznaczenie dopasowań par sekwencji lub wielu sekwencji jednocześnie Homologię obserwujemy na podstawie podobieństwa sekwencji Podobieństwo sekwencji ustalamy przez ich dopasowanie czyli alignment

Wyznaczanie homologii nie jest jedynym celem porównywania i dopasowywania sekwencji Po co jeszcze porównuje się sekwencje DNA i białek: z ciekawości - by dowiedzieć się czym jest nasza sekwencja i co zawiera w celu określenia jej przypuszczalnej funkcji poznać przybliżoną strukturę (białka) poznać położenie eksonów (DNA), lokalizacja domen funkcyjnych (białka)

Żeby móc pokazać np. ewolucję molekularną lub określić funkcję nowo poznanego odcinka DNA musimy dopasować sekwencje w dość wysublimowany sposób Dopasowanie (alignment) powinno być: liniowym przedstawieniem relacji pomiędzy sekwencjami z uwzględnieniem układu jeden-do-jednego pomiędzy resztami aminokwasowymi lub nukleotydami Z takiego założenia wynika specyfika dopasowania której największym wyzwaniem było: umieszczenie insercji i delecji (gaps) tak aby odzwierciedlały prawdziwe wydarzenia ewolucyjne

Algorytmy używane do porównywania i dopasowywania sekwencji dot matrix metoda okienkowa programowanie dynamiczne BLAST FASTA metody hierarchiczne wykorzystywane przede wszystkim dla dopasowań wielokrotnych w filogenetyce Wynik dopasowania uzyskiwany przy pomocy tych algorytmów dynamicznych pokazuje zarówno proste podobieństwo sekwencji jak również pozwala ustalić związki ewolucyjne pomiędzy nimi wyznaczyć homologię

Zasada algorytmów dynamicznych, które stały się podstawą narzędzi do poszukiwania podobieństwa w bazach danych polega na przesuwaniu jednej sekwencji nad drugą i obliczaniu najlepszego wyniku dopasowania Co jest składową wyniku podobieństwa (dopasowania)? Na ogólny wynik (współczynnika podobieństwa sekwencji) składają się: 1. współczynniki podobieństwa poszczególnych punktów porównania sekwencji (czyli np. pary nukleotydów lub aminokwasów) odczytywane z tzw. tablic podobieństwa 2. punktów (zwykle ujemne) wynikających z wstawienia przerwy i jej wydłużania (w jednej lub drugiej sekwencji), które obniżają końcowy wynik Wspólnym mianownikiem działania programów dynamicznych jest rozpoczęcie wyszukiwania podobieństwa od krótkich odcinków (słów) zadanej sekwencji nt lub aa

Tablice podobieństwa - punktacja podobieństwa na przykładzie porównywania i dopasowywania sekwencji białkowych Pierwsze tablice opierały się na podobieństwie fizyko-chemicznych właściwości 210 możliwych par aminokwasów (190 par różnych aminokwasów i 20 identycznych) tablice podobieństwa uwzględniały podobny charakter aminokwasów (np. I - L) i te pary mają wyższy współczynnik niż aminokwasy o różnym charakterze (np. alifatyczne i aromatyczne) Nowsze generacje tablic podobieństwa (obecnie w powszechnym użyciu) opierają się na obserwowanej częstości substytucji (zmiany jednego aminokwasu na drugi), w zależności od stopnia pokrewieństwa (częstość obserwowanych substytucji odzwierciedla najczęściej podobieństwo właściwości fizyko-chemicznych, ale także bierze pod uwagę mechanizmy ewolucji molekularnej) Najpopularniejszym schematem punktowania jest tablica opracowana przez Margaret Dayhoff i współpracowników (1978) PAM (Percentage of Acceptable point Mutations per 10 8 years) - oparta jest na modelu ewolucji białek blisko spokrewnionych: substytucje aminokwasów są wynikiem kolejnych mutacji w obrębie odpowiednich kodonów. Częstość zmian jednego aminokwasu na drugi, obserwowanych w obrębie porównania wielu sekwencji, jest dla każdego aminokwasu standaryzowana (przeliczana tak aby była uwzględniona częstość występowania tego aminokwasu we wszystkich sekwencjach bazy danych)

Zasady poszukiwania podobieństwa sekwencji w bazach danych za pomocą algorytmów dynamicznych 1. Nie interesuje nas ewolucja molekularna - celem jest znalezienie sekwencji podobnych, które mogą (ale nie muszą) być homologiczne, spokrewnione z sekwencją badaną 2. Należy porównać sekwencję sprawdzaną (kwerendę, zapytanie ang. query sequence) do każdej sekwencji w bazie danych (a wiadomo, że jest ich bardzo dużo!) 3. Większość z sekwencji w bazie nie jest podobna do sekwencji zapytania należy więc znaleźć sposób na ich szybkie odrzucenie w trakcie analizy 4. Przy porównywaniu/dopasowywaniu sekwencji nie muszą one być podobnej długości (to jest zaleta programowania dynamicznego

Rodzaje przeszukiwań baz danych w celu znalezienia podobnych sekwencji (tryby pracy algorytmów dynamicznych) nukleotydy do nukleotydów- niska czułość ze względu na 4-literowy alfabet (dobry sposób przy porównywaniu dużych sekwencji genomowych oraz porównaniach wstępnych) białko do białek- najlepiej dopracowane duża czułość nukleotydy do białek- zamienia nukleotydy na białko we wszystkich sześciu ramkach odczytu, służy do znajdowania homologicznych białek, dobrze spisuje się w przypadku genomów eukariotycznych Terminologia przy poszukiwaniu podobieństwa w bazach danych query (kwerenda, zapytanie)- sekwencja dla której chcemy znaleźć podobne sekwencje w bazie danych subject - sekwencja znaleziona w bazie (dopasowana do kwerendy, zwykle jest ich wiele)

Przybliżenia - algorytm FASTA Pierwszym powszechnie stosowanym programem do przeszukiwania baz stało się narzędzie oparte na algorytmie FASTA, stworzonym przez Pearsona i Lipmana (1985) a jego zasada polega na wyszukiwaniu najistotniejszych przekątnych analizy dot-plot. FASTA jest uważany za nieco wolniejszy od drugiego powszechnie używanego programu jakim jest BLAST, ale za to bardziej czuły i bardziej specyficzny

Etapy porównywania sekwencji programem FASTA W efekcie działania algorytmu FASTA uzyskujemy dopasowanie na całej (lub prawie całej) długości sekwencji, nawet jeśli wyznaczony wynik podobieństwa jest nieco niższy

BLAST ang. Basic Local Alignment Search Tool Znajduje najlepsze lokalne podobieństwa z sekwencją porównywaną BLAST dzieli zapytanie i sekwencje w bazie danych na fragmenty (słowa) i wyszukuje podobieństwo pomiędzy tymi fragmentami przy zastosowaniu określonej matrycy (tablicy podobieństwa) Takie słowa są następnie wydłużane w obie strony i tworzone jest dopasowanie jeśli wynik przekracza określoną wartość progową Wydłużenie zgodnego słowa - "najdroższy" obliczeniowo etap BLAST wydłużenie nie jest prowadzone do momentu gdy wyniki punktacji podobieństwa spadnie do zera lecz do osiągnięcia pewnego minimalnego progu punktacji poniżej którego lepiej (wg założeń tego algorytmu) jest przerwać dopasowanie...i np. zacząć go w innym miejscu BLAST zwiększył znacząco szybkość przeszukiwania baz danych nie zmniejszając jednocześnie w sposób istotny jego czułości

Etapy poszukiwania podobieństwa BLAST 1. podzielenie query na nakładające się słowa 2. przeszukanie bazy w celu znalezienia słów pokrewnych 3. wydłużenie dopasowania zaczynając od słowa pokrewnego 4. wykonanie lokalnego programowania dynamicznego 5. obliczenie statystyczne wartości wyniku tzw. E-value W efekcie działania algorytmu BLAST często uzyskujemy dopasowanie na bardzo krótkim odcinku sekwencji, a wyznaczony wynik podobieństwa jest bardzo wysoki