Dopasowania par sekwencji DNA

Podobne dokumenty
Wykład 5 Dopasowywanie lokalne

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Porównywanie i dopasowywanie sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowanie sekwencji (sequence alignment)

Porównywanie i dopasowywanie sekwencji

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka. Porównywanie sekwencji

Dopasowanie par sekwencji

Przyrównywanie sekwencji

Porównywanie sekwencji białkowych

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wstęp do Biologii Obliczeniowej

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Generator testów Bioinformatyka wer / 0 Strona: 1

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

3 Przeszukiwanie baz danych

Statystyczna analiza danych

Motywy i podobieństwo

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Wstęp do programowania

Homologia, podobieństwo i analogia

Wstęp do Sztucznej Inteligencji

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Wstęp do programowania

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Bioinformatyczne bazy danych

Bioinformatyka wykład 8, 27.XI.2012

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka: Wykład 2. Algorytm Smitha Watermana implementacja w języku Python

Metody bioinformatyki (MBI) projekt, dokumentacja końcowa

Bioinformatyczne bazy danych

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

WIZUALIZACJA ALGORYTMÓW OPTYMALNEGO DOPASOWANIA SEKWENCJI NUKLEOTYDÓW I AMINOKWASÓW

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

W poszukiwaniu sensu w świecie widzialnym

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka wykład 10

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Algorytmy kombinatoryczne w bioinformatyce

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Bioinformatyka wykład 3.I.2008

Samouczek: Konstruujemy drzewo

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Wstęp do Sztucznej Inteligencji

Część I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3)

Algorytmy ewolucyjne NAZEWNICTWO

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Elementy Modelowania Matematycznego

Podstawy bioinformatyki dla biotechnologów

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

ĆWICZENIE 1: Przeszukiwanie grafów cz. 1 strategie ślepe

LABORATORIUM 3: Wpływ operatorów krzyżowania na skuteczność poszukiwań AE

Wstęp do programowania

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

INFORMATYKA POZIOM PODSTAWOWY

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Programowanie celowe #1

LABORATORIUM 2: Wpływ wielkości populacji i liczby pokoleń na skuteczność poszukiwań AE. opracował: dr inż. Witold Beluch

Przegladarka genomów z funkcja wydajnego dopasowania sekwencji

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

SZTUCZNA INTELIGENCJA

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

Katedra Informatyki Stosowanej. Algorytmy ewolucyjne. Inteligencja obliczeniowa

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD III: Problemy agenta

Modele całkowitoliczbowe zagadnienia komiwojażera (TSP)

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Analizy filogenetyczne

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Wyróżniamy dwa typy zadań projektowych.

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Porównywanie sekwencji białek i kwasów nukleinowych






Transkrypt:

Dopasowania par sekwencji DNA

Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA ACTACTAGATTACGGATCGTACTTTAGAGGCTAGCAACCA

Dopasowanie globalne (algorytm Needlemana-Wunscha) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46. 1 ACTACTAGA----TTACGGATC--GTACTTTAGAGGCTAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTT-GCAACCA 46 1 ACTACTAGA-T--T-ACGGATC-G-TACTTTAGAGGC-TAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46..... 1 ACTACTAGATTACGGA------TCGTACTTTAGAGGCTAGCAACCA 40 Dopasowanie lokalne (algorytm Smitha-Watermana) 25 GTACTTTAGAGGCTTGCAACCA 46. 19 GTACTTTAGAGGCTAGCAACCA 40

Dopasowanie globalne (algorytm Needlemana-Wunscha) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46. 1 ACTACTAGA----TTACGGATC--GTACTTTAGAGGCTAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTT-GCAACCA 46 1 ACTACTAGA-T--T-ACGGATC-G-TACTTTAGAGGC-TAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46..... 1 ACTACTAGATTACGGA------TCGTACTTTAGAGGCTAGCAACCA 40 Dopasowanie lokalne (algorytm Smitha-Watermana) 25 GTACTTTAGAGGCTTGCAACCA 46. 19 GTACTTTAGAGGCTAGCAACCA 40

Obliczanie punktacji za uzyskane dopasowanie par sekwencji A T C G - - G C C A. A T C G A A G C T A dopasowanie (match) przerwa (gap) niedopasowanie (mismatch) Przykładowy system punktacji: match = +3 mismatch = -1 gap = -5 score = 3+3+3+3-5-5+3+3-1+3 = 10

Problem kilku dopasowań o identycznej punktacji dla tej samej pary sekwencji G G A A T G G - - - A T G - G G A A T G G - - A - T G - Stosując system punktacji z poprzedniego przykładu oblicz score dla powyższych dopasowań. Możliwe rozwiązania: -ignorowanie end gaps -afiniczny system kar za przerwy ( affine gap penalties ) gap open (gap existence) = -10 gap extension = -5 Pierwsza pozycja w przerwie otrzymuje wyższą karę, każda kolejna pozycje w tej samej przerwie niższą.

Problem wyboru optymalnych wartości kar za przerwy. Jeśli wartość kary będzie zbyt wysoka wprowadzenie przerw staje się utrudnione. Otrzymanie optymalnego rozwiązania dopasowania staje się niemożliwe, co w efekcie daje nierealistyczne efekty. Jeśli wartość kary będzie zbyt niska przerwy stają się zbyt liczne, co pozwala nawet niespokrewnionym sekwencjom na dopasowanie z wysoką wartością score. A) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46. 1 ACTACTAGA----TTACGGATC--GTACTTTAGAGGCTAGCAACCA 40 B) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTT-GCAACCA 46 1 ACTACTAGA-T--T-ACGGATC-G-TACTTTAGAGGC-TAGCAACCA 40 C) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46..... 1 ACTACTAGATTACGGA------TCGTACTTTAGAGGCTAGCAACCA 40

Problem właściwego umiejscowienia przerw w sekwencjach DNA kodujących białka Dopasowanie na poziomie białka Ser Ala Glu Thr - Asp AGT GCA GAA ACA --- GAT prawidłowe AGT GCA GAA A-- -CA GAT nieprawidłowe Dopasowanie na poziomie DNA

Macierze substytucji wykorzystywane przez narzędzia EMBOSS Needle i EMBOSS Water Macierz DNAmat Macierz DNAfull A T G C S W R Y K M B V H D N A 5-4 -4-4 -4 1 1-4 -4 1-4 -1-1 -1-2 T -4 5-4 -4-4 1-4 1 1-4 -1-4 -1-1 -2 G -4-4 5-4 1-4 1-4 1-4 -1-1 -4-1 -2 C -4-4 -4 5 1-4 -4 1-4 1-1 -1-1 -4-2 S -4-4 1 1-1 -4-2 -2-2 -2-1 -1-3 -3-1 W 1 1-4 -4-4 -1-2 -2-2 -2-3 -3-1 -1-1 R 1-4 1-4 -2-2 -1-4 -2-2 -3-1 -3-1 -1 Y -4 1-4 1-2 -2-4 -1-2 -2-1 -3-1 -3-1 K -4 1 1-4 -2-2 -2-2 -1-4 -1-3 -3-1 -1 M 1-4 -4 1-2 -2-2 -2-4 -1-3 -1-1 -3-1 B -4-1 -1-1 -1-3 -3-1 -1-3 -1-2 -2-2 -1 V -1-4 -1-1 -1-3 -1-3 -3-1 -2-1 -2-2 -1 H -1-1 -4-1 -3-1 -3-1 -3-1 -2-2 -1-2 -1 D -1-1 -1-4 -3-1 -1-3 -1-3 -2-2 -2-1 -1 N -2-2 -2-2 -1-1 -1-1 -1-1 -1-1 -1-1 -1

Macierz kropkowa dot matrix k = 1 k = 3 k = window size = word size (BLAST)

Wartość parametru wielkość okna = 1

Wartość parametru wielkość okna = 10

Wstęp do BLAST i FASTA

Podstawową analizą bioinformatyczną, związaną z wykorzystaniem publicznych baz danych sekwencji nukleotydowych i aminokwasowych, jest poszukiwanie podobieństwa między sekwencjami. podobieństwo homologia HOMOLOGIA cecha zero-jedynkowa Jak bardzo dwa homologiczne geny/białka są podobne? Ogólna zasada: (dla sekwencji o długości > 100 aa lub nt) białko-białko >25% DNA-DNA >70% Poniżej tych wartości nic nie jest pewne. Np. dwa białka o podobieństwie sekwencji aminokwasowej wynoszącej 15% mogą mieć identyczną strukturę 3-rzędową.

Dwa najczęściej wykorzystywane narzędzia do przeszukiwania baz danych w celu znalezienia sekwencji podobnych: BLAST (Basic Local Alignment Search Tool) https://blast.ncbi.nlm.nih.gov/blast.cgi FASTA http://www.ebi.ac.uk/tools/sss/fasta/nucleotide.html Powyższe narzędzia wykorzystują metodę heurystyczną (przybliżoną) w celu znalezienia sekwencji podobnych. heuriskein gr. znaleźć, odkryć Metody heurystyczne mogą drastycznie uprościć lub skrócić proces rozwiązywania problemu, gdy metoda rozwiązania: nie jest znana; jest zawiła i czasochłonna. Witold Beluch Metody heurystyczne wykłady

Narzędzia BLAST i FASTA charakteryzuje wspólna strategia: - szybki przegląd bazy danych sekwencji - wyeliminowanie sekwencji niepodobnych - wygenerowanie najlepszych znalezionych dopasowań Terminologia: Query kwerenda, sekwencja stanowiąca zapytanie do bazy danych Subject sekwencja podobna do tej stanowiącej kwerendę i spełniająca kryteria przeszukiwania bazy danych Bit score znormalizowana punktacja uwzględniająca warunki jego naliczania i przyjęte systemy punktacji oraz rozmiar bazy danych (łączną długość wszystkich sekwencji) Score ogólna wartość dopasowania E-value oczekiwana (Expected) liczba przypadkowych dopasowań z punktacją większą niż obserwowana