Dopasowania par sekwencji DNA
Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA ACTACTAGATTACGGATCGTACTTTAGAGGCTAGCAACCA
Dopasowanie globalne (algorytm Needlemana-Wunscha) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46. 1 ACTACTAGA----TTACGGATC--GTACTTTAGAGGCTAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTT-GCAACCA 46 1 ACTACTAGA-T--T-ACGGATC-G-TACTTTAGAGGC-TAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46..... 1 ACTACTAGATTACGGA------TCGTACTTTAGAGGCTAGCAACCA 40 Dopasowanie lokalne (algorytm Smitha-Watermana) 25 GTACTTTAGAGGCTTGCAACCA 46. 19 GTACTTTAGAGGCTAGCAACCA 40
Dopasowanie globalne (algorytm Needlemana-Wunscha) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46. 1 ACTACTAGA----TTACGGATC--GTACTTTAGAGGCTAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTT-GCAACCA 46 1 ACTACTAGA-T--T-ACGGATC-G-TACTTTAGAGGC-TAGCAACCA 40 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46..... 1 ACTACTAGATTACGGA------TCGTACTTTAGAGGCTAGCAACCA 40 Dopasowanie lokalne (algorytm Smitha-Watermana) 25 GTACTTTAGAGGCTTGCAACCA 46. 19 GTACTTTAGAGGCTAGCAACCA 40
Obliczanie punktacji za uzyskane dopasowanie par sekwencji A T C G - - G C C A. A T C G A A G C T A dopasowanie (match) przerwa (gap) niedopasowanie (mismatch) Przykładowy system punktacji: match = +3 mismatch = -1 gap = -5 score = 3+3+3+3-5-5+3+3-1+3 = 10
Problem kilku dopasowań o identycznej punktacji dla tej samej pary sekwencji G G A A T G G - - - A T G - G G A A T G G - - A - T G - Stosując system punktacji z poprzedniego przykładu oblicz score dla powyższych dopasowań. Możliwe rozwiązania: -ignorowanie end gaps -afiniczny system kar za przerwy ( affine gap penalties ) gap open (gap existence) = -10 gap extension = -5 Pierwsza pozycja w przerwie otrzymuje wyższą karę, każda kolejna pozycje w tej samej przerwie niższą.
Problem wyboru optymalnych wartości kar za przerwy. Jeśli wartość kary będzie zbyt wysoka wprowadzenie przerw staje się utrudnione. Otrzymanie optymalnego rozwiązania dopasowania staje się niemożliwe, co w efekcie daje nierealistyczne efekty. Jeśli wartość kary będzie zbyt niska przerwy stają się zbyt liczne, co pozwala nawet niespokrewnionym sekwencjom na dopasowanie z wysoką wartością score. A) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46. 1 ACTACTAGA----TTACGGATC--GTACTTTAGAGGCTAGCAACCA 40 B) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTT-GCAACCA 46 1 ACTACTAGA-T--T-ACGGATC-G-TACTTTAGAGGC-TAGCAACCA 40 C) 1 ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA 46..... 1 ACTACTAGATTACGGA------TCGTACTTTAGAGGCTAGCAACCA 40
Problem właściwego umiejscowienia przerw w sekwencjach DNA kodujących białka Dopasowanie na poziomie białka Ser Ala Glu Thr - Asp AGT GCA GAA ACA --- GAT prawidłowe AGT GCA GAA A-- -CA GAT nieprawidłowe Dopasowanie na poziomie DNA
Macierze substytucji wykorzystywane przez narzędzia EMBOSS Needle i EMBOSS Water Macierz DNAmat Macierz DNAfull A T G C S W R Y K M B V H D N A 5-4 -4-4 -4 1 1-4 -4 1-4 -1-1 -1-2 T -4 5-4 -4-4 1-4 1 1-4 -1-4 -1-1 -2 G -4-4 5-4 1-4 1-4 1-4 -1-1 -4-1 -2 C -4-4 -4 5 1-4 -4 1-4 1-1 -1-1 -4-2 S -4-4 1 1-1 -4-2 -2-2 -2-1 -1-3 -3-1 W 1 1-4 -4-4 -1-2 -2-2 -2-3 -3-1 -1-1 R 1-4 1-4 -2-2 -1-4 -2-2 -3-1 -3-1 -1 Y -4 1-4 1-2 -2-4 -1-2 -2-1 -3-1 -3-1 K -4 1 1-4 -2-2 -2-2 -1-4 -1-3 -3-1 -1 M 1-4 -4 1-2 -2-2 -2-4 -1-3 -1-1 -3-1 B -4-1 -1-1 -1-3 -3-1 -1-3 -1-2 -2-2 -1 V -1-4 -1-1 -1-3 -1-3 -3-1 -2-1 -2-2 -1 H -1-1 -4-1 -3-1 -3-1 -3-1 -2-2 -1-2 -1 D -1-1 -1-4 -3-1 -1-3 -1-3 -2-2 -2-1 -1 N -2-2 -2-2 -1-1 -1-1 -1-1 -1-1 -1-1 -1
Macierz kropkowa dot matrix k = 1 k = 3 k = window size = word size (BLAST)
Wartość parametru wielkość okna = 1
Wartość parametru wielkość okna = 10
Wstęp do BLAST i FASTA
Podstawową analizą bioinformatyczną, związaną z wykorzystaniem publicznych baz danych sekwencji nukleotydowych i aminokwasowych, jest poszukiwanie podobieństwa między sekwencjami. podobieństwo homologia HOMOLOGIA cecha zero-jedynkowa Jak bardzo dwa homologiczne geny/białka są podobne? Ogólna zasada: (dla sekwencji o długości > 100 aa lub nt) białko-białko >25% DNA-DNA >70% Poniżej tych wartości nic nie jest pewne. Np. dwa białka o podobieństwie sekwencji aminokwasowej wynoszącej 15% mogą mieć identyczną strukturę 3-rzędową.
Dwa najczęściej wykorzystywane narzędzia do przeszukiwania baz danych w celu znalezienia sekwencji podobnych: BLAST (Basic Local Alignment Search Tool) https://blast.ncbi.nlm.nih.gov/blast.cgi FASTA http://www.ebi.ac.uk/tools/sss/fasta/nucleotide.html Powyższe narzędzia wykorzystują metodę heurystyczną (przybliżoną) w celu znalezienia sekwencji podobnych. heuriskein gr. znaleźć, odkryć Metody heurystyczne mogą drastycznie uprościć lub skrócić proces rozwiązywania problemu, gdy metoda rozwiązania: nie jest znana; jest zawiła i czasochłonna. Witold Beluch Metody heurystyczne wykłady
Narzędzia BLAST i FASTA charakteryzuje wspólna strategia: - szybki przegląd bazy danych sekwencji - wyeliminowanie sekwencji niepodobnych - wygenerowanie najlepszych znalezionych dopasowań Terminologia: Query kwerenda, sekwencja stanowiąca zapytanie do bazy danych Subject sekwencja podobna do tej stanowiącej kwerendę i spełniająca kryteria przeszukiwania bazy danych Bit score znormalizowana punktacja uwzględniająca warunki jego naliczania i przyjęte systemy punktacji oraz rozmiar bazy danych (łączną długość wszystkich sekwencji) Score ogólna wartość dopasowania E-value oczekiwana (Expected) liczba przypadkowych dopasowań z punktacją większą niż obserwowana