Homologia, podobieństwo i analogia

Podobne dokumenty
dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Dopasowanie sekwencji (sequence alignment)

Podstawy bioinformatyki dla biotechnologów

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji

Dopasowania par sekwencji DNA

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wykład 5 Dopasowywanie lokalne

Generator testów Bioinformatyka wer / 0 Strona: 1

Przyrównywanie sekwencji

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Porównywanie sekwencji białkowych

Wstęp do Biologii Obliczeniowej

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Bioinformatyka. Porównywanie sekwencji

Dopasowanie par sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Motywy i podobieństwo

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

16. kwietnia Znajdowanie sekwencji w bazach danych. Bartek Wilczy«ski. Organizacyjne. Why search for sequences

Bioinformatyka Laboratorium, 30h. Michał Bereta

Generator testów bioinformatyka wer / Strona: 1

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Bioinformatyka wykład 8, 27.XI.2012

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Statystyczna analiza danych

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Bioinformatyka wykład 10

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

WIZUALIZACJA ALGORYTMÓW OPTYMALNEGO DOPASOWANIA SEKWENCJI NUKLEOTYDÓW I AMINOKWASÓW

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Algorytmy kombinatoryczne w bioinformatyce

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Acknowledgement. Drzewa filogenetyczne

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Algorytmy kombinatoryczne w bioinformatyce

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

3 Przeszukiwanie baz danych

D: Dopasowanie sekwencji. Programowanie dynamiczne

W kierunku równoległej implementacji pakietu T-Coffee

Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Modelowanie motywów łańcuchami Markowa wyższego rzędu

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Bioinformatyka wykład 3.I.2008

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Bioinformatyka Laboratorium, 30h. Michał Bereta

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Pętle. Dodał Administrator niedziela, 14 marzec :27

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Warsztaty Ocena wiarygodności badania z randomizacją

Zmienność ewolucyjna. Ewolucja molekularna

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

MSA i analizy filogenetyczne

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Analizy filogenetyczne

FILOGENETYKA. Bioinformatyka, wykład 7 (24.XI.200..XI.2008)

Bioinformatyka: Wykład 2. Algorytm Smitha Watermana implementacja w języku Python

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

FILOGENETYKA. Bioinformatyka,, wykład 7 (29.XI.2007)

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Algorytm Grovera. Kwantowe przeszukiwanie zbiorów. Robert Nowotniak

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Tychy, plan miasta: Skala 1: (Polish Edition)

deep learning for NLP (5 lectures)

Samouczek: Konstruujemy drzewo

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO

Bioinformatyka. Rodzaje Mutacji

Porównywanie sekwencji białek i kwasów nukleinowych

Przegląd 4 Aerodynamika, algorytmy genetyczne, duże kroki i dynamika pozycji. Modelowanie fizyczne w animacji komputerowej Maciej Matyka

Instrukcje cykliczne (pętle) WHILE...END WHILE

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Korelacja, autokorelacja, kowariancja, trendy. Korelacja określa stopień asocjacji między zmiennymi

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Podstawy Programowania C++

Transkrypt:

Porównywanie sekwencji Homologia, podobieństwo i analogia Homologi Ortologi homologiczne geny, których rozdzielenie nastąpiło na skutek specjacji, czyli rozdzielenia gatunków, lub rzadziej horyzontalnego transferu genu. Geny ortologiczne mają zwykle taką samą, albo zbliżoną funkcję. Paralogi geny pochodzące od wspólnego przodka, rozdzielone w wyniku duplikacji genu. Paralogi mają często różne funkcje w organizmie. Przykładem mogą być mioglobina i hemoglobina u człowieka. dopasowanie sekwencji Dopasowanie/porównywanie Uliniowienie lignment W bioinformatyce, dopasowanie sekwencji jest sposobem dopasowania struktur pierwszorzędowych DN, RN, lub białek do zidentyfikowania regionów wykazujących podobieństwo, mogące być konsekwencją funkcjonalnych, strukturalnych, lub ewolucyjnych powiązań pomiędzy sekwencjami. Zestawione sekwencje nukleotydów lub aminokwasów są zazwyczaj przedstawione jako wiersze macierzy. Pomiędzy reszty wprowadzane są przerwy, tak że reszty zbliżonych do siebie sekwencji tworzą kolejne kolumny. Jeśli dwie dopasowywane sekwencje mają wspólne pochodzenie, niedopasowania mogą być interpretowane jako mutacje punktowe, a przerwy jako indele (mutacje polegające na delecji lub insercji), które zaszły w jednej lub obu liniach od czasu, kiedy obie sekwencje uległy rozdzieleniu. W przypadku dopasowywania sekwencji białek, stopień podobieństwa pomiędzy aminokwasami zajmującymi konkretną pozycję, może stanowić zgrubną miarę tego, jak konserwatywny jest dany region lub motyw. Brak substytucji lub obecność jedynie konserwatywnych substytucji (tj. zamiany reszty na inną, ale o podobnych właściwościach chemicznych) w określonym regionie sekwencji sugeruje, że jest on ważny strukturalnie lub funkcjonalnie. Dopasowywanie sekwencji może być także stosowane dla sekwencji pochodzenia poza biologicznego, np. danych finansowych lub sekwencji występujących w językach naturalnych. Masur i inni, Dopasowanie sekwencji, Wikipedia 11.009 1

alignment alignment Ułożenie dwóch lub więcej sekwencji biopolimerów (DN, RN lub białka) w celu zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych, strukturalnych lub funkcjonalnych (procedura oraz jej efekt). dwie sekwencje - pairwise alignment wiele sekwencji - multiple sequence alignment GG G G--G * --- match mismatch GP Znaczenie dopasowania Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej strukturze białek podobnej funkcji sekwencji wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii od analogii }

Skąd te różnice różnice między sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka G--G G--- G--G Insercja + Delecja - G--- G-> -> substytucje GG Substytucje nukleotydowe ranzycja - okres przejściowy między systemem politycznym, który był, a tym który nastąpi. Proces ten jest krótszy i łatwiejszy od konsolidacji systemu politycznego. ranzycja kończy się gdy pojawiają się ogólne ramy funkcjonowania nowego systemu. Przykładem są wszystkie państwa byłego bloku wschodniego, w tym Polska. (zy o to chodzi?) ranswersja - mutacja genowa, punktowa zmiana chemiczna w obrębie nici DN, w której zasada purynowa ulega zamianie na pirymidynową lub odwrotnie. Mutacja taka może nie spowodować żadnej zmiany lub zmianę kodu genetyczego (UUU -> UU) albo też skróconą syntezę białka (UG -> U). Zastosowanie alignmentu poszukiwaniu oraz określaniu funkcji i struktury (białek) dla nowych sekwencji (nieznanych nam do tej pory) określaniu powiązań filogenetycznych między sekwencjami - homologii między sekwencjami oraz w analizach ewolucyjnych 3

Metody dopasowania dopasowanie par sekwencji (pairwise alignment) Macierz punktowe - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FS i BLS dopasowanie wielu sekwencji (multiple alignment) Etapy dopasowywania sekwencji 1 zestawienie (0 identycznych, 0% podobieństwa) X = długość sekwencji (30) y = długość sekwencji (0) zestawienie (0 identycznych, 0% podobieństwa) 3 zestawienie (1 identyczna, 33% podobieństwa) 4 zestawienie (0 identycznych, 0% podobieństwa) 5 zestawienie (0 identycznych, 0% podobieństwa) 6 zestawienie ( identyczne, 33% podobieństwa) 7 zestawienie (0 identycznych, 0% podobieństwa) 4

X- zestawienie (3 identyczne, 15% podobieństwa) x zestawienie (19 identycznych, 95% podobieństwa) X+1 zestawienie (1 identyczna, 5,6% podobieństwa) X+ zestawienie (3 identyczne, 16,67% podobieństwa) X+Y-4 zestawienie (1 identycznych, 5% podobieństwa) X+Y-3 zestawienie (1 identycznych, 33,3% podobieństwa) X+Y- zestawienie (0 identyczne, 0% podobieństwa) X+Y-1 zestawienie (0 identycznych, 0% podobieństwa) Etapy dopasowywania sekwencji Za zgodą dr. Jacka Leluka 5

Kryteria szacowania podobieństwa sekwencji Za zgodą dr. Jacka Leluka Kryteria szacowania podobieństwa sekwencji Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami) Długość porównywanych sekwencji (liczba porównywanych pozycji) Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji yp reszt okupujących pozycje konserwatywne (sekwencje białkowe) Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe) Procedura oszacowania stopnia podobieństwa porównywanych sekwencji Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników. Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia się zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami. Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie: n n n a n a = x = x ( x( x 1) ) a= 0 Gdzie: a x ilość rodzajów jednostek występujących w sekwencjach (0 dla białek; 4 dla kwasów nukleinowych) n długość sekwencji (liczba porównywanych par pozycji) a ilość pozycji identycznych 6

Local vs. Global Global alignment znajduje najlepsze dopasowanie dla ŁYH dwóch sekwencji (Needleman-Wunsch algorithm) Local alignment poszukuje podobnych regionów we FRGMENH sekwencji (Smith-Waterman algorithm) DLGVFLDRYFQ DLGRQN-DRYYQ DLG DRYFQ DLG DRYYQ Global alignment: forces alignment in regions which differ Local alignment will return only regions of good alignment Global - local Pairwise alignment GGG GGG ylko jeden możliwy alignment GG--G GG-G- his alignment includes: mismatches 4 indels (gap) 10 perfect matches 7

Kilka możliwych rozwiązań: GGG GGG -GG--G G-G-G- GG--G GG-G- Który alignment jest lepszy? scoring system: Perfect match: +1 Mismatch: - Indel (gap): -1 (kara za przerwy) GG--G GG-G- -GG--G G-G-G- Score: = (+1)x10 + (-)x + (-1)x4 = Score: = (+1)x9 + (-)x + (-1)x6 = -1 Wyższy score Lepszy alignment Zadanie 1 Jaki jest score tego alignmentu?? dopasowanie: +1 niedopasowanie: -1 przerwa: - ---bardzo---lubiebioinformatyke * * niebardzonielubiębioinformatyki 8

Kara za przerwy (gap costs) Kara za otwarcie przerwy G Kara za przedłużenie przerwy L gdzie: n długość przerwy Standardowo: G = 10-15 L = 1 - Kara = G + Ln Zadanie Kara za otwarcie przerwy G Kara za przedłużenie przerwy L Kara = G + Ln gdzie: n długość przerwy Standardowo dla aa: G = 10-15 L = 1 - -GGG-----G GGG- G = 10 L = 1 Kara = (10 + 5*1), czy Kara = (10 + 1*1) + (10 + 5*1) + (10 + 1*1) Zadanie 3 Wiemy, że w toku ewolucji z danej sekwencji wyskoczyła jedna cała stosunkowo duża domena. Jakie wartości G i L dla kary za przerwy należy ustawić? nielubiebardzo------bioinformatyki * ---lubiebardzobardzobioinformatyke 9

Metody dopasowania dopasowanie par sekwencji (pairwise alignment) 1. Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FS i BLS. Macierz punktowe - dot matrix, dotplot 3. Programowanie dynamiczne (DP) 1. słowa - FS 1. słowa - BLS vs. FS 10

. Macierze punktowe. Dot-matrix 3. Programowanie dynamiczne opiera się na podziale rozwiązywanego problemu na podproblemy względem kilku parametrów. 11

3. Programowanie dynamiczne Scoring matrix Reprezentuje system punktowania jako tabela lub macierz n n (n jest liczbą liter, które zawiera alfabet. n=4 dla DN, n=0 dla białek) Macierz punktowania jest symetryczna G -6-6 -6 G -6-6 -6 Mismatch Match Podobieństwa biochemiczne i biofizyczne aminokwasów Diagram Venn-a 1

Macierze substytucji (podstawień) Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu w łańcuchu polipeptydowym i była uniwersalna dla wszystkich sekwencji? Przede wszystkim należy bazować na danych empirycznych Należy stworzyć alignment bardzo wielu blisko spokrewnionych sekwencji na tyle podobnych, aby bez wątpliwości można było jednoznacznie i precyzyjnie określić częstotliwość substytucji poszczególnych aminokwasów w konkretnych pozycjach. W kolumnie 4 E i D występują z częstotliwością w 4/8 M G Y D E M G Y D E M G Y E E M G Y D E M G Y E E M G Y D E M Y E E M Y E E PM Matrix Point/Percent ccepted Mutations Based on a database of 1,57 changes in 71 groups of closely related proteins (85% identity) lignment was easy PM Matrices Family of matrices PM 80, PM 10, PM 50 he number on the PM matrix represents evolutionary distance Larger numbers are for larger distances 13

PM PM - limitations Only one original dataset - PM 1 Examining proteins with few differences (85% identity) Bazuje głównie na małych białkach globularnych więc macierz jest nieco stronnicza BLOSUM Henikoff i Henikoff (199) stworzyli zestaw matryc bazujących na większej ilości danych empirycznych BLOSUM observes significantly more replacements than PM, even for infrequent pairs 14

BLOSUM: Blocks Substitution Matrix Based on BLOKS database ~000 blocks from 500 families of related proteins Families of proteins with identical function Blocks are short conserved patterns of 3-60 aa long without gaps BD----BBD DBD----BBBB BBBD--B D---BDB BD---DBBD ----BB BLOSUM Each block represent sequences alignment with different identity percentage For each block the amino-acid substitution rates were calculated to create BLOSUM matrix BLOSUM Matrices BLOSUMn is based on sequences that shared at least n percent identity BLOSUM6 represents closer sequences than BLOSUM45 15

BLOSUM (6) BLOSUM Wszystkie macierze na podstawie danych empirycznych Opracowywane na podstawie sekwencji o dalszym pokrewieństwie Podobieństwo sekwencji rośnie wraz ze wzrostem indeksu Bezpośrednie podobieństwo sekwencji tu i teraz Macierz symetryczna (im wyższa wartość tym łatwiejsza substytucja) Nie uwzględnia bezpośrednio ani właściwości fizykochemicznych aminokwasów, ani podobieństwa genetycznego (podobieństwa kodonów) BLOSUM / PM PM ylko PM1 na podstawie danych empirycznych, pozostałe macierze z interpolacji Opracowane na podstawie bardzo blisko spokrewnionych sekwencji Podobieństwo sekwencji maleje wraz ze wzrostem indeksu Poniekąd reprezentuje dystans ewolucyjny (model ewolucyjny akceptowanych mutacji punktowych) Macierz symetryczna (im wyższa wartość tym łatwiejsza substytucja) Nie uwzględnia bezpośrednio ani właściwości fizykochemicznych aminokwasów, ani podobieństwa genetycznego (podobieństwa kodonów) PM vs. BLOSUM PM100 ~ BLOSUM90 PM10 ~ BLOSUM80 PM160 ~ BLOSUM60 PM00 ~ BLOSUM5 PM50 ~ BLOSUM45 Sekwencje bardziej odległe 16

Uwarunkowania genetyczne substytucji aminokwasowych M e t U G r g G G L y s G H i s s n P r o r g G S e r G r g G G L y s G r g G G G l n G Podstawy genetyczne algorytmów do zestawień aminokwasów? Replacement PM50 BLOSUM6 rg/lys 3 Lys/Gln 1 1 rg/gln 1 1 Lys/Glu 0 1 rg/glu -1 0 lgorytm semihomologiczny Diagram of of amino codon acid genetic relationships GU 1 3 K K G N N U G R R GG G S G U I M UG U I G E Q GG E Q G G D H D GU H U GG G G R G GGG GG R GG G G R U S GU G GGU R GU G P GG G P G P U GU P U GU V U L GUG V UG L GU V U L UG U Y UG W UGG U S UG S UU L UUG L Y UU UG UGU U S S UU UU F UU I V GUU L UU F UUU 17

Dot matrix pairwise alignment Internal homology (gene multiplication) BLS SEQUENES SEMIHOM hicken ovoinhibitor precursor (7 domains) hicken ovomucoid precursor (3 domains) Multiple alignment VISGSSSNIGG-NHVKWYQQLPG VISGSSNIGS--IVNWYQQLPG LRLSSSSGFIFSS--YMYWVRQPG LSLVSGSFDD--YYSWVRQPPG PEVVVVDVSHEDPQVKFNWYVDG-- LVLISDFYPG--VVWKDS-- LGLVKDYFPEP--VVSWNSG--- VSLLVKGFYPSD--IVEWWSNG-- ak jak pairwise alignment LE zestawienie n sekwencji zamiast W rzędach ustawione są poszczególne sekwencje W kolumnach ustawia się te same / odpowiadające sobie pozycje (pozycje konserwatywne); grupy pozycji konserwatywnych tworzą bloki konserwatywne (w blokach dozwolone są mutacje insercje, delecje, substytucje reprezentowane jako przerwy lub różne pozycje w kolumnach) 18

MS & Evolution MS może dawać obraz sił kształtujących ewolucję!!! Ważne aminokwasy lub nukleotydy (pozycje w sekwencjach) mutują niechętnie Mniej ważne pozycje dla struktury i funkcji mogą wykazywać większą zmienność w kolumnach porównywanych sekwencji Pozycje konserwatywne Kolumny, gdzie wszystkie sekwencje zawierają takie same aminokwasy lub nukleotydy (lub w większości takie same pozycje konserwatywne) są bardzo ważne (kluczowe) dla funkcji lub struktury. VISGSSSNIGG-NHVKWYQQLPG VISGSSSNIGS--IVNWYQQLPG LRLSGSGFIFSS--YMYWYQQPG LSLGSGSFDD-QYYSWYQQPPG Sekwencja konsensusowa W sekwencji konsensusowej zachowane są pozycje o największej częstotliwości występowania w każdej z kolumn alignmentu (he consensus sequence holds the most frequent character of the alignment at each column) Jest to sposób reprezentowania wyników multiple alignment, gdzie pokrewne sekwencje są porównywane każda do każdej, aby odnaleźć funkcjonalnie podobne motywy sekwencji (domeny białek). Sekwencja konsensusowa obrazuje które pozycje są konserwatywne, a które zmienne. G G G * : * * * : * 19

Sekwencja konsensusowa :::******. ********:.::. lignment methods Progressive alignment (lustal) Iterative alignment (mafft, muscle) ll methods today are an approximation strategy (heuristic algorithm), yield a possible alignment, but not necessarily the best one Praca domowa iteracja (np. pętle w programowaniu) heurestyka (głównie w informatyce) lignment progresywny 0

Jak wyświetlić na ekranie liczby od 1 do 5000 za pomocą linijek kodu? <?php for( $x = 1; $x = 5000; $x++ ) echo $x. "<br /> ;?> dla (zmiennej x początkowo równej 1; aż do momentu kiedy zmienna x osiągnie wartość równą 5000; z każdym krokiem powiększając wartość zmiennej x o +1) wyświetl wartość zmiennej i przejdź do nowej linijki; Iteracja (łac. iteratio powtórzenie ) to czynność powtarzania (najczęściej wielokrotnego) tej samej instrukcji (albo wielu instrukcji) w pętli. Mianem iteracji określa się także operacje wykonywane wewnątrz takiej pętli. First step: Progressive alignment B D ompute the pairwise alignments for all against all (6 pairwise alignments) the similarities are stored in a table B D 11 3 B 1 10 D Second step: B D he guide tree is imprecise and is NO the tree which truly describes the relationship between the cluster the sequences to create a tree (guide tree): sequences! Represents the order in which pairs of sequences are to be aligned similar sequences are neighbors in the tree distant sequences are distant from each other in the tree B D 11 3 1 10 B D 1

hird step: lign most similar pairs B D lign the alignments as if each of them was a single sequence (replace with a single consensus sequence or use a profile) lignment of alignments X Y M Q F L H W L Q S W L Q W L I F M I W L I W M Q - F L H - W L Q S - W L - I F M - I W L Q - W L - I W Iterative alignment B D Pairwise distance table B 11 B D Iterate until the MS doesn t change 3 1 D 10 Guide tree B D MS

Searching for remote homologs Sometimes BLS isn t enough. Large protein family, and BLS only gives close members. We want more distant members PSI-BLS Profile HMMs Profile 1 3 4 5 6 G G G 1 0 0 0 0.67 0.33 0 0 0 1 0 0 0 1 0 0........ Profile = PSSM Position Specific Score Matrix PSI-BLS Position Specific Iterated BLS Regular blast onstruct profile from blast results Blast profile search Final results 3

PSI-BLS zalety: PSI-BLS looks for seq.s that are close to ours, and learns from them to extend the circle of friends wady: if we found a WRONG sequence, we will get to unrelated sequences (contamination). his gets worse and worse each iteration Profile HMM Similar to PSI-BLS: also uses a profile akes into account: Dependence among sites (if site n is conserved, it is likely that site n+1 is conserved part of a domain he probability of a certain column in an alignment PSI BLS vs profile HMM PSI BLS Profile HMM Less exact Faster More exact Slower 4