Pomiędzy elementami zbioru danych x (wektor p-cech) wyznaczane są wartości funkcji podobieństw lub niepodobieństwa d (dissimilarity; częściej)

Wykłd 5 Dopsowywnie wielu sekwencji Multiple Sequence Alignment (MSA) Mcierze substytucji zleŝne od pozycji Position Specific Scoring Mtrix (PSSM) Porównnie róŝnych sekwencji T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A ITOTEZJESTSEKWENCJA T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A I T O J E S T S E K W E N C J A 2 Czym się róŝni MSA od PSA MSA dje większą dokłdność w dopsowniu sekwencji niŝ PSA. Rozstrzyg wątpliwości, eliminuje dopsowni przypdkowe MSA umoŝliwi znlezienie obszrów o wysokiej konserwcji przewŝnie o duŝym znczeniu strukturlnym i funkcjonlnym dl biłk DuŜo większ złoŝoność obliczeniow. Często stosowne lgorytmy heurystyczne zmist progrmowni dynmicznego. Metody Progrmownie dynmiczne Dopsownie hierrchiczne (klstrownie) Ukryte modele Mrkow (Hidden Mrkov Models HMM) Metody uczeni mszynowego Algorytmy genetyczne Metody wykorzystujące wiedzę filogenetyczną Dopsownie hierrchiczne Klstering czyli uczenie bez ndzoru Odległość pomiędzy elementmi Pomiędzy elementmi zbioru dnych x (wektor p-cech) wyznczne są wrtości funkcji podobieństw lub niepodobieństw d (dissimilrity; częściej) Njczęściej jest to kwdrt odległości: JeŜeli wpływ cech jest niezrównowŝny to moŝn zstosowć sumę wŝoną z cech (le w j =1 nie ozncz jednkowego wpływu bo zleŝy od rozkłdu pomiędzy cechmi): A.D. Bxevnis, B.F.F Quellette, Bioinformtyk, PWN 1

Z dołu-do-góry ( bottom-up ) Metody sclni w dendrogrmie Sposób wybierni reprezentcji podgrupy Pojedynczego łączeni (single linkge) mksimum podobieństw Metody sclni w dendrogrmie Pełnego łączeni (complete linkge) minimum podobieństw Metody sclni w dendrogrmie Średniego podobieństw w grupie (verge linkge) Porównnie dendrogrmów Drzewo filogenetyczne 2

Mcierze substytucji Mcierze substytucji log z prwdopodobieństw mutcji PAM120 proksym. z globlnego Point Accepted Muttions 120 mutcji/100 długości BLOSUM-62 z loklnego dop. BLOck SUbstitution Mtrix Co njmniej 62% identyczne Jk wyznczmy mcierz substytucji W kŝdej mcierzy substytucji częstotliwość q,b mutcji z do b wyzncz wrtości elementów mcierzy s,b, ; p to prwdopodobieństwo wystąpieni minokwsu w cłej bzie dnych sekwencji ln( q, b / p pb) s, b = λ gdzie λ jest jkimś współczynnikiem, chrkterystycznym dl typu mcierzy 16 Gdy mutcje zleŝą od połoŝeni w sekwencji Potrzeb mcierzy punktcji zleŝnej od pozycji (PSSM) Mcierze substytucji (typu PAM, BLOSUM) mogą być uŝywne do dopsowywni pr sekwencji Oceny odległości ewolucyjnej pomiędzy prą biłek Wyszukni w bzie dnych biłek podobnych do biłek wybrnych Nie są wystrczjące do stwierdzeni, czy dne biłko jest elementem określonej rodziny (zbioru) biłek. 3

Znjdownie biłek z określonej rodziny CEL: znmy zbiór biłek z jednej rodziny i znjdujemy biłk psujące Metody: Dopsownie do sekwencji konsensusowej (uśrednionej) rodziny Dopsownie do profilu rodziny Szuknie odcisku plc rodziny Metody probbilistyczne (np. ukryte modele Mrkow - HMM) Jk wyznczmy mcierz częstości zleŝną od pozycji (PSSM) ZłóŜmy, Ŝe mmy N sekwencji z jednej rodziny. Wyznczmy częstotliwość wystąpieni minokwsu n pozycji u dl tej rodziny sekwencji: q u, = n u, /N log( qu, / p ) m u, = λ p to prwdopodobieństwo wystąpieni minokwsu w cłej bzie dnych sekwencji. Podobnie jk w mcierzy substytucji wyznczmy element mcierzy PSSM (λ moŝn tu pominąć, choć stosowne w Psi-Blst): 20 PSSM Position Specific Scoring Mtrix Etpy konstrukcji: Wybór rodziny do profilu: BLAST n podstwie pojedynczej sekwencji BLAST z kolejnych sekwencji Obliczenie PSSM 21 Entropi W fizyce ENTROPIA jest mirą gęstości stnów. Stnowi mirę kierunku zchodzeni procesów smorzutnych. Ukłd fizyczny zwsze dąŝy do równomiernego rozkłdu (P i ) gęstości stnów (nieporządku): S = kb Pi ln( Pi ) ENTROPIA informcyjn (entropi Shnnon) jest mirą niepewności informcji (w bitch). H = P i log( P i ) i k B - stł Boltzmnn Im brdziej równomierny jest rozkłd jkiejś cechy tym mniej informcji mmy o jej potencjlnym wystąpieniu w określonej sytucji (np. n dnej pozycji w sekwencji) 22 Entropi Istotność informcji w mcierzy PSSM dl kolumny u moŝn ocenić obliczjąc jej ENTROPIĘ po wszystkich minokwsch (w bitch to log 2 ): H u = qu, log 2( qu, ) Przy równomiernym występowniu wszystkich minokwsów entropi jest mksymln. mx(h u ) = -20 * (1/20 * log 2 (1/20))= 20* (1/20 * log 2 (1/20) -1 ))= log 2 (20) 23 Informcj I u zwrt w sekwencji n pozycji u moŝe być obliczon jko: I u = H mx Hu = log 2 20 H gdyŝ mx(h u ) = log 2 20 Pod wrunkiem, Ŝe dysponujemy co njmniej 20 sekwencjmi (mniej np. 3 to Hmx=log 2 (3)). Mksymln wrtość I u ozncz brdzo dobrą konserwcję jkiegoś jednego minokwsu n pozycji u u 4

Logo Rozmir = I u q u, BLAST Bsic Locl Alignment Serch Tool Eugene Myers, Stephen Altschul, Wrren Gish, Dvid J. Lipmn, nd Webb Miller, Journl of Moleculr Biology, 1990. Schneider, Stephens, NAR,1990 Zwycięstwo szybkości nd dokłdnością, uproszczenie lgorytmu Smith & Wtermn S&W zpewnił njlepsze rozwiąznie przy dnym zuŝyciu czsu komputerowego BLAST NIE. Zysk: ok. 50 x 25 BLAST BLAST bzuje n znjdowniu brdzo podobnych krótkich segmentów. Nie stosuje progrmowni dynmicznego. Jk to robi BLAST? Wykonuje dopsownie prmi - pomiędzy sekwencją zpytni i poszczególnymi sekwencjmi ze zbioru przeszukiwnego Porządkuje mlejąco sekwencje ze zbioru, wg. wrtości dopsowni loklnego S w stosunku do sekwencji zpytni Dl kŝdego S, uwzględnijąc długości sekwencji zpytni i wyniku, wylicz E-wrtość. Jest to oczekiwn liczb segmentów sekwencji, które uzyskją wynik dopsowni większy lub równy S. UŜytkownik bierze pod uwgę tylko tkie sekwencje, dl których E<<1. Wtedy nie m sznsy, Ŝe jkikolwiek segment (choćby jeden) wcle nie jest homologiczny, wyłącznie przypdkowo podobny. BLAST - lgorytm Usunąć segmenty o młej róŝnorodności lub powtórzenich w sekwencji zpytni Zbudowć listę słów k-literowych, występujących w sekwencji zpytni (biłk k 3, nukleotydy k 11), dl kolejnych wrtości k. Znleźć wszystkie moŝliwie dokłdnie psujące słow (włsny lgorytm heurystyczny) Zorgnizowć pozostłe, wysoko-punktujące słow w efektywne drzewo przeszukiwni Rozciągnąć dokłdne dopsowni n istotne loklne segmenty (HSP, high-scoring segment pir ) Wypisć wszystkie HSP w bzie dnych, które punktują wystrczjąco wysoko *Wówczs jest więcej niŝ jedno dopsownie loklne i TotlScore=MxScore+Inny_Score+ Sytucj * moŝe oznczc pseudo-gen. 5

Problem: E-wrtość Jk duŝ jest szns, Ŝe 2 sekwencje niehomologiczne zostną przypdkowo wskzne jko dobrze dopsowne przez lgorytm loklnego dopsowni? Inczej mówiąc: Jk wrtościow jest jkś znlezion sekwencj, wskzn (w oprciu o lgorytm dopsowni) jko homologiczn do sekwencji zpytni (query seq.)? Np. Im dłuŝsz sekwencj zpytni tym łtwiej coś loklnie trfić. E-wrtość Przyrównywn jest pr sekwencji, o długościch odpowiednio m i n. Zkłd się, Ŝe przeprowdzone byłoby dopsownie loklne segmentów pomiędzy prą sekwencji, bez przerw (nie m delecji lub insercji). W grnicy (dl duŝych wrtości m i n) liczb segmentów sekwencji, które uzyskją wysoką punktcję lgorytmu dopsowni, równą co njmniej S, wynosi (wrtość oczekiwn): E = K m n e - S gdzie K i są pewnymi prmetrmi, zleŝnymi od rozmiru przeszukiwnej przestrzeni i lgorytmu ocenini. Liczbę E nzywmy E-wrtością dl punktcji (score) S. PSI-BLAST Position-Specific Itertive BLAST Profil PSSM - Position-Specific Scoring Mtrix BLAST drzewo Dokłdność / nrzędzi Metody hierrchiczne nie dją gwrncji znlezieni jednego optymlnego dopsowni dl cłego zestwu sekwencji CLUSTAL 6

EFEKTY Dopsownie wielokrotne poprwi dokłdność dopsowni sekwencji o niskim podobieństwie Biłk o niskiej złoŝoności sekwencji i niejednozncznej strukturze Tkie biłk komplikują wyzncznie homologii Nisk złoŝoność Prion 7