Wykłd 8 Mcierze substytucji Sekwencje pokrewne Mcierze substytucji PAM - Point Accepted Muttions Mrgret Dyhoff 1978 BLOSUM Mcierze substytucji zleżn od prwdopodobieństw mutcji Jeśli koniecznie chcemy je porównć PAM120 przybliżenie z globlnego Point Accepted Muttions 120 mutcji/100 długości BLOSUM-62 z loklnego dopsowni BLOck SUbstitution Mtrix Co njmniej 62% identyczne
Jk wyznczmy mcierz substytucji W kżdej mcierzy substytucji częstotliwość q,b mutcji z do b wyzncz wrtości elementów mcierzy s,b,; p to prwdopodobieństwo wystąpieni minokwsu w cłej bzie dnych sekwencji ln( q, b / p pb) s, b = λ gdzie λjest jkimś współczynnikiem, chrkterystycznym dl typu mcierzy 7 Mcierze substytucji zleżn od prwdopodobieństw mutcji PAM120 przybliżenie z globlnego Point Accepted Muttions 120 mutcji/100 długości BLOSUM-62 z loklnego dopsowni BLOck SUbstitution Mtrix Co njmniej 62% identyczne Poprwk Poisson Liczb zobserwownych mutcji (d=p=d/l) jest zwykle zncznie mniejsz od rzeczywistej liczby mutcji bo byw kilk n 1 miejsce (np. mcierz PAM-120-120 mutcji n 100 miejsc) 9 Gdy mutcje zleżą od położeni w sekwencji Mcierze substytucji zleżne od pozycji Position Specific Scoring Mtrix (PSSM) Potrzeb mcierzy punktcji zleżnej od pozycji) Mcierze substytucji (typu PAM, BLOSUM) mogą być używne do: Dopsowywni pr sekwencji Oceny odległości ewolucyjnej pomiędzy prą biłek Wyszukni w bzie dnych biłek podobnych do biłek wybrnych Nie są wystrczjące do stwierdzeni, czy dne biłko jest elementem określonej rodziny (zbioru) biłek.
Jk wyznczmy mcierz częstości zleżną od pozycji (PSSM) Złóżmy, że mmy N sekwencji z jednej rodziny. Wyznczmy częstotliwość wystąpieni minokwsu n pozycjiudl tej rodziny sekwencji: q u, = n u, /N log( qu, / p) m u, = λ p to prwdopodobieństwo wystąpieni minokwsu w cłej bzie dnych sekwencji. Podobnie jk w mcierzy substytucji wyznczmy element mcierzy PSSM (λ możn tu pominąć, choć stosowne w Psi-Blst): 13 PSSM Etpy konstrukcji: Wybór rodziny do profilu: BLAST n podstwie pojedynczej sekwencji BLAST z kolejnych sekwencji Obliczenie PSSM 14 Entropi W fizyce ENTROPIA jest mirą gęstości stnów. Stnowi mirę kierunku zchodzeni procesów smorzutnych. Ukłd fizyczny zwsze dąży do nieporządku, czyli równomiernego rozkłdu (P i ) gęstości stnów i S = kb Pi ln ( Pi ) i ENTROPIA informcyjn (entropi Shnnon) jest mirą niepewności informcji H = P i log ( P i ) i k B stł Boltzmnn Im brdziej równomierny jest rozkłd jkiejś cechy tym mniej informcji mmy o jej potencjlnym wystąpieniu w określonej sytucji (np. minokwsu n dnej pozycji w sekwencji) 15 Entropi Istotność informcji w mcierzy PSSM dl kolumny umożn ocenić obliczjąc jej ENTROPIĘ po wszystkich minokwsch (w bitch to log 2 ): H u = qu, log 2( qu, ) Przy równomiernym występowniu wszystkich minokwsów entropi jest mksymln. Mx (H u ) = -20 * (1/20 * log 2 (1/20)) = log 2 (20) Informcj w sekwencji Informcj I u zwrt w sekwencji n pozycji umoże być obliczon jko: Iu = H mx Hu = log 2 20 Hu H mx = log 2 20, le pod wrunkiem, że dysponujemy co njmniej 20 sekwencjmi. Jeśli sekwencji jest mniej to H mx = log 2 (liczb sekwencji). Mksymln wrtość I u (mł entropi) ozncz brdzo dobrą konserwcję jkiegoś jednego minokwsu n pozycji u Logo Rozmir = I u q u, Schneider, Stephens, NAR,1990 16 18
Znjdownie biłek z określonej rodziny PSI-BLAST CEL: znmy zbiór biłek z jednej rodziny i znjdujemy biłk psujące Metody: Dopsownie do sekwencji konsensusowej(uśrednionej) rodziny Dopsownie do profilu rodziny Szuknie odcisku plc rodziny Metody probbilistyczne (np. ukryte modele Mrkow - HMM) Position-Specific Itertive BLAST Profil PSSM - Position-Specific Scoring Mtrix Wykłd Drzew Filogenetyczne Trdycyjne drzew pokrewieństw Drzew oprte były o podobieństw morfologiczne. Nie były binrne. Drzew filogenetyczne Drzewo jest grfem, który m głęzie, węzły i liście (końcówki, końcowe węzły) Drzewo może, le nie musi mieć korzeń Drzewo filogenetyczne to drzewo binrne Głęzie w drzewie filogenetycznym są skierowne 22 Hckel. E. Monophyletischer Stmbum der Orgnismen' from 'Generelle Morphologie der Orgnismen' (1866) with the three brnches Plnte, Protist, Animli 23 Węzły i liście odpowidją gtunkom lub sekwencjom molekulrnym i pokrewieństwom pomiędzy nimi Liście nzyw się w nim OUT ( Opertionl Txonomic Units ) 24
Drzew filogenetyczne Typy drzew filogenetycznych Tekstowy zpis drzew Kldogrm nie uwzględni czsu Drzewo ddytywne. Długości głęzi proporcjonlne do ilości mutcji n miejsce w sekwencji, skąd możn obliczyć odległość ewolucyjną. Drzewo może, le nie musi, mieć korzeń 25 Drzewo ultrmetryczne. Drzewo ddytywne, które dodtkowo m stłą szybkość mutcji wzdłuż głęzi (liczy się tylko czs). Skl po prwej pokzuje więc zrówno czs ewolucji, jk i (wyrównną) ilość mutcji n miejsce. 26 W tbeli mogą się również znleźć liczby określjące długości głęzi. 27 Zjwisk, którym podlegją geny (m.in. w sekwencjch homologicznych) Ortologi i Prlogi Ortologi/ Prlogi Duplikcj genów (również cłych chromosomów i genomów) Podził i ponowne połączenie frgmentów, le w innej kolejności Mutcjgenów (wewnątrz gtunku i międzygtunkowo) Zniknie genów po duplikcji (geny ciche - pseudogeny) Konwergencjgenów (homoplzjsekwencji) Poziomy(horyzontlny, lterlny) trnsfer genów HGT (Horizontl Gene Trnsfer) Geny ortologiczneto tkie, których rozdzielenie nstąpiło n skutek specjcji (po rozdzieleniu gtunków). Inczej mówiąc, w momencie specjcji gen mił tylko jedną kopię, dopiero później gen ewoluowł w rmch odrębnych gtunków, w kżdym niezleżnie Geny prlogiczneto tkie, których rozdzielenie nstąpiło w wyniku duplikcji genu (nie specjcji). Jeden gtunek m dwie kopie tego smego genu, które ewoluują niezleżnie od siebie, le w rmch tego smego gtunku. 28 29 30
Jk część genów jest ortologiczn? Zniknie (lub nieoznkownie) genów wpływ n odległości w drzewie Presj selektywn w pozycji 3 kodonu mutcje synonimowe Możliw losow zwrtość nukleotydu n 3 pozycji 31 32 33 Trnsfer poziomy genów (HGT), szczególnie bkterie Geny xenologowe pozornie b. podobne, jko efekt HGT 34 Trnsfer poziomy Rzęsistek pochwowy Science z 2007 roku doniósł o zsekwencjonowniu genomu, o wielkości ok. 160 M bp, z czego dwie trzecie to sekwencje powtórzeniowe (repetywne), lub trnspozonowe świdczy to o niedwnym rozszerzeniu genomu, związnym z przystosowniem do psożytniczego trybu życi, wynikłym z poziomego trnsferu genu od bkterii i późniejszym mplifikcjom odpowiednich rodzin genowych. Odległ grup (różne enzymy z jednej superodziny) 35 Jk wyznczyć dobre drzewo? 1. Wybrć rodzinę sekwencji homologicznych jko OTU Sekwencje powinny mieć wystrczjąco silny sygnł filogenetyczny. Jeśli sygnł jest słby (sekwencje są brdzo rozbieżne) to drzewo powstnie, le nie będzie zbyt informtywne Sekwencje muszą pochodzić z genów, które mją odpowiednio dużą, le nie zbyt dużą szybkość mutcji W wybrnych gench nie powinno być poziomego trnferu genów Sekwencje musz pochodzić z odpowiednich genów (ortologi, nie prlogi). 36
Geny, które spełniją złożeni Prokriot sekwencj DNA młej podjednostki rybosomu rrna(16s RNA). Mimo, że w niektórych genomch pojwi się w kilku kopich (n tej podstwie wyodrębniono Bcteri i Arche Crl Woese) Bkterie enzymy DNA: GyrA, GyrB, biłko chperonowe HSP60. Zwierzęt segment (648 bp) z cytochromu c oksydz I Jk wyznczyć dobre drzewo 37 38