Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl
|
|
- Bogusław Kasprzak
- 8 lat temu
- Przeglądów:
Transkrypt
1 Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl
2 Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej funkcji sekwencji podobnej strukturze białek wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii a analogii }
3 dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST dopasowanie wielu sekwencji
4 dopasowanie globalne i lokalne dopasowanie globalne (Needleman & Wunsch, 1970) przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe. dopasowanie lokalne (Smith & Waterman, 1981) przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. Gdy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca Optymalne dopasowanie globalne LGPSSKQTGKGS-SRIWDN LN-ITKSAGKGAIMRLGDA sekwencje o podobnej długości, blisko spokrewnione Optymal ne dopasowanie lolalne TGKG AGKG sekwencje o różnych długościach, posiadające regiony i domeny zachowane, podobne tylko w niektórych obszarach
5 Istotność dopasowania alignment significance Łatwiej oszacować istotność statystyczną Trudniej ocenić istotność biologiczną
6 Istotność dopasowania alignment significance Czy punktacja dopasowania jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie? Tworzenie metodą Monte Carlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste). Przyrównanie losowych(-ej) sekwencji (powtórzenie np razy) przy tych samych parametrach dopasowania. Określenie rozkładu punktacji, średniej i odchylenia standardowego (SD). Wyliczenie Z-score: Z = (score obs score ran )/SD ran Przykładowe empiryczne reguły : 3 > Z brak homologii 3 < Z < 6 istnieje homologia Z > 6 silna homologia Rozkład punktacji (score) nie jest rozkładem normalnym i dlatego nie można przekształcić Z-score na prawdopodobieństwo.
7 Istotność dopasowania Dla dopasowań lokalnych rozkład maksymalnych wartości punktacji dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych, extreme values distribution (Karlin i Altschul 1990). Log p(s>=s ) S Wykres zależności logarytmu ułamka dopasowań z punktacją S równą lub większą od wartości punktacji S E-value (expect value) oczekiwana (wg rozkładu) liczba dopasowań z punktacją równą przynajmniej S E=Kmn e λs
8 Bit score- znormalizowana punktacja uwzględniająca warunki jej naliczania i przyjęte systemy punktacji (parametry lambda i K) E=mn2 S' S'= λs ln K ln2 m, n: długości porównywanych sekwencji, λ: parametr skalujący zależny od systemu punktacji k: parametr skalujący zależny od przeszukiwanej bazy danych Prawdopodobieństwo znalezienia przynajmniej jednego dopasowania o punktacji >=S p= 1 e E
9 dopasowanie wielu sekwencji (MSA) przyrównanie (porównanie) wielu (co najmniej trzech) sekwencji HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA LAAVIADTVAAG DAGFEKLMSMICILLRSAY MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :
10 Dopasowania wielu sekwencji - zastosowanie Określanie powiązań filogenetycznych między sekwencjami Poszukiwanie odległych homologów Poszukiwanie wspólnych, konserwowanych wzorów, motywów i domen w sekwencjach, odpowiedzialnych za odpowiednie funkcje biochemiczne lub strukturę przestrzenną. Grupowanie białek w rodziny o wspólnej funkcji biochemicznej lub historii ewolucyjnej. Identyfikowanie członków rodzin białek. Identyfikowanie zachodzących fragmentów sekwencji powstałych w wyniku losowego sekwencjonowania genomów i ułatwienie ich składania w jedną całą sekwencję. Najbardziej wiarygodny dla sekwencji o podobnej długości i posiadających zachowanie regiony.
11 Dopasowania wielu sekwencji a analizy filogenetyczne N-IAWSQGA NFLAWSQGA NFIAWSQGA NFIAWTQ-A I -> L - G sekw1 NFLAWSQGA sekw2 NFIAWSQGA sekw3 NFIAWTQ-A sekw4 N-IAWSQGA + F
12 Dopasowania wielu sekwencji - metody Programowanie dynamiczne (PD) - zbyt skomplikowane dla wielu sekwencji; stosowany dla niewielu krótkich sekwencji program MSA (dopasowanie globalne) Metody aproksymacyjne: Progresywne dopasowanie globalne (hierarchiczne) programy: CLUSTALW, CLUSTALX Metody iteracyjne programy: MultAlin, PRRP, DIALIGN, SAGA (algorytm genetyczny)
13 Dopasowanie wielu sekwencji i PD - złożoność problemu Optymalne dopasowanie dwóch sekwencji przy pomocy programowania dynamicznego - macierz punktacji w kwadracie, wymagany czas: L 2 ; L - długość sekwencji Optymalne dopasowanie trzech sekwencji przy pomocy programowania dynamicznego - macierz punktacji w sześcianie; wymagany czas: L 3 Optymalne dopasowanie N sekwencji przy pomocy programowania dynamicznego - macierz punktacji w N wymiarach: wymagany czas: L N - rośnie wykładniczo ze wzrostem liczby sekwencji (N)
14 Dopasowanie wielu sekwencji - trzy sekwencje A S Szukanie optymalnego dopasowania w objętości sześcianu. A N V S N - S - S N A A S S start V S N S
15 Dopasowanie wielu sekwencji i PD program MSA Liczenie w objętości (w przestrzeni N-wymiarowej) punktacji dla wielokrotnego dopasowania. Punktacja dla wielokrotnego dopasowania jest sumą punktacji uzyskanych dla porównania wszystkich par sekwencji w wielokrotnym alignment-cie (miara SP sum of pairs). Optymalne dopasowanie to takie, który posiada najlepszy SP score.
16 Progresywne dopasowanie globalne - program CLUSTALW Sekwencje globin >HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFAT LSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH* >HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFAA LSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH* >HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLH AHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR* >HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDLH AHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR* >MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELK PLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG* >GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVAS MDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY* >LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD ATLKNLGSVHVSKGVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA*
17 DOPASOWANIA WIELOKROTNE Metoda hierarchiczna Porównujemy zestaw 7 sekwencji :HAHU, HBHU,HAHO, HBHO, MYWHP, PILHB i LGHB Dopasowujemy osobno każdą możliwą parę sekwencji i obliczamy według pewnego algorytmu wzajemne podobieństwo sekwencji w obrębie każdej z 21 par Wynik przedstawiamy w macierzy podobieństw HBHU 21.1 HAHU HBHU HAHO HBHO MYWHP PILHB HAHO HBHO MYWHP PILHB LGHB
18 Tworzenie drzewa przewodniego HAHU HAHO HBHU HBHO MYWHP PILHB LGHB
19 Stopniowe zestawianie sekwencji dopasowanych HBHO dopasowanie HBHU Programowanie dynamiczne HBHO HBHU HAHU dopasowanie HAHO Programowanie dynamiczne HAHU HAHO
20 HBHO HBHU Nowa przerwa HAHU HAHO Programowanie dynamiczne HBHO HBHU HAHU HAHO dopasowanie czterech sekwencji - Dodawanie kolejnych sekwencji, coraz bardziej odległych według drzewa przewodniego
21 Sekwencyjne przyrównywanie sekwencji, ze względu na podobieństwo opisane na drzewie: przyrównanie najpierw sekwencji najbardziej podobnych, a następnie dołączanie do już utworzonego dopasowania pozostałych najbardziej podobnych sekwencji wg przewodniego drzewa filogenetycznego. Sekwencje po dopasowaniu są traktowane jako całość. HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSA HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSN HBA_HUMAN LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR
22 HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSD HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGE HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTN HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTL GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND HBB_HUMAN GLAHLDN---LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GVHHLDN---LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN AVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE AVGHLDD---LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG DAGFEKLMSMICILLRSAY-
23 Progresywne dopasowanie globalne - program CLUSTALW α-helisa HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA LAAVIADTVAAG DAGFEKLMSMICILLRSAY MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :
24 Metody iteracyjne Problemy dopasowania progresywnego: dalsze przyrównania zależą od początkowej pary sekwencji (szczególnie jeśli są to sekwencje odległe); błędy powstałe przy pierwszym przyrównaniu będą powielane dalej. Metody iteracyjne - wielokrotnie przeprowadzają dopasowania podgrup sekwencji, a następnie wykonują przyrównanie tych podgrup w dopasowanie globalne wszystkich sekwencji. Podgrupy są wybierane ze względu na ułożenie na drzewie filogenetycznym lub losowo.
25 Metody kombinowane Uwzględnienie homologów dopasowywanych sekwencji: dopasowanie profili sekwencyjnych Uwzględnienie przewidywanej struktury drugorzędowej: łączne zliczanie dopasowania sekwencji oraz struktur drugorzędowych. Uwzględnienie przewidywanej lub rzeczywistej struktury trójwymiarowej: zakotwiczenie dopasowania sekwencji w dopasowaniu strukturalnym. T-coffee, ProbCons, MAFFT, Promals
26 Metody słów (k-tuple) FASTA, BLAST Szybkość kosztem precyzji
27 FASTA - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 4-6; dla białek: 1, 2) i określenie ich położenia w sekwencjach. MRSCNSCMI MR 1 RS 2 SC 3, 6 CN 4 NS 5 CM 7 MI 8 MIRSCNCN MI 1 IR 2 RS 3 SC 4 CN 5, 7 NC 6 Liczenie różnicy położenia dla odpowiednich słów. Słowa, które wykazują tą samą różnicę w położeniu, mogą odpowiadać regionom, gdzie sekwencje pasują do siebie. MRSCNSCG RS 2 SC 3, 6 CN 4 MI 8 - IRSCNCN RS 3 SC 4 CN 5, 7 MI 1 = RS -1 SC -1, 2 CN -1, -3 MI 7
28 FASTA - algorytm Łączenie znalezionych par słów w regiony początkowe bez przerw znajdujące się w pewnej odległości od siebie. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Łączenie regionów początkowych w większe regiony najlepiej pasujące (o największej punktacji) i mogące uwzględniać przerwy. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana dla wybranych regionów, a następnie pomiędzy całą sekwencją wysłaną i znalezioną w bazie o najlepszej punktacji. Określenie istotności statystycznej dopasowań (E-value).
29 BLAST - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 11, 3 w przypadku tłumaczenia; dla białek: 2, 3) i określenie sąsiadujących (podobnych) słów neighorhood words (dla sekwencji aminokwasowych). MLIPQGDELVISWA MLI LIP IPQ PQG PEG,PRG,PSG,PQA,PAA,LQW,... QGD GDE GDA,GDF,ASE,QDE,IDL,ADE... DEL ELV LVI VIS ISW SWA
30 BLAST - algorytm Zidentyfikowanie w obrębie sąsiadujących (podobnych) słów tylko takich (~50), które najmniej różnią się od wzorca wg macierzy BLOSUM62 (>T punktacja progowa, score threshold). MLIPQGDELVISWA PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN T>13 Poszukiwanie wybranych słów w sekwencjach w bazie danych i ich przyrównywanie (dopasowywanie). Dla sekwencji DNA szukane są identyczne słowa. GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI
31 BLAST - algorytm Rozszerzanie dopasowania w regionie, w którym zostały znalezione przynajmniej dwa słowa, aż do regionów o niskiej punktacji. Określenie regionów HSP (high-scoring segment pair). GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI HSP Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana uwzględniającego wszystkie znalezione regiony HSP. Określenie istotności statystycznej dopasowań (E-value).
32 Filtrowanie regionów o słabej złożoności Maskowanie (nieuwzględnianie w porównaniach sekwencji) regionów o niskiej złożoności składu, niskiej entropii - LCR (low-complexity regions): powtórzenia nukleotydów lub aminokwasów ciągi tych samych, dwóch lub jednego znaku Regiony te mogą dawać wysokie wartości punktacji dla sekwencji w rzeczywistości niehomologicznych - wyniki fałszywe pozytywne Ponad połowa sekwencji białkowych w bazach posiada przynajmniej jeden LCR Programy do poszukiwania i maskowania tych regionów: PRSS (w pakiecie FASTA) SEG (wykorzystywany przez BLASTP) PSEG NSEG DUST (wykorzystywany przez BLASTN) XNU RepeatMasker Filtrowanie tych regionów jest opcją domyślną w programie BLAST. X - dla aminokwasów, N - dla nukleotydów
33 Filtrowanie regionów o słabej złożoności >gi sp P40692 MLH1_HUMAN DNA mismatch repair protein Mlh1 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGEMVKXXXXXXXXXXXXXXDKVYAHQMVRTDSREQKLDA 120 GSNSSRMYFTQTLLPGLAGPSGEMVK DKVYAHQMVRTDSREQKLDA Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSSDKVYAHQMVRTDSREQKLDA 395 Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 LCR (low-complexity regions
34 Porównanie programów FASTA i BLAST BLAST FASTA może podawać więcej niż jeden region o wysokiej punktacji lepszy dla sekwencji białek niż DNA podaje tylko jedno najlepsze dopasowanie lepszy dla sekwencji DNA niż białek szybszy niż FASTA mniej czuły niż FASTA przy użyciu domyślnych ustawień daje gorsze rozróżnienie między prawdziwymi i fałszywymi homologami wolniejszy niż BLAST bardziej czuły niż BLAST daje lepsze rozróżnienie między prawdziwymi i fałszywymi homologami
35 PSI-Blast Sequence vs Sequence Database or Sequence Profile vs Sequence Database PSSM: Position-Specific Scoring Matrix
36 PSI-Blast Query: FAM69A protein, human
37 PSI-Blast. Druga iteracja Query: FAM69A protein, human
38 PSI-Blast. Trzecia iteracja Query: FAM69A protein, human
Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl
Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie
Bardziej szczegółowoDopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)
Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie
Bardziej szczegółowoDopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)
Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie
Bardziej szczegółowoPRZYRÓWNANIE SEKWENCJI
http://theta.edu.pl/ Podstawy Bioinformatyki III PRZYRÓWNANIE SEKWENCJI 1 Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają
Bardziej szczegółowoPrzyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych),
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI
PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI
PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów
Bardziej szczegółowoDopasowanie sekwencji (sequence alignment)
Co to jest alignment? Dopasowanie sekwencji (sequence alignment) Alignment jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA lub białek do zidentyfikowanych regionów w celu określenia podobieństwa;
Bardziej szczegółowoSpis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...
Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe
Bardziej szczegółowoDopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania
Wprowadzenie do Informatyki Biomedycznej Wykład 2: Metody dopasowywania sekwencji Wydział Informatyki PB Dopasowywanie sekwencji (ang. sequence alignment) Dopasowywanie (przyrównywanie) sekwencji polega
Bardziej szczegółowoDopasowania par sekwencji DNA
Dopasowania par sekwencji DNA Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA
Bardziej szczegółowoPolitechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment
Dopasowywanie sekwencji Sequence alignment Drzewo filogenetyczne Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry
Bardziej szczegółowoBioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM
Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne
Bardziej szczegółowoWykład 5 Dopasowywanie lokalne
Wykład 5 Dopasowywanie lokalne Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X Globalne dopasowanie Schemat punktowania (uproszczony)
Bardziej szczegółowoPorównywanie i dopasowywanie sekwencji
Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2 Istnieją dokładne algorytmy, lecz są one niewydajne
Bardziej szczegółowoPorównywanie i dopasowywanie sekwencji
Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek narodziła się nowa dyscyplina nauki ewolucja molekularna Ewolucja molekularna
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Wyszukiwanie sekwencji Jak wyszukad z baz danych bioinformatycznych sekwencje podobne do sekwencji zadanej (ang. query
Bardziej szczegółowoprof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji
Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi
Bardziej szczegółowoBioinformatyka. Ocena wiarygodności dopasowania sekwencji.
Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie
Bardziej szczegółowoPrzyrównywanie sekwencji
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Przyrównywanie sekwencji 1. Porównywanie sekwencji wprowadzenie Sekwencje porównujemy po to, aby
Bardziej szczegółowoWykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM
Bioinformatyka Wykład 9 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Konsekwencje zestawieo wielu sekwencji - rodziny białkowe, domeny, motywy i wzorce 2 Bioinformatyka,
Bardziej szczegółowoWstęp do Biologii Obliczeniowej
Wstęp do Biologii Obliczeniowej Zagadnienia na kolokwium Bartek Wilczyński 5. czerwca 2018 Sekwencje DNA i grafy Sekwencje w biologii, DNA, RNA, białka, alfabety, transkrypcja DNA RNA, translacja RNA białko,
Bardziej szczegółowoGenerator testów Bioinformatyka wer / 0 Strona: 1
Przedmiot: Nazwa przedmiotu Nazwa testu: Bioinformatyka wer. 1.0.6 Nr testu 0 Klasa: V zaoczne WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Analiza porównawcza białek zwykle zaczyna się na badaniach
Bardziej szczegółowoBIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański
BIOINFORMATYKA edycja 2016 / 2017 wykład 11 RNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Rola i rodzaje RNA 2. Oddziaływania wewnątrzcząsteczkowe i struktury
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA
PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa 4. Etapy konstrukcji drzewa filogenetycznego
Bardziej szczegółowoBioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee
Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania
Bardziej szczegółowodopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia
Porównywanie sekwencji Homologia, podobieństwo i analogia dopasowanie sekwencji Dopasowanie/porównywanie Uliniowienie Alignment W bioinformatyce, dopasowanie sekwencji jest sposobem dopasowania struktur
Bardziej szczegółowoGenerator testów 1.3.1 Bioinformatyka_zdalne wer. 1.0.13 / 0 Strona: 1
Przedmiot: Bioinformatyka Nazwa testu: Bioinformatyka_zdalne wer. 1.0.13 Nr testu 0 Klasa: WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Model Markowa substytucji aminokwasów w mutagenezie białek zakłada...
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW
PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW DOPASOWYWANIE SEKWENCJI 1. Miary podobieństwa sekwencji aminokwasów 2. Zastosowanie programów: CLUSTAL OMEGA BLAST Copyright 2013, Joanna Szyda
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew
Bardziej szczegółowoMotywy i podobieństwo
Motywy i podobieństwo Całość funkcja Modularna budowa białek Elementy składowe czyli miejsca wiązania, domeny 1 Motywy Motyw jest opisem określonej części trójwymiarowej struktury zawierającym charakterystyczny
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecność Literatura, materiały Bioinformatyka i ewolucja
Bardziej szczegółowoGenomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski
Genomika Porównawcza Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski 1 Plan prezentacji 1. Rodzaje i budowa drzew filogenetycznych 2. Metody ukorzeniania drzewa
Bardziej szczegółowoKonstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Konstruowanie drzew filogenetycznych Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Drzewa filogenetyczne ukorzenione i nieukorzenione binarność konstrukcji topologia (sposób rozgałęziana
Bardziej szczegółowoWyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność
Wersja 1.05 Wprowadzenie do Informatyki Biomedycznej Wykład 3: Wyszukiwanie w bazach sekwencji Przewidywanie genów Wydział Informatyki PB Marek Krętowski pokój 206 e-mail: m.kretowski@pb.edu.pl http://aragorn.pb.bialystok.pl/~mkret
Bardziej szczegółowoAlgorytmy kombinatoryczne w bioinformatyce
lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie
Bardziej szczegółowoMultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński
MultiSETTER: web server for multiple RNA structure comparison Sandra Sobierajska Uniwersytet Jagielloński Wprowadzenie Budowa RNA: - struktura pierwszorzędowa sekwencja nukleotydów w łańcuchu: A, U, G,
Bardziej szczegółowoPorównywanie sekwencji białkowych
Bioinformatyka -9 Bioinformatyka Wykład 4. E. Banachowicz Zakład Biofizyki Molekularnej http://www.amu.edu.pl/~ewas Porównywanie sekwencji białkowych Wykład 4, Bioinformatyka -9 Porównywanie sekwencji
Bardziej szczegółowoBioinformatyka. Porównywanie sekwencji
Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UM 1 http://www.amu.edu.pl/~ewas Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: zy
Bardziej szczegółowoBioinformatyka II Modelowanie struktury białek
Bioinformatyka II Modelowanie struktury białek 1. Który spośród wymienionych szablonów wybierzesz do modelowania? Dlaczego? Struktura krystaliczną czy NMR (to samo białko, ta sama rozdzielczość)? Strukturę
Bardziej szczegółowoStatystyczna analiza danych
Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia
Bardziej szczegółowoAlgorytmy kombinatoryczne w bioinformatyce
lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie
Bardziej szczegółowoSamouczek: Konstruujemy drzewo
ROZDZIAŁ 2 Samouczek: Konstruujemy drzewo Po co nam drzewa filogenetyczne? Drzewa filogenetyczne często pojawiają się dzisiaj w pracach z dziedziny biologii molekularnej, które nie mają związku z filogenetyką
Bardziej szczegółowoHomologia, podobieństwo i analogia
Porównywanie sekwencji Homologia, podobieństwo i analogia Homologi Ortologi homologiczne geny, których rozdzielenie nastąpiło na skutek specjacji, czyli rozdzielenia gatunków, lub rzadziej horyzontalnego
Bardziej szczegółowoTechniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Bardziej szczegółowoGrafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci
Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu 1. Sieci jako modele interakcji
Bardziej szczegółowoBioinformatyka wykład 10
Bioinformatyka wykład 10 21.XII.2010 białkowa bioinformatyka strukturalna, c.d. krzysztof_pawlowski@sggw.pl 2011-01-17 1 Regiony nieuporządkowane disordered regions trudna definicja trudne do przewidzenia
Bardziej szczegółowoModelowanie motywów łańcuchami Markowa wyższego rzędu
Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy
Bardziej szczegółowoBioinformatyka. Podsumowanie algorytmów dynamicznych
Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Podsumowanie algorytmów dynamicznych Algorytmy porównywania sekwencji oparte na programowaniu dynamicznym
Bardziej szczegółowoDopasowanie par sekwencji
BIOINFORMTYK edycja 2016 / 2017 wykład 3 Dopasowanie par sekwencji dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Idea i cele dopasowania sekwencji 2. Definicje
Bardziej szczegółowooperacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
Bardziej szczegółowoBioinformatyka wykład 8, 27.XI.2012
Bioinformatyka wykład 8, 27.XI.2012 białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2013-01-21 1 Plan wykładu regiony nieuporządkowane sposoby przedstawienia struktur białkowych powierzchnia
Bardziej szczegółowoĆwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online
Techniki molekularne ćw. 5 1 z 13 Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online I. Zasoby NCBI Strona: http://www.ncbi.nlm.nih.gov/ stanowi punkt startowy dla eksploracji
Bardziej szczegółowoMSA i analizy filogenetyczne
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański MSA i analizy filogenetyczne 1. Dopasowania wielosekwencyjne - wprowadzenie Dopasowanie wielosekwencyjne
Bardziej szczegółowoĆwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.
Ćwiczenie 5/6 Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST. Prof. dr hab. Roman Zieliński 1. Informacja genetyczna u
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Bardziej szczegółowoKsięgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka
Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka Słowo wstępne XIII Przedmowa XV 1. Bioinformatyka i Internet Andreas D. Baxevanis 1 1.1. Podstawy Internetu 2 1.2. Połączenie z Internetem
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecnośd Literatura, materiały i ewolucja molekularna
Bardziej szczegółowoSpis treści 8 Ewolucja molekularna... 87. 9 Ewolucyjne podstawy porównywania sekwencji... 87. 9.1 Identyfikacja sekwencji i jej funkcji...
Spis treści 8 Ewolucja molekularna... 87 9 Ewolucyjne podstawy porównywania sekwencji... 87 9.1 Identyfikacja sekwencji i jej funkcji... 87 9.2 Homologia... 88 9.3 Modele ewolucji sekwencji białkowej...
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl
Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecnośd Literatura, materiały Bioinformatyka i ewolucja
Bardziej szczegółowoWstęp do programowania
Wstęp do programowania Programowanie dynamiczne Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. X Jesień 2013 1 / 21 Dziel i zwyciężaj przypomnienie 1 Podział problemu na 2 lub
Bardziej szczegółowoKsięgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna
Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna Przedmowa...................................................... 1 1. Rewolucja informatyczna w naukach biomedycznych...........................
Bardziej szczegółowoEwolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz
Ewolucja molekularna człowieka okiem bioinformatyka Justyna Wojtczak Jarosław Jeleniewicz Informatyka w biologii - bioinformatyka Jest to szeroka dziedzina zajmująca się tworzeniem zaawansowanych baz danych,
Bardziej szczegółowoFilogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.
181 Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 3. D T(D) poprzez algorytm łączenia sąsiadów 182 D D* : macierz łącząca sąsiadów n Niech TotDist i = k=1 D i,k Definiujemy
Bardziej szczegółowoWykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Bardziej szczegółowoWstęp do programowania
Wstęp do programowania Algorytmy zachłanne, programowanie dynamiczne Paweł Daniluk Wydział Fizyki Jesień 2014 P. Daniluk(Wydział Fizyki) WP w. IX Jesień 2014 1 / 26 Algorytmy zachłanne Strategia polegająca
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA
PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa - przykłady 4. Etapy konstrukcji drzewa
Bardziej szczegółowo3 Przeszukiwanie baz danych
Spis treści 3 Przeszukiwanie baz danych 1 3.1 Heurystyczne algorytmy...................... 1 3.1.1 FASTA........................... 1 3.1.2 BLAST........................... 3 3.2 Macierze substytucyjne.......................
Bardziej szczegółowoAlgorytmy przeszukiwania wzorca
Algorytmy i struktury danych Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski Algorytmy przeszukiwania wzorca 1 Wstęp Algorytmy
Bardziej szczegółowoRÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowodr inż. Jarosław Forenc
Informatyka 2 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr III, studia stacjonarne I stopnia Rok akademicki 2010/2011 Wykład nr 7 (24.01.2011) dr inż. Jarosław Forenc Rok akademicki
Bardziej szczegółowoModelowanie homologiczne
Modelowanie homologiczne Struktura trzeciorzędowa ułatwia planowanie eksperymentów oraz interpretację otrzymanych wyników Struktura trzeciorzędowa Hemoglobiny - na 226 białek z tej rodziny zawsze grupa
Bardziej szczegółowoAutomatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Bardziej szczegółowoProgram MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=
Program MC Napisać program symulujący twarde kule w zespole kanonicznym. Dla N > 100 twardych kul. Gęstość liczbowa 0.1 < N/V < 0.4. Zrobić obliczenia dla 2,3 różnych wartości gęstości. Obliczyć radialną
Bardziej szczegółowoAutor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek
Sosnowiec 10-08-2017 RECENZJA rozprawy na stopień doktora nauk o zdrowiu przygotowana na zlecenie Dziekana Wydziału Nauk o Zdrowiu z Oddziałem Pielęgniarstwa i Instytutem Medycyny Morskiej i Tropikalnej
Bardziej szczegółowoOcena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO
Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika
Bardziej szczegółowoSCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO
SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania
Bardziej szczegółowoAlgorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Bardziej szczegółowoTesty nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Bardziej szczegółowoGenerator testów bioinformatyka wer / Strona: 1
Przedmiot: wyklad monograficzny Nazwa testu: bioinformatyka wer. 1.0.6 Nr testu 10469906 Klasa: 5 IBOS Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Aminokwas jest to związek organiczny zawierający A) grupę
Bardziej szczegółowoWykład 9 Wnioskowanie o średnich
Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i
Bardziej szczegółowoWstęp do programowania
Wstęp do programowania Algorytmy zachłanne, algoritme Dijkstry Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. XI Jesień 2013 1 / 25 Algorytmy zachłanne Strategia polegająca na
Bardziej szczegółowoNaszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI
PODSTAWY BIOINFORMATYKI Prowadzący: JOANNA SZYDA ADRIAN DROśDś WSTĘP 1. Katedra Genetyki badania bioinformatyczne 2. Tematyka przedmiotu 3. Charakterystyka wykładów 4. Charakterystyka ćwiczeń 5. Informacje
Bardziej szczegółowoWNIOSKOWANIE STATYSTYCZNE
STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących
Bardziej szczegółowoWszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!
Pracownia statystyczno-filogenetyczna Liczba punktów (wypełnia KGOB) / 30 PESEL Imię i nazwisko Grupa Nr Czas: 90 min. Łączna liczba punktów do zdobycia: 30 Czerwona Niebieska Zielona Żółta Zaznacz znakiem
Bardziej szczegółowoMożliwości współczesnej inżynierii genetycznej w obszarze biotechnologii
Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii 1. Technologia rekombinowanego DNA jest podstawą uzyskiwania genetycznie zmodyfikowanych organizmów 2. Medycyna i ochrona zdrowia
Bardziej szczegółowoAlgorytmy wyznaczania centralności w sieci Szymon Szylko
Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności
Bardziej szczegółowoAnaliza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -
pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego - część I - Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Plan wykładów --------------------------------------------------------
Bardziej szczegółowoPamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A...
1. Zadanie (0 2 p. ) Porównaj mitozę i mejozę, wpisując do tabeli podane określenia oraz cyfry. ta sama co w komórce macierzystej, o połowę mniejsza niż w komórce macierzystej, gamety, komórki budujące
Bardziej szczegółowoZałożenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW
Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa
Bardziej szczegółowoWykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Bardziej szczegółowoZadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Bardziej szczegółowoRegresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowo