Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Wielkość: px
Rozpocząć pokaz od strony:

Download "Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl"

Transkrypt

1 Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

2 Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej funkcji sekwencji podobnej strukturze białek wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii a analogii }

3 dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST dopasowanie wielu sekwencji

4 dopasowanie globalne i lokalne dopasowanie globalne (Needleman & Wunsch, 1970) przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe. dopasowanie lokalne (Smith & Waterman, 1981) przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. Gdy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca Optymalne dopasowanie globalne LGPSSKQTGKGS-SRIWDN LN-ITKSAGKGAIMRLGDA sekwencje o podobnej długości, blisko spokrewnione Optymal ne dopasowanie lolalne TGKG AGKG sekwencje o różnych długościach, posiadające regiony i domeny zachowane, podobne tylko w niektórych obszarach

5 Istotność dopasowania alignment significance Łatwiej oszacować istotność statystyczną Trudniej ocenić istotność biologiczną

6 Istotność dopasowania alignment significance Czy punktacja dopasowania jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie? Tworzenie metodą Monte Carlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste). Przyrównanie losowych(-ej) sekwencji (powtórzenie np razy) przy tych samych parametrach dopasowania. Określenie rozkładu punktacji, średniej i odchylenia standardowego (SD). Wyliczenie Z-score: Z = (score obs score ran )/SD ran Przykładowe empiryczne reguły : 3 > Z brak homologii 3 < Z < 6 istnieje homologia Z > 6 silna homologia Rozkład punktacji (score) nie jest rozkładem normalnym i dlatego nie można przekształcić Z-score na prawdopodobieństwo.

7 Istotność dopasowania Dla dopasowań lokalnych rozkład maksymalnych wartości punktacji dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych, extreme values distribution (Karlin i Altschul 1990). Log p(s>=s ) S Wykres zależności logarytmu ułamka dopasowań z punktacją S równą lub większą od wartości punktacji S E-value (expect value) oczekiwana (wg rozkładu) liczba dopasowań z punktacją równą przynajmniej S E=Kmn e λs

8 Bit score- znormalizowana punktacja uwzględniająca warunki jej naliczania i przyjęte systemy punktacji (parametry lambda i K) E=mn2 S' S'= λs ln K ln2 m, n: długości porównywanych sekwencji, λ: parametr skalujący zależny od systemu punktacji k: parametr skalujący zależny od przeszukiwanej bazy danych Prawdopodobieństwo znalezienia przynajmniej jednego dopasowania o punktacji >=S p= 1 e E

9 dopasowanie wielu sekwencji (MSA) przyrównanie (porównanie) wielu (co najmniej trzech) sekwencji HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA LAAVIADTVAAG DAGFEKLMSMICILLRSAY MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

10 Dopasowania wielu sekwencji - zastosowanie Określanie powiązań filogenetycznych między sekwencjami Poszukiwanie odległych homologów Poszukiwanie wspólnych, konserwowanych wzorów, motywów i domen w sekwencjach, odpowiedzialnych za odpowiednie funkcje biochemiczne lub strukturę przestrzenną. Grupowanie białek w rodziny o wspólnej funkcji biochemicznej lub historii ewolucyjnej. Identyfikowanie członków rodzin białek. Identyfikowanie zachodzących fragmentów sekwencji powstałych w wyniku losowego sekwencjonowania genomów i ułatwienie ich składania w jedną całą sekwencję. Najbardziej wiarygodny dla sekwencji o podobnej długości i posiadających zachowanie regiony.

11 Dopasowania wielu sekwencji a analizy filogenetyczne N-IAWSQGA NFLAWSQGA NFIAWSQGA NFIAWTQ-A I -> L - G sekw1 NFLAWSQGA sekw2 NFIAWSQGA sekw3 NFIAWTQ-A sekw4 N-IAWSQGA + F

12 Dopasowania wielu sekwencji - metody Programowanie dynamiczne (PD) - zbyt skomplikowane dla wielu sekwencji; stosowany dla niewielu krótkich sekwencji program MSA (dopasowanie globalne) Metody aproksymacyjne: Progresywne dopasowanie globalne (hierarchiczne) programy: CLUSTALW, CLUSTALX Metody iteracyjne programy: MultAlin, PRRP, DIALIGN, SAGA (algorytm genetyczny)

13 Dopasowanie wielu sekwencji i PD - złożoność problemu Optymalne dopasowanie dwóch sekwencji przy pomocy programowania dynamicznego - macierz punktacji w kwadracie, wymagany czas: L 2 ; L - długość sekwencji Optymalne dopasowanie trzech sekwencji przy pomocy programowania dynamicznego - macierz punktacji w sześcianie; wymagany czas: L 3 Optymalne dopasowanie N sekwencji przy pomocy programowania dynamicznego - macierz punktacji w N wymiarach: wymagany czas: L N - rośnie wykładniczo ze wzrostem liczby sekwencji (N)

14 Dopasowanie wielu sekwencji - trzy sekwencje A S Szukanie optymalnego dopasowania w objętości sześcianu. A N V S N - S - S N A A S S start V S N S

15 Dopasowanie wielu sekwencji i PD program MSA Liczenie w objętości (w przestrzeni N-wymiarowej) punktacji dla wielokrotnego dopasowania. Punktacja dla wielokrotnego dopasowania jest sumą punktacji uzyskanych dla porównania wszystkich par sekwencji w wielokrotnym alignment-cie (miara SP sum of pairs). Optymalne dopasowanie to takie, który posiada najlepszy SP score.

16 Progresywne dopasowanie globalne - program CLUSTALW Sekwencje globin >HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFAT LSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH* >HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFAA LSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH* >HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLH AHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR* >HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDLH AHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR* >MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELK PLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG* >GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVAS MDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY* >LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD ATLKNLGSVHVSKGVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA*

17 DOPASOWANIA WIELOKROTNE Metoda hierarchiczna Porównujemy zestaw 7 sekwencji :HAHU, HBHU,HAHO, HBHO, MYWHP, PILHB i LGHB Dopasowujemy osobno każdą możliwą parę sekwencji i obliczamy według pewnego algorytmu wzajemne podobieństwo sekwencji w obrębie każdej z 21 par Wynik przedstawiamy w macierzy podobieństw HBHU 21.1 HAHU HBHU HAHO HBHO MYWHP PILHB HAHO HBHO MYWHP PILHB LGHB

18 Tworzenie drzewa przewodniego HAHU HAHO HBHU HBHO MYWHP PILHB LGHB

19 Stopniowe zestawianie sekwencji dopasowanych HBHO dopasowanie HBHU Programowanie dynamiczne HBHO HBHU HAHU dopasowanie HAHO Programowanie dynamiczne HAHU HAHO

20 HBHO HBHU Nowa przerwa HAHU HAHO Programowanie dynamiczne HBHO HBHU HAHU HAHO dopasowanie czterech sekwencji - Dodawanie kolejnych sekwencji, coraz bardziej odległych według drzewa przewodniego

21 Sekwencyjne przyrównywanie sekwencji, ze względu na podobieństwo opisane na drzewie: przyrównanie najpierw sekwencji najbardziej podobnych, a następnie dołączanie do już utworzonego dopasowania pozostałych najbardziej podobnych sekwencji wg przewodniego drzewa filogenetycznego. Sekwencje po dopasowaniu są traktowane jako całość. HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSA HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSN HBA_HUMAN LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

22 HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSD HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGE HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTN HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTL GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND HBB_HUMAN GLAHLDN---LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GVHHLDN---LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN AVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE AVGHLDD---LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG DAGFEKLMSMICILLRSAY-

23 Progresywne dopasowanie globalne - program CLUSTALW α-helisa HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA LAAVIADTVAAG DAGFEKLMSMICILLRSAY MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

24 Metody iteracyjne Problemy dopasowania progresywnego: dalsze przyrównania zależą od początkowej pary sekwencji (szczególnie jeśli są to sekwencje odległe); błędy powstałe przy pierwszym przyrównaniu będą powielane dalej. Metody iteracyjne - wielokrotnie przeprowadzają dopasowania podgrup sekwencji, a następnie wykonują przyrównanie tych podgrup w dopasowanie globalne wszystkich sekwencji. Podgrupy są wybierane ze względu na ułożenie na drzewie filogenetycznym lub losowo.

25 Metody kombinowane Uwzględnienie homologów dopasowywanych sekwencji: dopasowanie profili sekwencyjnych Uwzględnienie przewidywanej struktury drugorzędowej: łączne zliczanie dopasowania sekwencji oraz struktur drugorzędowych. Uwzględnienie przewidywanej lub rzeczywistej struktury trójwymiarowej: zakotwiczenie dopasowania sekwencji w dopasowaniu strukturalnym. T-coffee, ProbCons, MAFFT, Promals

26 Metody słów (k-tuple) FASTA, BLAST Szybkość kosztem precyzji

27 FASTA - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 4-6; dla białek: 1, 2) i określenie ich położenia w sekwencjach. MRSCNSCMI MR 1 RS 2 SC 3, 6 CN 4 NS 5 CM 7 MI 8 MIRSCNCN MI 1 IR 2 RS 3 SC 4 CN 5, 7 NC 6 Liczenie różnicy położenia dla odpowiednich słów. Słowa, które wykazują tą samą różnicę w położeniu, mogą odpowiadać regionom, gdzie sekwencje pasują do siebie. MRSCNSCG RS 2 SC 3, 6 CN 4 MI 8 - IRSCNCN RS 3 SC 4 CN 5, 7 MI 1 = RS -1 SC -1, 2 CN -1, -3 MI 7

28 FASTA - algorytm Łączenie znalezionych par słów w regiony początkowe bez przerw znajdujące się w pewnej odległości od siebie. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Łączenie regionów początkowych w większe regiony najlepiej pasujące (o największej punktacji) i mogące uwzględniać przerwy. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana dla wybranych regionów, a następnie pomiędzy całą sekwencją wysłaną i znalezioną w bazie o najlepszej punktacji. Określenie istotności statystycznej dopasowań (E-value).

29 BLAST - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 11, 3 w przypadku tłumaczenia; dla białek: 2, 3) i określenie sąsiadujących (podobnych) słów neighorhood words (dla sekwencji aminokwasowych). MLIPQGDELVISWA MLI LIP IPQ PQG PEG,PRG,PSG,PQA,PAA,LQW,... QGD GDE GDA,GDF,ASE,QDE,IDL,ADE... DEL ELV LVI VIS ISW SWA

30 BLAST - algorytm Zidentyfikowanie w obrębie sąsiadujących (podobnych) słów tylko takich (~50), które najmniej różnią się od wzorca wg macierzy BLOSUM62 (>T punktacja progowa, score threshold). MLIPQGDELVISWA PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN T>13 Poszukiwanie wybranych słów w sekwencjach w bazie danych i ich przyrównywanie (dopasowywanie). Dla sekwencji DNA szukane są identyczne słowa. GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI

31 BLAST - algorytm Rozszerzanie dopasowania w regionie, w którym zostały znalezione przynajmniej dwa słowa, aż do regionów o niskiej punktacji. Określenie regionów HSP (high-scoring segment pair). GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI HSP Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana uwzględniającego wszystkie znalezione regiony HSP. Określenie istotności statystycznej dopasowań (E-value).

32 Filtrowanie regionów o słabej złożoności Maskowanie (nieuwzględnianie w porównaniach sekwencji) regionów o niskiej złożoności składu, niskiej entropii - LCR (low-complexity regions): powtórzenia nukleotydów lub aminokwasów ciągi tych samych, dwóch lub jednego znaku Regiony te mogą dawać wysokie wartości punktacji dla sekwencji w rzeczywistości niehomologicznych - wyniki fałszywe pozytywne Ponad połowa sekwencji białkowych w bazach posiada przynajmniej jeden LCR Programy do poszukiwania i maskowania tych regionów: PRSS (w pakiecie FASTA) SEG (wykorzystywany przez BLASTP) PSEG NSEG DUST (wykorzystywany przez BLASTN) XNU RepeatMasker Filtrowanie tych regionów jest opcją domyślną w programie BLAST. X - dla aminokwasów, N - dla nukleotydów

33 Filtrowanie regionów o słabej złożoności >gi sp P40692 MLH1_HUMAN DNA mismatch repair protein Mlh1 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGEMVKXXXXXXXXXXXXXXDKVYAHQMVRTDSREQKLDA 120 GSNSSRMYFTQTLLPGLAGPSGEMVK DKVYAHQMVRTDSREQKLDA Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSSDKVYAHQMVRTDSREQKLDA 395 Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 LCR (low-complexity regions

34 Porównanie programów FASTA i BLAST BLAST FASTA może podawać więcej niż jeden region o wysokiej punktacji lepszy dla sekwencji białek niż DNA podaje tylko jedno najlepsze dopasowanie lepszy dla sekwencji DNA niż białek szybszy niż FASTA mniej czuły niż FASTA przy użyciu domyślnych ustawień daje gorsze rozróżnienie między prawdziwymi i fałszywymi homologami wolniejszy niż BLAST bardziej czuły niż BLAST daje lepsze rozróżnienie między prawdziwymi i fałszywymi homologami

35 PSI-Blast Sequence vs Sequence Database or Sequence Profile vs Sequence Database PSSM: Position-Specific Scoring Matrix

36 PSI-Blast Query: FAM69A protein, human

37 PSI-Blast. Druga iteracja Query: FAM69A protein, human

38 PSI-Blast. Trzecia iteracja Query: FAM69A protein, human

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie

Bardziej szczegółowo

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010) Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie

Bardziej szczegółowo

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie

Bardziej szczegółowo

PRZYRÓWNANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI http://theta.edu.pl/ Podstawy Bioinformatyki III PRZYRÓWNANIE SEKWENCJI 1 Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają

Bardziej szczegółowo

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych),

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów

Bardziej szczegółowo

Dopasowanie sekwencji (sequence alignment)

Dopasowanie sekwencji (sequence alignment) Co to jest alignment? Dopasowanie sekwencji (sequence alignment) Alignment jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA lub białek do zidentyfikowanych regionów w celu określenia podobieństwa;

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych... Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe

Bardziej szczegółowo

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania Wprowadzenie do Informatyki Biomedycznej Wykład 2: Metody dopasowywania sekwencji Wydział Informatyki PB Dopasowywanie sekwencji (ang. sequence alignment) Dopasowywanie (przyrównywanie) sekwencji polega

Bardziej szczegółowo

Dopasowania par sekwencji DNA

Dopasowania par sekwencji DNA Dopasowania par sekwencji DNA Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA

Bardziej szczegółowo

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment Dopasowywanie sekwencji Sequence alignment Drzewo filogenetyczne Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry

Bardziej szczegółowo

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne

Bardziej szczegółowo

Wykład 5 Dopasowywanie lokalne

Wykład 5 Dopasowywanie lokalne Wykład 5 Dopasowywanie lokalne Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X Globalne dopasowanie Schemat punktowania (uproszczony)

Bardziej szczegółowo

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2 Istnieją dokładne algorytmy, lecz są one niewydajne

Bardziej szczegółowo

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek narodziła się nowa dyscyplina nauki ewolucja molekularna Ewolucja molekularna

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Wyszukiwanie sekwencji Jak wyszukad z baz danych bioinformatycznych sekwencje podobne do sekwencji zadanej (ang. query

Bardziej szczegółowo

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi

Bardziej szczegółowo

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji. Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie

Bardziej szczegółowo

Przyrównywanie sekwencji

Przyrównywanie sekwencji Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Przyrównywanie sekwencji 1. Porównywanie sekwencji wprowadzenie Sekwencje porównujemy po to, aby

Bardziej szczegółowo

Wykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM Bioinformatyka Wykład 9 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Konsekwencje zestawieo wielu sekwencji - rodziny białkowe, domeny, motywy i wzorce 2 Bioinformatyka,

Bardziej szczegółowo

Wstęp do Biologii Obliczeniowej

Wstęp do Biologii Obliczeniowej Wstęp do Biologii Obliczeniowej Zagadnienia na kolokwium Bartek Wilczyński 5. czerwca 2018 Sekwencje DNA i grafy Sekwencje w biologii, DNA, RNA, białka, alfabety, transkrypcja DNA RNA, translacja RNA białko,

Bardziej szczegółowo

Generator testów Bioinformatyka wer / 0 Strona: 1

Generator testów Bioinformatyka wer / 0 Strona: 1 Przedmiot: Nazwa przedmiotu Nazwa testu: Bioinformatyka wer. 1.0.6 Nr testu 0 Klasa: V zaoczne WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Analiza porównawcza białek zwykle zaczyna się na badaniach

Bardziej szczegółowo

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański BIOINFORMATYKA edycja 2016 / 2017 wykład 11 RNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Rola i rodzaje RNA 2. Oddziaływania wewnątrzcząsteczkowe i struktury

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa 4. Etapy konstrukcji drzewa filogenetycznego

Bardziej szczegółowo

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania

Bardziej szczegółowo

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia Porównywanie sekwencji Homologia, podobieństwo i analogia dopasowanie sekwencji Dopasowanie/porównywanie Uliniowienie Alignment W bioinformatyce, dopasowanie sekwencji jest sposobem dopasowania struktur

Bardziej szczegółowo

Generator testów 1.3.1 Bioinformatyka_zdalne wer. 1.0.13 / 0 Strona: 1

Generator testów 1.3.1 Bioinformatyka_zdalne wer. 1.0.13 / 0 Strona: 1 Przedmiot: Bioinformatyka Nazwa testu: Bioinformatyka_zdalne wer. 1.0.13 Nr testu 0 Klasa: WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Model Markowa substytucji aminokwasów w mutagenezie białek zakłada...

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW DOPASOWYWANIE SEKWENCJI 1. Miary podobieństwa sekwencji aminokwasów 2. Zastosowanie programów: CLUSTAL OMEGA BLAST Copyright 2013, Joanna Szyda

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew

Bardziej szczegółowo

Motywy i podobieństwo

Motywy i podobieństwo Motywy i podobieństwo Całość funkcja Modularna budowa białek Elementy składowe czyli miejsca wiązania, domeny 1 Motywy Motyw jest opisem określonej części trójwymiarowej struktury zawierającym charakterystyczny

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecność Literatura, materiały Bioinformatyka i ewolucja

Bardziej szczegółowo

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski Genomika Porównawcza Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski 1 Plan prezentacji 1. Rodzaje i budowa drzew filogenetycznych 2. Metody ukorzeniania drzewa

Bardziej szczegółowo

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Konstruowanie drzew filogenetycznych Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Drzewa filogenetyczne ukorzenione i nieukorzenione binarność konstrukcji topologia (sposób rozgałęziana

Bardziej szczegółowo

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność Wersja 1.05 Wprowadzenie do Informatyki Biomedycznej Wykład 3: Wyszukiwanie w bazach sekwencji Przewidywanie genów Wydział Informatyki PB Marek Krętowski pokój 206 e-mail: m.kretowski@pb.edu.pl http://aragorn.pb.bialystok.pl/~mkret

Bardziej szczegółowo

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy kombinatoryczne w bioinformatyce lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie

Bardziej szczegółowo

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński MultiSETTER: web server for multiple RNA structure comparison Sandra Sobierajska Uniwersytet Jagielloński Wprowadzenie Budowa RNA: - struktura pierwszorzędowa sekwencja nukleotydów w łańcuchu: A, U, G,

Bardziej szczegółowo

Porównywanie sekwencji białkowych

Porównywanie sekwencji białkowych Bioinformatyka -9 Bioinformatyka Wykład 4. E. Banachowicz Zakład Biofizyki Molekularnej http://www.amu.edu.pl/~ewas Porównywanie sekwencji białkowych Wykład 4, Bioinformatyka -9 Porównywanie sekwencji

Bardziej szczegółowo

Bioinformatyka. Porównywanie sekwencji

Bioinformatyka. Porównywanie sekwencji Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UM 1 http://www.amu.edu.pl/~ewas Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: zy

Bardziej szczegółowo

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka II Modelowanie struktury białek Bioinformatyka II Modelowanie struktury białek 1. Który spośród wymienionych szablonów wybierzesz do modelowania? Dlaczego? Struktura krystaliczną czy NMR (to samo białko, ta sama rozdzielczość)? Strukturę

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia

Bardziej szczegółowo

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy kombinatoryczne w bioinformatyce lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie

Bardziej szczegółowo

Samouczek: Konstruujemy drzewo

Samouczek: Konstruujemy drzewo ROZDZIAŁ 2 Samouczek: Konstruujemy drzewo Po co nam drzewa filogenetyczne? Drzewa filogenetyczne często pojawiają się dzisiaj w pracach z dziedziny biologii molekularnej, które nie mają związku z filogenetyką

Bardziej szczegółowo

Homologia, podobieństwo i analogia

Homologia, podobieństwo i analogia Porównywanie sekwencji Homologia, podobieństwo i analogia Homologi Ortologi homologiczne geny, których rozdzielenie nastąpiło na skutek specjacji, czyli rozdzielenia gatunków, lub rzadziej horyzontalnego

Bardziej szczegółowo

Techniki grupowania danych w środowisku Matlab

Techniki grupowania danych w środowisku Matlab Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe

Bardziej szczegółowo

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu 1. Sieci jako modele interakcji

Bardziej szczegółowo

Bioinformatyka wykład 10

Bioinformatyka wykład 10 Bioinformatyka wykład 10 21.XII.2010 białkowa bioinformatyka strukturalna, c.d. krzysztof_pawlowski@sggw.pl 2011-01-17 1 Regiony nieuporządkowane disordered regions trudna definicja trudne do przewidzenia

Bardziej szczegółowo

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Modelowanie motywów łańcuchami Markowa wyższego rzędu Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy

Bardziej szczegółowo

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Bioinformatyka. Podsumowanie algorytmów dynamicznych Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Podsumowanie algorytmów dynamicznych Algorytmy porównywania sekwencji oparte na programowaniu dynamicznym

Bardziej szczegółowo

Dopasowanie par sekwencji

Dopasowanie par sekwencji BIOINFORMTYK edycja 2016 / 2017 wykład 3 Dopasowanie par sekwencji dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Idea i cele dopasowania sekwencji 2. Definicje

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka wykład 8, 27.XI.2012 Bioinformatyka wykład 8, 27.XI.2012 białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2013-01-21 1 Plan wykładu regiony nieuporządkowane sposoby przedstawienia struktur białkowych powierzchnia

Bardziej szczegółowo

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online Techniki molekularne ćw. 5 1 z 13 Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online I. Zasoby NCBI Strona: http://www.ncbi.nlm.nih.gov/ stanowi punkt startowy dla eksploracji

Bardziej szczegółowo

MSA i analizy filogenetyczne

MSA i analizy filogenetyczne Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański MSA i analizy filogenetyczne 1. Dopasowania wielosekwencyjne - wprowadzenie Dopasowanie wielosekwencyjne

Bardziej szczegółowo

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST. Ćwiczenie 5/6 Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST. Prof. dr hab. Roman Zieliński 1. Informacja genetyczna u

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność

Bardziej szczegółowo

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka Słowo wstępne XIII Przedmowa XV 1. Bioinformatyka i Internet Andreas D. Baxevanis 1 1.1. Podstawy Internetu 2 1.2. Połączenie z Internetem

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecnośd Literatura, materiały i ewolucja molekularna

Bardziej szczegółowo

Spis treści 8 Ewolucja molekularna... 87. 9 Ewolucyjne podstawy porównywania sekwencji... 87. 9.1 Identyfikacja sekwencji i jej funkcji...

Spis treści 8 Ewolucja molekularna... 87. 9 Ewolucyjne podstawy porównywania sekwencji... 87. 9.1 Identyfikacja sekwencji i jej funkcji... Spis treści 8 Ewolucja molekularna... 87 9 Ewolucyjne podstawy porównywania sekwencji... 87 9.1 Identyfikacja sekwencji i jej funkcji... 87 9.2 Homologia... 88 9.3 Modele ewolucji sekwencji białkowej...

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl

Bioinformatyka Laboratorium, 30h. Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecnośd Literatura, materiały Bioinformatyka i ewolucja

Bardziej szczegółowo

Wstęp do programowania

Wstęp do programowania Wstęp do programowania Programowanie dynamiczne Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. X Jesień 2013 1 / 21 Dziel i zwyciężaj przypomnienie 1 Podział problemu na 2 lub

Bardziej szczegółowo

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna Przedmowa...................................................... 1 1. Rewolucja informatyczna w naukach biomedycznych...........................

Bardziej szczegółowo

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz Ewolucja molekularna człowieka okiem bioinformatyka Justyna Wojtczak Jarosław Jeleniewicz Informatyka w biologii - bioinformatyka Jest to szeroka dziedzina zajmująca się tworzeniem zaawansowanych baz danych,

Bardziej szczegółowo

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 181 Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 3. D T(D) poprzez algorytm łączenia sąsiadów 182 D D* : macierz łącząca sąsiadów n Niech TotDist i = k=1 D i,k Definiujemy

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich

Bardziej szczegółowo

Wstęp do programowania

Wstęp do programowania Wstęp do programowania Algorytmy zachłanne, programowanie dynamiczne Paweł Daniluk Wydział Fizyki Jesień 2014 P. Daniluk(Wydział Fizyki) WP w. IX Jesień 2014 1 / 26 Algorytmy zachłanne Strategia polegająca

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa - przykłady 4. Etapy konstrukcji drzewa

Bardziej szczegółowo

3 Przeszukiwanie baz danych

3 Przeszukiwanie baz danych Spis treści 3 Przeszukiwanie baz danych 1 3.1 Heurystyczne algorytmy...................... 1 3.1.1 FASTA........................... 1 3.1.2 BLAST........................... 3 3.2 Macierze substytucyjne.......................

Bardziej szczegółowo

Algorytmy przeszukiwania wzorca

Algorytmy przeszukiwania wzorca Algorytmy i struktury danych Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski Algorytmy przeszukiwania wzorca 1 Wstęp Algorytmy

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

dr inż. Jarosław Forenc

dr inż. Jarosław Forenc Informatyka 2 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr III, studia stacjonarne I stopnia Rok akademicki 2010/2011 Wykład nr 7 (24.01.2011) dr inż. Jarosław Forenc Rok akademicki

Bardziej szczegółowo

Modelowanie homologiczne

Modelowanie homologiczne Modelowanie homologiczne Struktura trzeciorzędowa ułatwia planowanie eksperymentów oraz interpretację otrzymanych wyników Struktura trzeciorzędowa Hemoglobiny - na 226 białek z tej rodziny zawsze grupa

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r= Program MC Napisać program symulujący twarde kule w zespole kanonicznym. Dla N > 100 twardych kul. Gęstość liczbowa 0.1 < N/V < 0.4. Zrobić obliczenia dla 2,3 różnych wartości gęstości. Obliczyć radialną

Bardziej szczegółowo

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek Sosnowiec 10-08-2017 RECENZJA rozprawy na stopień doktora nauk o zdrowiu przygotowana na zlecenie Dziekana Wydziału Nauk o Zdrowiu z Oddziałem Pielęgniarstwa i Instytutem Medycyny Morskiej i Tropikalnej

Bardziej szczegółowo

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

Algorytm genetyczny (genetic algorithm)-

Algorytm genetyczny (genetic algorithm)- Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Generator testów bioinformatyka wer / Strona: 1

Generator testów bioinformatyka wer / Strona: 1 Przedmiot: wyklad monograficzny Nazwa testu: bioinformatyka wer. 1.0.6 Nr testu 10469906 Klasa: 5 IBOS Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Aminokwas jest to związek organiczny zawierający A) grupę

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Wstęp do programowania

Wstęp do programowania Wstęp do programowania Algorytmy zachłanne, algoritme Dijkstry Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. XI Jesień 2013 1 / 25 Algorytmy zachłanne Strategia polegająca na

Bardziej szczegółowo

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI

PODSTAWY BIOINFORMATYKI PODSTAWY BIOINFORMATYKI Prowadzący: JOANNA SZYDA ADRIAN DROśDś WSTĘP 1. Katedra Genetyki badania bioinformatyczne 2. Tematyka przedmiotu 3. Charakterystyka wykładów 4. Charakterystyka ćwiczeń 5. Informacje

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku! Pracownia statystyczno-filogenetyczna Liczba punktów (wypełnia KGOB) / 30 PESEL Imię i nazwisko Grupa Nr Czas: 90 min. Łączna liczba punktów do zdobycia: 30 Czerwona Niebieska Zielona Żółta Zaznacz znakiem

Bardziej szczegółowo

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii 1. Technologia rekombinowanego DNA jest podstawą uzyskiwania genetycznie zmodyfikowanych organizmów 2. Medycyna i ochrona zdrowia

Bardziej szczegółowo

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytmy wyznaczania centralności w sieci Szymon Szylko Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności

Bardziej szczegółowo

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I - pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego - część I - Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Plan wykładów --------------------------------------------------------

Bardziej szczegółowo

Pamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A...

Pamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A... 1. Zadanie (0 2 p. ) Porównaj mitozę i mejozę, wpisując do tabeli podane określenia oraz cyfry. ta sama co w komórce macierzystej, o połowę mniejsza niż w komórce macierzystej, gamety, komórki budujące

Bardziej szczegółowo

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo