Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wielkość: px
Rozpocząć pokaz od strony:

Download "Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM"

Transkrypt

1 Bioinformatyka Wykład 6 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM 1 Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) 2 Wykład 7,

2 Zestawienia wielosekwencyjne Multiple Sequence Alignment 3 Zestawienia wielosekwencyjne Multiple Sequence Alignment porównanie dwóch sekwencji szukanie podobieństwa: przeniesienie informacji o strukturze i funkcji (właściciel dwóch zegarków nigdy dokładnie nie wie, która jest godzina) porównanie wielu sekwencji? znalezione podobieństwa mogą być bardziej istotne jeśli występują w wielu sekwencjach 4 Wykład 7,

3 Multiple Sequence Alignment Kiedy? Tylko z sekwencjami homologicznymi Po co? wskazanie regionów podobnych, zróżnicowanych, domen oraz funkcyjnie istotnych motywów poprawienie przewidywania; poprawienie błędów! tworzenie sekwencji konsensusowej (uzgodnionej), odszukiwanie nowych motywów Jak? Metody automatyczne: Clustal, MAGI półautomatyczne: Hidden Markov Models (HMM) analiza ręczna : Jalview, Cinema 5 MSA - Metody Clustal W, MAGI (EBI) (PBIL) (EMBnet-CH) (MAGI) półautomatyczne: Hidden Markov Models (HMM) Ręczna analiza zestawienia: Jalview, Cinema CINEMA: 6 Wykład 7,

4 hemoglobina, leghemoglobina i mioglobina Wykład 7,

5 Wykład 7,

6 Wykład 7,

7 2GDM (leghemoglobin) vs 1HLB (hemoglobin), id.21% Wykład 7,

8 Multiple Sequence Alignment (MSA) pozwala na znalezienie najbardziej podobnych fragmentów w zbiorze sekwencji domeny funkcyjne domeny strukturalne Jeśli struktura jednego z białek jest znana możliwe jest dopasowanie struktury do pozostałych członków zestawienia 15 Zestawienie wielosekwencyjne a zestawienie dwóch sekwencji Podejście macierzowe = programowanie dynamiczne prowadzi do optymalnego zestawienia dwóch sekwencji. Dla zestawień wielosekwencyjnych trudne liczba porównań rośnie gwałtownie z liczbą sekwencji. 16 Wykład 7,

9 Seq2 seq 2 MSA - dynamiczne Seq 1 zestawienie optymalne dla dwóch sekwencji seq 1:seq 2 18 seq 1 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 19 Wykład 7,

10 seq 2 seq 2 seq 1 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 seq 3:seq 1 20 seq 1 Optymalne zestawienie wielosekwencyjne dla więcej niż 3 sekwencji potrzebna jest przestrzeń N wymiarowa 21 Wykład 7,

11 Punktacja MSA punktacja każdego zestawienia dwóch sekwencji. Suma Par (SP score). stała kara za przerwy (Gaps-constant penalty) dla dowolnego rozmiaru przerwy. 22 Siatka zestawienia 2-D i 3-D V W 2-D przestrzeń Zestawienie globalne oznacza przejście przez całą przestrzeń po przekątnej 3-D przestrzeń 23 Wykład 7,

12 komórka 2-D i 3-D zestawienia W 2-D, 3 krawędzie na każdą komórkę W 3-D, 7 krawędzi na każdą komórkę 24 Architektura komórki 3-D zestawienia (i-1,j-1,k-1) (i-1,j,k-1) (i-1,j-1,k) (i-1,j,k) (i,j-1,k-1) (i,j,k-1) (i,j-1,k) (i,j,k) porównaj Wykład 4 (algorytmy programowania dynamicznego) 25 Wykład 7,

13 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 26 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 27 Wykład 7,

14 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 28 Metody hierarchiczne Wykład 7,

15 Metody hierarchiczne tworzenie drzewa przewodniego Multiple sequence alignments CHERRIES PEARS CLEMENTINES GREENAPPLES CHERRIES P-EAR--S CLEMENTIN-ES 7 GRE-ENAPPLES P-EARS----- GREENAPPLES CLEMENTINES GREENAPPLES CHERR---IES P-EARS----- CLEMENTINES 23 0 CHERR--I-ES ClareSansom 31 Wykład 7,

16 Multiple sequence alignments GREENAPPLES CLEMENTINES CHERRIES PEARS GREENAPPLES CLEMENTINES CHERR---IES P-EARS Multiple sequence alignments CLUSTAL W (1.7) multiple sequence alignment Q40236/1-193 GTF-DQLQLVLRWPTSFCNGKNCKRTPKDFTIHGLWPDSEAGELNFCNPRASYTIVRHGTF Q40241/ QLQLVLRWPTSFCNGKNCKRTPKDFTIHGLWPDSEAGELNFCNPRASYTIVRHGTF Q42513/1-193 GTF-NQLQLVLRWPASFCKGKKCERTPNNFTIHGLWPDIKGTILNNCNPDAKYASVTGGKF G255586/1-194 GAF-EYMQLVLQWPTAFCHTTPCKNIPSNFTIHGLWPDNVSTTLNFCGKEDDYNIIMDGP- Q40379/1-194 GAF-EYMQLVLQWPTTFCHTTPCKNIPSNFTIHGLWPDNVSTTLNFCGKEDDYNIIMDGP- :****:**::**:. *:. *.:*********. ** *..* : * Jalview Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 EKRN---KHWPDLMRSKDNSMDNQEFWKHEYIKHGSCCTDLFNETQYFDLALVLKDRFDLLT EKRN---KHWPDLMRSKDNSMDNQEFWKHEYIKHGSCCTDLFNETQYFDLALVLKDRFDLLT VKRN---KHWPDLILTEAASLNSQGFWAYQFKKHGTCCSDLFNQEKYFDLALILKDKFDLLT EK-NGLYVRWPDLIREKADCMKTQNFWRREYIKHGTCCSEIYNQVQYFRLAMALKDKFDLLT EK-NGLYVRWPDLIREKADCMKTQNFWRREYIKHGTCCSEIYNQVQYFRLAMALKDKFDLLT :* * :****: :.:..* ** :: ***:**::::*: :** **: ***:***** Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 TFRIHGIVPRSSHTVDKIKKTIRSVTGVLPNLSCTKNMDLLEIGICFNREASKMIDCTRP TFRIHGIVPRSSHTVDKIKKTIRSVTGVLPNLSCTKNMDLLEIGICFNREASKMIDCTRP TFRNKGIIPKSTCTINKIQKTIRTVTGVVPNLSCTPTMELLEVGICFNRDASKLIDCDQP SLKNHGIIRGYKYTVQKINNTIKTVTKGYPNLSCTKGQELWEVGICFDSTAKNVIDCPNP SLKNHGIIRGYKYTVQKINNTIKTVTKGYPNLSCTKGQELWEVGICFDSTAKNVIDCPNP ::: :**:. *::**::**::** ****** :* *:****: *.::***.* Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 KTCNPGEDNLIGFP KTCNPGEDNLIGFP KTCDTSGNTEIFFP KTCKTASNQGIMFP KTCKTASNQGIMFP ***... : * ** 33 Wykład 7,

17 Profile Profile Representation of Multiple Alignment na przykładzie DNA - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Profile Profile Representation of Multiple Alignment - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Wykład 7,

18 Profile Profile Representation of Multiple Alignment - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Profil porównanie profili - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Oczywiste jest porównanie sekwencji do sekwencji. Czy można porównać/zestawić sekwencję z profilem? Czy można porównać/zestawić profil z profilem? 37 Wykład 7,

19 Zestawianie zestawień Aligning alignments x GGGCACTGCAT y GGTTACGTC-- Alignment 1 z GGGAACTGCAG w GGACGTACC-- Alignment 2 v GGACCT Zestawianie zestawień Aligning alignments Czy można porównać dwa zestawienia? zestawienia odpowiednich profili (zestawianie zestawień prowadzi do zestawienia wielosekwencyjnego nowy sposób?) x GGGCACTGCAT y GGTTACGTC-- z GGGAACTGCAG w GGACGTACC-- v GGACCT----- Combined Alignment 39 Wykład 7,

20 Zestawienia wielosekwencyjne greedy aproach Zestawienie wielosekwencyjne Multiple Alignment: Greedy Approach Podejście: Wybranie najbardziej podobnej pary łańcuchów i złożenie ich w jeden profil redukcja zestawienia k sekwencji do k-1 sekwencji/profili. To jest metoda heurystyczna (heuristic greedy method) k u 1 = ACGTACGTACGT u 2 = TTAATTAATTAA u 3 = ACTACTACTACT u 1 = ACg/tTACg/tTACg/cT u 2 = TTAATTAATTAA u k = CCGGCCGGCCGG k-1 u k = CCGGCCGGCCGG greedy łakomy, pazerny 41 Wykład 7,

21 Greedy Approach: Przykład s1 GATTCA s2 GTCTGA s3 GATATT s4 GTCAGC 42 Greedy Approach: Przykład 4 2 = 6 możliwych zestawień s2 GTCTGA s4 GTCAGC (score = 2) s1 GAT-TCA s2 G-TCTGA (score = 1) s1 GAT-TCA s3 GATAT-T (score = 1) s1 GATTCA-- s4 G T-CAGC(score = 0) s2 G-TCTGA s3 GATAT-T (score = -1) s3 GAT-ATT s4 G-TCAGC (score = -1) 43 Wykład 7,

22 Greedy Approach: Przykład s 2 i s 4 są najbardziej podobne; kombinacja: s2 GTCTGA s4 GTCAGC s 2,4 GTCt/aGa/cA (profil) Nowy zestaw 3 sekwencji: s 1 s 3 s 2,4 GATTCA GATATT GTCt/aGa/c 44 Zestawienie progresywne Progressive Alignment Progressive alignment jest ulepszoną wersją zestawienia za pomocą podejścia greedy poprawiona strategia wybierania najlepszych sekwencji do zestawień Zestawienie progresywne dobrze działa dla podobnych sekwencji, gorzej dla odległych 45 Wykład 7,

23 ClustalW numer jeden na świecie W oznacza ważone (różne fragmenty zestawienia mają różna wagę ). Trzy kroki: 1) Tworzenie zestwień dwóch sekwencji 2) Budowa Guide Tree (drzewo przewodnie/naprowadzające) 3) Zestawienie progresywne wykorzystujące drzewo 46 Krok 1: Zestwienia dwusekwencyjne Zestawienie sekwencji każda z każdą macierz podobieństwa podobieństwo = identyczne / długość sekwencji (%identycznych) v 1 v 2 v 3 v 4 v 1 - v v v (.17 oznacza 17 % identycznych) 47 Wykład 7,

24 Krok 2: Drzewo (Guide Tree) Budowa drzewa na podstawie macierzy podobieństwa ClustalW stosuje metode łączenia sąsiadów (neighbor-joining) Drzewo (guide tree) odzwierciedla z grubsza związki ewolucyjne między sekwencjami 48 Krok 2: Drzewo (Guide Tree) v 1 v 2 v 3 v 4 v 1 - v v v v 1 v 3 v 4 v 2 obliczenia: v 1,3 = alignment (v 1, v 3 ) v 1,3,4 = alignment((v 1,3 ),v 4 ) v 1,2,3,4 = alignment((v 1,3,4 ),v 2 ) 49 Wykład 7,

25 Krok 3: Zestwienie progresywne na początek dwie najbardziej podobne sekwencje Zgodnie z guide tree,dodawane są kolejne sekwencje, zestawiane z istniejącym zestwieniem Wstawianie przerw w razie potrzeby FOS_RAT FOS_MOUSE FOS_CHICK FOSB_MOUSE FOSB_HUMAN PEEMSVTS-LDLTGGLPEATTPESEEAFTLPLLNDPEPK-PSLEPVKNISNMELKAEPFD PEEMSVAS-LDLTGGLPEASTPESEEAFTLPLLNDPEPK-PSLEPVKSISNVELKAEPFD SEELAAATALDLG----APSPAAAEEAFALPLMTEAPPAVPPKEPSG--SGLELKAEPFD PGPGPLAEVRDLPG-----STSAKEDGFGWLLPPPPPPP LPFQ PGPGPLAEVRDLPG-----SAPAKEDGFSWLLPPPPPPP LPFQ.. : **. :.. *:.* *. * **: Kropki i gwiazdki pokazują stopień zachowania (zakonserwowania)kolumny 50 Zestawienie wielosekwencyjne: Punktacja (Scoring ) liczba dopasowań (punktacja najdłuższej wspólnej sekwencji) Entropia (Entropy score) Suma par (Sum of pairs, SP-Score) 51 Wykład 7,

26 Punktacja najdłuższej wspólnej sekwencji Multiple LCS Score kolumna jest dopasowana (match) jeśli wszystkie litery w kolumnie są równe AAA AAA AAT ATC tylko dla bardzo podobnych sekwencji 52 AAA AAA AAT ATC Entropia Określa częstotliwość z jaką każda litera pojawia się w każdej kolumnie zestawienia wielosekwencyjnego p A = 1, p A = 0.75, p T = 0.25, p T = p G =p C =0 (1. kolumna) p G =p C =0 (2.kolumna) p A = 0.50, p T = 0.25, p C =0.25 p G =0 (3. kolumna) entropie oblicza się dla każdej kolumny: X A, T, G, C p X log p X 53 Wykład 7,

27 przypadek najlepszy przypadek najgorszy Entropia: przykład A T entropy G C A A entropy 0 A A 1 1 log ( 2) Entropia zestawienia Multiple Alignment: Entropy Score Entropia zestwienia wielosekwencyjnego jest sumą entropii z wszystkich kolumn : przez wszystkie kolumny X=A,T,G,C p X logp X 55 Wykład 7,

28 Entropia zestawienia : przykład entropia kolumn: -( p A logp A + p C logp C + p G logp G + p T logp T ) A A A A C C A C G A C T kolumna 1 = -[1*log(1) + 0*log0 + 0*log0 +0*log0] = 0 kolumna 2 = -[( 1 / 4 )*log( 1 / 4 ) + ( 3 / 4 )*log( 3 / 4 ) + 0*log0 + 0*log0] = -[ ( 1 / 4 )*(-2) + ( 3 / 4 )*(-.415) ] = kolumna 3 = -[( 1 / 4 )*log( 1 / 4 )+( 1 / 4 )*log( 1 / 4 )+( 1 / 4 )*log( 1 / 4 ) +( 1 / 4 )*log( 1 / 4 )] = 4* -[( 1 / 4 )*(-2)] = +2.0 Entropia zestawienia = = Zestawienie wielosekwencyjne generuje zestawienia par Każde zestawienie wielosekwencyjne prowadzi do zestawienia par Pary: x: AC-GCGG-C y: AC-GC-GAG z: GCCGC-GAG x: ACGCGG-C; x: AC-GCGG-C; y: AC-GCGAG y: ACGC-GAC; z: GCCGC-GAG; z: GCCGCGAG 57 Wykład 7,

29 Zestawienie par z zestawienia wielosekwencyjnego da się wyprowadzić z każdego zestawienia wielosekwencyjnego, ale nie koniecznie będzie to zestawienie optymalne projekcja 3-D ścieżki zestawienia wielosekwencyjnego na 2-D powierzchnie sześcianu 58 Projekcja zestawienia wielosekwencyjnego All 3 Pairwise Projections of the Multiple Alignment 59 Wykład 7,

30 Suma Punktacji Par (SP-Score) zestawienie dwóch sekwencji v i i v j uzyskane w zestawieniu wielosekwencyjnym k sekwencji Nieoptymalna punktacja tej pary: s*(v i, v j ) suma punktacji wszystkich par: s(v 1,,v k ) = Σ i,j s*(v i, v j ) 60 Obliczanie SP-Score Zestawienie 4 sekwencji= 6 zestwień par sekwencje v 1,v 2,v 3,v 4 : s(v 1 v 4 ) = s*(v i,v j ) = s*(v 1,v 2 ) + s*(v 1,v 3 ) + s*(v 1,v 4 ) + s*(v 2,v 3 ) + s*(v 2,v 4 ) + s*(v 3,v 4 ) 61 Wykład 7,

31 SP-Score: Przykład v 1. v k ATG-C-AAT A-G-CATAT ATCCCATTT do obliczenia każdej kolumny: * n S( v ) Ss * (( vi, v 1... vk j ) i, j 2 Par sekwencji A A G 1 1 Score=3 m 1 1 A C m Kolumna 1 Kolumna 3 G Score = 1 2m 62 Problemy w MSA Wielodomenowe białka ewoluowałny, nie tylko przez mutacje punktowe, ale i przed duplikacje i rekombinacje domen Nie ma algorytmu MSA, który pozwalałby na zestawienie sekwencji, które uległy rearanżacji Zwykle możliwe jest porównanie pełnej długości wielu sekwencji 63 Wykład 7,

32 Źródło Chris Lee, POA, UCLA An introduction to Bioinformatics algorithms, N.C. Jones&P.A.Pevzner 64 Do czego prowadzą zestawienia wielosekwencyjne (MSA) wykrywanie zachowawczych(zakonserwowanych) regionów w sekwencjach i budowania ich modeli: Consensus sequences (uzgodnione, zachowacze sekwencje) Patterns (wzorce) Position Specific Score Matrices (PSSMs), Profiles (profile) etc. budowanie drzew filogenetycznych śledzenie pokrewieństwa 65 Wykład 7,

33 Bazy domen i rodzin białkowych Databases of protein domains and families InterPro - Integrated Resources of Proteins Domains and Functional Sites PROSITE - PROSITE dictionary of protein sites and patterns BLOCKS - BLOCKS db Pfam - Protein families db (HMM derived) [Mirrors at St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] PRINTS - Protein Motif fingerprint db ProDom - Protein domain db (Automatically generated) PROTOMAP - An automatic hierarchical classification of Swiss-Prot proteins SBASE - SBASE domain db SMART - Simple Modular Architecture Research Tool STRING - Search Tool for the Retrieval of Interacting Genes/Proteins TIGRFAMs - TIGR protein families db (CDN) 66 Terminologia dla białek rodzina (family): grupa białek o podobnej funkcji biochemicznej i identyczności sekwencji ok. 50%. podobieństwo jest przechodnie: jeśli A B i B C, to A C nawet jeśli id<50% nadrodzina (superfamily) grupa rodzin białkowych związanych odległym ale wykrywalnym podobieństwem Wykład 7,

34 Terminologia dla sekwencji Blok (block): zakonserwowany wzorzec sekwencji białkowych(pattern) nie zawierający przerw Motyw: zakonserwowany wzorzec sekwencji znaleziony dla wielu sekwencji białkowych o podobnej aktywności biochemicznej (zwykle w pobliżu miejsca aktywnego) Moduł: zakonserwowany fragment sekwencji zawierający jeden lub więcej motywów, traktowany jako fundamentalna jednostka strukturalna lub funkcyjna Terminologia dla sekwencji Domena (homologiczna): rozszerzony wzorzec (pattern) sekwencji wskazujący na wspólne ewolucyjne pochodzenie, zawierający jeden lub więcej motywów i ew. przerwy. Domena (struktulana): fragment łańcucha białkowego, który zwija się do struktury 3D niezależnie od pozostałych fragmentów (dotyczy białek wielodomenowych) Wykład 7,

35 Pattern (wzorzec) The PROSITE database of protein domains, families and functional sites Prosite ( zbiór alternatywnych sekwencji wyrażony za pomocą regular expression 70 Definiowanie matryc sekwencji - Patterns Sposób zapisu matrycy (wzorca): motyw receptora jądrowego: C-x(2)-C-x-[DE]-x(5)-[HN]-[FY]-x(4)-C-x(2)-C-x(2)-F-F-x-R [DE]: D lub E x(5): 5 niezdefiniowanych, dowolnych pozycji {FYW}: dowolny niearomatyczny aminokwas 71 Wykład 7,

36 Pattern - wzorzec <A-x-[ST](2)-x(0,1)-{V} Ala na końcu N-, dowolny aminokwas, Ser lub Thr (razy 2), 0 lub dowolny aminokwas, dowolny aminokwas z wyjątkiemval. 72 Przykład zapisu wzorca (pattern) Wykład 7,

37 Profil PSSMs, HMM - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T PSSM pozycyjno specyficzna tablica wartościująca 74 Wykład 7,

38 Przykłady: Zinc finger AGE1_YEAST CFTR_HUMAN (P13569) MECP2_HUMAN (P51608) L-X(6)-LX(6)-LX(6)-L Q5SWW9_HUMAN (Q5SWW9) Wykład 7,

39 domena zawierająca motyw palca cynkowego zinc finger motif (Cys-x2-Cys-x(16,17)-Cys-x2-Cys) Wykład 7,

40 Motywy - motyw może być powiązany ze strukturą drugorzędową E.coli trp repressor 81 Motyw zamka leucynowego Leucine zipper motif L-X(6)-LX(6)-LX(6)-L 82 Wykład 7,

41 Strukturalna klasyfikacja białek Wykład 7,

42 Motyw zamka leucynowego L-X(6)-LX(6)-LX(6)-L 85 Domeny Domena jednostka strukturalna Granice domen mogą wynikać ze specyficznej sekwencji podobne domeny (takie same) związane są z taką samą funkcją 86 Wykład 7,

43 87 Pfam-A rozpoznane i opisane rodziny 75% sekwencji 7868 rodzin HMM ukryte modele Markova 88 Wykład 7,

44 Wykład 7,

45 PSI-BLAST Position-specific-interated BLAST Iteracyjne stosowanie BLASTa do znalezienia sekwencji o niskim podobieństwie: zastosowanie BLASTAp utworzenie PSSM (Position Specific Substitution Matrix) z zestawień o najwyższej puktacji powtórzenie przeszukiwania (tym razem szukanie sekwencji podobnych do PSSM 91 PSI-BLAST Query sequence Vs. database PSSM 2 PSSM 5 Wykład 7,

46 Position Specific Score Matrix (PSSM) PSSM jest macierzą opartą na częstotliwości występowania aminokwasów (nukleotydów) w każdej pozycji porównywanych sekwencji PSSM przypisuje aminokwasom występującym w określonym miejscu częściej niż przez przypadek nową punktację (w zestawieniu) (Profile, utryty model Markowa HMMs) 93 Position Specific Score Matrix (PSSM) macierz F macierz F: kolumna 1: f A,1 = 0/5,, f G,1 =5/5=1, kolumna 2: f A,2 =0/5,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5=0.4, f C,15 =1/5=0.2,. 94 Wykład 7,

47 Position Specific Score Matrix (PSSM) kolumna 1: f A,1 = 0/5 = 0,, f G,1 =5/5=1, kolumna 2: f A,2 = 0/5 = 0,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5 = 0.4, f C,15 =1/5 = 0.2,. zbiór pseudo-counts dla 1: (1 na 20 aminokwasów) kolumna 1: f A,1 = (0+1)/(5+20) = 0.04,,f G,1 =(5+1)/(5+20)=0.24, kolumna 2: f A,2 = (0+1)/(5+20) = 0.04,.,f H,2 =(5+1)/(5+20)=0.24, kolumna 15: f A,15 =(2+1)/(5+20)=0.12, f C,15 =(1+1)/(5+20) = 0.8,. 95 Position Specific Score Matrix (PSSM) (Score) Punktacja jest liczona jako stosunek częstotliwości obserwowanej do spodziewanej (dokładniej: logarytm ze stosunku tych czestotliwości) Score ij punktacja i-tego aminokwasu w pozycji j. f ij wzglęna częstotliwość dla i- tego aminokwasu w pozycji j, q i względna spodziewana częstotliwość wystepowania i-tego aminokwasu w przypadkowej sekwencji. 96 Wykład 7,

48 Position Specific Score Matrix (PSSM) 97 Position Specific Score Matrix (PSSM) szukanie sekwencji podobnej PSSM jest przesuwna wzdłuż porównywanej sekwencji i w każdej pozycji liczona jest nowa punktacja - pozycja z najwyższą punktacją przechodzi dalej 98 Wykład 7,

49 99 Przykład:MJ0414 (Methanococcus jannaschii ) Wykład 7,

50 Wykład 7,

51 104 sekwencja podobna do siebie samej i sekwencji z 3 innych archea i bakterii 105 Wykład 7,

52 Wykład 7,

53 Wykład 7,

54 zestawienie pozwoliło przewidzieć aktywność ligazy DNA białka porównywanego z ligazą II DNA z drożdży. ważna dla aktywności katalitycznej lizyna Zachowane w ligazach motywy 110 Problem z PSI-BLASTem A B A znajduje B B znajduje C C Nie ma podobieństwa między A a C! 111 Wykład 7,

55 koniec Wykład 7,

Wykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM Bioinformatyka Wykład 9 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Konsekwencje zestawieo wielu sekwencji - rodziny białkowe, domeny, motywy i wzorce 2 Bioinformatyka,

Bardziej szczegółowo

Spis treści 8 Ewolucja molekularna... 87. 9 Ewolucyjne podstawy porównywania sekwencji... 87. 9.1 Identyfikacja sekwencji i jej funkcji...

Spis treści 8 Ewolucja molekularna... 87. 9 Ewolucyjne podstawy porównywania sekwencji... 87. 9.1 Identyfikacja sekwencji i jej funkcji... Spis treści 8 Ewolucja molekularna... 87 9 Ewolucyjne podstawy porównywania sekwencji... 87 9.1 Identyfikacja sekwencji i jej funkcji... 87 9.2 Homologia... 88 9.3 Modele ewolucji sekwencji białkowej...

Bardziej szczegółowo

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne

Bardziej szczegółowo

Dopasowania par sekwencji DNA

Dopasowania par sekwencji DNA Dopasowania par sekwencji DNA Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA

Bardziej szczegółowo

PRZYRÓWNANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI http://theta.edu.pl/ Podstawy Bioinformatyki III PRZYRÓWNANIE SEKWENCJI 1 Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają

Bardziej szczegółowo

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych),

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów

Bardziej szczegółowo

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010) Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie

Bardziej szczegółowo

Dopasowanie sekwencji (sequence alignment)

Dopasowanie sekwencji (sequence alignment) Co to jest alignment? Dopasowanie sekwencji (sequence alignment) Alignment jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA lub białek do zidentyfikowanych regionów w celu określenia podobieństwa;

Bardziej szczegółowo

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie

Bardziej szczegółowo

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania Wprowadzenie do Informatyki Biomedycznej Wykład 2: Metody dopasowywania sekwencji Wydział Informatyki PB Dopasowywanie sekwencji (ang. sequence alignment) Dopasowywanie (przyrównywanie) sekwencji polega

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych... Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe

Bardziej szczegółowo

Bioinformatyka. Porównywanie sekwencji

Bioinformatyka. Porównywanie sekwencji Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UM 1 http://www.amu.edu.pl/~ewas Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: zy

Bardziej szczegółowo

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek narodziła się nowa dyscyplina nauki ewolucja molekularna Ewolucja molekularna

Bardziej szczegółowo

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja

Bardziej szczegółowo

Wykład 5 Dopasowywanie lokalne

Wykład 5 Dopasowywanie lokalne Wykład 5 Dopasowywanie lokalne Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X Globalne dopasowanie Schemat punktowania (uproszczony)

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2 Istnieją dokładne algorytmy, lecz są one niewydajne

Bardziej szczegółowo

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Bioinformatyka 2 (BT172) Struktura i organizacja kursu Bioinformatyka 2 (BT172) Wykład 1 Struktura i organizacja kursu dr Krzysztof Murzyn adiunkt w Zakładzie Biofizyki WBtUJ pok. B028, tel. 664-6379 10.X.2005 PODSTAWOWE INFORMACJE 9 godz. wykładów (45 min,

Bardziej szczegółowo

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania

Bardziej szczegółowo

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment Dopasowywanie sekwencji Sequence alignment Drzewo filogenetyczne Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia

Bardziej szczegółowo

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Modelowanie motywów łańcuchami Markowa wyższego rzędu Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy

Bardziej szczegółowo

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie

Bardziej szczegółowo

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć

Bardziej szczegółowo

Przyrównywanie sekwencji

Przyrównywanie sekwencji Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Przyrównywanie sekwencji 1. Porównywanie sekwencji wprowadzenie Sekwencje porównujemy po to, aby

Bardziej szczegółowo

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański BIOINFORMATYKA edycja 2016 / 2017 wykład 11 RNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Rola i rodzaje RNA 2. Oddziaływania wewnątrzcząsteczkowe i struktury

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Wyszukiwanie sekwencji Jak wyszukad z baz danych bioinformatycznych sekwencje podobne do sekwencji zadanej (ang. query

Bardziej szczegółowo

Wstęp do Biologii Obliczeniowej

Wstęp do Biologii Obliczeniowej Wstęp do Biologii Obliczeniowej Zagadnienia na kolokwium Bartek Wilczyński 5. czerwca 2018 Sekwencje DNA i grafy Sekwencje w biologii, DNA, RNA, białka, alfabety, transkrypcja DNA RNA, translacja RNA białko,

Bardziej szczegółowo

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński MultiSETTER: web server for multiple RNA structure comparison Sandra Sobierajska Uniwersytet Jagielloński Wprowadzenie Budowa RNA: - struktura pierwszorzędowa sekwencja nukleotydów w łańcuchu: A, U, G,

Bardziej szczegółowo

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia Porównywanie sekwencji Homologia, podobieństwo i analogia dopasowanie sekwencji Dopasowanie/porównywanie Uliniowienie Alignment W bioinformatyce, dopasowanie sekwencji jest sposobem dopasowania struktur

Bardziej szczegółowo

MSA i analizy filogenetyczne

MSA i analizy filogenetyczne Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański MSA i analizy filogenetyczne 1. Dopasowania wielosekwencyjne - wprowadzenie Dopasowanie wielosekwencyjne

Bardziej szczegółowo

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka wykład 8, 27.XI.2012 Bioinformatyka wykład 8, 27.XI.2012 białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2013-01-21 1 Plan wykładu regiony nieuporządkowane sposoby przedstawienia struktur białkowych powierzchnia

Bardziej szczegółowo

Homologia, podobieństwo i analogia

Homologia, podobieństwo i analogia Porównywanie sekwencji Homologia, podobieństwo i analogia Homologi Ortologi homologiczne geny, których rozdzielenie nastąpiło na skutek specjacji, czyli rozdzielenia gatunków, lub rzadziej horyzontalnego

Bardziej szczegółowo

Bioinformatyka wykład 10

Bioinformatyka wykład 10 Bioinformatyka wykład 10 21.XII.2010 białkowa bioinformatyka strukturalna, c.d. krzysztof_pawlowski@sggw.pl 2011-01-17 1 Regiony nieuporządkowane disordered regions trudna definicja trudne do przewidzenia

Bardziej szczegółowo

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski Genomika Porównawcza Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski 1 Plan prezentacji 1. Rodzaje i budowa drzew filogenetycznych 2. Metody ukorzeniania drzewa

Bardziej szczegółowo

Dopasowanie par sekwencji

Dopasowanie par sekwencji BIOINFORMTYK edycja 2016 / 2017 wykład 3 Dopasowanie par sekwencji dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Idea i cele dopasowania sekwencji 2. Definicje

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa 4. Etapy konstrukcji drzewa filogenetycznego

Bardziej szczegółowo

Porównywanie sekwencji białkowych

Porównywanie sekwencji białkowych Bioinformatyka -9 Bioinformatyka Wykład 4. E. Banachowicz Zakład Biofizyki Molekularnej http://www.amu.edu.pl/~ewas Porównywanie sekwencji białkowych Wykład 4, Bioinformatyka -9 Porównywanie sekwencji

Bardziej szczegółowo

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi

Bardziej szczegółowo

Generator testów Bioinformatyka wer / 0 Strona: 1

Generator testów Bioinformatyka wer / 0 Strona: 1 Przedmiot: Nazwa przedmiotu Nazwa testu: Bioinformatyka wer. 1.0.6 Nr testu 0 Klasa: V zaoczne WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Analiza porównawcza białek zwykle zaczyna się na badaniach

Bardziej szczegółowo

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Konstruowanie drzew filogenetycznych Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Drzewa filogenetyczne ukorzenione i nieukorzenione binarność konstrukcji topologia (sposób rozgałęziana

Bardziej szczegółowo

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji. Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie

Bardziej szczegółowo

Wyróżniamy dwa typy zadań projektowych.

Wyróżniamy dwa typy zadań projektowych. Obowiązkowymi do zaliczenia projektu jest realizacja 2-3 zadań programistycznych. Zadania realizowane są w grupach 2-3 osobowych (zależnie od stopnia trudności zadania i liczebności całej klasy laboratoryjnej).

Bardziej szczegółowo

Budowa kwasów nukleinowych

Budowa kwasów nukleinowych Bioinformatyka (wykład monograficzny) wykład 2. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Budowa kwasów nukleinowych Kwasy nukleinowe (DA i RA) zbudowane są z nukleotydów

Bardziej szczegółowo

Bioinformatyka 2 (BT172) Ukryte modele Markowa

Bioinformatyka 2 (BT172) Ukryte modele Markowa Bioinformatyka 2 (BT172) Wykład 7 Ukryte modele Markowa Krzysztof Murzyn {5,12}.XII.2005 PLAN WYKŁADU 1. Modelowanie matematyczne 2. Założenia i własności modelowania opartego o ukryte modele Markowa 3.

Bardziej szczegółowo

Bioinformatyka wykład 3.I.2008

Bioinformatyka wykład 3.I.2008 Bioinformatyka wykład 3.I.2008 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2008-01-03 1 Plan wykładu analiza i porównywanie struktur białek. doświadczalne metody badania struktur

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW DOPASOWYWANIE SEKWENCJI 1. Miary podobieństwa sekwencji aminokwasów 2. Zastosowanie programów: CLUSTAL OMEGA BLAST Copyright 2013, Joanna Szyda

Bardziej szczegółowo

3 Przeszukiwanie baz danych

3 Przeszukiwanie baz danych Spis treści 3 Przeszukiwanie baz danych 1 3.1 Heurystyczne algorytmy...................... 1 3.1.1 FASTA........................... 1 3.1.2 BLAST........................... 3 3.2 Macierze substytucyjne.......................

Bardziej szczegółowo

Algorytmika dla bioinformatyki

Algorytmika dla bioinformatyki Algorytmika dla bioinformatyki kurs 2018/2019 Prof. Danuta Makowiec Instytut Fizyki Teoretycznej i Astrofizyki pok. 353, danuta.makowiec@gmail.com Cele kursu 2 Treści wykładu będą skoncentrowane wokół

Bardziej szczegółowo

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Bioinformatyka. Podsumowanie algorytmów dynamicznych Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Podsumowanie algorytmów dynamicznych Algorytmy porównywania sekwencji oparte na programowaniu dynamicznym

Bardziej szczegółowo

D: Dopasowanie sekwencji. Programowanie dynamiczne

D: Dopasowanie sekwencji. Programowanie dynamiczne D: Dopasowanie sekwencji. Programowanie dynamiczne Problem: jak porównywać sekwencje DNA? Czy te sekwencje są podobne? Jeśli są podobne, to jak mierzyć to podobieństwo? Odpowiedzi są kluczowe dla konstrukcji

Bardziej szczegółowo

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują

Bardziej szczegółowo

W kierunku równoległej implementacji pakietu T-Coffee

W kierunku równoległej implementacji pakietu T-Coffee W kierunku równoległej implementacji pakietu T-Coffee Adrian Rospondek 1 1 Wydział Inżynierii Mechanicznej i Informatyki Kierunek Informatyka, Rok V a.rospondek@poczta.fm Streszczenie Artykuł ten prezentuje

Bardziej szczegółowo

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka Słowo wstępne XIII Przedmowa XV 1. Bioinformatyka i Internet Andreas D. Baxevanis 1 1.1. Podstawy Internetu 2 1.2. Połączenie z Internetem

Bardziej szczegółowo

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 181 Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 3. D T(D) poprzez algorytm łączenia sąsiadów 182 D D* : macierz łącząca sąsiadów n Niech TotDist i = k=1 D i,k Definiujemy

Bardziej szczegółowo

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna Przedmowa...................................................... 1 1. Rewolucja informatyczna w naukach biomedycznych...........................

Bardziej szczegółowo

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych Joanna Wiśniewska Promotor: dr inż. P. Łukasiak Spis treści 1. Zakres pracy magisterskiej 2. Struktura białka 3. Struktura kwasów nukleionowych

Bardziej szczegółowo

Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn

Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn Instytut Informatyki Technicznej PWr MOTYWY SIECIOWE -NETWORK MOTIFS 1. Co to jest? 2. Jak mierzyć? 3. Gdzie

Bardziej szczegółowo

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0) FILOGENETYKA Bioinformatyka, wykład 8 c.d. (7.XII.2010) 0) krzysztof_pawlowski@sggw.pl Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów. Klasyczne podejście: historia ewolucji jest

Bardziej szczegółowo

Podstawy bioinformatyki dla biotechnologów

Podstawy bioinformatyki dla biotechnologów dla biotechnologów Wykład 3 alignment Wykład 2 Porównywanie sekwencji Homologia, podobieństwo i analogia Wykład 2; slajd 2 Duplikacja, specjacja Wykład 2; slajd 3 Homologi Ortologi homologiczne geny, których

Bardziej szczegółowo

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/ kuszner/arir/ 2005/06

Bardziej szczegółowo

Wybrane podstawowe rodzaje algorytmów

Wybrane podstawowe rodzaje algorytmów Wybrane podstawowe rodzaje algorytmów Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych

Bardziej szczegółowo

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy kombinatoryczne w bioinformatyce lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa - przykłady 4. Etapy konstrukcji drzewa

Bardziej szczegółowo

Acknowledgement. Drzewa filogenetyczne

Acknowledgement. Drzewa filogenetyczne Wykład 8 Drzewa Filogenetyczne Lokalizacja genów Some figures from: Acknowledgement M. Zvelebil, J.O. Baum, Introduction to Bioinformatics, Garland Science 2008 Tradycyjne drzewa pokrewieństwa Drzewa oparte

Bardziej szczegółowo

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d. Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 11.01.11 1 Dopasowanie strukturalne (alignment) odległość: d ij = (x i -x J ) 2 + (y i -y J ) 2

Bardziej szczegółowo

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2 ALEKSANDRA ŚWIERCZ Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2 Ekspresja genów http://genome.wellcome.ac.uk/doc_wtd020757.html A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH

Bardziej szczegółowo

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST. Ćwiczenie 5/6 Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST. Prof. dr hab. Roman Zieliński 1. Informacja genetyczna u

Bardziej szczegółowo

Bioinformatyka wykład 9

Bioinformatyka wykład 9 Bioinformatyka wykład 9 14.XII.21 białkowa bioinformatyka strukturalna krzysztof_pawlowski@sggw.pl 211-1-17 1 Plan wykładu struktury białek dlaczego? struktury białek geometria i fizyka modyfikacje kowalencyjne

Bardziej szczegółowo

Samouczek: Konstruujemy drzewo

Samouczek: Konstruujemy drzewo ROZDZIAŁ 2 Samouczek: Konstruujemy drzewo Po co nam drzewa filogenetyczne? Drzewa filogenetyczne często pojawiają się dzisiaj w pracach z dziedziny biologii molekularnej, które nie mają związku z filogenetyką

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Generator testów 1.3.1 Bioinformatyka_zdalne wer. 1.0.13 / 0 Strona: 1

Generator testów 1.3.1 Bioinformatyka_zdalne wer. 1.0.13 / 0 Strona: 1 Przedmiot: Bioinformatyka Nazwa testu: Bioinformatyka_zdalne wer. 1.0.13 Nr testu 0 Klasa: WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Model Markowa substytucji aminokwasów w mutagenezie białek zakłada...

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecność Literatura, materiały Bioinformatyka i ewolucja

Bardziej szczegółowo

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika

Bardziej szczegółowo

Porównywanie sekwencji białek i kwasów nukleinowych

Porównywanie sekwencji białek i kwasów nukleinowych Porównywanie sekwencji białek i kwasów nukleinowych Krzysztof Lewiński 1. Podobieństwo i jego miara Wprawdzie podobieństwo jest pojęciem często używanym w życiu codziennym ale nie oznacza to, że możemy

Bardziej szczegółowo

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy kombinatoryczne w bioinformatyce lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie

Bardziej szczegółowo

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej Wprowadzenie do Informatyki Biomedycznej Wykład 1: Podstawy bioinformatyki Wydział Informatyki PB Podstawy biologiczne - komórki Wszystkie organizmy zbudowane są z komórek komórka jest skomplikowanym systemem

Bardziej szczegółowo

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Wstęp do programowania

Wstęp do programowania Wstęp do programowania Programowanie dynamiczne Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. X Jesień 2013 1 / 21 Dziel i zwyciężaj przypomnienie 1 Podział problemu na 2 lub

Bardziej szczegółowo

Globalne zależności w klastrowaniu hierarchicznym

Globalne zależności w klastrowaniu hierarchicznym 23 listopada 2008 Plan prezentacji 1 Praca źródłowa Metody Bottom-Up i Top-Down 2 Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering 3 Zbiory danych Kryteria porównywania wyników Eksperymenty

Bardziej szczegółowo

Heurystyczne metody przeszukiwania

Heurystyczne metody przeszukiwania Heurystyczne metody przeszukiwania Dariusz Banasiak Katedra Informatyki Technicznej W4/K9 Politechnika Wrocławska Pojęcie heurystyki Metody heurystyczne są jednym z ważniejszych narzędzi sztucznej inteligencji.

Bardziej szczegółowo

Historia Bioinformatyki

Historia Bioinformatyki Historia Bioinformatyki 1859 Darwin i Wallace opublikowali O powstaniu gatunku 1865 Mendel eksperymentując z grochem, wykazuje, że cechy dziedziczą się w odrębnych jednostkach 1869 Meischer wyizolował

Bardziej szczegółowo

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott Metody konstrukcji algorytmów: Siłowa (ang. brute force), Dziel i zwyciężaj (ang. divide-and-conquer), Zachłanna (ang.

Bardziej szczegółowo

Motywy i podobieństwo

Motywy i podobieństwo Motywy i podobieństwo Całość funkcja Modularna budowa białek Elementy składowe czyli miejsca wiązania, domeny 1 Motywy Motyw jest opisem określonej części trójwymiarowej struktury zawierającym charakterystyczny

Bardziej szczegółowo

10. Wstęp do Teorii Gier

10. Wstęp do Teorii Gier 10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej

Bardziej szczegółowo

Wykład 6. Wyszukiwanie wzorca w tekście

Wykład 6. Wyszukiwanie wzorca w tekście Wykład 6 Wyszukiwanie wzorca w tekście 1 Wyszukiwanie wzorca (przegląd) Porównywanie łańcuchów Algorytm podstawowy siłowy (naive algorithm) Jak go zrealizować? Algorytm Rabina-Karpa Inteligentne wykorzystanie

Bardziej szczegółowo

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 9: Inference in Structured Prediction 1 intro (1 lecture) Roadmap deep learning for NLP (5 lectures) structured prediction

Bardziej szczegółowo

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych Bioinformatyczne bazy danych Czym jest bioinformatyka? Bioinformatyka jest nauką integrującą różne dziedziny wiedzy Gruca (2010) http://bioinformaticsonline.com/file/view/4482/bioinformatics-definitions-and-applications

Bardziej szczegółowo

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3) Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych źródło: (3) Interakcje białko-białko Ze względu na zadanie: strukturalne lub funkcjonalne. Ze względu na właściwości fizyczne: stałe lub

Bardziej szczegółowo

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji Filogenetyka molekularna Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji Co to jest filogeneza? Filogeneza=drzewo filogenetyczne=drzewo rodowe=drzewo to rozgałęziający się diagram, który

Bardziej szczegółowo

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych Bioinformatyczne bazy danych Czym jest bioinformatyka? Bioinformatyka jest nauką integrującą różne dziedziny wiedzy Gruca (2010) Czym jest bioinformatyka? Bioinformatyka obejmuje technologie wykorzystujące

Bardziej szczegółowo

Optymalizacja. Przeszukiwanie lokalne

Optymalizacja. Przeszukiwanie lokalne dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x

Bardziej szczegółowo

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online Techniki molekularne ćw. 5 1 z 13 Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online I. Zasoby NCBI Strona: http://www.ncbi.nlm.nih.gov/ stanowi punkt startowy dla eksploracji

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE D: PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE I. Strategia zachłanna II. Problem przetasowań w genomie III. Sortowanie przez odwrócenia IV. Algorytmy przybliżone V. Algorytm zachłanny

Bardziej szczegółowo