Bioinformatyka (wykład monograficzny) wykład 3. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Rodzaje Mutacji zmienność sekwencji (sequence variation) mutacje polimorfizm mutacje - zmiany i zmiany odpowiedzialne za choroby polimorfizm - zmiany nie wywołujące chorób, zmiany spotykane w częściej niż w 1% populacji J.T. den Dunnen, S.E. Antonarakis: Hum Genet 109(1): 121-124, 2001 Wykład 3, 2006 1
Rodzaje mutacji chromosomowa - aberracja chromosomowa to zmiana liczby lub struktury chromosomów. genomowa - utrata lub pojawienie się dodatkowych pojedynczych chromosomów, lub zwielokrotnieniu całego genomu (poliploidalność) genowa - zmiana dziedziczna zachodząca w genie, na poziomie kwasu dezoksyrybonukleinowego DNA Poziomy mutacji Opis zmian powinien być dokonywany na najbardziej podstawowym poziomie. Np. w przypadku DNA na sekwencji genomowej lub cdna Zmiany opisuje się względem sekwencji pierwotnej zdeponowanej w bazie danych: GenBank, EMBL, DDJB, SWISS-Prot. Poziomy: DNA RNA Białko. Wykład 3, 2006 2
Mutacje DNA - substytucja Poziom DNA Substytucja (zamiana) oznaczana przez > 76A > C nukleotyd 76A zamieniony na C 88+1G > T (IVS2 +1G > T) G zamieniony na T w +1 intronu 2, pozycja 88-89 w odniesieniu do cdna (+1 : ATG kodon inicjujący translacje, -1: brak zasady 0) Poziom DNA Mutacje DNA - delecja Delecja (deletion) del za nukleotydem oznaczającym delecje 76_78del (76_78delACT) oznacza usunięcieact zmiejsca 76 to 78 82_83del (82_83delTG) oznacza usunięcie TG z sekwencji ACTTTGTGCC (G jest 82 nukleotydem) wynik: ACTTTGCC Wykład 3, 2006 3
Poziom DNA Mutacje DNA - insercja Insercja (insertions) ins między nukleotydami, oznaczającymi miejsce wstawienia. (uwaga: czasami dodaje się "^"- np. 83^84insTG) 76_77insT oznacza wstawienie T między nukleotydami 76 a 77 83_84insTG oznacza wstawienie TG dosekwencji powtórzeń tandemu TG ACTTTGTGCC (G jest 83 nukleotydem) ACTTTGTGTGCC. Mutacje DNA - insercja/delecja Poziom DNA insertion/deletions (indels) delecja, po której następuje insercja 112_117delinsTG 112_117delAGGTCAinsTG 112_117>TG oznacza zastąpienie nukleotydów 112 to 117 (AGGTCA) przez TG Wykład 3, 2006 4
Mutacje DNA - powtórzenia Poziom DNA powtórzenia krótkiej sekwencji (variability of short sequence repeats), np..: ACTGTGTGCC (A jest 1991 nukleotydem) 1993(TG)3-6 sekwencja zawierająca od miejsca 1993 TGdwunukleotyd, który powtarza się w populacji 3-6 razy duplikacje (duplications) oznaczane przez dup ponukleotydzie oznaczajacym miejsce duplikacji 77_79dupCTG nukleotydy 77 do 79 są powielone 82_83dupTG (short tandem repeats lub single nucleotide stretches) insercja TG do sekwencji powtórzeń tandemu TG ACTTTGTGCC (A jest 76 nukleotydem) ACTTTGTGTGCC (lub 83_84insTG) Mutacje DNA - inwersja Poziom DNA Inwersja (inversions) oznaczana inv za nukleotydem oznaczającym miejsce rozpoczęcia inwersji. - obrócenie sekwencji o 180 o 203_506inv ( 203_506inv304) znacza, że 304 nukleotydy od 203 do 506 zostały odwrócone Wykład 3, 2006 5
Mutacje DNA - inne Poziom DNA translokacja zmienność w obrębie różnych alleli (choroby recesywne): [zmiany w 1] + [zmiany w 2] zmienność w obrębie tego samego allela [zmiana 1;2;3] Allel jest to jedna z wersji genu w określonym locus na danym chromosomie homologicznym. Mutacje białka - substytucja Poziom białka (pierwotnie opisane przez zmiany na poziomie DNA) substytucja (zamiana, mutacje punktowe) cicha zamiana nukleotydów nie powodująca zmian w sekwencji aminokwasowej błędna (missense) W26C zamiana 26-tego tryptofanu na cysteine nonsensowna (nonsense) W26X zamiana 26-tego tryptofanu na kodon STOP początkowa metionina (initiating Methionine M1) (M1 V) - niepoprawnie p.? lub p.0 - nie powstaje żadne białko Wykład 3, 2006 6
Mutacje białka - delecja Poziom białka delecja oznaczana przez del K29del w sekwencji CKMGHQQQCC (C jest 28 ak) (usunięcie 29 lizyny) CMGHQQQCC Q35del w sekwencji CKMGHQQQCC (C jest 28 ak) CKMGHQQCC C28_M30del usunięcie 3 aminokwasów od Cysteiny 28 do Metioniny 30 Mutacje białka - duplikacja Poziom białka duplikacja oznaczana przez dup G31_Q22dup w sekwencji CKMGHQQQCC (C jest 28 ak) (duplikacja od G31 doq33) CKMGHQGHQQQCC H34_Q35dup duplikacja insercji (tandem HQ) CKMGHQHQCC (C jest 28 ak) CKMGHQHQHQCC (lub Q35_C36insHQ) Wykład 3, 2006 7
Mutacje białka - insercja Poziom białka insercja oznaczana przez ins (uwaga czasami używany jest separator ^ : Q83^C84insQ) K29_M29insQSK wstawienie sekwencji QSK między Lyzynę 29 (K) and Metioninę 30 (M) CKMGHQQQCC CKQSKMGHQQQCC Q35_C36insQ CKMGHQQQCC CKMGHQQQQCC (a duplicating insertion: Q35dup) Mutacje białka - insercja/delecja Poziom białka insertion/deletions (indels) delecja trójki nukleotydów, po której nastapiła insercja inne trójki: C28_K29delinsW delecja dwóch trójek nukleotydów kodujących Cysteine 28 i Lysine 29, zastąpionych kodonem tryptofanu C28delinsWV usunięcie trójki nukleotydów kodujących cysteinę i wstawieniekodonów for Tryptofanu (W) i waliny (V) Wykład 3, 2006 8
Mutacje białka - przesunięcie ramki Poziom białka frame shifting mutations R97fsX121 (lub R97fs) przesunięcie ramki odczytu, zmieniające argininę (R97) w pierrwszy amiokwas nowej ramki zakończonej po 23 aminokwasach (X121) Kod genetyczny Wykład 3, 2006 9
Bazy danych Niesekwencyjne BazyDanych bibliograficzne kliniczne genomowe (?) ścieżek metabolicznych (metabolic pathways) struktur molekularnych Większość jest kroslinkowanych i dostepnych za pomocą zwykłych przeglądarek Wykład 3, 2006 10
Bibliograficzne bazy danych PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubm ed) Bookshelf (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=books) PubCrawler (http://pubcrawler.gen.tcd.ie/) (Scirus, SCOPUS) Kliniczne BazyDanych OMIM http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=omim HGMD http://www.hgmd.cf.ac.uk/ Human Gene Mutation Database Bazy związane z pojedyńczymi chorobami: CFTR: http://www.hgmd.cf.ac.uk/ (LensGDDB) Human Lens Genetic Disease Database http://ken.mitton.com/ern/lensbase.html itd.. Wykład 3, 2006 11
Genomowe BazyDanych GDB - human genom project http://www.gdb.org/ HGV - Human Variation Genome Society http://www.hgvs.org/ ( nie-ludzkie bazy) MGI Mause Genom Informatics FlyBase ACeDB idt Bazy sekwencji genów Gene Sequence Database The International Nucleotide Sequence Database Collaboration: GenBank (USA) http://www.ncbi.nlm.nih.gov/genbank/index.html EMBL (Europa) http://www.ebi.ac.uk/ DDBJ (Japonia) http://www.ddbj.nig.ac.jp/ Wykład 3, 2006 12
Międzynarodowa baza sekwencji zawiera 100 giga-zasad Bazy Sekwencji Białkowych SwissProt - Protein knowledgebase (http://www.expasy.ch/) TrEMBL - Computer-annotated supplement to Swiss-Prot -bezpośrednie tłumaczenieformatu z EMBL na SwissProt PIR -Protein Information Resorce (http://pir.georgetown.edu/) Wykład 3, 2006 13
Strona Białek: ExPASy strona domowa SwissProt i TrEMBL zbiór narzędzi bioinformatycznych jedna z pierwszych stron bioinformatycznych http://www.expasy.ch/ Wykład 3, 2006 14
Baza Struktutr Białkowych Protein DataBank http://pdbbeta.rcsb.org/pdb/welcome.do http://pdb.rcsb.org/pdb/welcome.do http://pdb.rcsb.org/pdb/ Wykład 3, 2006 15
Następny wykład anatomia plików z danymi wyszukiwanie, pobieranie i porównywanie sekwencji sposoby porównywania sekwencji KONIEC Wykład 3, 2006 16