Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podobne dokumenty
Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Porównywanie i dopasowywanie sekwencji

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

TRANSKRYPCJA - I etap ekspresji genów

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Wykład 14 Biosynteza białek

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Geny i działania na nich

Dopasowanie sekwencji (sequence alignment)

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

WARUNKI ZALICZENIA PRZEDMIOTU- 5 ECTS

Porównywanie i dopasowywanie sekwencji

DNA superhelikalny eukariota DNA kolisty bakterie plazmidy mitochondria DNA liniowy wirusy otrzymywany in vitro

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

Nowoczesne systemy ekspresji genów

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

DNA musi współdziałać z białkami!

Generator testów Bioinformatyka wer / 0 Strona: 1

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Skrypt Bioinformatyka DRAFT Strona 67

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Badanie doboru naturalnego na poziomie molekularnym

Wybrane techniki badania białek -proteomika funkcjonalna

Budowa kwasów nukleinowych

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Zarówno u organizmów eukariotycznych, jak i prokariotycznych proces replikacji ma charakter semikonserwatywny.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podstawy biologii. Informacja, struktura i metabolizm.

Ekspresja informacji genetycznej

Wybrane techniki badania białek -proteomika funkcjonalna

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Składniki jądrowego genomu człowieka

Translacja i proteom komórki

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Plan wykładów z genetyki ogólnej

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

PRZYRÓWNANIE SEKWENCJI

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podłoże molekularne NF1 i RASopatii. Możliwości diagnostyczne.

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Kwasy nukleinowe. Replikacja

Nośnikiem informacji genetycznej są bardzo długie cząsteczki DNA, w których jest ona zakodowana w liniowej sekwencji nukleotydów A, T, G i C

Jak działają geny. Podstawy biologii molekularnej genu

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Lokalizacja genów DNA/RNA. Nukleotydy i ich łańcuchy 11/21/2013. Genom ludzki. Struktura genomu. Pirymidyny i Puryny

Zmienność ewolucyjna. Ewolucja molekularna

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

mikrosatelitarne, minisatelitarne i polimorfizm liczby kopii

Spis treści 1 Komórki i wirusy Budowa komórki Budowa k

Geny, a funkcjonowanie organizmu

Księgarnia PWN: B. Alberts, D. Bray, K. Hopkin, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter Podstawy biologii komórki. Cz.

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

GENOM I JEGO STRUKTURA

Analizy wielkoskalowe w badaniach chromatyny

PODSTAWY BIOINFORMATYKI

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Tematyka zajęć z biologii

Metody analizy genomu

Inżynieria genetyczna

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Bioinformatyka. Rodzaje Mutacji

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Genetyka. Krótkie wykłady H. Fletcher, I. Hickey, P. Winter,

Wykład 1. Od atomów do komórek

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

The Role of Maf1 Protein in trna Processing and Stabilization / Rola białka Maf1 w dojrzewaniu i kontroli stabilności trna

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Spis treści. Księgarnia PWN: Terry A. Brown - Genomy. Część 1 Jak bada się genomy 1 Rozdział 1 Genomy, transkryptomy i proteomy 3

Podstawy genetyki molekularnej

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

SYLABUS. Wydział Biologiczno-Rolniczy. Katedra Biochemii i Biologii Komórki

Jajko czy kura? czyli gdzie dwóch się bije, tam trzeci korzysta

Transkrypt:

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo* alfabet 4- literowy (cztery nukleotydy) Alfabet sekwencji aminokwasowych jest nieco bardziej bogaty - alfabet 20-literowy (dla 20 aminokwasów występujących w białkach).

Jeśli w określonym miejscu sekwencji DNA występuje więcej niż jeden nukleotyd stosuje się dodatkowy kod różne możliwe kombinacje zapisuje się w postaci pojedynczych liter (zostało to ustalone przez International Union of Biochemistry i określa się jako I.U.B. CODE) A, C, G, T, U R = A, G (purine) Y = C, T (pyrimidine) S = G, C (Strong hydrogen bonds) W = A, T (Weak hydrogen bonds) M = A, C (amino group) K = G, T (Keto group) B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U (indeterminate) or X Czemu to ma służyć? przedstawienie różnic w sekwencji np. różnych klonów DNA podkreślenie zmienności genu w ewolucji

Na poziomie o wysokiej rozdzielczości (krótsze odcinki sekwencji nukleotydowych): Motywy Potencjalne geny informacje funkcjonalne dotyczące pojedynczych genów Na poziomie o niskiej rozdzielczości (sekwencje nukleotydowe całych genomów) kontekst genomowy Kolinearność Syntenia funkcje grup genów (procesy szlaki metaboliczne) ewolucja genomów

Analiza DNA z wysoką rozdzielczością 1. Motywy jednostką funkcjonalną genomu jest wzór (motyw, sygnał) - występuje w więcej niż jednej sekwencji (dotyczy zbioru elementów) może być skorelowany z jakąś konkretną funkcją kombinacja takich miejsc tworzy funkcjonalny region bardzo często miejsce wiązania innych cząsteczek (białek, RNA), np. promotor

Motywy c.d. motywy mające dokładnie określony i niezmienny wzór w DNA są bardzo rzadkie: kodon inicjujący AUG miejsca rozpoznawane przez enzymy restrykcyjne dla większości motywów funkcjonalnych (zwłaszcza eukariotycznych) charakterystyczna jest duża zmienność są to cechy mające przybliżony wzór: sekwencje promotorów miejsca inicjacji i terminacji transkrypcji miejsca poliadenylacji miejsca wiązania rybosomów

Jak przedstawić niejednoznaczny motyw sekwencji DNA przybliżony wzór Niejednoznaczne motywy mogą być przedstawiane w formie: konsensusu (sekwencja, która podsumowuje i przybliża wzór obserwowany w grupie porównywanych sekwencji posiadających daną cechę tzw. uśredniona sekwencja ) Motyw jest wspólny dla zbiorów sekwencji ale nie musi być identyczny we wszystkich elementach zbioru dlatego często przedstawiany jest za pomocą symboli standardowych i specjalnych N dla dowolnego nukleotydu; - dla insercji lub delecji niepewne motywy zapisuje się w postaci wzoru, np. A{3-4}NA oznacza dwie adeniny oddzielone 3 lub 4 dowolnymi nt. wysoka częstotliwość występowania określonego nukleotydu w określonym miejscu jest skorelowana z jakąś funkcją zmienność w określonych pozycjach wskazuje na możliwą różnorodność oddziaływań profilu (tablica częstości występowania - macierze częstotliwości ; ang. weight matrix)

Positional Weight Matrix tabela podsumowująca częstotliwość występowania określonej litery (nukleotydu) w określonej pozycji szeregu porównywanych sekwencji 1 2 3 4 5 6 7 8 9 10 A 0.09-1.71 1.07-1.71-1.71 0.09 1.07-1.71-1.71 0.23 T 0.60-1.71-1.71 1.07 0.37-1.71-1.71 1.07 0.09-1.01 C -0.69-1.38-1.38-1.38-1.38-1.38-1.38-1.38-0.29-1.38 G -1.38 1.39-1.38-1.38 0.81 1.01-1.38-1.38 0.81 1.01 Konsensus a profil częstotliwości Zalety : krótszy opis, możliwość szybszego porównania Wady: utrata informacji ilościowej dotyczącej częstotliwości określonej litery w określonej pozycji

Analiza DNA z wysoką rozdzielczością 2. Geny

adnotacja ORF? ORF?

Wyszukiwanie genów u prokariontów jest łatwe! Średnia długość sekwencji kodującej ok. 1000 pz Średnia długość regionu międzygenowego ok. 200 pz Sekwencja Shine Dalgarno (pomiędzy promotorem a AUG) Kodon inicjujący AUG (***rzadziej GUG lub UUG) Porównanie do znanych sekwencji promotorów (różne dla różnych podjednostek polimerazy RNA) dla podjednostki 70 (geny metabolizmu podstawowego E. coli) motyw 35 motyw 10 5 -TTGACA-3 5 -TATAAT-3 dla podjednostki 32 (geny kodujące HSP E. coli) motyw 35 motyw 10 5 -TCTCNCCCTTGAA-5 5 -CCCCATNTA-3 Terminatory transkrypcji (odwrócony palindrom + ciąg A)

Wyszukiwanie genów u prokariontów Uprawdopodobnienie wyniku Zapewnia równocześnie adnotacje funkcjonalne zidentyfikowanych ORF-ów Metody porównawcze: Dopasowanie sekwencji DNA:DNA Dopasowanie sekwencji DNA tłumaczonej na białko do sekwencji aminokwasowych białek

Wyszukiwanie genów u eukariontów - - niekiedy skrajnie trudne... genom człowieka i innych kręgowców genetyczna pustynia bardzo krótkie eksony (średnia 145pz) bardzo długie intronów (średnia 3365pz; najkrótszy 60pz) bardzo długie geny (średnia 27kpz) pseudogeny alternatywny splicing

Ten poziom analizy często nie zapewnia adnotacji funkcjonalnej zidentyfikowanych ORF-ów

1. Metody oparte na sygnałach (motywach) Jakie sygnały możemy brać po uwagę: Sygnały związane z transkrypcją: inicjacji i regulacji transkrypcji, wycinania intronów (miejsca donorowe i akceptorowe), modyfikacji transkryptów (np. poliadenylacji) Sygnały inicjacji translacji: wiązania rybosomów. Niektóre z tych sekwencji są krótkie, jednak są na tyle konserwatywne, że możliwe jest ich rozpoznawanie Struktura eukariotycznego regionu okołogenowego może być bardzo skomplikowana

Miejsca wiązania czynników transkrypcyjnych krótkie motywy nukleotydowe (5-30 pz) wzory elementów promotorowych i miejsc wiązania białek regulatorowych: sekwencja 25 5 -TATAWAW-3 (W= A lub T) sekwencja 80 5 -CCAAT-3 miejsce startu transkrypcji: sekwencja Inr 5 -YYCARR-3 (Y = C lub T; R = G lub A)

Metody oparte na sygnałach c.d. -wycinanie intronów konsensus miejsca donorowego 5 -(C,A)AG GU(A,G)AGU trakt polipirymidynowy konsensus miejsca akceptorowego CAG G-3 po sklejeniu eksonów konsensus (w cdna) : 5 -AG G-3

Metody oparte na sygnałach c.d. Sygnał poliadenylacji A(A/T)TAAA...(15-20nt)...CA...(20-30nt)...YGTGTTYY

2. Metody oparte na składzie (treści) ogólne właściwości sekwencji (np. zawartość i rozmieszczenie par GC i AT, charakterystyczna używalność kodonów)

Wyspy CpG regiony genomu (1-2 kpz) bogate w dinukleotyd CpG (p oznacza wiązanie fosfodiestrowe) (w genomie człowieka występuje 5 x rzadziej niż pozostałe kombinacje) -1500 +500 (tzw. sekwencje okołogenowe, które z reguły nie podlegają metylacji) 45 000/1n genom człowieka ponad połowa powiązana z genami metabolizmu podstawowego i promotorami genów tkankowospecyficznych

Metody oparte na składzie c.d.- Analiza wykorzystania kodonów Różne organizmy preferują różne kodony zastosowanie do odgadywania gdzie są geny znaczenie przy przenoszeniu genów między organizmami

3. Metody porównawcze tłumaczenie nt aa i przeszukiwanie baz danych sekwencji białkowych (przewidywanie eksonów)

To jeszcze nie koniec poszukiwań genów w sekwencji eukariotycznej ORF? ORF?

Analiza DNA z niską rozdzielczością Kontekst genomowy Metody przewidujące funkcję genów w kontekście całego genomu rozwinęły się po nagromadzeniu wystarczająco dużej liczby całkowicie zsekwencjonowanych genomów Metody porównawczne pojedynczych genów przewidują funkcje molekularne białek, metody oparte na kontekście dają bardziej ogólne przewidywania i określają proces biologiczny, w którym są one zaangażowane.

Sąsiedztwo genu może dostarczyć wielu istotnych wskazówek dotyczących jego funkcji obecność tych samych ciągów genów widocznych w kilku różnych genomach można uważać za istotną wskazówkę o potencjalnych powiązaniach funkcjonalnych produktów tych genów Pojęcie syntenii i kolinearności

Ani genomika ani bioinformatyka nie odkryły pojęcia syntenii! W klasycznej genetyce syntenia oznacza fizyczną kolokalizację loci genetycznych w tym samym chromosomie w obrębie jednego gatunku. Pojęcie syntenii jest związane ze sprzężeniem genetycznym: loci sprzężone, są również synteniczne, ale nie wszystkie synteniczne są koniecznie strzeżone. Era post-genomowa poszerzyła pojęcie syntenii, - dysponując sekwencją genomu znacznie łatwiej zaobserwować syntenię niż wykryć ją metodami eksperymentalnymi

Analizując dane sekwencyjne syntenię można zaobserwować także pomiędzy gatunkami (zarówno blisko jak również mniej spokrewnionymi). Syntenia w tym ujęciu to zachowanie podobnego zestawu (składu) genów na chromosomach pokrewnych (lub mniej spokrewnionych) gatunków W trakcie ewolucji zdarzają się rearanżacje genomów (np. translokacje genów), które mogą zburzyć syntenię Wysoki poziom syntenii między genomami zwykle odzwierciedla związki funkcjonalne pomiędzy genami tzn. taką kombinację układu genów i alleli na chromosomie, która warto dziedziczyć razem, ponieważ ona np. koduje wspólną grupę mechanizmów np. szlak metaboliczny albo podjednostki dużego białka wielodomenowego.

makrosyntenia: zachowanie syntenii w dużej części lub całym chromosomie (rzadko w dalej spokrewnionych organizmach) mikrosyntenia: zachowanie syntenii jedynie niewielkiej grupy genów w czasie ewolucji Syntenia genów

Syntenia jest jednym z kryteriów na podstawie których regiony genomowe (nie tylko pojedyncze geny) różnych organizmów można traktować jako ortologiczne (czyli pochodzące od wspólnego przodka) Obserwowane zaburzenia synteni mogą być podstawą do rozważań filogenetycznych ustalania pokrewieństwa organizmów

Kolinearność to zachowanie porządku - układu genów w czasie (ewolucji) wzdłuż chromosomu. Kolinearność jest jeszcze bardziej specyficzna od syntenii, ponieważ w przeciwieństwie do syntenii jest wrażliwa na gęstość genów, tandemowe powtórzenia genów (rearanżacje)

Wyobraźmy sobie, że mamy odcinek chromosomu z tymi genami: A-B-C-D Zdarza się duplikacja; teraz mamy dwa odcinki: A-B-C-D i A -B -C -D Błędy eliminują niektóre kopie i otrzymujemy: A-.-C-. i.-b -.-D A-B-C-D Teraz mamy sytuację, w której organizm ogólnie ani niczego nie zyskał, ani niczego nie stracił nadal ma geny A, B, C i D nie mamy podwojenia całkowitej liczby genów, nadal mamy cztery geny. Obserwujemy syntenię, ale nie mamy kolinearności