Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podobne dokumenty
Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

TRANSKRYPCJA - I etap ekspresji genów

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

WARUNKI ZALICZENIA PRZEDMIOTU- 5 ECTS

Wykład 14 Biosynteza białek

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Porównywanie i dopasowywanie sekwencji

Geny i działania na nich

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

DNA superhelikalny eukariota DNA kolisty bakterie plazmidy mitochondria DNA liniowy wirusy otrzymywany in vitro

Dopasowanie sekwencji (sequence alignment)

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Budowa kwasów nukleinowych

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

DNA musi współdziałać z białkami!

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Nowoczesne systemy ekspresji genów

Ekspresja informacji genetycznej

Porównywanie i dopasowywanie sekwencji

Zarówno u organizmów eukariotycznych, jak i prokariotycznych proces replikacji ma charakter semikonserwatywny.

Translacja i proteom komórki

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Składniki jądrowego genomu człowieka

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Badanie doboru naturalnego na poziomie molekularnym

Wybrane techniki badania białek -proteomika funkcjonalna

Skrypt Bioinformatyka DRAFT Strona 67

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Nośnikiem informacji genetycznej są bardzo długie cząsteczki DNA, w których jest ona zakodowana w liniowej sekwencji nukleotydów A, T, G i C

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

Podstawy biologii. Informacja, struktura i metabolizm.

Księgarnia PWN: B. Alberts, D. Bray, K. Hopkin, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter Podstawy biologii komórki. Cz.

Lokalizacja genów DNA/RNA. Nukleotydy i ich łańcuchy 11/21/2013. Genom ludzki. Struktura genomu. Pirymidyny i Puryny

Wybrane techniki badania białek -proteomika funkcjonalna

Kwasy nukleinowe. Replikacja

Spis treści 1 Komórki i wirusy Budowa komórki Budowa k

Inżynieria genetyczna

Jak działają geny. Podstawy biologii molekularnej genu

Mutacje jako źródło różnorodności wewnątrzgatunkowej

GENOM I JEGO STRUKTURA

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Generator testów Bioinformatyka wer / 0 Strona: 1

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Geny, a funkcjonowanie organizmu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

6. Z pięciowęglowego cukru prostego, zasady azotowej i reszty kwasu fosforowego, jest zbudowany A. nukleotyd. B. aminokwas. C. enzym. D. wielocukier.

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

The Role of Maf1 Protein in trna Processing and Stabilization / Rola białka Maf1 w dojrzewaniu i kontroli stabilności trna

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

TRANSLACJA II etap ekspresji genów

Podłoże molekularne NF1 i RASopatii. Możliwości diagnostyczne.

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Genetyka. Krótkie wykłady H. Fletcher, I. Hickey, P. Winter,

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Metody analizy genomu

Regulacja transkrypcji genów eukariotycznych

Spis treści. Księgarnia PWN: Terry A. Brown - Genomy. Część 1 Jak bada się genomy 1 Rozdział 1 Genomy, transkryptomy i proteomy 3

Analiza sekwencji promotorów

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Bioinformatyka. Rodzaje Mutacji

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

Ekspresja genu. Podstawowe mechanizmy i pojęcia

GENETYKA. Budowa i rola kwasów nukleinowych Geny i genomy Replikacja DNA NM G

Analizy wielkoskalowe w badaniach chromatyny

Biologia medyczna, materiały dla studentów

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Zmienność ewolucyjna. Ewolucja molekularna

Wykład 1. Od atomów do komórek

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Tematyka zajęć z biologii

Podstawy genetyki molekularnej

Plan wykładów z genetyki ogólnej

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

Zawartość. Wstęp 1. Historia wirusologii. 2. Klasyfikacja wirusów

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Ekspresja genu. Podstawowe mechanizmy i pojęcia

Genetyka molekularna Prokaryota

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Sesja sponsorowana przez Polską Sieć Biologii Molekularnej SESJA 1 ORGANIZACJA MATERIAŁU GENETYCZNEGO WYKŁADY

mikrosatelitarne, minisatelitarne i polimorfizm liczby kopii

Transkrypt:

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo* alfabet 4- literowy (cztery nukleotydy) Alfabet sekwencji aminokwasowych jest nieco bardziej bogaty - alfabet 20-literowy (dla 20 aminokwasów występujących w białkach).

Na poziomie o wysokiej rozdzielczości (krótsze odcinki sekwencji nukleotydowych): Motywy Potencjalne geny (ORF) informacje funkcjonalne dotyczące pojedynczych genów Na poziomie o niskiej rozdzielczości (sekwencje nukleotydowe całych genomów) kontekst genomowy Kolinearność Syntenia funkcje grup genów (procesy szlaki metaboliczne) ewolucja genomów

Analiza DNA z wysoką rozdzielczością 1. Motywy jednostką funkcjonalną genomu jest wzór (motyw, sygnał) - występuje w więcej niż jednej sekwencji (dotyczy zbioru elementów) może być skorelowany z jakąś konkretną funkcją kombinacja takich miejsc tworzy funkcjonalny region bardzo często miejsce wiązania innych cząsteczek (białek, RNA), np. promotor

Motywy c.d. motywy mające dokładnie określony i niezmienny wzór w DNA są bardzo rzadkie: kodon inicjujący AUG miejsca rozpoznawane przez enzymy restrykcyjne dla większości motywów funkcjonalnych (zwłaszcza eukariotycznych) charakterystyczna jest duża zmienność są to cechy mające przybliżony wzór: sekwencje promotorów miejsca inicjacji i terminacji transkrypcji miejsca poliadenylacji miejsca wiązania rybosomów

Jak przedstawić niejednoznaczny motyw sekwencji DNA przybliżony wzór Niejednoznaczne motywy mogą być przedstawiane w formie: konsensusu (sekwencja, która podsumowuje i przybliża wzór obserwowany w grupie porównywanych sekwencji posiadających daną cechę tzw. uśredniona sekwencja ) Motyw jest wspólny dla zbiorów sekwencji ale nie musi być identyczny we wszystkich elementach zbioru dlatego często przedstawiany jest za pomocą symboli standardowych i specjalnych N dla dowolnego nukleotydu; - dla insercji lub delecji niepewne motywy zapisuje się w postaci wzoru, np. A{3-4}NA oznacza dwie adeniny oddzielone 3 lub 4 dowolnymi nt. wysoka częstotliwość występowania określonego nukleotydu w określonym miejscu jest skorelowana z jakąś funkcją zmienność w określonych pozycjach wskazuje na możliwą różnorodność oddziaływań profilu (tablica częstości występowania - macierze częstotliwości ; ang. weight matrix)

Analiza DNA z wysoką rozdzielczością 2. Potencjalne geny (ORF-y)

adnotacja ORF? ORF?

Wyszukiwanie genów u prokariontów jest łatwe! Średnia długość sekwencji kodującej ok. 1000 pz Średnia długość regionu międzygenowego ok. 200 pz Sekwencja Shine Dalgarno (pomiędzy promotorem a AUG) Kodon inicjujący AUG (***rzadziej GUG lub UUG) Porównanie do znanych sekwencji promotorów (różne dla różnych podjednostek polimerazy RNA) dla podjednostki 70 (geny metabolizmu podstawowego E. coli) motyw 35 motyw 10 5 -TTGACA-3 5 -TATAAT-3 dla podjednostki 32 (geny kodujące HSP E. coli) motyw 35 motyw 10 5 -TCTCNCCCTTGAA-5 5 -CCCCATNTA-3 Terminatory transkrypcji (odwrócony palindrom + ciąg A)

Wyszukiwanie genów u prokariontów Uprawdopodobnienie wyniku Zapewnia równocześnie adnotacje funkcjonalne zidentyfikowanych ORF-ów Metody porównawcze: Dopasowanie sekwencji DNA:DNA Dopasowanie sekwencji DNA tłumaczonej na białko do sekwencji aminokwasowych białek

Wyszukiwanie genów u eukariontów - - niekiedy skrajnie trudne... genom człowieka i innych kręgowców genetyczna pustynia bardzo krótkie eksony (średnia 145pz) bardzo długie intronów (średnia 3365pz; najkrótszy 60pz) bardzo długie geny (średnia 27kpz) pseudogeny alternatywny splicing

Ten poziom analizy często nie zapewnia adnotacji funkcjonalnej zidentyfikowanych ORF-ów

1. Metody oparte na sygnałach (motywach) Jakie sygnały możemy brać po uwagę: Sygnały związane z transkrypcją: inicjacji i regulacji transkrypcji, wycinania intronów (miejsca donorowe i akceptorowe), modyfikacji transkryptów (np. poliadenylacji) Sygnały inicjacji translacji: wiązania rybosomów. Niektóre z tych sekwencji są krótkie, jednak są na tyle konserwatywne, że możliwe jest ich rozpoznawanie

Miejsca wiązania czynników transkrypcyjnych krótkie motywy nukleotydowe (5-30 pz) wzory elementów promotorowych i miejsc wiązania białek regulatorowych: sekwencja 25 5 -TATAWAW-3 (W= A lub T) sekwencja 80 5 -CCAAT-3 miejsce startu transkrypcji: sekwencja Inr 5 -YYCARR-3 (Y = C lub T; R = G lub A) Struktura eukariotycznego regionu okołogenowego może być bardzo skomplikowana

Metody oparte na sygnałach c.d. -wycinanie intronów konsensus miejsca donorowego 5 -(C,A)AG GU(A,G)AGU trakt polipirymidynowy konsensus miejsca akceptorowego CAG G-3 po sklejeniu eksonów konsensus (w cdna) : 5 -AG G-3

Metody oparte na sygnałach c.d. Sygnał poliadenylacji A(A/T)TAAA...(15-20nt)...CA...(20-30nt)...YGTGTTYY

2. Metody oparte na składzie (treści) ogólne właściwości sekwencji (np. zawartość i rozmieszczenie par GC i AT, charakterystyczna używalność kodonów)

Wyspy CpG regiony genomu (1-2 kpz) bogate w dinukleotyd CpG (p oznacza wiązanie fosfodiestrowe) (w genomie człowieka występuje 5 x rzadziej niż pozostałe kombinacje) -1500 +500 (tzw. sekwencje okołogenowe, które z reguły nie podlegają metylacji) 45 000/1n genom człowieka ponad połowa powiązana z genami metabolizmu podstawowego i promotorami genów tkankowospecyficznych

Metody oparte na składzie c.d.- Analiza wykorzystania kodonów Różne organizmy preferują różne kodony do zapisu informacji o konkretnych aminokwasach Preferencyjne wykorzystanie kodonów pozwala identyfikować geny w sekwencjach nukleotydowych Przy tłumaczenie sekwencji nukleotydowej na aminokwasy należy dokonać wyboru odpowiedniego kodu genetycznego (charakterystycznego np. dla białek jądrowych, mitochondrialnych, bakteryjnych, itp.)

3. Metody porównawcze tłumaczenie nt aa i przeszukiwanie baz danych sekwencji białkowych (przewidywanie eksonów)

To jeszcze nie koniec poszukiwań genów w sekwencji eukariotycznej ORF? ORF?

Analiza DNA z niską rozdzielczością Kontekst genomowy: syntenia i kolinearność Metody przewidujące funkcję genów w kontekście całego genomu rozwinęły się po nagromadzeniu wystarczająco dużej liczby całkowicie zsekwencjonowanych genomów Metody porównawcze pojedynczych genów przewidują funkcje molekularne białek, metody oparte na kontekście dają bardziej ogólne przewidywania i określają proces biologiczny, w którym są one zaangażowane Sąsiedztwo genu może dostarczyć wielu istotnych wskazówek dotyczących jego funkcji: obecność tych samych ciągów genów widocznych w kilku różnych genomach można uważać za istotną wskazówkę o potencjalnych powiązaniach funkcjonalnych produktów tych genów

makrosyntenia: zachowanie syntenii w dużej części lub całym chromosomie (rzadko w dalej spokrewnionych organizmach) mikrosyntenia: zachowanie syntenii jedynie niewielkiej grupy genów w czasie ewolucji Analizując sekwencje całych genomów pomiędzy różnymi gatunkami (zarówno blisko jak również mniej spokrewnionymi) można zaobserwować syntenię. Syntenia to zachowanie podobnego zestawu (składu) genów na chromosomach pokrewnych (lub mniej spokrewnionych) gatunków Wysoki poziom syntenii między genomami zwykle odzwierciedla związki funkcjonalne pomiędzy genami tzn. taką kombinację układu genów i alleli na chromosomie, która warto dziedziczyć razem, ponieważ ona np. koduje wspólną grupę mechanizmów np. szlak metaboliczny albo podjednostki dużego białka wielodomenowego.

Kolinearność to zachowanie porządku - układu genów w czasie (ewolucji) wzdłuż chromosomu. Kolinearność jest jeszcze bardziej specyficzna od syntenii, ponieważ w przeciwieństwie do syntenii jest wrażliwa na gęstość genów, tandemowe powtórzenia genów (rearanżacje) Przykład: odcinek chromosomu z czterema genami A-B-C-D W toku ewolucji zdarza się duplikacja; teraz mamy dwa odcinki: A-B-C-D i A -B -C -D Błędy eliminują niektóre kopie i otrzymujemy: A-.-C-. i.-b -.-D A-B-C-D Obserwujemy syntenię, ale nie mamy kolinearności