Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podobne dokumenty
Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

TRANSKRYPCJA - I etap ekspresji genów

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

WARUNKI ZALICZENIA PRZEDMIOTU- 5 ECTS

Wykład 14 Biosynteza białek

Porównywanie i dopasowywanie sekwencji

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Geny i działania na nich

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

DNA superhelikalny eukariota DNA kolisty bakterie plazmidy mitochondria DNA liniowy wirusy otrzymywany in vitro

Dopasowanie sekwencji (sequence alignment)

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

DNA musi współdziałać z białkami!

Budowa kwasów nukleinowych

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Porównywanie i dopasowywanie sekwencji

Nowoczesne systemy ekspresji genów

Ekspresja informacji genetycznej

Zarówno u organizmów eukariotycznych, jak i prokariotycznych proces replikacji ma charakter semikonserwatywny.

Translacja i proteom komórki

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Składniki jądrowego genomu człowieka

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Badanie doboru naturalnego na poziomie molekularnym

Wybrane techniki badania białek -proteomika funkcjonalna

Skrypt Bioinformatyka DRAFT Strona 67

Kwasy nukleinowe. Replikacja

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Nośnikiem informacji genetycznej są bardzo długie cząsteczki DNA, w których jest ona zakodowana w liniowej sekwencji nukleotydów A, T, G i C

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

GENOM I JEGO STRUKTURA

Podstawy biologii. Informacja, struktura i metabolizm.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Księgarnia PWN: B. Alberts, D. Bray, K. Hopkin, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter Podstawy biologii komórki. Cz.

Lokalizacja genów DNA/RNA. Nukleotydy i ich łańcuchy 11/21/2013. Genom ludzki. Struktura genomu. Pirymidyny i Puryny

Wybrane techniki badania białek -proteomika funkcjonalna

Generator testów Bioinformatyka wer / 0 Strona: 1

Spis treści 1 Komórki i wirusy Budowa komórki Budowa k

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Jak działają geny. Podstawy biologii molekularnej genu

Inżynieria genetyczna

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Wykład 1. Od atomów do komórek

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Spis treści. Księgarnia PWN: Terry A. Brown - Genomy. Część 1 Jak bada się genomy 1 Rozdział 1 Genomy, transkryptomy i proteomy 3

Geny, a funkcjonowanie organizmu

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

6. Z pięciowęglowego cukru prostego, zasady azotowej i reszty kwasu fosforowego, jest zbudowany A. nukleotyd. B. aminokwas. C. enzym. D. wielocukier.

Metody analizy genomu

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

The Role of Maf1 Protein in trna Processing and Stabilization / Rola białka Maf1 w dojrzewaniu i kontroli stabilności trna

TRANSLACJA II etap ekspresji genów

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Podłoże molekularne NF1 i RASopatii. Możliwości diagnostyczne.

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

Genetyka. Krótkie wykłady H. Fletcher, I. Hickey, P. Winter,

Regulacja transkrypcji genów eukariotycznych

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Tematyka zajęć z biologii

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Analiza sekwencji promotorów

Bioinformatyka. Rodzaje Mutacji

GENETYKA. Budowa i rola kwasów nukleinowych Geny i genomy Replikacja DNA NM G

Analizy wielkoskalowe w badaniach chromatyny

Biologia medyczna, materiały dla studentów

Bioinformatyka Laboratorium, 30h. Michał Bereta

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Zmienność ewolucyjna. Ewolucja molekularna

Ekspresja genu. Podstawowe mechanizmy i pojęcia

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Regulacja Ekspresji Genów

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Sesja sponsorowana przez Polską Sieć Biologii Molekularnej SESJA 1 ORGANIZACJA MATERIAŁU GENETYCZNEGO WYKŁADY

Podstawy genetyki molekularnej

Zaoczne Liceum Ogólnokształcące Pegaz

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Plan wykładów z genetyki ogólnej

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Transkrypt:

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo* alfabet 4- literowy (cztery nukleotydy) Alfabet sekwencji aminokwasowych jest nieco bardziej bogaty - alfabet 20-literowy (dla 20 aminokwasów występujących w białkach).

Jeśli w określonym miejscu sekwencji DNA występuje więcej niż jeden nukleotyd stosuje się dodatkowy kod różne możliwe kombinacje zapisuje się w postaci pojedynczych liter (zostało to ustalone przez International Union of Biochemistry i określa się jako I.U.B. CODE) A, C, G, T, U R = A, G (purine) Y = C, T (pyrimidine) S = G, C (Strong hydrogen bonds) W = A, T (Weak hydrogen bonds) M = A, C (amino group) K = G, T (Keto group) B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U (indeterminate) or X Czemu to ma służyć? przedstawienie różnic w sekwencji np. różnych klonów DNA podkreślenie zmienności genu w ewolucji

Na poziomie o wysokiej rozdzielczości (krótsze odcinki sekwencji nukleotydowych): Motywy Potencjalne geny informacje funkcjonalne dotyczące pojedynczych genów Na poziomie o niskiej rozdzielczości (sekwencje nukleotydowe całych genomów) kontekst genomowy Kolinearność Syntenia funkcje grup genów (procesy szlaki metaboliczne) ewolucja genomów

Analiza DNA z wysoką rozdzielczością 1. Motywy jednostką funkcjonalną genomu jest wzór (motyw, sygnał) - występuje w więcej niż jednej sekwencji (dotyczy zbioru elementów) może być skorelowany z jakąś konkretną funkcją kombinacja takich miejsc tworzy funkcjonalny region bardzo często miejsce wiązania innych cząsteczek (białek, RNA), np. promotor

Motywy c.d. motywy mające dokładnie określony i niezmienny wzór w DNA są bardzo rzadkie: kodon inicjujący AUG miejsca rozpoznawane przez enzymy restrykcyjne dla większości motywów funkcjonalnych (zwłaszcza eukariotycznych) charakterystyczna jest duża zmienność są to cechy mające przybliżony wzór: sekwencje promotorów miejsca inicjacji i terminacji transkrypcji miejsca poliadenylacji miejsca wiązania rybosomów

Jak przedstawić niejednoznaczny motyw sekwencji DNA przybliżony wzór Niejednoznaczne motywy mogą być przedstawiane w formie: konsensusu (sekwencja, która podsumowuje i przybliża wzór obserwowany w grupie porównywanych sekwencji posiadających daną cechę tzw. uśredniona sekwencja ) Motyw jest wspólny dla zbiorów sekwencji ale nie musi być identyczny we wszystkich elementach zbioru dlatego często przedstawiany jest za pomocą symboli standardowych i specjalnych N dla dowolnego nukleotydu; - dla insercji lub delecji niepewne motywy zapisuje się w postaci wzoru, np. A{3-4}NA oznacza dwie adeniny oddzielone 3 lub 4 dowolnymi nt. wysoka częstotliwość występowania określonego nukleotydu w określonym miejscu jest skorelowana z jakąś funkcją zmienność w określonych pozycjach wskazuje na możliwą różnorodność oddziaływań profilu (tablica częstości występowania - macierze częstotliwości ; ang. weight matrix)

Analiza DNA z wysoką rozdzielczością 2. Geny

adnotacja ORF? ORF?

Wyszukiwanie genów u prokariontów jest łatwe! Średnia długość sekwencji kodującej ok. 1000 pz Średnia długość regionu międzygenowego ok. 200 pz Sekwencja Shine Dalgarno (pomiędzy promotorem a AUG) Kodon inicjujący AUG (***rzadziej GUG lub UUG) Porównanie do znanych sekwencji promotorów (różne dla różnych podjednostek polimerazy RNA) dla podjednostki 70 (geny metabolizmu podstawowego E. coli) motyw 35 motyw 10 5 -TTGACA-3 5 -TATAAT-3 dla podjednostki 32 (geny kodujące HSP E. coli) motyw 35 motyw 10 5 -TCTCNCCCTTGAA-5 5 -CCCCATNTA-3 Terminatory transkrypcji (odwrócony palindrom + ciąg A)

Wyszukiwanie genów u prokariontów Uprawdopodobnienie wyniku Zapewnia równocześnie adnotacje funkcjonalne zidentyfikowanych ORF-ów Metody porównawcze: Dopasowanie sekwencji DNA:DNA Dopasowanie sekwencji DNA tłumaczonej na białko do sekwencji aminokwasowych białek

Wyszukiwanie genów u eukariontów - - niekiedy skrajnie trudne... genom człowieka i innych kręgowców genetyczna pustynia bardzo krótkie eksony (średnia 145pz) bardzo długie intronów (średnia 3365pz; najkrótszy 60pz) bardzo długie geny (średnia 27kpz) pseudogeny alternatywny splicing

Ten poziom analizy często nie zapewnia adnotacji funkcjonalnej zidentyfikowanych ORF-ów

1. Metody oparte na sygnałach (motywach) Jakie sygnały możemy brać po uwagę: Sygnały związane z transkrypcją: inicjacji i regulacji transkrypcji, wycinania intronów (miejsca donorowe i akceptorowe), modyfikacji transkryptów (np. poliadenylacji) Sygnały inicjacji translacji: wiązania rybosomów. Niektóre z tych sekwencji są krótkie, jednak są na tyle konserwatywne, że możliwe jest ich rozpoznawanie

Miejsca wiązania czynników transkrypcyjnych krótkie motywy nukleotydowe (5-30 pz) wzory elementów promotorowych i miejsc wiązania białek regulatorowych: sekwencja 25 5 -TATAWAW-3 (W= A lub T) sekwencja 80 5 -CCAAT-3 miejsce startu transkrypcji: sekwencja Inr 5 -YYCARR-3 (Y = C lub T; R = G lub A) Struktura eukariotycznego regionu okołogenowego może być bardzo skomplikowana

Metody oparte na sygnałach c.d. -wycinanie intronów konsensus miejsca donorowego 5 -(C,A)AG GU(A,G)AGU trakt polipirymidynowy konsensus miejsca akceptorowego CAG G-3 po sklejeniu eksonów konsensus (w cdna) : 5 -AG G-3

Metody oparte na sygnałach c.d. Sygnał poliadenylacji A(A/T)TAAA...(15-20nt)...CA...(20-30nt)...YGTGTTYY

2. Metody oparte na składzie (treści) ogólne właściwości sekwencji (np. zawartość i rozmieszczenie par GC i AT, charakterystyczna używalność kodonów)

Wyspy CpG regiony genomu (1-2 kpz) bogate w dinukleotyd CpG (p oznacza wiązanie fosfodiestrowe) (w genomie człowieka występuje 5 x rzadziej niż pozostałe kombinacje) -1500 +500 (tzw. sekwencje okołogenowe, które z reguły nie podlegają metylacji) 45 000/1n genom człowieka ponad połowa powiązana z genami metabolizmu podstawowego i promotorami genów tkankowospecyficznych

Metody oparte na składzie c.d.- Analiza wykorzystania kodonów Różne organizmy preferują różne kodony do zapisu informacji o konkretnych aminokwasach Preferencyjne wykorzystanie kodonów pozwala identyfikować geny w sekwencjach nukleotydowych Przy tłumaczenie sekwencji nukleotydowej na aminokwasy należy dokonać wyboru odpowiedniego kodu genetycznego (charakterystycznego np. dla białek jądrowych, mitochondrialnych, bakteryjnych, itp.)

3. Metody porównawcze tłumaczenie nt aa i przeszukiwanie baz danych sekwencji białkowych (przewidywanie eksonów)

To jeszcze nie koniec poszukiwań genów w sekwencji eukariotycznej ORF? ORF?

Analiza DNA z niską rozdzielczością Kontekst genomowy: syntenia i kolinearność Metody przewidujące funkcję genów w kontekście całego genomu rozwinęły się po nagromadzeniu wystarczająco dużej liczby całkowicie zsekwencjonowanych genomów Metody porównawczne pojedynczych genów przewidują funkcje molekularne białek, metody oparte na kontekście dają bardziej ogólne przewidywania i określają proces biologiczny, w którym są one zaangażowane Sąsiedztwo genu może dostarczyć wielu istotnych wskazówek dotyczących jego funkcji: obecność tych samych ciągów genów widocznych w kilku różnych genomach można uważać za istotną wskazówkę o potencjalnych powiązaniach funkcjonalnych produktów tych genów

makrosyntenia: zachowanie syntenii w dużej części lub całym chromosomie (rzadko w dalej spokrewnionych organizmach) mikrosyntenia: zachowanie syntenii jedynie niewielkiej grupy genów w czasie ewolucji Analizując sekwencje całych genomów pomiędzy różnymi gatunkami (zarówno blisko jak również mniej spokrewnionymi) można zaobserwować syntenię. Syntenia to zachowanie podobnego zestawu (składu) genów na chromosomach pokrewnych (lub mniej spokrewnionych) gatunków Wysoki poziom syntenii między genomami zwykle odzwierciedla związki funkcjonalne pomiędzy genami tzn. taką kombinację układu genów i alleli na chromosomie, która warto dziedziczyć razem, ponieważ ona np. koduje wspólną grupę mechanizmów np. szlak metaboliczny albo podjednostki dużego białka wielodomenowego.

Kolinearność to zachowanie porządku - układu genów w czasie (ewolucji) wzdłuż chromosomu. Kolinearność jest jeszcze bardziej specyficzna od syntenii, ponieważ w przeciwieństwie do syntenii jest wrażliwa na gęstość genów, tandemowe powtórzenia genów (rearanżacje) Przykład: odcinek chromosomu z czterema genami A-B-C-D W toku ewolucji zdarza się duplikacja; teraz mamy dwa odcinki: A-B-C-D i A -B -C -D Błędy eliminują niektóre kopie i otrzymujemy: A-.-C-. i.-b -.-D A-B-C-D Obserwujemy syntenię, ale nie mamy kolinearności

Kolinearność genomów bliskospokrewnionych

Kolinearność genomów bardziej odległych filogenetycznie (mniej spokrewnionych)