Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo* alfabet 4- literowy (cztery nukleotydy) Alfabet sekwencji aminokwasowych jest nieco bardziej bogaty - alfabet 20-literowy (dla 20 aminokwasów występujących w białkach).

Jeśli w określonym miejscu sekwencji DNA występuje więcej niż jeden nukleotyd stosuje się dodatkowy kod różne możliwe kombinacje zapisuje się w postaci pojedynczych liter (zostało to ustalone przez International Union of Biochemistry i określa się jako I.U.B. CODE) A, C, G, T, U R = A, G (purine) Y = C, T (pyrimidine) S = G, C (Strong hydrogen bonds) W = A, T (Weak hydrogen bonds) M = A, C (amino group) K = G, T (Keto group) B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U (indeterminate) or X Czemu to ma służyć? przedstawienie różnic w sekwencji np. różnych klonów DNA podkreślenie zmienności genu w ewolucji

Na poziomie o wysokiej rozdzielczości (krótsze odcinki sekwencji nukleotydowych): Motywy Potencjalne geny informacje funkcjonalne dotyczące pojedynczych genów Na poziomie o niskiej rozdzielczości (sekwencje nukleotydowe całych genomów) kontekst genomowy Kolinearność Syntenia funkcje grup genów (procesy szlaki metaboliczne) ewolucja genomów

Analiza DNA z wysoką rozdzielczością 1. Motywy jednostką funkcjonalną genomu jest wzór (motyw, sygnał) - występuje w więcej niż jednej sekwencji (dotyczy zbioru elementów) może być skorelowany z jakąś konkretną funkcją kombinacja takich miejsc tworzy funkcjonalny region bardzo często miejsce wiązania innych cząsteczek (białek, RNA), np. promotor

Motywy c.d. motywy mające dokładnie określony i niezmienny wzór w DNA są bardzo rzadkie: kodon inicjujący AUG miejsca rozpoznawane przez enzymy restrykcyjne dla większości motywów funkcjonalnych (zwłaszcza eukariotycznych) charakterystyczna jest duża zmienność są to cechy mające przybliżony wzór: sekwencje promotorów miejsca inicjacji i terminacji transkrypcji miejsca poliadenylacji miejsca wiązania rybosomów

Jak przedstawić niejednoznaczny motyw sekwencji DNA przybliżony wzór Niejednoznaczne motywy mogą być przedstawiane w formie: konsensusu (sekwencja, która podsumowuje i przybliża wzór obserwowany w grupie porównywanych sekwencji posiadających daną cechę tzw. uśredniona sekwencja ) Motyw jest wspólny dla zbiorów sekwencji ale nie musi być identyczny we wszystkich elementach zbioru dlatego często przedstawiany jest za pomocą symboli standardowych i specjalnych N dla dowolnego nukleotydu; - dla insercji lub delecji niepewne motywy zapisuje się w postaci wzoru, np. A{3-4}NA oznacza dwie adeniny oddzielone 3 lub 4 dowolnymi nt. wysoka częstotliwość występowania określonego nukleotydu w określonym miejscu jest skorelowana z jakąś funkcją zmienność w określonych pozycjach wskazuje na możliwą różnorodność oddziaływań profilu (tablica częstości występowania - macierze częstotliwości ; ang. weight matrix)

Analiza DNA z wysoką rozdzielczością 2. Geny

adnotacja ORF? ORF?

Wyszukiwanie genów u prokariontów jest łatwe! Średnia długość sekwencji kodującej ok. 1000 pz Średnia długość regionu międzygenowego ok. 200 pz Sekwencja Shine Dalgarno (pomiędzy promotorem a AUG) Kodon inicjujący AUG (***rzadziej GUG lub UUG) Porównanie do znanych sekwencji promotorów (różne dla różnych podjednostek polimerazy RNA) dla podjednostki 70 (geny metabolizmu podstawowego E. coli) motyw 35 motyw 10 5 -TTGACA-3 5 -TATAAT-3 dla podjednostki 32 (geny kodujące HSP E. coli) motyw 35 motyw 10 5 -TCTCNCCCTTGAA-5 5 -CCCCATNTA-3 Terminatory transkrypcji (odwrócony palindrom + ciąg A)

Wyszukiwanie genów u prokariontów Uprawdopodobnienie wyniku Zapewnia równocześnie adnotacje funkcjonalne zidentyfikowanych ORF-ów Metody porównawcze: Dopasowanie sekwencji DNA:DNA Dopasowanie sekwencji DNA tłumaczonej na białko do sekwencji aminokwasowych białek

Wyszukiwanie genów u eukariontów - - niekiedy skrajnie trudne... genom człowieka i innych kręgowców genetyczna pustynia bardzo krótkie eksony (średnia 145pz) bardzo długie intronów (średnia 3365pz; najkrótszy 60pz) bardzo długie geny (średnia 27kpz) pseudogeny alternatywny splicing

Ten poziom analizy często nie zapewnia adnotacji funkcjonalnej zidentyfikowanych ORF-ów

1. Metody oparte na sygnałach (motywach) Jakie sygnały możemy brać po uwagę: Sygnały związane z transkrypcją: inicjacji i regulacji transkrypcji, wycinania intronów (miejsca donorowe i akceptorowe), modyfikacji transkryptów (np. poliadenylacji) Sygnały inicjacji translacji: wiązania rybosomów. Niektóre z tych sekwencji są krótkie, jednak są na tyle konserwatywne, że możliwe jest ich rozpoznawanie

Miejsca wiązania czynników transkrypcyjnych krótkie motywy nukleotydowe (5-30 pz) wzory elementów promotorowych i miejsc wiązania białek regulatorowych: sekwencja 25 5 -TATAWAW-3 (W= A lub T) sekwencja 80 5 -CCAAT-3 miejsce startu transkrypcji: sekwencja Inr 5 -YYCARR-3 (Y = C lub T; R = G lub A) Struktura eukariotycznego regionu okołogenowego może być bardzo skomplikowana

Metody oparte na sygnałach c.d. -wycinanie intronów konsensus miejsca donorowego 5 -(C,A)AG GU(A,G)AGU trakt polipirymidynowy konsensus miejsca akceptorowego CAG G-3 po sklejeniu eksonów konsensus (w cdna) : 5 -AG G-3

Metody oparte na sygnałach c.d. Sygnał poliadenylacji A(A/T)TAAA...(15-20nt)...CA...(20-30nt)...YGTGTTYY

2. Metody oparte na składzie (treści) ogólne właściwości sekwencji (np. zawartość i rozmieszczenie par GC i AT, charakterystyczna używalność kodonów)

Wyspy CpG regiony genomu (1-2 kpz) bogate w dinukleotyd CpG (p oznacza wiązanie fosfodiestrowe) (w genomie człowieka występuje 5 x rzadziej niż pozostałe kombinacje) -1500 +500 (tzw. sekwencje okołogenowe, które z reguły nie podlegają metylacji) 45 000/1n genom człowieka ponad połowa powiązana z genami metabolizmu podstawowego i promotorami genów tkankowospecyficznych

Metody oparte na składzie c.d.- Analiza wykorzystania kodonów Różne organizmy preferują różne kodony do zapisu informacji o konkretnych aminokwasach Preferencyjne wykorzystanie kodonów pozwala identyfikować geny w sekwencjach nukleotydowych Przy tłumaczenie sekwencji nukleotydowej na aminokwasy należy dokonać wyboru odpowiedniego kodu genetycznego (charakterystycznego np. dla białek jądrowych, mitochondrialnych, bakteryjnych, itp.)

3. Metody porównawcze tłumaczenie nt aa i przeszukiwanie baz danych sekwencji białkowych (przewidywanie eksonów)

To jeszcze nie koniec poszukiwań genów w sekwencji eukariotycznej ORF? ORF?

Analiza DNA z niską rozdzielczością Kontekst genomowy: syntenia i kolinearność Metody przewidujące funkcję genów w kontekście całego genomu rozwinęły się po nagromadzeniu wystarczająco dużej liczby całkowicie zsekwencjonowanych genomów Metody porównawczne pojedynczych genów przewidują funkcje molekularne białek, metody oparte na kontekście dają bardziej ogólne przewidywania i określają proces biologiczny, w którym są one zaangażowane Sąsiedztwo genu może dostarczyć wielu istotnych wskazówek dotyczących jego funkcji: obecność tych samych ciągów genów widocznych w kilku różnych genomach można uważać za istotną wskazówkę o potencjalnych powiązaniach funkcjonalnych produktów tych genów

makrosyntenia: zachowanie syntenii w dużej części lub całym chromosomie (rzadko w dalej spokrewnionych organizmach) mikrosyntenia: zachowanie syntenii jedynie niewielkiej grupy genów w czasie ewolucji Analizując sekwencje całych genomów pomiędzy różnymi gatunkami (zarówno blisko jak również mniej spokrewnionymi) można zaobserwować syntenię. Syntenia to zachowanie podobnego zestawu (składu) genów na chromosomach pokrewnych (lub mniej spokrewnionych) gatunków Wysoki poziom syntenii między genomami zwykle odzwierciedla związki funkcjonalne pomiędzy genami tzn. taką kombinację układu genów i alleli na chromosomie, która warto dziedziczyć razem, ponieważ ona np. koduje wspólną grupę mechanizmów np. szlak metaboliczny albo podjednostki dużego białka wielodomenowego.

Kolinearność to zachowanie porządku - układu genów w czasie (ewolucji) wzdłuż chromosomu. Kolinearność jest jeszcze bardziej specyficzna od syntenii, ponieważ w przeciwieństwie do syntenii jest wrażliwa na gęstość genów, tandemowe powtórzenia genów (rearanżacje) Przykład: odcinek chromosomu z czterema genami A-B-C-D W toku ewolucji zdarza się duplikacja; teraz mamy dwa odcinki: A-B-C-D i A -B -C -D Błędy eliminują niektóre kopie i otrzymujemy: A-.-C-. i.-b -.-D A-B-C-D Obserwujemy syntenię, ale nie mamy kolinearności

Kolinearność genomów bliskospokrewnionych

Kolinearność genomów bardziej odległych filogenetycznie (mniej spokrewnionych)