Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???
Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo* alfabet 4- literowy (cztery nukleotydy) Alfabet sekwencji aminokwasowych jest nieco bardziej bogaty - alfabet 20-literowy (dla 20 aminokwasów występujących w białkach).
Jeśli w określonym miejscu sekwencji DNA występuje więcej niż jeden nukleotyd stosuje się dodatkowy kod różne możliwe kombinacje zapisuje się w postaci pojedynczych liter (zostało to ustalone przez International Union of Biochemistry i określa się jako I.U.B. CODE) A, C, G, T, U R = A, G (purine) Y = C, T (pyrimidine) S = G, C (Strong hydrogen bonds) W = A, T (Weak hydrogen bonds) M = A, C (amino group) K = G, T (Keto group) B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U (indeterminate) or X Czemu to ma służyć? przedstawienie różnic w sekwencji np. różnych klonów DNA podkreślenie zmienności genu w ewolucji
Na poziomie o wysokiej rozdzielczości (krótsze odcinki sekwencji nukleotydowych): Motywy Potencjalne geny informacje funkcjonalne dotyczące pojedynczych genów Na poziomie o niskiej rozdzielczości (sekwencje nukleotydowe całych genomów) kontekst genomowy Kolinearność Syntenia funkcje grup genów (procesy szlaki metaboliczne) ewolucja genomów
Analiza DNA z wysoką rozdzielczością 1. Motywy jednostką funkcjonalną genomu jest wzór (motyw, sygnał) - występuje w więcej niż jednej sekwencji (dotyczy zbioru elementów) może być skorelowany z jakąś konkretną funkcją kombinacja takich miejsc tworzy funkcjonalny region bardzo często miejsce wiązania innych cząsteczek (białek, RNA), np. promotor
Motywy c.d. motywy mające dokładnie określony i niezmienny wzór w DNA są bardzo rzadkie: kodon inicjujący AUG miejsca rozpoznawane przez enzymy restrykcyjne dla większości motywów funkcjonalnych (zwłaszcza eukariotycznych) charakterystyczna jest duża zmienność są to cechy mające przybliżony wzór: sekwencje promotorów miejsca inicjacji i terminacji transkrypcji miejsca poliadenylacji miejsca wiązania rybosomów
Jak przedstawić niejednoznaczny motyw sekwencji DNA przybliżony wzór Niejednoznaczne motywy mogą być przedstawiane w formie: konsensusu (sekwencja, która podsumowuje i przybliża wzór obserwowany w grupie porównywanych sekwencji posiadających daną cechę tzw. uśredniona sekwencja ) Motyw jest wspólny dla zbiorów sekwencji ale nie musi być identyczny we wszystkich elementach zbioru dlatego często przedstawiany jest za pomocą symboli standardowych i specjalnych N dla dowolnego nukleotydu; - dla insercji lub delecji niepewne motywy zapisuje się w postaci wzoru, np. A{3-4}NA oznacza dwie adeniny oddzielone 3 lub 4 dowolnymi nt. wysoka częstotliwość występowania określonego nukleotydu w określonym miejscu jest skorelowana z jakąś funkcją zmienność w określonych pozycjach wskazuje na możliwą różnorodność oddziaływań profilu (tablica częstości występowania - macierze częstotliwości ; ang. weight matrix)
Positional Weight Matrix tabela podsumowująca częstotliwość występowania określonej litery (nukleotydu) w określonej pozycji szeregu porównywanych sekwencji 1 2 3 4 5 6 7 8 9 10 A 0.09-1.71 1.07-1.71-1.71 0.09 1.07-1.71-1.71 0.23 T 0.60-1.71-1.71 1.07 0.37-1.71-1.71 1.07 0.09-1.01 C -0.69-1.38-1.38-1.38-1.38-1.38-1.38-1.38-0.29-1.38 G -1.38 1.39-1.38-1.38 0.81 1.01-1.38-1.38 0.81 1.01 Konsensus a profil częstotliwości Zalety : krótszy opis, możliwość szybszego porównania Wady: utrata informacji ilościowej dotyczącej częstotliwości określonej litery w określonej pozycji
Analiza DNA z wysoką rozdzielczością 2. Geny
adnotacja ORF? ORF?
Wyszukiwanie genów u prokariontów jest łatwe! Średnia długość sekwencji kodującej ok. 1000 pz Średnia długość regionu międzygenowego ok. 200 pz Sekwencja Shine Dalgarno (pomiędzy promotorem a AUG) Kodon inicjujący AUG (***rzadziej GUG lub UUG) Porównanie do znanych sekwencji promotorów (różne dla różnych podjednostek polimerazy RNA) dla podjednostki 70 (geny metabolizmu podstawowego E. coli) motyw 35 motyw 10 5 -TTGACA-3 5 -TATAAT-3 dla podjednostki 32 (geny kodujące HSP E. coli) motyw 35 motyw 10 5 -TCTCNCCCTTGAA-5 5 -CCCCATNTA-3 Terminatory transkrypcji (odwrócony palindrom + ciąg A)
Wyszukiwanie genów u prokariontów Uprawdopodobnienie wyniku Zapewnia równocześnie adnotacje funkcjonalne zidentyfikowanych ORF-ów Metody porównawcze: Dopasowanie sekwencji DNA:DNA Dopasowanie sekwencji DNA tłumaczonej na białko do sekwencji aminokwasowych białek
Wyszukiwanie genów u eukariontów - - niekiedy skrajnie trudne... genom człowieka i innych kręgowców genetyczna pustynia bardzo krótkie eksony (średnia 145pz) bardzo długie intronów (średnia 3365pz; najkrótszy 60pz) bardzo długie geny (średnia 27kpz) pseudogeny alternatywny splicing
Ten poziom analizy często nie zapewnia adnotacji funkcjonalnej zidentyfikowanych ORF-ów
1. Metody oparte na sygnałach (motywach) Jakie sygnały możemy brać po uwagę: Sygnały związane z transkrypcją: inicjacji i regulacji transkrypcji, wycinania intronów (miejsca donorowe i akceptorowe), modyfikacji transkryptów (np. poliadenylacji) Sygnały inicjacji translacji: wiązania rybosomów. Niektóre z tych sekwencji są krótkie, jednak są na tyle konserwatywne, że możliwe jest ich rozpoznawanie Struktura eukariotycznego regionu okołogenowego może być bardzo skomplikowana
Miejsca wiązania czynników transkrypcyjnych krótkie motywy nukleotydowe (5-30 pz) wzory elementów promotorowych i miejsc wiązania białek regulatorowych: sekwencja 25 5 -TATAWAW-3 (W= A lub T) sekwencja 80 5 -CCAAT-3 miejsce startu transkrypcji: sekwencja Inr 5 -YYCARR-3 (Y = C lub T; R = G lub A)
Metody oparte na sygnałach c.d. -wycinanie intronów konsensus miejsca donorowego 5 -(C,A)AG GU(A,G)AGU trakt polipirymidynowy konsensus miejsca akceptorowego CAG G-3 po sklejeniu eksonów konsensus (w cdna) : 5 -AG G-3
Metody oparte na sygnałach c.d. Sygnał poliadenylacji A(A/T)TAAA...(15-20nt)...CA...(20-30nt)...YGTGTTYY
2. Metody oparte na składzie (treści) ogólne właściwości sekwencji (np. zawartość i rozmieszczenie par GC i AT, charakterystyczna używalność kodonów)
Wyspy CpG regiony genomu (1-2 kpz) bogate w dinukleotyd CpG (p oznacza wiązanie fosfodiestrowe) (w genomie człowieka występuje 5 x rzadziej niż pozostałe kombinacje) -1500 +500 (tzw. sekwencje okołogenowe, które z reguły nie podlegają metylacji) 45 000/1n genom człowieka ponad połowa powiązana z genami metabolizmu podstawowego i promotorami genów tkankowospecyficznych
Metody oparte na składzie c.d.- Analiza wykorzystania kodonów Różne organizmy preferują różne kodony zastosowanie do odgadywania gdzie są geny znaczenie przy przenoszeniu genów między organizmami
3. Metody porównawcze tłumaczenie nt aa i przeszukiwanie baz danych sekwencji białkowych (przewidywanie eksonów)
To jeszcze nie koniec poszukiwań genów w sekwencji eukariotycznej ORF? ORF?
Analiza DNA z niską rozdzielczością Kontekst genomowy Metody przewidujące funkcję genów w kontekście całego genomu rozwinęły się po nagromadzeniu wystarczająco dużej liczby całkowicie zsekwencjonowanych genomów Metody porównawczne pojedynczych genów przewidują funkcje molekularne białek, metody oparte na kontekście dają bardziej ogólne przewidywania i określają proces biologiczny, w którym są one zaangażowane.
Sąsiedztwo genu może dostarczyć wielu istotnych wskazówek dotyczących jego funkcji obecność tych samych ciągów genów widocznych w kilku różnych genomach można uważać za istotną wskazówkę o potencjalnych powiązaniach funkcjonalnych produktów tych genów Pojęcie syntenii i kolinearności
Ani genomika ani bioinformatyka nie odkryły pojęcia syntenii! W klasycznej genetyce syntenia oznacza fizyczną kolokalizację loci genetycznych w tym samym chromosomie w obrębie jednego gatunku. Pojęcie syntenii jest związane ze sprzężeniem genetycznym: loci sprzężone, są również synteniczne, ale nie wszystkie synteniczne są koniecznie strzeżone. Era post-genomowa poszerzyła pojęcie syntenii, - dysponując sekwencją genomu znacznie łatwiej zaobserwować syntenię niż wykryć ją metodami eksperymentalnymi
Analizując dane sekwencyjne syntenię można zaobserwować także pomiędzy gatunkami (zarówno blisko jak również mniej spokrewnionymi). Syntenia w tym ujęciu to zachowanie podobnego zestawu (składu) genów na chromosomach pokrewnych (lub mniej spokrewnionych) gatunków W trakcie ewolucji zdarzają się rearanżacje genomów (np. translokacje genów), które mogą zburzyć syntenię Wysoki poziom syntenii między genomami zwykle odzwierciedla związki funkcjonalne pomiędzy genami tzn. taką kombinację układu genów i alleli na chromosomie, która warto dziedziczyć razem, ponieważ ona np. koduje wspólną grupę mechanizmów np. szlak metaboliczny albo podjednostki dużego białka wielodomenowego.
makrosyntenia: zachowanie syntenii w dużej części lub całym chromosomie (rzadko w dalej spokrewnionych organizmach) mikrosyntenia: zachowanie syntenii jedynie niewielkiej grupy genów w czasie ewolucji Syntenia genów
Syntenia jest jednym z kryteriów na podstawie których regiony genomowe (nie tylko pojedyncze geny) różnych organizmów można traktować jako ortologiczne (czyli pochodzące od wspólnego przodka) Obserwowane zaburzenia synteni mogą być podstawą do rozważań filogenetycznych ustalania pokrewieństwa organizmów
Kolinearność to zachowanie porządku - układu genów w czasie (ewolucji) wzdłuż chromosomu. Kolinearność jest jeszcze bardziej specyficzna od syntenii, ponieważ w przeciwieństwie do syntenii jest wrażliwa na gęstość genów, tandemowe powtórzenia genów (rearanżacje)
Wyobraźmy sobie, że mamy odcinek chromosomu z tymi genami: A-B-C-D Zdarza się duplikacja; teraz mamy dwa odcinki: A-B-C-D i A -B -C -D Błędy eliminują niektóre kopie i otrzymujemy: A-.-C-. i.-b -.-D A-B-C-D Teraz mamy sytuację, w której organizm ogólnie ani niczego nie zyskał, ani niczego nie stracił nadal ma geny A, B, C i D nie mamy podwojenia całkowitej liczby genów, nadal mamy cztery geny. Obserwujemy syntenię, ale nie mamy kolinearności