Ewolucja molekularna człowieka okiem bioinformatyka Justyna Wojtczak Jarosław Jeleniewicz
Informatyka w biologii - bioinformatyka Jest to szeroka dziedzina zajmująca się tworzeniem zaawansowanych baz danych, algorytmów, metod statystycznych i teorii, które są przydatne przy analizie danych biologicznych. Do podstawowych czynności bioinformatyki należą: mapowanie i analiza sekwencji genomowych i białkowych, przyrównanie sekwencji modelowanie cząsteczek biologicznych Dyscyplina ta jest związana także z : genomiką proteomiką metabolomiką transkryptomiką białko szoku cieplnego
Bioinformatyka: poddziedziny Bioinformatyka strukturalna zajmuje się tworzeniem modeli przestrzennych cząsteczek biologicznych takich jak białka czy RNA bada oddziaływania pomiędzy białkami, peptydami, kwasami nukleinowymi ich ligandami umożliwia poznanie funkcji białek, co może być pomocne przy tworzeniu nowych leków glu-trna z syntetazą glutrna
Bioinformatyka: poddziedziny Genomika ewolucyjna bada zależności pomiędzy białkami i genami wywodzącymi się od wspólnego przodka zajmuje się mechanizmami ewolucyjnymi wykorzystując odpowiednie programy ustala położenie genów i transpozonów w genomach dzięki zastosowaniu komputerów do obliczeń drzewa filogenetyczne powstają znacznie szybciej i są bardziej zoptymalizowane
Bioinformatyka: poddziedziny Genomika obliczeniowa Porównuje i bada całe genomy różnych organizmów Wykorzystuje narzędzia informatyczne w analizach biologicznych: Zajmuje się tworzeniem specjalistycznych baz danych oraz optymalnym dostępem do danych w nich składowanych dodatkowo tworzy i ulepsza mechanizmy umożliwiające korzystanie ze zgromadzonych danych - np. odnajdywanie nowych czy optymalizacja już istniejących algorytmów przyrównywania sekwencji (BLAST, FASTA, MSA itp.)
Bioinformatyka obliczeniowa BLAST blast.ncbi.nlm.nih.gov/blast.cgi
Bioinformatyka: poddziedziny Biologia systemów ewolucyjnych Tworzy sieci zależności np. aktywności danego genu - w celu uwidocznienia złożoności procesu. Zajmuje się również problemami ewolucji dzięki użyciu symulacji prostych sztucznych form życia, realizowanych m.in. za pomocą tzw. automatów komórkowych. Do narzędzi, które stosuje można zaliczyć algorytmy genetyczne i sieci neuronowe. Natomiast do opisu zachodzących zjawisk stosuje generowane komputerowo modele matematyczne.
Ewolucja molekularna zmiany sekwencji DNA, RNA zmiany na poziomie białek związana z genetyką populacji
Jak z kilku sekwencji DNA stworzyć analizę filogenetyczną?
Wybieramy sekwencję Musimy określić gen, którego sekwencję będziemy badać. Często jest to metoda prób i błędów: gen nie może ewoluować zbyt szybko ani zbyt wolno Najczęściej w tego typu analizach sprawdzają się geny mitochondrialnego DNA: kodujące białko cytochromu C lub rrna budujące rybosom Aby pobrać sekwencję danego genu możemy np. posłużyć się bazą NCBI.
Wybieramy sekwencję Do celów niniejszego przykładu wybraliśmy sekwencję genu kodującego rrna małej podjednostki rybosomu pochodzącego z genomów mitochondrialnych różnych gatunków naczelnych. długość ok. 950 nu w miarę konserwatywne wśród blisko spokrewnionych organizmów
Pobranie sekwencji
Wybrana sekwencja (plik fasta) >gb JF682349.1 :648-1601 Homo sapiens mitochondrion, complete genome AATAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCC CCGTTCCAGTGAGTTCACCCTCTAAATCACCACGATCAAAAGGGACAAGCATCAAGCA CGCAGCAATGCAGCTCAAAACGCTTAGCCTAGCCACACCCCCACGGGAAACAGCAGTG ATTAACCTTTAGCAATAAACGAAAGTTTAACTAAGCTATACTAACCCCAGGGTTGGTCA ATTTCGTGCCAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAGCCGGCGTAA AGAGTGTTTTAGATCACCCCCTCCCCAATAAAGCTAAAACTCACCTGAGTTGTAAAAAA CTCCAGTTGACACAAAATAGACTACGAAAGTGGCTTTAACATATCTGAACACACAATAG CTAAGACCCAAACTGGGATTAGATACCCCACTATGCTTAGCCCTAAACCTCAACAGTTA AATCAACAAAACTGCTCGCCAGAACACTACGAGCCACAGCTTAAAACTCAAAGGACCTG GCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCTGTAATCGATAAACCCCGATCAACC TCACCACCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCCTGATGAAGGCTAC AAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCCATGAGGTGG CAAGAAATGGGCTACATTTTCTACCCCAGAAAACTACGATAGCCCTTATGAAACTTAAG GGTCGAAGGTGGATTTAGCAGTAAACTGAGAGTAGAGTGCTTAGTTGAACAGGGCCCT GAAGCGCGTACACACCGCCCGTCACCCTCCTCAAGTATACTTCAAAGGACATTTAACTA AAACCCCTACGCATTTATATAGAGGAGACAAGTCGTAACATGGTAAGTGTACTGGAAAG TGCACTTGGACGAAC
Wyszukiwanie spokrewnionych sekwencji Program BLAST wyszukuje podobne sekwencje do tej, którą podaliśmy. Aby wyszukiwanie było bardziej wiarygodne, możemy: zaznaczyć opcję maskowania fragmentów powtarzalnych zawęzić wyniki do jednej grupy organizmów, np kręgowców Należy pamiętać, aby wyszukane sekwencje miały wspólną historię ewolucyjną czyli ich ewolucja przebiegała na drodze duplikacji i mutacji punktowych
Wyszukiwanie spokrewnionych sekwencji Pan paniscus (szympans karłowaty) Pan troglodytes (szympans) Gorilla gorilla (goryl) Pongo pygmaeus (orangutan) Hylobates lar (gibon) Macaca mulatta (rezus)
Wyszukiwanie spokrewnionych sekwencji Callithrix pygmaea (marmozeta karłowata) Cebus apella (kapucynka czubata) Alouatta seniculus (wyjec rudy) Lemur catta (lemur katta) Tarsius syrichta (wyrak filipiński) Cavia porcellus (świnka morska) Mus musculus (mysz)
Przyrównanie pozwala ustalić identyczność sekwencji wyszukiwanie motywów dystans genetyczny niektóre sekwencje mają rejony o wysokiej zmienności (częste insercje i delecje nukleotydowe), warto je wykluczyć z dalszej analizy gdyż są przyczyną błędów Clustal w obserwowanej sekwencji widzimy zarówno rejony konserwatywne jak i te, które wykazują pewną zmienność - to właśnie one umożliwią skonstruowanie drzewa
Przyrównanie
Tworzenie drzewa filogentycznego Najczęściej używane metody: UPGMA- najprostsza, hierarchiczna analiza skupisk, stałe tempo ewolucji Neighbor-Joining, NJ (przyłączenie sąsiadów)- szybka,tworzenie macierzy odległości, analiza skupisk Fitcha-Margoliasha, FM - kolejna metoda odległościowa, generuje zbiór drzew, na podstawie którego wybiera się to optymalne Maksymalnej parsymonii (największej oszczędności) - wybiera drzewa ze zbioru wygenerowanych drzew, które opisują zmienność sekwencji za pomocą minimalnej liczby podstawień Największej wiarygodności - wybór drzewa o największej wiarygodności ze zbioru drzew wygenerowanych Metody bayesowkie - metoda MCMC (Monte Carlo dla łańcuchów Markowa), metody najnowsze, kryterium największej wiarygodności
Końcowe drzewo (metoda NJ) a) b)
Końcowe drzewo po optymalizacji c) d)
Wnioski na podstawie drzewa Człowiek jest bardziej spokrewniony z szympansem niż z jakimkolwiek innym taksonem Kapucynka, marmozeta i wyjec tworzą odrębny klad (małpy szerokonose), tak samo lemur i wyrak (małpiatki) Zgodnie z przypuszczeniami świnka morska i mysz są spokrewnione z człowiekiem najsłabiej, należą one do gryzoni
Dziękujemy za uwagę Bibliografia: "Bioinformatyka i ewolucja molekularna", Higgs P.G., wydawnictwo: PWN, 2004 http://www.ncbi.nlm.nih.gov/ Zdjęcia: wikipedia.org