Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl
Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecność
Literatura, materiały Bioinformatyka i ewolucja molekularna Paul G. Higgs, Teresa K. Attwood Podstawy bioinformatyki, Xiong Jin Bioinformatyka. Podręcznik do analizy genów i białek A.D. Baxevanis (red.), B.F.F. Ouellette (red.)
Definicja Bioinformatyka technologie wykorzystujące komputery do przechowywania, pozyskiwania i rozpowszechniania danych dotyczących makrocząsteczek biologicznych (DNA, RNA, białka) oraz do manipulowania tymi danymi za pomocą specjalnych programów wykorzystujących często modele matematyczne i statystyczne.
Definicja Bioinformatyka interdyscyplinarna dziedzina nauki obejmująca wykorzystanie metod obliczeniowych do badania danych biologicznych makrocząsteczek biologicznych. Rozwój metod obliczeniowych służących do badania struktury, funkcji i ewolucji genów, białek i całych genomów Rozwój metod wykorzystywanych do zarządzania i analizy informacji biologicznej gromadzonej w toku badań genomicznych oraz badań prowadzonych z zastosowaniem wysokoprzepustowych technik eksperymentalnych. Do bioinformatyki nie zalicza się np. modeli dynamiki liczebności populacji, modeli teorii gier do modelowania zachowania zwierząt itd.
Definicja Bioinformatyka nie jest tym samym co biologia obliczeniowa
Nie mylić z pojęciem: Algorytmy genetyczne (jest to grupa metod inteligencji obliczeniowej, które w swoim działaniu wzorują się na mechanizmach ewolucji).
Główne zadania Bioinformatyka: Rozwój baz danych Wyszukiwanie danych Weryfikacja i aktualizacja Rozwój narzędzi obliczeniowych Analiza sekwencyjna Analiza strukturalna Analiza funkcjonalna Wykorzystanie baz i narzędzi do uzyskania wiedzy biologicznej
Główne zadania Analiza sekwencji -Przeszukiwanie baz danych sekwencji -Porównywanie sekwencji -Składanie sekwencji genomów -Rekonstrukcje pokrewieństw ewolucyjnych -Porównywanie genomów -Filogenetyka -Przewidywanie genu i promotora -Wykrywanie motywów
Analiza struktury Bioinformatyka Główne zadania -Przewidywanie struktury białka -Klasyfikacja struktur białek -Porównywanie struktur białek
Analiza funkcji Bioinformatyka Główne zadania -Przewidywanie oddziaływań białko-białko -Przewidywanie lokalizacji komórkowej białka -Profilowanie ekspresji genu -Modelowanie ścieżek metabolicznych -Symulacje metabolizmu
Cele bioinformatyki Obsługa rosnących baz danych biologicznych Wyszukiwanie informacji w bazach danych biologicznych (również bazach publikacji) Analiza, dopasowanie sekwencji nukleotydów Lokalizacja genów Przewidywanie struktury i funkcji białek na podstawie sekwencji Analiza ekspresji genów (analiza mikromacierzy) Projektowanie leków Ewolucja molekularna Biologia systemowa (ang. System biology) - badanie złożonych oddziaływań występujących w systemach biologicznych
Ograniczenia bioinformatyki Jakość przewidywań bioinformatycznech zależy od Danych Dane sekwencyjne mogą zawierać błędy Redundancja danych (nadmiarowość, powielanie się) Błędy ludzkie Algorytmów Zbyt proste modele by opisać złożony problem Konieczność użycia uproszczonych modeli z powodu ograniczeń mocy obliczeniowej komputerów
Zakres przedmiotu Rys historyczny Biologiczne bazy danych Analiza sekwencji Konstrukcja drzew filogenetycznych Dane mikromacierzowe (?) Wykorzystanie języków programowania Python/ R (?)
Ewolucja różnicowanie się materiału genetycznego Ewolucja molekularna porównawcze analizy na poziomie molekularnym między gatunkami Genetyka populacyjna badanie zróżnicowania genetycznego u osobników tego samego gatunku
Rys historyczny 1965 Margaret Dayhoff, pierwsza baza danych sekwencji białkowych: Atlas of Protein Sequence and Structure Lata 70 80 utworzono Protein Data Bank (archiwizacja struktur trzeciorzędowych białek) początkowo kilkanaście struktur, obecnie kilkadziesiąt tysięcy 1970 Needleman i Wunsh pierwszy algorytm dopasowywania sekwencji (sequence alignment) 1974 Chou i Fasman pierwszy algorytm do przewidywania struktury białka 1982 Utworzenie bazy GeneBank, opracowanie algorytmów do szybkiego przeszukiwania baz danych: FASTA oraz BLAST 1986 - Projekt poznania genomu ludzkiego Lata 90 szybki dostęp do danych przez Internet 2000 Ukończenie prac nad ogólną sekwencją genomu ludzkiego - Eksplozja danych -> Bioinformatyka
Rys historyczny
Zależność wykładnicza Zależność liniową widoczną na wykresach otrzymujemy przez wzięcie logarytmu obu stron równania
http://www.ebi.ac.uk/ena/about/statistics
http://www.ncbi.nlm.nih.gov/genbank/ http://www.ncbi.nlm.nih.gov/genbank/statistics
Bazy danych
Bazy danych
Cztery główne rodzaje danych w bioinformatyce
Dopasowanie sekwencji
Genomika dziedzina biologii molekularnej i biologii teoretycznej (pokrewna genetyce i ściśle związana z bioinformatyką) zajmująca się analizą genomu organizmów. Głównym celem genomiki jest poznanie sekwencji materiału genetycznego oraz mapowanie genomu ale również określenie wszelkich zależności i interakcji wewnątrz genomu.
DNA kwas deoksyrybonukleinowy RNA kwas rybonukleinowy Zasady azotowe Adenina (A) Tymina (T) Guanina (G) Cytozyna (C) Uracyl (U) (zastępuje tyminę w RNA) Parowanie C-G A-T
fosfocukrowy szkielet cząsteczki RNA Bioinformatyka
Podstawową jednostką budulcową kwasów nukleinowych są nukleotydy. Nukleotyd = cząsteczka zasady azotowej+cukier (ryboza)+reszta fosforanowa Nukleotydy występują nie tylko w formie łańcuchów.
Szkielet cząsteczki białka W ramkach zaznaczone wiązania peptydowe.
Aminokwasy Kwas asparginowy Kwas glutaminowy Tryptofan Fenyloalanina Glicyna Alanina Walina Izoleucyna Leucyna Metionina Prolina Lizyna Arginina Histydyna Tyrozyna Seryna Treonina Asparagina Glutamina Cysteina Bioinformatyka
Analiza podobieństwa aminokwasów za pomocą metod grupowania hierarchicznego
Centralny Dogmat Biologii Molekularnej DNA RNA Białka transkrypcja translacja
Kod genetyczny jak sekwencje nukleotydów przekładają się na sekwencje aminokwasów Tłumaczeniu podlegają trójki nukleotydów, tzw. kodony Kodonów (64) jest więcej niż aminokwasów (20). Większości aminokwasów odpowiada więcej niż jeden kodon.
Jednym z celi jest przewidywanie struktury i właściwości białek - struktura drugo-, trzeciorzędowa białek Proteomika gałąź nauki zajmująca się badaniem białek - ich struktury, sprawowanych przez nie funkcji i zależności między nimi.
Poziomy organizacji białek Struktura pierwszorzędowa Struktura drugorzędowa Struktura trzeciorzędowa Struktura czwartorzędowa
Poziomy organizacji białek Struktura pierwszorzędowa Liniowy układ aminokwasów w łańcuchu polipeptydowym (jednowymiarowa sekwencja 20 znaków) np. insulina 51 aminokwasów
Poziomy organizacji białek Struktura drugorzędowa Opisuje przestrzenne uporządkowanie łancuchów polipeptydowych białek (skutek wiązań wodorowych) Helisy alfa Harmonijka beta Beta zakręt (petle omega)
Poziomy organizacji białek Struktura trzeciorzędowa Określa wzajemny przestrzenny układ elementow struktury drugorzędowej Decyduje o aktywności biochemicznej białka Wiązania odpowiedzialne za tę strukturę są dość słabe Denaturacja zniszczenie struktury przez np. temperaturę powyżej 40 45 st. C Spora część białek nie ma stabilnej struktury trzeciorzędowej
Poziomy organizacji białek Struktura czwartorzędowa Tworzy ją tylko część białek Określa wzajemny przestrzenny układ oraz sposób łącznia Podjednostek (osobnych łańcuchów polipeptydowych) niepołączonych kowalencyjnie Grup prostetycznych (niebiałkowe składniki białek np. cukry, lipidy, jony metali)
Poziomy organizacji białek Struktura czwartorzędowa Model wstęgowy hemoglobiny
Drzewo filogenetyczne (drzewo rodowe) graf acykliczny przedstawiający ewolucyjne zależności pomiędzy sekwencjami lub gatunkami wszystkich organizmów żywych(analogicznie do pokrewieństwa w rodzie ludzkim zobrazowanym przez drzewo genealogiczne). Jest to rodzaj dendrogramu, w którym podstawa (pień) drzewa filogenetycznego symbolizuje wspólnego przodka taksonów znajdujących się wyżej (czyli bardziej współczesnych i wyżej stojących ewolucyjnie), konary odpowiadają taksonom potomnym; długość gałęzi, a czasem również kąt pomiędzy nimi, określają tempo zachodzących przemian ewolucyjnych.
Koniec