WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Podobne dokumenty
października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Bioinformatyka Laboratorium, 30h. Michał Bereta

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Porównywanie i dopasowywanie sekwencji

PODSTAWY BIOINFORMATYKI

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Algorytmika dla bioinformatyki

Geny i działania na nich

KARTA PRZEDMIOTU. (pieczęć wydziału)

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Budowa kwasów nukleinowych

Porównywanie i dopasowywanie sekwencji

Dopasowanie par sekwencji

6. Z pięciowęglowego cukru prostego, zasady azotowej i reszty kwasu fosforowego, jest zbudowany A. nukleotyd. B. aminokwas. C. enzym. D. wielocukier.

Bioinformatyka. Michał Bereta

Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne)

Bioinformatyczne bazy danych

PRZYRÓWNANIE SEKWENCJI

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Dopasowanie sekwencji (sequence alignment)

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Przyrównywanie sekwencji

Wstęp do Biologii Obliczeniowej

Wykład 14 Biosynteza białek

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Skrypt Bioinformatyka DRAFT Strona 67

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Bioinformatyka. Michał Bereta

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Statystyczna analiza danych

Dopasowania par sekwencji DNA

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

WARUNKI ZALICZENIA PRZEDMIOTU- 5 ECTS

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Podstawy Informatyki. Sprawność algorytmów

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

DNA superhelikalny eukariota DNA kolisty bakterie plazmidy mitochondria DNA liniowy wirusy otrzymywany in vitro

WYMAGANIA EDUKACYJNE BIOLOGIA zakres podstawowy biologia na czasie

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

Wymagania edukacyjne Biologia na czasie zakres podstawowy przedmiot biologia nauczana dwujęzycznie poziom podstawowy klasa Ib i Ic

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Analizy wielkoskalowe w badaniach chromatyny

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Od jakiego pułapu startujemy? matematyka

dostateczny oraz: wyjaśnia, z czego wynika komplementarność zasad przedstawia graficznie regułę

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

BIOLOGICZNE BAZY DANYCH SYLABUS

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Projektowanie molekularne i bioinformatyka. 2-letnie studia II stopnia (magisterskie)

Wprowadzenie do bioinformatyki

Wybrane techniki badania białek -proteomika funkcjonalna

Wymagania edukacyjne z biologii w klasie pierwszej, zakres podstawowy. Podręcznik Biologia na czasie - Wyd. Nowa Era

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

WYMAGANIA EDUKACYJNE Z BIOLOGII, ZAKRES PODSTAWOWY 2018/19

WYMAGANIA EDUKACYJNE BIOLOGIA NA CZASIE, ZAKRES PODSTAWOWY

Wymagania edukacyjne Biologia na czasie zakres podstawowy

Generator testów Bioinformatyka wer / 0 Strona: 1

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Wymagania na poszczególne stopnie szkolne dla przedmiotu biologia. Klasa I Liceum Ogólnokształcącego poziom podstawowy

Bioinformatyka. Michał Przyłuski

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Wybrane techniki badania białek -proteomika funkcjonalna

Wymagania edukacyjne Biologia na czasie, zakres podstawowy

Wymagania edukacyjne z biologii- zakres podstawowy: kl 1 ZSZ, 1LO

Podstawy biologii. Podstawy biologii molekularnej

Podstawy biologii. Informacja, struktura i metabolizm.

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Biologiczne podstawy ewolucji. Informacja genetyczna. Co to jest ewolucja.

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Biologia medyczna, materiały dla studentów

Praca klasowa waga 3. Sprawdzian waga 3. Kartkówka waga 2. Odpowiedź waga 1. Aktywność waga 1

Zaoczne Liceum Ogólnokształcące Pegaz

definiuje pojęcia: inżynieria genetyczna, replikacja DNA wyjaśnia regułę komplementarności

Wymagania edukacyjne Biologia na czasie klasa 1 LO, poziom podstawowy

Kontakt.

Jak działają geny. Podstawy biologii molekularnej genu

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW BIOINFORMATYKA

Zadania bioinformatyki

WYMAGANIA EDUKACYJNE Z BIOLOGII (Klasa 1B, 1C, 1D, 1E, 1F ;rok szkolny 2018/2019) - ZAKRES PODSTAWOWY - NOWA ERA. dostateczny (P) podstawowy

Transkrypt:

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19 Witold Dyrka 14 marca 2019 1 Wprowadzenie 1.1 Definicje bioinformatyki Według polskiej Wikipedii [1], Bioinformatyka interdyscyplinarna dziedzina nauki wykorzystująca metody i narzędzia informatyczne do rozwiązywania problemów z nauk biologicznych. Bioinformatyka obejmuje rozwój metod obliczeniowych służących do badania struktury, funkcji i ewolucji genów, genomów i białek. Ponadto odpowiada za rozwój metod wykorzystywanych do zarządzania i analizy informacji biologicznej gromadzonej w toku badań genomicznych oraz badań prowadzonych z zastosowaniem wysokoprzepustowych technik eksperymentalnych. Z bioinformatyką powiązane są: genomika, proteomika, metabolomika, transkryptomika i konektomika. Portal bioinformatics.org określa bioinformatykę w podobny sposób [2]: (definicja szeroka) Bioinformatyka to zastosowanie komputerów do przetwarzania informacji pochodzenia biologicznego (od sekwencji DNA po obrazy radiologiczne); (definicja wąska) Bioinformatyka to molekularna biologia obliczeniowa. To samo źródło rozróżnia bioinformatykę klasyczną (pregenomową) oraz postgenomową. Tę pierwszą Fredj Tekaia z Instytutu Pasteura definiuje [2] jako metody matematyczne, statystyczne i obliczeniowe mające na celu rozwiązanie problemów biologicznych z wykorzystaniem sekwencji DNA i aminokwasów oraz powiązanych informacji. Tę drugą dobrze charakteryzuje spektrum zainteresowań czołowego czasopisma naukowego Bioinformatics, obejmujące m.in [3]: Analiza genomu: składanie genomu, analiza porównawcza, adnotacja genomów, identyfikacja genów, miejsc składania, sekwencji promotorowych; Analiza sekwencji: dopasowania wielu sekwencji, znajdowanie i grupowanie sekwencji podobnych, odkrywanie domen i motywów, przewidywanie funkcji, miejsc funkcyjnych i in. Filogenetyka: estymacja podobieństwa ewolucyjnego, jego wykorzystanie w analizie sekwencji, modele ewolucji molekularnej, analizy porównawcze; Bioinformatyka strukturalna: przewidywanie, analiza i porównywanie struktur, metody oceny modeli strukturalnych, metody dokowania, przewidywanie funkcji, projektowanie białek; Ekspresja genów: analiza ekspresji, w tym na podst. mikromacierzy, sekwencjonowanie RNA, proteomika oraz spektroskopia masowa; 1

Genetyka i analiza populacyjna: metody analizy i symulacji w zakresie genetyki; Biologia systemów: algorytmy, zastosowania, bazy danych, metody reprezentacji, symulacji i wizualizacji danych na pozimie całej komórki (sieci interakcji białek, sieci regulacyjne, szlaki metaboliczne i sygnałowe); Eksploracja danych i tekstu: wyodrębnienianie informacji biologicznej z tekstów, baz danych itp.; narzędzia reprezentacji, porządkowania i rozpowszechniania tej informacji; metody wnioskowania; Bazy danych i ontologie: biologiczne bazy i hurtowanie danych, serwisy internetowe, ontologie biologiczne, e-nauka; Informatyka bioobrazów: metody pozyskiwania i analizy obrazów mikroskopowych. 1.2 Podstawy biologiczne Wybrane pojęcia z zakresu biologii molekularnej istotne z punktu widzenia bioinformatyki: organizm pro- i eukariotyczny, chromosom, rybosom; centralny dogmat biologii molekularnej, transkrypcja, translacja; kwasy nukleinowe: kwas deoksyrybonukleinowy (DNA), kwas rybonukleinowy (RNA), nukleotyd, zasada azotowa: adenina, guanina (puryny), cytozyna, tymina, uracyl (piramidyny), pary zasad: adeninatymina/uracyl i cytozyna-guanina, szkielet nici kwasu nukleinowego, 5 - i 3 -koniec, podwójna nić DNA, komplementarność nici, nić kodująca, nić wzorcowa, RNA matrycowe, RNA funkcyjne, RNA transferowe; białko: łańcuch aminokwasów, modyfikacje potranslacyjne, struktura przestrzenna, hipoteza termodynamiczna (Afinsena); gen: lokus (l.mn. loci), kodon, kodon startu, kodon stopu, otwarta ramka odczytu, egzon, intron, sekwencja regulatorowa, promotor, sekwencja kodująca (CDS), splicing; genotyp, fenotyp, selekcja naturalna, selekcja negatywna 1.3 Metody sekwencjonowania Przykładem współczesnych wysokoprzepustowych metod sekwencjonowania DNA są: sekwencjonowanie przez syntezę [4], sekwencjonowanie nanoporowe [5]. 1.4 Bioinformatyczne bazy danych Publicznie dostępne bazy danych sekwencji molekularnych (i nie tylko) prowadzą: NCBI National Center for Biotechnology Information (GenBank), EBI European Bioinformatics Institute (EMBL), DDBJ DNA Data Bank of Japan, ktore wymieniają sie wzajemnie zgłaszanymi danymi. Aktualnie znajduje się w nich ponad 200 mln sekwencji nukleotydów składających się z 300 mld zasad [6]. Do bazy NCBI zdalny programistyczny dostęp zapewniają narzędzia Entrez Utilities [7]. 2

2 Podobieństwo par sekwencji Zdecydowana większość podobieństwa pomiędzy sekwencjami DNA, RNA oraz kodowanych przez nie białek, nie licząc bardzo krótkich, ma źródło we wspólnym pochodzeniu, czyli homologii. Różnice pomiędzy sekwencjami homologicznymi powstają w wyniku mutacji, w tym substytucji (mutacje punktowe) oraz insercji/delecji. 2.1 Algorytm kropkowy Podstawowym narzędziem wizualnego porównania sekwencji nukleotydów lub aminokwasów jest wykres kropkowy (ang. dot plot). Jest on blisko spokrewniony z wykresem rekurencji krzyżowej stosowanym w przetwarzaniu sygnałów. Niech x = x 1,..., x n oraz y = y 1,..., y m są sekwencjami nukleotydów (lub aminokwasów). Macierz kropkowa R = (r ij ) n m jest macierzą binarną taką, że: { 1 jeśli x i = y j r ij = 0 w przeciwnym wypadku Przykładowy macierz kropkowa została przedstawiony poniżej: GAAGCCAGCAAGT Filtrowanie macierzy kropkowej. Identyczne ciągi nukleotydów układają się w linie na przekątnych macierzy kropkowej. Za wskazujące na homologię można uznać linie o długości k, przy dopuszczalnej różnicach na s pozycjach. Filtrując macierz kropkową, należy pozostawić jedynie te kropki, które leżą na jednej z linii spełniających powyższe warunki. Formalnie, odfiltrowana macierz R = (r ij ) n m składa się z takich elementów, że: { r ij r ij jeśli l [0, k 1] tr(r [i l,..., i + k 1 l; j l,..., j + k 1 l]) k s = 0 w przeciwnym wypadku, gdzie A [i,..., i + p, j,..., j + q] oznacza podmacierz A składającą się z wierszy i,..., i + p oraz kolumn j,..., j + q, a tr(a) oznacza ślad macierzy A (sumę elementów na jej przekątnej). Przykładowy wykres kropkowy, odfiltrowany dla parametrów okna k = 4 i progu błędów s = 1, został przedstawiony poniżej. Dopasowania liter przed filtracją zaznaczono znakiem., dopasowania pozostałe po filtracji - znakiem + : GAAGCCAGCAAGT G+ + +. C +. + A.. +.+. A....+ G... + T + 3

Powyższy wykres kropkowy sugeruje, że sekwencje mogły mieć wspólnego przodka, który posiadał fragmenty GC.A oraz AGT. Pierwszy z nich uległ mutacji punktowej na trzeciej pozycji. Pomiędzy fragmentami wystąpiła insercja względnie delecja, ponieważ oba fragmenty nie leżą na jednej przekątnej. W rzeczywistości przykład ten nie pozwala na miarodajną ocenę homologii ze względu na zbyt krótkie okno k = 4, które przy progu błędów s = 1 wymaga dopasowania jedynie pojedynczego kodonu - co jest prawdopodobne losowo. W przypadku sekwencji nukleotydów okno powinno być o znacznie dłuższe (np. k = 10, s = 3). Złożoność obliczeniowa Pseudokod algorytmu tworzącego macierz kropkową (bez filtracji) został przedstawiony poniżej: 1: function R = computedotmatrix(x, y) 2: begin 3: n = length(x) 4: m = length(y) 5: for i = 1 to n # (i=1; i<=n; i++) 6: for j = 1 to m 7: begin 8: if x[i] == y[j] 9: R[i, j] = 1 10: else 11: R[i, j] = 0 12: end 13: return R 14: end Czasowa złożoność obliczeniowa algorytmu jest to liczba operacji podstawowych (takich jak podstawienie, porównanie, dodawanie itp.) potrzebnych do realizacji zadania w zależności od rozmiaru wejścia. Przedstawiony wyżej algorytm składa się z następujących operacji podstawowych: 2 podstawień (linie 3-4) 1 podstawienia licznika pętli (linia 5) n inkrementacji licznika pętli (linia 5) n + 1 sprawdzeń warunku pętli (linia 5) n powtórzeń pętli wewnętrznej (linie 6-12) 1 podstawienia licznika pętli (linia 6) m inkrementacji licznika pętli (linia 6) m + 1 sprawdzeń warunku pętli (linia 6) m powtórzeń ciała pętli (linie 8-11) 1 sprawdzenia zgodności liter (linia 8) 1 podstawienia wartości macierzy kropkowej (linia 9 lub 11) Łączna liczba operacja wynosi: T(n, m) = 2 + 1 + n + (n + 1) + n (1 + m + (m + 1) + m (1 + 1)) = 2n + 4 + n (4m + 2) = 4(nm + n + 1). Dla wartości n > 0, m > 1, iloczyn nm n + 1, dlatego pomnożenie tego pierwszego o pewną stałą c 8 pozwala otrzymać asymptotyczne górne ograniczenie na T(n, m): (n 0, m 0, c > 0) (n n 0, m m 0 ) T(n, m) = 4(nm + n + 1) c nm. Złożoność czasowa algorytmu tworzenia macierzy kropkowej jest więc rzędu co najwyżej rzędu nm, co zapisuje się O(nm). 4

W praktyce, w przypadku szacowania złożoności obliczeniowej czasowej zwykle wystarczy zbadać liczbę powtórzeń pętli (nie dotyczy to algorytmów rekurencyjnych). Przestrzenna złożoność obliczeniowa to rozmiar wykorzystanej pamięci. W przedstawionym algorytmie można wyróżnić następujące alokacje pamięci: n + m - rozmiar sekwencji wejściowych x i y (linia 1) 2 zmienne przechowujące rozmiar sekwencji wejściowych (linie 3-4) 2 zmienne przechowujące liczniki pętli (linie 5-6) nm - rozmiar macierzy kropkowej (linie 9 i 11) Zatem, złożoność obliczeniowa przestrzenna wynosi: (n 0, m 0, c > 0) (n n 0, m m 0 ) S(n, m) = nm + n + m + 4 c nm O(nm). CIĄG DALSZY NASTĄPI Literatura [1] Bioinformatyka - Wikipedia, wolna encyklopedia. https://pl.wikipedia.org/wiki/bioinformatyka [2] Bioinformatics - Bioinformatics.Org Wiki. https://www.bioinformatics.org/wiki/bioinformatics [3] Scope guidelines Bioinformatics Oxford Academic. https://academic.oup.com/bioinformatics/pages/scope guidelines [4] An introduction to Next-Generation Sequencing Technology. https://www.illumina.com/content/dam/illumina-marketing /documents/products/illumina sequencing introduction.pdf [5] How it works. https://nanoporetech.com/how-it-works [6] GeneBank and WGS Statistics. https://www.ncbi.nlm.nih.gov/genbank/statistics/ [7] Sayers E. A General Introduction to the E-utilities. In: Entrez Programming Utilities Help. https://www.ncbi.nlm.nih.gov/books/nbk25497/ 5