Przewidywanie miejsc wiązania nukleosomów w genomie drożdży

Podobne dokumenty
Modelowanie motywów łańcuchami Markowa wyższego rzędu

Testowanie hipotez statystycznych

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Plan wykładu: Budowa chromatyny - nukleosomy. Wpływ nukleosomów na replikację i transkrypcję

Matematyka ubezpieczeń majątkowych r.

RACHUNEK PRAWDOPODOBIEŃSTWA - POJĘCIA WSTĘPNE MATERIAŁY POMOCNICZE - TEORIA

Wstęp do Techniki Cyfrowej... Teoria automatów

Statystyczna analiza danych

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Teoria grafów - Teoria rewersali - Teoria śladów

Nowoczesne systemy ekspresji genów

10. Wstęp do Teorii Gier

Niepewności pomiarów

Matematyka ubezpieczeń majątkowych r.

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

i=7 X i. Zachodzi EX i = P(X i = 1) = 1 2, i {1, 2,..., 11} oraz EX ix j = P(X i = 1, X j = 1) = 1 7 VarS 2 2 = 14 3 ( 5 2 =

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Analizy wielkoskalowe w badaniach chromatyny

INICJACJA ELONGACJA TERMINACJA

Programowanie celowe #1

01. dla x 0; 1 2 wynosi:

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

METODY STATYSTYCZNE W BIOLOGII

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

WYKŁAD 1. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Instytut Matematyki Uniwersytet Warszawski

PDF created with FinePrint pdffactory Pro trial version

Matematyka ubezpieczeń majątkowych r.

STATYSTYKA MATEMATYCZNA

Rozkład figury symetrycznej na dwie przystające

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

Badanie dynamiki białek jądrowych w żywych komórkach metodą mikroskopii konfokalnej

METODA PERT. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

Opis wykonanych badań naukowych oraz uzyskanych wyników

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

EGZAMIN DYPLOMOWY, część II, Biomatematyka

Estymacja w regresji nieparametrycznej

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Uchwała nr 7/09/2019. Komisji Rekrutacyjnej Szkoły Doktorskiej Nauk Ścisłych i Przyrodniczych. z dnia 17 września 2019 r.

Układy statystyczne. Jacek Jurkowski, Fizyka Statystyczna. Instytut Fizyki

Deska Galtona. Adam Osękowski. Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski

Wykład 5. Remodeling chromatyny

Informacja o przestrzeniach Sobolewa

STATYSTYKA MATEMATYCZNA

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej. Modele nieliniowe Funkcja produkcji

Modelowanie niezawodności prostych struktur sprzętowych

Zadanie 1. Ilość szkód N ma rozkład o prawdopodobieństwach spełniających zależność rekurencyjną:

Testowanie hipotez statystycznych.

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Komputerowe wspomaganie projektowanie leków

domykanie relacji, relacja równoważności, rozkłady zbiorów

składa się z m + 1 uporządkowanych niemalejąco liczb nieujemnych. Pomiędzy p, n i m zachodzi następująca zależność:

Zmienne zależne i niezależne

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Wprowadzenie do analizy korelacji i regresji

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek

FUNKCJE. (odwzorowania) Funkcje 1

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Prawdopodobieństwo i statystyka

2a. Przeciętna stopa zwrotu

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Matematyka ubezpieczeń majątkowych r.

1 Działania na zbiorach

Skręcenie wektora polaryzacji w ośrodku optycznie czynnym

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Rachunek prawdopodobieństwa

Priorytetyzacja przypadków testowych za pomocą macierzy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

8. Funkcje wielu zmiennych - pochodne cząstkowe

Zawansowane modele wyborów dyskretnych

Ćwiczenia z metodyki nauczania rachunku prawdopodobieństwa

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

030 PROJEKTOWANIE BAZ DANYCH. Prof. dr hab. Marek Wisła

R-PEARSONA Zależność liniowa

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

3 Abstrakcyjne kompleksy symplicjalne.

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1

Technologie baz danych

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wykrywanie anomalii w zbiorze danych o dużym wymiarze

Komórka stuktura i funkcje. Bogusław Nedoszytko. WSZPIZU Wydział w Gdyni

Transkrypt:

w genomie drożdży Aleksander Jankowski Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 8 października 2009 Promotorzy: Jerzy Tiuryn Uniwersytet Warszawski Shyam Prabhakar Genome Institute of Singapore

Outline 1 Wprowadzenie 2 Model wiązania nukleosomów 3 Model termodynamiczny 4 Wyniki 5 Podsumowanie

Outline 1 Wprowadzenie 2 Model wiązania nukleosomów 3 Model termodynamiczny 4 Wyniki 5 Podsumowanie

Wyższe rzędy struktury DNA Źródło: H. Lodish et al., Molecular Cell Biology

Organizacja nukleosomów Rdzeń każdego nukleosomu jest kompleksem ośmiu białek histonowych. Nawija się nań fragment podwójnej helisy DNA długości 147 par zasad (bp). Symetryczna struktura rdzenia wymusza bardzo regularny i zasadniczo powtarzający się układ nukleosomów. Nukleosomy występują na przemian z łącznikowymi fragmentami DNA długości 5-80 bp, zazwyczaj około 50 bp. Struktura zbudowana z nukleosomów i łączników bywa nazywana koralami na nici. Organizacja nukleosomów jest ściśle związana z regulacją transkrypcji genów, pozwalając na łatwiejszy dostęp do regionów pełniących funkcje regulatorowe. Struktura nukleosomów jest niemal identyczna u wszystkich eukariotów żyjących na Ziemi.

Źródło: http://bio.research.ucsc.edu/people/boeger/researchinterests.htm

Podstawowa referencja i źródło danych

Dostępne dane W roku 2009, Kaplan i wsp. uzyskali pierwsze mapy pokrycia całego genomu drożdży nukleosomami in vitro i in vivo. Celem ich eksperymentu było zbadanie pokrycia nukleosomami in vitro, zależnego tylko od powinowactwa nukleosomów do sekwencji DNA. Wiązanie nukleosomów in vitro nie jest zaburzone przez konkurencję czynników transkrypcyjnych i innych czynników wiążących się z DNA. Do moich obliczeń używałem mapy pokrycia nukleosomami in vitro, uzyskanej z 9.3M odczytów sekwencji związanych z nukleosomami, dających się jednoznacznie zmapować na genom drożdży. Wśród odczytów było 5.3M różnych fragmentów sekwencji.

Outline 1 Wprowadzenie 2 Model wiązania nukleosomów 3 Model termodynamiczny 4 Wyniki 5 Podsumowanie

Model wiązania nukleosomów Budujemy model probabilistyczny, który opisze powinowactwo nukleosomu do różnych fragmentów sekwencji DNA. Naszym celem jest przypisanie każdej sekwencji genomowej o długości 147 pewnej liczby rzeczywistej, opisującej dopasowanie tej sekwencji do nukleosomu. Składowa pozycyjna opisuje powinowactwo pary nukleotydów na ustalonej pozycji na nukleosomie do nukleosomu. Składowa niezależna od pozycji opisuje uśrednione powinowactwo sekwencji długości 5 do nukleosomu. Nazewnictwo: sekwencja długości k = k-mer (np. sekwencja długości 5 = 5-mer) para nukleotydów = 2-mer = dinukleotyd

Powinowactwo poszczególnych nukleotydów do nukleosomu zależy od pozycji na nukleosomie Nucleotide frequency 0.20 0.25 0.30 A C G T 0 50 100 150 Nucleosome Przewidywanie position miejsc wiązania nukleosomów

Składowa pozycyjna Załóżmy, że mamy ustalone wagi N i (pq) dla każdych 1 i 146, p, q Σ = {A, C, G, T }. Będziemy interpretować N i (pq) jako prawdopodobieństwo napotkania dinukleotydu pq na i-tej pozycji nukleosomu. W szczególności N i ( ) jest rozkładem prawdopodobieństwa. Możemy uogólnić definicję N i aby uwzględnić pojedyncze nukleotydy. Dla 1 i 146 i p Σ, kładziemy N i (p) = q Σ N i(pq). Załóżmy, że S jest sekwencją genomową długości 147. Wówczas definiujemy składową pozycyjną N następująco: 146 N (S) = N 1 (S 1 ) i=1 N i (S i S i+1 ) N i (S i ) 146 = N 1 (S 1 S 2 ) i=2 N i (S i S i+1 ). N i (S i )

Składowa pozycyjna Niech i będzie pozycją na nukleosomie, zaś p, q nukleotydami. Wagi N i (pq) zostały wyliczone na podstawie odczytów sekwencji związanych z nukleosomami in vitro. Aby zapobiec efektom brzegowym w miejscach cięcia przez nukleazę mikrokokalną, używamy tylko środkowych 127 bp z sekwencji związanych z nukleosomami. Wbudowujemy symetrię w model: N i (pq) = N 146 i (pq). Rozważamy trzy warianty: Double-normalised variant (D): n i (pq) = #i (pq) Overall(pq) #i (pq) P 146 j=1 #j (pq). Relative variant (R): n i (pq) = rozkładem prawdopodobieństwa dinukleotydów w całym genomie. Null variant (Z)., gdzie Overall( ) jest

Warianty składowej pozycyjnej Double-normalised variant (D) Relative variant (R) Position specific dinucleotide frequency 0.22 0.23 0.24 0.25 0.26 0.27 AA/AT/TA/TT CC/CG/GC/GG Position specific dinucleotide frequency 0.20 0.22 0.24 0.26 0.28 0.30 AA/AT/TA/TT CC/CG/GC/GG 0 50 100 150 0 50 100 150 Nucleosome position Nucleosome position

Składowa niezależna od pozycji Załóżmy, że mamy ustalone wagi L(p 1... p 5 ) dla każdego 5-meru p 1,..., p 5 Σ. Będziemy interpretować L(p 1... p 5 ) jako prawdopodobieństwo napotkania 5-meru p 1... p 5 w sekwencji związanej z nukleosomem. W szczególności L( ) jest rozkładem prawdopodobieństwa. Podobnie jak dla składowej pozycyjnej, możemy uogólnić definicję L aby uwzględnić 4-mery. Dla p 1,..., p 4 Σ, kładziemy L(p 1... p 4 ) = q Σ L(p 1... p 4 q). Załóżmy, że S jest sekwencją genomową długości 147. Wówczas definiujemy składową niezależną od pozycji L następująco: 143 L(S i... S i+4 ) L(S) = L(S 1... S 5 ) L(S i... S i+3 ). i=2

Składowa niezależna od pozycji Niech p 1... p 5 będzie 5-merem (sekwencją nukleotydów długości 5). Wagi L(p 1... p 5 ) zostały wyliczone na podstawie odczytów sekwencji związanych z nukleosomami in vitro. Aby zapobiec efektom brzegowym w miejscach cięcia przez nukleazę mikrokokalną, używamy tylko środkowych 127 bp z sekwencji związanych z nukleosomami. Rozważamy trzy warianty: Natural (N): L(p 1... p 5 ) = Relative (R): L(p 1... p 5 ) = Null (Z): L(p 1... p 5 ) = ( 1 4 )5. #(p 1...p 5) Pq 1,...,q 5 Σ #(q1...q5). q 1,...,q 5 Σ Overall(p 1...p 5) #(p 1...p 5) Overall(q 1...q 5) #(q 1...q 5),

Łączna miara dopasowania Załóżmy, że S jest sekwencją genomową długości 147. Łączna miara dopasowania jest wyliczana jako Score(S) = ln L(S) N (S).

Outline 1 Wprowadzenie 2 Model wiązania nukleosomów 3 Model termodynamiczny 4 Wyniki 5 Podsumowanie

Termodynamiczny model wiązania nukleosomów Załóżmy teraz, że S jest sekwencją genomową całego chromosomu. Niech C będzie przestrzenią wszystkich dopuszczalnych konfiguracji nukleosomów na sekwencji S. Dopuszczalną konfiguracją jest taki zbiór nukleosomów długości 147 bp (reprezentowanych przez ich pozycje początkowe na S), że żadne dwa nukleosomy na siebie nie zachodzą.

Termodynamiczny model wiązania nukleosomów Dla każdej konfiguracji c C, składającej się z k nukleosomów o pozycjach początkowych c[1],..., c[k], przypisujemy statystyczną wagę W c [S] = k τ exp(β Score(S[c[i]... c[i] + 146])), i=1 gdzie τ i β są ustalonymi parametrami, zaś S[k... l] oznacza podsekwencję S od pozycji k do pozycji l włącznie. Parametr τ można interpretować jako stężenie nukleosomów, a β jako odwrotność temperatury. Przyjmując rozkład Boltzmanna na C, możemy określić prawdopodobieństwo każdej konfiguracji c C: P(c S) = W c [S] c C W c [S].

Termodynamiczny model wiązania nukleosomów Znalezienie konfiguracji c C maksymalizującej P(c S) jest bardzo kłopotliwe, ze względu na wykładniczy koszt przeszukiwania całej przestrzeni kombinacji C. Ponadto, przywiązywanie się do najbardziej prawdopodobnej konfiguracji może być zwodnicze, gdyż można zaniedbać podzbiór podobnych konfiguracji o większym łącznym prawdopodobieństwie. Zastosujemy inne podejście. naszym celem będzie policzenie, dla każdej pozycji na S, średniego pokrycia tej pozycji nukleosomami, rozumianego jako prawdopodobieństwo, że dana pozycja jest pokryta przez jakiś nukleosom. Aby to osiągnąć, użyjemy programowania dynamicznego, aby dla każdej pozycji na S policzyć prawdopodobieństwo, że jakiś nukleosom zaczyna się właśnie na tej pozycji.

Kroczymy naprzód... Wyliczamy ciąg F 1,..., F M, gdzie M = S. Liczba F i będzie sumą statystycznych wag wszystkich dopuszczalnych konfiguracji na podsekwencji S 1,..., S i : F 0 := 1 (dla pełności), F i := F i 1 dla 1 i 146, F i := F i 1 + F i 147 τ exp(β Score(S[i 146... i])) dla 147 i M. Ten wzór wyraża fakt, że każda konfiguracja c na podsekwencji S 1,..., S i spełnia dokładnie jeden z poniższych warunków: 1 c nie pokrywa pozycji S[i], wobec czego można o niej myśleć jak o konfiguracji nukleosomów na S 1,..., S i 1 2 c zawiera nukleosom pokrywający pozycje S[i 146... i] (a na podsekwencji S 1,..., S i 147 może być cokolwiek).

... i wstecz Wyliczamy ciąg R 1,..., R M, gdzie M = S. Liczba R i będzie sumą statystycznych wag wszystkich dopuszczalnych konfiguracji na podsekwencji S i,..., S M : R M+1 := 1 (dla pełności), R i := R i+1 dla M 145 i M, R i := R i+1 + R i+147 τ exp(β Score(S[i... i + 146])) dla 1 i M 146.

Łączymy kroki naprzód z krokami wstecz Wpierw zauważmy, że z definicji F i i R i, F M = R 1 = W c [S]. c C Możemy teraz łatwo policzyć prawdopodobieństwo P i [S] umieszczenia nukleosomu zaczynającego się na pozycji 1 i M 146 sekwencji S: P i [S] = F i 1 τ exp(β Score(S[i... i + 146])) R i+147 R 1. Średnie pokrycie nukleosomami, rozumiane jako prawdopodobieństwo, że dana pozycja i jest pokryta przez jakiś nukleosom, może być teraz wyliczone następująco: 146 P i k [S]. k=0

Outline 1 Wprowadzenie 2 Model wiązania nukleosomów 3 Model termodynamiczny 4 Wyniki 5 Podsumowanie

Optymalne wartości τ i β dla genomu drożdży Skł. nzl. od pozycji (L) N R Z Składowa pozycyjna (N ) D R Z τ = 0.0160 τ = 0.0354 τ = 0.0148 β = 0.3415 β = 0.2956 β = 0.3353 korelacja 59.9% korelacja 71.7% korelacja 59.2% τ = 0.0105 τ = 0.0231 τ = 0.0100 β = 0.7918 β = 0.4524 β = 0.7593 korelacja 90.3% korelacja 90.8% korelacja 89.4% τ = 8.16 10 13 τ = 0.0306 β = 3.50 10 6 β = 0.9160 korelacja 37.4% korelacja 87.5% Optymalne wartości τ i β dla całej nierepetytywnej części genomu drożdży (10.8M bp = 89.3% genomu). Dla tych wartości τ i β podana jest też korelacja Pearsona między przewidywanym i obserwowanym in vitro pokryciem nukleosomami.

Przewidywania pełnego modelu 0.90 0.88 0.86 0.84 0.82 0.80 0.5 1.0 beta 1.5 0.08 0.06 0.02 0.04 tau beta 0.5 1.0 1.5 2.0 0.86 0.85 0.84 0.88 0.83 0.89 0.87 0.82 0.9 0.87 0.88 0.89 0.86 0.81 2.0 0.10 0.02 0.04 0.06 0.08 0.10 Optymalne wartości: τ = 0.0231, β = 0.4524, korelacja 90.8%. Dla porównania, najlepszym wynikiem uzyskanym przez Kaplana i wsp. jest 88.0%. tau

Przewidywania samej składowej niezależnej od pozycji 0.88 0.86 0.84 0.82 0.80 0.5 1.0 beta 1.5 0.08 0.06 0.02 0.04 tau beta 0.5 1.0 1.5 2.0 0.88 0.89 0.88 0.87 0.82 0.86 0.85 0.84 0.83 0.81 2.0 0.10 0.02 0.04 0.06 0.08 0.10 Optymalne wartości: τ = 0.0100, β = 0.7593, korelacja 89.4%. Dla porównania, wynikiem uzyskanym przez Kaplana i wsp. w analogicznym przypadku (P L -only model) jest 87.6%. tau

Przewidywania samej składowej pozycyjnej 0.85 0.80 0.75 0.70 0.5 0.06 0.02 0.04 beta 0.5 1.0 1.5 2.0 0.84 0.85 0.82 0.86 0.84 0.81 0.87 0.86 0.85 0.83 0.8 1.0 beta 1.5 0.08 tau 0.79 0.78 0.77 0.72 0.76 0.74 0.75 0.7 2.0 0.10 0.02 0.04 0.06 0.08 0.10 Optymalne wartości: τ = 0.0306, β = 0.9160, korelacja 87.5%. Dla porównania, wynikiem uzyskanym przez Kaplana i wsp. w analogicznym przypadku (P N -only model) jest 82.0%. tau

Outline 1 Wprowadzenie 2 Model wiązania nukleosomów 3 Model termodynamiczny 4 Wyniki 5 Podsumowanie

Podsumowanie Naszym celem jest stworzenie modelu dobrze opisującego wiązanie nukleosomów i czynników transkrypcyjnych. Celem pracy magisterskiej było powtórzenie wyników uzyskanych przez Kaplana i wsp. oraz zbadanie wpływu parametrów modelu na jego wierność. Opis użytych metod w oryginalnym artykule był bardzo niejasny, wobec czego testowałem różne warianty modelu wiązania nukleosomów. W najlepszych wariantach, uzyskaliśmy lepsze wyniki niż podane w oryginalnym artykule.

Dalszy rozwój Całościowy model wiązania nukleosomów i czynników transkrypcyjnych. Więzy na długość łączników między kolejnymi nukleosomami (wymuszone przez interakcje między nimi w skali molekularnej). Uwzględnienie potwierdzonego doświadczalnie współdziałania między czynnikami transkrypcyjnymi.