13 października 2009
O czym będzie mowa? Eksperyment biologiczny eksperyment biologiczny: mikromacierze modelowanie sieci interakcji: II zasada termodynamiki cel: weryfikacja metody metoda symulowania danych: algorytm Gillespiego modele reakcji biochemicznych: BioModels
motywacja: projekt COST Eksperyment biologiczny poznanie mechanizmów molekularnych odpowiedzi roślin na stresy rozszerzenie zasięgu roślin uprawnych model: Arabidopsis thaliana (Rzodkiewnik zwyczajny) badanie i porównywanie transkryptomu rośliny poddanej i nie poddanej stresom przy użyciu mikromacierzy
Mikromacierz Wprowadzenie Eksperyment biologiczny szklana lub plastikowa płytka, na którą naniesiono krótkie fragmenty DNA na płytkę wylewa się materiał genetyczny wyznakowany znacznikiem fluorescencyjnym cząsteczki kwasu nukleinowego wiążą się do komplementarnych sekwencji obraz odczytuje się za pomocą lasera lub mikroskopu intensywność sygnału dla poszczególnych sond jest proporcjonalna do ilości DNA o danej sekwencji w próbce
Eksperyment biologiczny Eksperyment biologiczny eksperyment powtarzamy w pewnych odstępach czasu informacja na temat zmian ekspresji poszczególnych genów w czasie cel metody matematycznej: znalezienie sieci interakcji genów
Postać danych Wprowadzenie postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń uzyskane dane - macierz, której wiersze to kolejne geny, a kolumny - punkty czasowe przyjmujemy N - liczba genów, T- liczba punktów pomiarowych X 1, X 2,..X N - oznaczają poziomy ekspresji kolejnych N genów X 1, X 2,...X T - kolejne stany - wartości ekspresji w kolejnych punktach czasowych p k - prawdopodobieństwo k-tego stanu
trochę fizyki Wprowadzenie postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń w układzie termodynamicznie izolowanym istnieje funkcja stanu zwana entropią S S = i p i ln(p i ), gdzie p i - prawdopodobieństwo i- tego stanu układu entropia - niepewność wystąpienia danego zdarzenia; jeśli zdarzenie występuje z prawdopodobieństwem równym 1, to entropia wynosi 0,jest zaś maksymalna, gdy wszystkie zdarzenia są równoprawdopodobne. II ZT: każdy układ izolowany dąży do stanu równowagi, w którym entropia osiąga maksimum
Zadanie matematyczne postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń będziemy poszukiwać rozkładu p(x ), który zmaksymalizuje entropię systemu T S = p k ln(p k ) (1) przy ograniczeniach: 1 Tk=1 p k = 1 k=1 2 EX i = T k=1 p k x k i = 1 T Tk=1 x k i 3 E(X i X j ) = T k=1 p k x k i x k j = 1 T Tk=1 x k i x k j warunek pierwszy stanowi, że prawdopodobieństwa wszystkich stanów sumują się do 1 warunek drugi i trzeci mówią, że rozkład zachowuje średnią wartość oraz korelację między zmiennymi
mnożniki Lagrange a postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń zastosujemy metodę mnożników Lagrange a: wprowadzamy współczynniki ν, µ i oraz λ ij i maksymalizujemy: F = S ν T k=1 p k N i=1 µ i Tk=1 p k x k i N i,j=1 λ ij Tk=1 p k x k i x k j
mnożniki Lagrange a c.d. postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń poprzedni warunek prowadzi do k równań postaci: F p k = ln(p k ) + 1 ν N i=1 µ i x k i N i,j=1 λ ij x k i x k j = 0 zatem p k = e 1 ν N i=1 µ i x k i N i,j=1 λ ij x k i x k j, a używając zapisu wektorowego i przyjmując M 1 2 λ otrzymujemy: p( x) = e 1 ν µ i x 1 2 x M x = Ae 1 2 y M y, gdzie y = x + µm 1 a stała A = e 1 2 µm 1 µ e 1 ν.
Poszukiwanie rozkładu c.d. postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń wzór p( x) = Ae 1 2 y M y to gęstość w rozkładzie normalnym pomijając skomplikowany dowód; przy założeniu, że x R N oraz i [1,N] EX i = 0 można pokazać, że M = C 1, gdzie C - macierz kowariancji
Interpretacja: rozkład Boltzmanna postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń analogia do rozkładu Boltzmanna p(x) e H sposób obsadzania poziomów energetycznych przez atomy w stanie równowagi termicznej prawdopodobieństwo obsadzenia stanu maleje wykładniczo wraz z energią poziomu funkcja H = 1 2 xm x odpowiada funkcji energii M - macierz interakcji między genami
trochę wróżenia z kart.. postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń M = C 1 wysoka wartość pozytywna zmiana w ekspresji jednego genu powoduje odwrotną zmianę w ekspresji drugiego wartość negatywna zmiana w ekspresji jednego genu powoduje podobną zmianę w ekspresji drugiego
procedura obliczeń Wprowadzenie postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń metoda krok po kroku: 1 normalizacja macierzy danych tak, by średnia ekspresja genu w czasie wynosiła 0 2 wyliczenie macierzy kowariancji 3 odwrócenie macierzy kowariancji 4 identyfikacja krawędzi (interakcji)
konstrukcja wynikowej sieci postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń metoda nie specyfikuje, które wartości M definiują krawędź dla celów weryfikacji przyjmujemy, że ilość krawędzi jest z góry znana
na następnych slajdach.. Definicje Model reakcji Algorytm Gillespiego przypomnienie: dane stanowią wartości ekspresji genów w czasie dla celów weryfikacji dane będziemy sztucznie generować, wykorzystując: 1 program Copasi, który implementuje algorytm Gillespiego (symuluje szeregi czasowe opierając się na pewnym modelu reakcji) 2 bazę modeli reakcji BioModels
Definicje Model reakcji Algorytm Gillespiego konieczne definicje: proces stochastyczny proces stochastyczny - rodzina zmiennych losowych określonych na pewnej przestrzeni probabilistycznej o wartościach w pewnej przestrzeni mierzalnej w praktyce dziedziną, na której zdefiniowana jest funkcja, jest najczęściej przedział czasowy, taki proces nazywany jest szeregiem czasowym
Definicje Model reakcji Algorytm Gillespiego konieczne definicje: proces Markowa proces Markowa ciąg zdarzeń, w którym prawdopodobieństwo każdego zdarzenia zależy jedynie od wyniku poprzedniego, czyli procesy stochastyczne, które spełniają własność Markowa własność Markowa: P{X (t i+1 ) = s i+1 X (t i ) = s i, X (t i 1 ) = s i1,..., X (t 0 ) = s 0 } = P{X (t i+1 ) = s i+1 X (t i ) = s i } dla wszystkich i N, s 0,..., s i+1 S, t 0,..., t i+1 takich, że t 0 <... < t i < t i+1 łańcuch Markowa to proces Markowa, który zdefiniowany jest na dyskretnej przestrzeni stanów dalej przedstawimy model układu reakcji, którego ewolucja to proces stochastyczny, będący łańcuchem Markowa
Definicje Model reakcji Algorytm Gillespiego stochastyczny model układu reakcji R 1,..., R M - reakcje S 1,..., S N - populacje molekuł #S(t) = (#S 1 (t),..., #S N (t)) - dynamiczny stan systemu #S n (t) oznacza liczbę molekuł populacji S n w chwili t wielkości #S n (t) są zmiennymi losowymi, gdzie przestrzeń zdarzeń elementarnych to pozycje i prędkości wszystkich molekuł
Definicje Model reakcji Algorytm Gillespiego Funkcja intensywności i wektory zmiany stanu dla każdej reakcji R m wprowadzamy funkcję intensywności jej zajścia q m : S R - prawdopodobieństwo zajścia reakcji R m w stanie systemu #S(t) = s w małym przedziale czasowym [t, t + dt] przyjmujemy, że dt są tak małe, że prawdopodobieństwo zajścia więcej niż jednej reakcji jest nieistotne dla każdej reakcji definiujemy wektory zmiany stanu: c m = (c 1,m,..., c N,m ), gdzie c n,m Z oznacza zmianę liczby molekuł populacji S n opisaną przez reakcję R m
algorytm Gillespiego Wprowadzenie Definicje Model reakcji Algorytm Gillespiego służy do symulacji trajektorii łańcucha Markowa używany do analizy układów reakcji opisanych przy pomocy modelu stochastycznego
Definicje Model reakcji Algorytm Gillespiego algorytm Gillespiego:wejście i wyjście na wejściu określamy stan początkowy systemu #S(t 0 ) = s 0, prawdopodobieństwa zajścia reakcji q m, wektory zmian stanu c m oraz czas zakończenia symulacji t max na wyjściu otrzymujemy stany systemu w kolejnych krokach
algorytm Gillespiego: kroki Definicje Model reakcji Algorytm Gillespiego w każdym kroku generowane są wartości m oraz τ, gdzie m oznacza numer reakcji, która zachodzi w czasie [t, t + τ] m oraz τ są generowane przez wylosowanie z rozkładu jednostajnego U[0, 1] dwóch liczb: r m oraz r τ po wylosowaniu r m oraz r τ obliczamy: 1 τ = 1 q 0 (s) ln( 1 r τ ), gdzie q 0 (s) = j q j(s). 2 oraz index kolejnej reakcji m jako najmniejsza wartość j taka, że: j i=1 q i(s) > r m q 0 (s)
algorytm Gillespiego: kroki Definicje Model reakcji Algorytm Gillespiego po zajściu reakcji R m stan systemu jest poprawiany: t := t + τ #S := #S + c m zgodnie z wartościami w wektorze zmiany stanu c m algorytm przebiega dopóki t < t max
Definicje Model reakcji Algorytm Gillespiego algorytm Gillespiego: kroki - podsumowanie 1 inicjalizacja: określenie stanu początkowego systemu, stałych reakcji oraz inicjalizacja generatorów liczb pseudolosowych 2 wyliczenie funkcji intensywności dla danego stanu systemu; prawdopodobieństwo zajścia reakcji zależy od ilości substratów 3 krok Monte Carlo: wylosowanie wartości r m i r τ ; ustalenie m i τ 4 aktualizacja stanu systemu; t := t + τ oraz S := S + c m. Kroki są powtarzane dopóki t < t max.
Copasi Wprowadzenie Copasi SBML - Systems Biology Markup Language BioModels narzędzie pozwalające na symulowanie szeregów czasowych przy użyciu algorytmu Gillespiego umożliwia wczytywanie modelu reakcji w formacie SBML (Systems Biology Markup Language)
Copasi: intuicyjny interfejs Copasi SBML - Systems Biology Markup Language BioModels
Copasi SBML - Systems Biology Markup Language BioModels SBML - Systems Biology Markup Language język oparty na xml-u służy do reprezentacji procesów biologicznych zakłada zdefiniowanie takich elementów jak: typy populacji i zbiory cząstek, definicje reakcji, funkcji, parametrów i stanów początkowych umożliwia precyzyjny opis stochastycznego modelu reakcji
skąd bierzemy modele reakcji? Copasi SBML - Systems Biology Markup Language BioModels baza BioModels - gotowe modele reakcji biochemicznych w formacie SBML
przebieg weryfikacji: podsumowanie Copasi SBML - Systems Biology Markup Language BioModels 1 pobranie odpowiedniego modelu z bazy BioModels 2 zaimportowanie odpowiedniego pliku SBML do programu Copasi 3 symulacja szeregów czasowych przy pomocy algorytmu Gillespiego zaimplementowanego w Copasi 4 analiza wygenerowanych danych metodą maksymalnej entropii (skrypt w R), uzyskanie wynikowej sieci interakcji dla wybranego modelu i porównanie z początkową siecią
Model cyklu dobowego rzodkiewnika model pierwszy: cykl dobowy rzodkiewnika model złożony z 13 typów molekuł oraz 32 reakcji, obejmujących transkrypcję, translację, degradację oraz transport z i do jądra typy molekuł: mrna LHY (clm), cytoplazmatyczne LHY (clc), jądrowe LHY (cln), mrna TOC1 (ctm), cytoplazmatyczne TOC1 (ctc), jądrowe TOC1 (ctn), mrna X (cxm), cytoplazmatyczne X (cxc), jądrowe X (cxn), mrna Y (cym), cytoplazmatyczne Y (cyc), jądrowe Y (cyn), jądrowe P (cpn)
sieć cyklu dobowego rzodkiewnika Model cyklu dobowego rzodkiewnika w tej sieci uwzględniamy tylko reakcje, w których zniknięciu jednej cząsteczki towarzyszy pojawienie się innej takie związki uwzględniono w oryginalnej pracy dotyczacej metody
algorytm Gillespiego: wyniki Model cyklu dobowego rzodkiewnika czas symulacji wynosi 24 godziny, po tym czasie wartości stężeń powracają do stanu bliskiego początkowemu
wynikowa sieć Wprowadzenie Model cyklu dobowego rzodkiewnika żadna krawędź nie została poprawnie zidentyfikowana
nie dajemy za wygraną Model cyklu dobowego rzodkiewnika nadinterpretujemy oryginalną pracę i uwzględniamy również reakcje, w których jedna cząstka katalizuje/ blokuje powstawanie innej (w reakcji powstaje jeden typ cząstki, ale funkcja intensywności zależy od innej)
poszerzona sieć - wyniki Model cyklu dobowego rzodkiewnika uzyskany ranking - boldem zaznaczono poprawne krawędzie
Co dalej? Wprowadzenie Model cyklu dobowego rzodkiewnika sprawdzenie poprawności sieci dla większej liczby punktów czasowych weryfikacja dla innych modeli
Model cyklu dobowego rzodkiewnika KONIEC
Bibliografia Wprowadzenie Model cyklu dobowego rzodkiewnika Timothy R R. Lezon, Jayanth R R. Banavar, Marek Cieplak, Amos Maritan, Nina V V. Fedoroff, Using the principle of entropy maximization to infer genetic interaction networks from gene expression patterns, Proc Natl Acad Sci USA, November 2006 N. Le Novere at al., BioModels Database: A Free, Centralized Database of Curated, Published, Quantitative Kinetic Models of Biochemical and Cellular Systems, Nucleic Acids research, 2006 Daniel T. Gillespie, Exact Stochastic Simulation of Coupled Chemical Reactions, The Journal of Physical Chemistry,1977
Bibliografia Wprowadzenie Model cyklu dobowego rzodkiewnika T. Gillespie, A General Method for Numerically Simulating the Stochastic Time Evolution of Coupled Chemical Reactions, Journal of Computational Physics, 1976S. Hoops at al., COPASI a COmplex PAthway SImulator, Bioinformatics, 2006mod1 J. C. Locke at al., Extension of a genetic network model by iterative experimentation and mathematical analysis, Molecular Systems Biology, June 2005