Druga zasada termodynamiki a modelowanie sieci.

Podobne dokumenty
Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Przybliżanie rozwiązań chemicznego równania głównego poprzez

Spacery losowe generowanie realizacji procesu losowego

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Układy stochastyczne

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Modelowanie komputerowe

Strategie ewolucyjne (ang. evolu4on strategies)

Prawdopodobieństwo i statystyka

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Co to jest model Isinga?

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

GRA Przykład. 1) Zbiór graczy. 2) Zbiór strategii. 3) Wypłaty. n = 2 myśliwych. I= {1,,n} S = {polować na jelenia, gonić zająca} S = {1,,m} 10 utils

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Tematy prac magisterskich i doktorskich

Wykład 8 i 9. Hipoteza ergodyczna, rozkład mikrokanoniczny, wzór Boltzmanna

Układy statystyczne. Jacek Jurkowski, Fizyka Statystyczna. Instytut Fizyki

Metody Rozmyte i Algorytmy Ewolucyjne

Statystyczna analiza danych

Rozkłady statyczne Maxwella Boltzmana. Konrad Jachyra I IM gr V lab

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Prawdopodobieństwo i statystyka

Stosowana Analiza Regresji

Rozkłady wielu zmiennych

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Biostatystyka, # 3 /Weterynaria I/

Ważne rozkłady i twierdzenia

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Równowaga w układach termodynamicznych. Katarzyna Sznajd-Weron

Symulacja w przedsiębiorstwie

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Metody probabilistyczne

Wstęp do fizyki statystycznej: krytyczność i przejścia fazowe. Katarzyna Sznajd-Weron

Metody numeryczne. Wykład nr 12. Dr Piotr Fronczak

Algorytmy estymacji stanu (filtry)

Uczenie sieci typu MLP

Spis treści 3 SPIS TREŚCI

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Bogdan Walkowiak. Zakład Biofizyki

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Ważne rozkłady i twierdzenia c.d.

KADD Minimalizacja funkcji

Transformaty. Kodowanie transformujace

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 3 ZADANIA - ZESTAW 3

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Programowanie liniowe

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Zmienne losowe ciągłe i ich rozkłady

Wykład 2. Przykład zastosowania teorii prawdopodobieństwa: procesy stochastyczne (Markova)

Obliczenia inspirowane Naturą

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

O procesie Wienera. O procesie Wienera. Procesy stochastyczne Wykład XV, 15 czerwca 2015 r. Proces Wienera. Ruch Browna. Ułamkowe ruchy Browna

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Wynik pomiaru jako zmienna losowa

Wykład 3. Entropia i potencjały termodynamiczne

Lista 1. Procesy o przyrostach niezależnych.

Metoda największej wiarygodności

MODELOWANIE RZECZYWISTOŚCI

Przybliżone algorytmy analizy ekspresji genów.

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Algorytmy MCMC i ich zastosowania statystyczne

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Zadanie transportowe i problem komiwojażera. Tadeusz Trzaskalik

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Rachunek Prawdopodobieństwa i Statystyka

Technologie Informacyjne

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Algorytm genetyczny (genetic algorithm)-

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Rachunek prawdopodobieństwa i statystyka

Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich

Zmienne losowe ciągłe i ich rozkłady

Występują fluktuacje w stanie równowagi Proces przejścia do stanu równowagi jest nieodwracalny proces powrotny jest bardzo mało prawdopodobny.

Proces Poissona. Proces {N(t), t 0} nazywamy procesem zliczającym jeśli N(t) oznacza całkowitą liczbę badanych zdarzeń zaobserwowanych do chwili t.

Optymalizacja. Symulowane wyżarzanie

Stochastic modelling of phase transformations using HPC infrastructure

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

17.1 Podstawy metod symulacji komputerowych dla klasycznych układów wielu cząstek

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Komputerowa analiza danych doświadczalnych

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Modelowanie glikemii w procesie insulinoterapii

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Prawdopodobieństwo i statystyka

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Wykład 9: Markov Chain Monte Carlo

Podejście memetyczne do problemu DCVRP - wstępne wyniki. Adam Żychowski

PROGRAMOWANIE KWADRATOWE

Transkrypt:

13 października 2009

O czym będzie mowa? Eksperyment biologiczny eksperyment biologiczny: mikromacierze modelowanie sieci interakcji: II zasada termodynamiki cel: weryfikacja metody metoda symulowania danych: algorytm Gillespiego modele reakcji biochemicznych: BioModels

motywacja: projekt COST Eksperyment biologiczny poznanie mechanizmów molekularnych odpowiedzi roślin na stresy rozszerzenie zasięgu roślin uprawnych model: Arabidopsis thaliana (Rzodkiewnik zwyczajny) badanie i porównywanie transkryptomu rośliny poddanej i nie poddanej stresom przy użyciu mikromacierzy

Mikromacierz Wprowadzenie Eksperyment biologiczny szklana lub plastikowa płytka, na którą naniesiono krótkie fragmenty DNA na płytkę wylewa się materiał genetyczny wyznakowany znacznikiem fluorescencyjnym cząsteczki kwasu nukleinowego wiążą się do komplementarnych sekwencji obraz odczytuje się za pomocą lasera lub mikroskopu intensywność sygnału dla poszczególnych sond jest proporcjonalna do ilości DNA o danej sekwencji w próbce

Eksperyment biologiczny Eksperyment biologiczny eksperyment powtarzamy w pewnych odstępach czasu informacja na temat zmian ekspresji poszczególnych genów w czasie cel metody matematycznej: znalezienie sieci interakcji genów

Postać danych Wprowadzenie postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń uzyskane dane - macierz, której wiersze to kolejne geny, a kolumny - punkty czasowe przyjmujemy N - liczba genów, T- liczba punktów pomiarowych X 1, X 2,..X N - oznaczają poziomy ekspresji kolejnych N genów X 1, X 2,...X T - kolejne stany - wartości ekspresji w kolejnych punktach czasowych p k - prawdopodobieństwo k-tego stanu

trochę fizyki Wprowadzenie postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń w układzie termodynamicznie izolowanym istnieje funkcja stanu zwana entropią S S = i p i ln(p i ), gdzie p i - prawdopodobieństwo i- tego stanu układu entropia - niepewność wystąpienia danego zdarzenia; jeśli zdarzenie występuje z prawdopodobieństwem równym 1, to entropia wynosi 0,jest zaś maksymalna, gdy wszystkie zdarzenia są równoprawdopodobne. II ZT: każdy układ izolowany dąży do stanu równowagi, w którym entropia osiąga maksimum

Zadanie matematyczne postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń będziemy poszukiwać rozkładu p(x ), który zmaksymalizuje entropię systemu T S = p k ln(p k ) (1) przy ograniczeniach: 1 Tk=1 p k = 1 k=1 2 EX i = T k=1 p k x k i = 1 T Tk=1 x k i 3 E(X i X j ) = T k=1 p k x k i x k j = 1 T Tk=1 x k i x k j warunek pierwszy stanowi, że prawdopodobieństwa wszystkich stanów sumują się do 1 warunek drugi i trzeci mówią, że rozkład zachowuje średnią wartość oraz korelację między zmiennymi

mnożniki Lagrange a postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń zastosujemy metodę mnożników Lagrange a: wprowadzamy współczynniki ν, µ i oraz λ ij i maksymalizujemy: F = S ν T k=1 p k N i=1 µ i Tk=1 p k x k i N i,j=1 λ ij Tk=1 p k x k i x k j

mnożniki Lagrange a c.d. postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń poprzedni warunek prowadzi do k równań postaci: F p k = ln(p k ) + 1 ν N i=1 µ i x k i N i,j=1 λ ij x k i x k j = 0 zatem p k = e 1 ν N i=1 µ i x k i N i,j=1 λ ij x k i x k j, a używając zapisu wektorowego i przyjmując M 1 2 λ otrzymujemy: p( x) = e 1 ν µ i x 1 2 x M x = Ae 1 2 y M y, gdzie y = x + µm 1 a stała A = e 1 2 µm 1 µ e 1 ν.

Poszukiwanie rozkładu c.d. postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń wzór p( x) = Ae 1 2 y M y to gęstość w rozkładzie normalnym pomijając skomplikowany dowód; przy założeniu, że x R N oraz i [1,N] EX i = 0 można pokazać, że M = C 1, gdzie C - macierz kowariancji

Interpretacja: rozkład Boltzmanna postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń analogia do rozkładu Boltzmanna p(x) e H sposób obsadzania poziomów energetycznych przez atomy w stanie równowagi termicznej prawdopodobieństwo obsadzenia stanu maleje wykładniczo wraz z energią poziomu funkcja H = 1 2 xm x odpowiada funkcji energii M - macierz interakcji między genami

trochę wróżenia z kart.. postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń M = C 1 wysoka wartość pozytywna zmiana w ekspresji jednego genu powoduje odwrotną zmianę w ekspresji drugiego wartość negatywna zmiana w ekspresji jednego genu powoduje podobną zmianę w ekspresji drugiego

procedura obliczeń Wprowadzenie postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń metoda krok po kroku: 1 normalizacja macierzy danych tak, by średnia ekspresja genu w czasie wynosiła 0 2 wyliczenie macierzy kowariancji 3 odwrócenie macierzy kowariancji 4 identyfikacja krawędzi (interakcji)

konstrukcja wynikowej sieci postać danych Entropia i II zasada termodynamiki Poszukiwanie rozkładu Interpretacja Procedura obliczeń metoda nie specyfikuje, które wartości M definiują krawędź dla celów weryfikacji przyjmujemy, że ilość krawędzi jest z góry znana

na następnych slajdach.. Definicje Model reakcji Algorytm Gillespiego przypomnienie: dane stanowią wartości ekspresji genów w czasie dla celów weryfikacji dane będziemy sztucznie generować, wykorzystując: 1 program Copasi, który implementuje algorytm Gillespiego (symuluje szeregi czasowe opierając się na pewnym modelu reakcji) 2 bazę modeli reakcji BioModels

Definicje Model reakcji Algorytm Gillespiego konieczne definicje: proces stochastyczny proces stochastyczny - rodzina zmiennych losowych określonych na pewnej przestrzeni probabilistycznej o wartościach w pewnej przestrzeni mierzalnej w praktyce dziedziną, na której zdefiniowana jest funkcja, jest najczęściej przedział czasowy, taki proces nazywany jest szeregiem czasowym

Definicje Model reakcji Algorytm Gillespiego konieczne definicje: proces Markowa proces Markowa ciąg zdarzeń, w którym prawdopodobieństwo każdego zdarzenia zależy jedynie od wyniku poprzedniego, czyli procesy stochastyczne, które spełniają własność Markowa własność Markowa: P{X (t i+1 ) = s i+1 X (t i ) = s i, X (t i 1 ) = s i1,..., X (t 0 ) = s 0 } = P{X (t i+1 ) = s i+1 X (t i ) = s i } dla wszystkich i N, s 0,..., s i+1 S, t 0,..., t i+1 takich, że t 0 <... < t i < t i+1 łańcuch Markowa to proces Markowa, który zdefiniowany jest na dyskretnej przestrzeni stanów dalej przedstawimy model układu reakcji, którego ewolucja to proces stochastyczny, będący łańcuchem Markowa

Definicje Model reakcji Algorytm Gillespiego stochastyczny model układu reakcji R 1,..., R M - reakcje S 1,..., S N - populacje molekuł #S(t) = (#S 1 (t),..., #S N (t)) - dynamiczny stan systemu #S n (t) oznacza liczbę molekuł populacji S n w chwili t wielkości #S n (t) są zmiennymi losowymi, gdzie przestrzeń zdarzeń elementarnych to pozycje i prędkości wszystkich molekuł

Definicje Model reakcji Algorytm Gillespiego Funkcja intensywności i wektory zmiany stanu dla każdej reakcji R m wprowadzamy funkcję intensywności jej zajścia q m : S R - prawdopodobieństwo zajścia reakcji R m w stanie systemu #S(t) = s w małym przedziale czasowym [t, t + dt] przyjmujemy, że dt są tak małe, że prawdopodobieństwo zajścia więcej niż jednej reakcji jest nieistotne dla każdej reakcji definiujemy wektory zmiany stanu: c m = (c 1,m,..., c N,m ), gdzie c n,m Z oznacza zmianę liczby molekuł populacji S n opisaną przez reakcję R m

algorytm Gillespiego Wprowadzenie Definicje Model reakcji Algorytm Gillespiego służy do symulacji trajektorii łańcucha Markowa używany do analizy układów reakcji opisanych przy pomocy modelu stochastycznego

Definicje Model reakcji Algorytm Gillespiego algorytm Gillespiego:wejście i wyjście na wejściu określamy stan początkowy systemu #S(t 0 ) = s 0, prawdopodobieństwa zajścia reakcji q m, wektory zmian stanu c m oraz czas zakończenia symulacji t max na wyjściu otrzymujemy stany systemu w kolejnych krokach

algorytm Gillespiego: kroki Definicje Model reakcji Algorytm Gillespiego w każdym kroku generowane są wartości m oraz τ, gdzie m oznacza numer reakcji, która zachodzi w czasie [t, t + τ] m oraz τ są generowane przez wylosowanie z rozkładu jednostajnego U[0, 1] dwóch liczb: r m oraz r τ po wylosowaniu r m oraz r τ obliczamy: 1 τ = 1 q 0 (s) ln( 1 r τ ), gdzie q 0 (s) = j q j(s). 2 oraz index kolejnej reakcji m jako najmniejsza wartość j taka, że: j i=1 q i(s) > r m q 0 (s)

algorytm Gillespiego: kroki Definicje Model reakcji Algorytm Gillespiego po zajściu reakcji R m stan systemu jest poprawiany: t := t + τ #S := #S + c m zgodnie z wartościami w wektorze zmiany stanu c m algorytm przebiega dopóki t < t max

Definicje Model reakcji Algorytm Gillespiego algorytm Gillespiego: kroki - podsumowanie 1 inicjalizacja: określenie stanu początkowego systemu, stałych reakcji oraz inicjalizacja generatorów liczb pseudolosowych 2 wyliczenie funkcji intensywności dla danego stanu systemu; prawdopodobieństwo zajścia reakcji zależy od ilości substratów 3 krok Monte Carlo: wylosowanie wartości r m i r τ ; ustalenie m i τ 4 aktualizacja stanu systemu; t := t + τ oraz S := S + c m. Kroki są powtarzane dopóki t < t max.

Copasi Wprowadzenie Copasi SBML - Systems Biology Markup Language BioModels narzędzie pozwalające na symulowanie szeregów czasowych przy użyciu algorytmu Gillespiego umożliwia wczytywanie modelu reakcji w formacie SBML (Systems Biology Markup Language)

Copasi: intuicyjny interfejs Copasi SBML - Systems Biology Markup Language BioModels

Copasi SBML - Systems Biology Markup Language BioModels SBML - Systems Biology Markup Language język oparty na xml-u służy do reprezentacji procesów biologicznych zakłada zdefiniowanie takich elementów jak: typy populacji i zbiory cząstek, definicje reakcji, funkcji, parametrów i stanów początkowych umożliwia precyzyjny opis stochastycznego modelu reakcji

skąd bierzemy modele reakcji? Copasi SBML - Systems Biology Markup Language BioModels baza BioModels - gotowe modele reakcji biochemicznych w formacie SBML

przebieg weryfikacji: podsumowanie Copasi SBML - Systems Biology Markup Language BioModels 1 pobranie odpowiedniego modelu z bazy BioModels 2 zaimportowanie odpowiedniego pliku SBML do programu Copasi 3 symulacja szeregów czasowych przy pomocy algorytmu Gillespiego zaimplementowanego w Copasi 4 analiza wygenerowanych danych metodą maksymalnej entropii (skrypt w R), uzyskanie wynikowej sieci interakcji dla wybranego modelu i porównanie z początkową siecią

Model cyklu dobowego rzodkiewnika model pierwszy: cykl dobowy rzodkiewnika model złożony z 13 typów molekuł oraz 32 reakcji, obejmujących transkrypcję, translację, degradację oraz transport z i do jądra typy molekuł: mrna LHY (clm), cytoplazmatyczne LHY (clc), jądrowe LHY (cln), mrna TOC1 (ctm), cytoplazmatyczne TOC1 (ctc), jądrowe TOC1 (ctn), mrna X (cxm), cytoplazmatyczne X (cxc), jądrowe X (cxn), mrna Y (cym), cytoplazmatyczne Y (cyc), jądrowe Y (cyn), jądrowe P (cpn)

sieć cyklu dobowego rzodkiewnika Model cyklu dobowego rzodkiewnika w tej sieci uwzględniamy tylko reakcje, w których zniknięciu jednej cząsteczki towarzyszy pojawienie się innej takie związki uwzględniono w oryginalnej pracy dotyczacej metody

algorytm Gillespiego: wyniki Model cyklu dobowego rzodkiewnika czas symulacji wynosi 24 godziny, po tym czasie wartości stężeń powracają do stanu bliskiego początkowemu

wynikowa sieć Wprowadzenie Model cyklu dobowego rzodkiewnika żadna krawędź nie została poprawnie zidentyfikowana

nie dajemy za wygraną Model cyklu dobowego rzodkiewnika nadinterpretujemy oryginalną pracę i uwzględniamy również reakcje, w których jedna cząstka katalizuje/ blokuje powstawanie innej (w reakcji powstaje jeden typ cząstki, ale funkcja intensywności zależy od innej)

poszerzona sieć - wyniki Model cyklu dobowego rzodkiewnika uzyskany ranking - boldem zaznaczono poprawne krawędzie

Co dalej? Wprowadzenie Model cyklu dobowego rzodkiewnika sprawdzenie poprawności sieci dla większej liczby punktów czasowych weryfikacja dla innych modeli

Model cyklu dobowego rzodkiewnika KONIEC

Bibliografia Wprowadzenie Model cyklu dobowego rzodkiewnika Timothy R R. Lezon, Jayanth R R. Banavar, Marek Cieplak, Amos Maritan, Nina V V. Fedoroff, Using the principle of entropy maximization to infer genetic interaction networks from gene expression patterns, Proc Natl Acad Sci USA, November 2006 N. Le Novere at al., BioModels Database: A Free, Centralized Database of Curated, Published, Quantitative Kinetic Models of Biochemical and Cellular Systems, Nucleic Acids research, 2006 Daniel T. Gillespie, Exact Stochastic Simulation of Coupled Chemical Reactions, The Journal of Physical Chemistry,1977

Bibliografia Wprowadzenie Model cyklu dobowego rzodkiewnika T. Gillespie, A General Method for Numerically Simulating the Stochastic Time Evolution of Coupled Chemical Reactions, Journal of Computational Physics, 1976S. Hoops at al., COPASI a COmplex PAthway SImulator, Bioinformatics, 2006mod1 J. C. Locke at al., Extension of a genetic network model by iterative experimentation and mathematical analysis, Molecular Systems Biology, June 2005