1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji 7. Sekwencjonowanie nowej generacji 8. Funkcjonalna adnotacja polimorfizmów 9. Funkcjonalna adnotacja polimorfizmów 10. Bazy danych 11. Wybrane algorytmy 12. Literatura 2017-2018 13. Literatura 2017-2018 14. Literatura 2017-2018 15. Literatura 2017-2018

WSTĘP 1. Symulacje komputerowe Idea symulacji Przykład 2. Metody próbkowania Jackknife Bootstrap 3. Łańcuchy Markova 4. Próbkowanie Gibbsa

SYMULACJE MONTE CARLO

SYMULACJE MONTE CARLO - historia Enrico Fermi Stanisław Ulam John vonneumann Instytut Los Alamos, USA Monte Carlo

SYMULACJE MONTE CARLO - historia

SYMULACJE MONTE CARLO - zastosowanie ANALIZA SYSTEMÓW ZŁOŻONYCH, WYKORZYSTUJĄCA: prawdopodobieństwo losowość komputer + oprogramowanie

SYMULACJE MONTE CARLO - zastosowanie 1. wnioskowanie o systemach zbyt skomplikowanych do opisu deterministycznego 2. modelowanie systemów złożonych w różnych warunkach 3. np. przewidywanie pogody finanse genetyka modelowanie dynamiki populacji, determinacji cech fenotypowych,... statystyka - testowanie hipotez, określanie dokładności estymatorów, określanie wielkości błędów I-go i II-go rodzaju...

SYMULACJE MONTE CARLO - przebieg symulacji dane wejściowe model 1. Zdefiniowanie modelu i danych wejściowych 2. Wygenerowanie liczb losowych 3. Obliczenie wielkości wynikowych powtórzyć 1.-3. przynajmniej 1 000 razy 4. Podsumowanie wyników 5. Np. aproksymacja liczby p: http://commons.wikimedia.org/wiki/file:pi_30k.gif wynik

SYMULACJE MONTE CARLO - przykład dane wejściowe ANALIZA STRUKTURY GENETYCZNEJ POPULACJI frekwencje alleli przeżywalność płodność podatność na choroby liczba pokoleń struktura populacji w pokoleniu N

SYMULACJE MONTE CARLO - przykład SYMULACJA GENOTYPÓW i WARTOŚCI CECH osobnik liczba losowa1 liczba losowa 2 allel 1 allel 2 wzrost - efekt genetyczny wzrost - efekt środowiskowy obserwowany wzrost 1 0.85 0.37 1 1-10 10 160 2 0.81 0.14 1 2 0-9 151 3 0.39 0.06 1 2 0-1 159 4 0.21 0.16 2 2 10 3 173 5 0.06 0.84 2 1 0-4 156 6 0.24 0.11 2 2 10 7 177 7 0.90 0.96 1 1-10 1 151 8 0.57 0.19 1 2 0-8 152 9 0.83 0.10 1 2 0-4 156 10 0.50 0.63 1 1-10 9 159 frekwencja allelu 2 0.3 frekwencja allelu 1 0.7 efekt allelu 2 na wzrost 10 test t -0.6734445 średni wzrost w populacji 160 alfa max 0.0500000 alfa t 0.5175833 obserwow any średni wzrost 159 hipoteza 0

METODY PRÓBKOWANIA

METODY PRÓBKOWANIA Określenie cech estymatora średnia, wariancja, obciążenie Alternatywa dla podejścia numerycznego Alternatywa dla podejścia empirycznego Wykorzystuje pojedynczą, dostępną próbę danych Jackknife Bootstrap

JACKKNIFE próba danych Jackknife 1: n1 n2 n3 n4 n5 oryginalna próba danych: n1 n2 n3 n4 n5 próba danych Jackknife 2: n1 n2 n3 n4 n5 próba danych Jackknife 5: n1 n2 n3 n4

JACKKNIFE próba danych Jackknife 1: x(1) = 14 oryginalna próba danych: estymator średniej x = 15 próba danych Jackknife 2: x(2) = 18 próba danych Jackknife 5: x(5) = 16

JACKKNIFE średnia wariancja obciążenie

BOOTSTRAP próba danych Bootstrap 2: n2 n3 n4 oryginalna próba danych: n1 n2 n3 n4 n5 próba danych Bootstrap 2: n1 n1 n5 próba danych Bootstrap N: n1 n2 n3

BOOTSTRAP próba danych Bootstrap 1: x(1) = 14 oryginalna próba danych: estymator średniej x = 15 próba danych Bootstrap 2: x(2) = 18 próba danych Bootstrap N: x(n) = 16

BOOTSTRAP średnia wariancja obciążenie x ˆ 1 N B x i N i1 2 J 1 N 1 x x B xi x x x B N i1 2

ŁAŃCUCHY MARKOVA

ŁAŃCUCHY MARKOVA MARKOV CHAIN: modeluje prawdopodobieństwo uzyskania poszczególnych wartości zmiennej

ŁAŃCUCHY MARKOVA wartość zmiennej (X) np. liczba żywych rekombinantów, średnia wartość cechy stan (n) np. struktura populacji, liczebność osobników o danych genotypach, przeżywalność osobników, wsp. rekombinacji prawdop. przejścia z 1 do 2 prawdop. przejścia z n-1 do n wartość zmiennej stan 1 wartość zmiennej stan 2 wartość zmiennej stan n

ŁAŃCUCHY MARKOVA Macierz prawdopodobieństw przejścia pomiędzy poszczególnymi stanami stan 1 2 3 4 5 1 0.40 0.60 0.00 0.00 0.00 2 0.60 0.00 0.50 0.00 0.00 3 0.00 0.30 0.00 0.70 0.00 4 0.00 0.00 0.10 0.30 0.60 5 0.00 0.30 0.00 0.50 0.30

PRÓBKOWANIE GIBBSA

PRÓBKOWANIE GIBBSA GIBBS SAMPLING algorytm oparty o metodę Markov Chain wykorzystują do generowania danych zasadę symulacji Monte Carlo Monte Carlo Markov Chain = MCMC umożliwia generowanie danych pochodzących z rozkładu wielowymiarowego f(x,y,z) trudne Poprzez generowanie danych z rozkładów warunkowych poszczególnych zmiennych generowanie x z rozkładu f(x y, z) generowanie y z rozkładu f(y x, z) generowanie z z rozkładu f(z x, y) łatwiejsze

PRZYKŁAD 1. dane: x - liczba rekombinantów, nieznana r - współczynnik rekombinacji, nieznana n - liczba osobników, znana 2. Estymacja: x i r 3. Prawdopodobieństwo warunkowe P ( r x, n) = Beta (x, n-x) P ( x r, n) = Dwumianowy (r, n) PRÓBKOWANIE GIBBSA 1 1 1 ), ( x n x r r x n x x n x x n x r P x n x r r x n n r x P 1 ), (!!! x n x n x n

PRÓBKOWANIE GIBBSA GENEROWANIE DANYCH generowanie wartości początkowych x 0, r 0 generowanie wartości r t+1 ~ Beta (x t,n-x t ) generowanie wartości x t+1 ~ Dwum (r t+1,n) t = 10 000 f(x,y): x 1, r 1 x 2, r 2 x 3, r 3... x t, r t

PRÓBKOWANIE GIBBSA NS=10000 # number of generated samples n=20 # total number of individuals sample=matrix(0,nrow=ns,ncol=2) # generate starting values r=runif(1,0,0.5) # wsp. rekombinacji x=rbinom(1,n,r) # liczba remombinantów # generate next NS valuess for (i in 1:NS) { r=rbeta(1,x+1,n-x+1) print(r) while (r>0.5) { r=rbeta(1,x+1,n-x+1) } x=rbinom(1,n,r) sample[i,1]=x sample[i,2]=r sample[1:20,1] hist(sample[,1],main='histogram of generated values',xlab='l.rekombinantow') } # results sample[1:20,1] plot(sample[,1],xlab='sample',ylab='l.rekombinantow') meanx=mean(sample[,1]) sdx=sd(sample[,1]) meanx sdx sample[1:20,2] hist(sample[,2],main='histogram of generated values',xlab='wsp.rekombinacji') plot(sample[,2],xlab='sample',ylab='w.rekombinacji') meanr=mean(sample[,2]) sdr=sd(sample[,2]) meanr sdr Copyright 2009, Joanna Szyda

PRÓBKOWANIE GIBBSA

PRZYKŁAD Z LITERATURY

1. Symulacje komputerowe Idea symulacji Przykład 2. Metody próbkowania Jackknife Bootstrap 3. Łańcuchy Markova 4. Próbkowanie Gibbsa