BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji 7. Sekwencjonowanie nowej generacji 8. Funkcjonalna adnotacja polimorfizmów 9. Funkcjonalna adnotacja polimorfizmów 10. Bazy danych 11. Wybrane algorytmy 12. Literatura 2017-2018 13. Literatura 2017-2018 14. Literatura 2017-2018 15. Literatura 2017-2018
WSTĘP 1. Symulacje komputerowe Idea symulacji Przykład 2. Metody próbkowania Jackknife Bootstrap 3. Łańcuchy Markova 4. Próbkowanie Gibbsa
SYMULACJE MONTE CARLO
SYMULACJE MONTE CARLO - historia Enrico Fermi Stanisław Ulam John vonneumann Instytut Los Alamos, USA Monte Carlo
SYMULACJE MONTE CARLO - historia
SYMULACJE MONTE CARLO - zastosowanie ANALIZA SYSTEMÓW ZŁOŻONYCH, WYKORZYSTUJĄCA: prawdopodobieństwo losowość komputer + oprogramowanie
SYMULACJE MONTE CARLO - zastosowanie 1. wnioskowanie o systemach zbyt skomplikowanych do opisu deterministycznego 2. modelowanie systemów złożonych w różnych warunkach 3. np. przewidywanie pogody finanse genetyka modelowanie dynamiki populacji, determinacji cech fenotypowych,... statystyka - testowanie hipotez, określanie dokładności estymatorów, określanie wielkości błędów I-go i II-go rodzaju...
SYMULACJE MONTE CARLO - przebieg symulacji dane wejściowe model 1. Zdefiniowanie modelu i danych wejściowych 2. Wygenerowanie liczb losowych 3. Obliczenie wielkości wynikowych powtórzyć 1.-3. przynajmniej 1 000 razy 4. Podsumowanie wyników 5. Np. aproksymacja liczby p: http://commons.wikimedia.org/wiki/file:pi_30k.gif wynik
SYMULACJE MONTE CARLO - przykład dane wejściowe ANALIZA STRUKTURY GENETYCZNEJ POPULACJI frekwencje alleli przeżywalność płodność podatność na choroby liczba pokoleń struktura populacji w pokoleniu N
SYMULACJE MONTE CARLO - przykład SYMULACJA GENOTYPÓW i WARTOŚCI CECH osobnik liczba losowa1 liczba losowa 2 allel 1 allel 2 wzrost - efekt genetyczny wzrost - efekt środowiskowy obserwowany wzrost 1 0.85 0.37 1 1-10 10 160 2 0.81 0.14 1 2 0-9 151 3 0.39 0.06 1 2 0-1 159 4 0.21 0.16 2 2 10 3 173 5 0.06 0.84 2 1 0-4 156 6 0.24 0.11 2 2 10 7 177 7 0.90 0.96 1 1-10 1 151 8 0.57 0.19 1 2 0-8 152 9 0.83 0.10 1 2 0-4 156 10 0.50 0.63 1 1-10 9 159 frekwencja allelu 2 0.3 frekwencja allelu 1 0.7 efekt allelu 2 na wzrost 10 test t -0.6734445 średni wzrost w populacji 160 alfa max 0.0500000 alfa t 0.5175833 obserwow any średni wzrost 159 hipoteza 0
METODY PRÓBKOWANIA
METODY PRÓBKOWANIA Określenie cech estymatora średnia, wariancja, obciążenie Alternatywa dla podejścia numerycznego Alternatywa dla podejścia empirycznego Wykorzystuje pojedynczą, dostępną próbę danych Jackknife Bootstrap
JACKKNIFE próba danych Jackknife 1: n1 n2 n3 n4 n5 oryginalna próba danych: n1 n2 n3 n4 n5 próba danych Jackknife 2: n1 n2 n3 n4 n5 próba danych Jackknife 5: n1 n2 n3 n4
JACKKNIFE próba danych Jackknife 1: x(1) = 14 oryginalna próba danych: estymator średniej x = 15 próba danych Jackknife 2: x(2) = 18 próba danych Jackknife 5: x(5) = 16
JACKKNIFE średnia wariancja obciążenie
BOOTSTRAP próba danych Bootstrap 2: n2 n3 n4 oryginalna próba danych: n1 n2 n3 n4 n5 próba danych Bootstrap 2: n1 n1 n5 próba danych Bootstrap N: n1 n2 n3
BOOTSTRAP próba danych Bootstrap 1: x(1) = 14 oryginalna próba danych: estymator średniej x = 15 próba danych Bootstrap 2: x(2) = 18 próba danych Bootstrap N: x(n) = 16
BOOTSTRAP średnia wariancja obciążenie x ˆ 1 N B x i N i1 2 J 1 N 1 x x B xi x x x B N i1 2
ŁAŃCUCHY MARKOVA
ŁAŃCUCHY MARKOVA MARKOV CHAIN: modeluje prawdopodobieństwo uzyskania poszczególnych wartości zmiennej
ŁAŃCUCHY MARKOVA wartość zmiennej (X) np. liczba żywych rekombinantów, średnia wartość cechy stan (n) np. struktura populacji, liczebność osobników o danych genotypach, przeżywalność osobników, wsp. rekombinacji prawdop. przejścia z 1 do 2 prawdop. przejścia z n-1 do n wartość zmiennej stan 1 wartość zmiennej stan 2 wartość zmiennej stan n
ŁAŃCUCHY MARKOVA Macierz prawdopodobieństw przejścia pomiędzy poszczególnymi stanami stan 1 2 3 4 5 1 0.40 0.60 0.00 0.00 0.00 2 0.60 0.00 0.50 0.00 0.00 3 0.00 0.30 0.00 0.70 0.00 4 0.00 0.00 0.10 0.30 0.60 5 0.00 0.30 0.00 0.50 0.30
PRÓBKOWANIE GIBBSA
PRÓBKOWANIE GIBBSA GIBBS SAMPLING algorytm oparty o metodę Markov Chain wykorzystują do generowania danych zasadę symulacji Monte Carlo Monte Carlo Markov Chain = MCMC umożliwia generowanie danych pochodzących z rozkładu wielowymiarowego f(x,y,z) trudne Poprzez generowanie danych z rozkładów warunkowych poszczególnych zmiennych generowanie x z rozkładu f(x y, z) generowanie y z rozkładu f(y x, z) generowanie z z rozkładu f(z x, y) łatwiejsze
PRZYKŁAD 1. dane: x - liczba rekombinantów, nieznana r - współczynnik rekombinacji, nieznana n - liczba osobników, znana 2. Estymacja: x i r 3. Prawdopodobieństwo warunkowe P ( r x, n) = Beta (x, n-x) P ( x r, n) = Dwumianowy (r, n) PRÓBKOWANIE GIBBSA 1 1 1 ), ( x n x r r x n x x n x x n x r P x n x r r x n n r x P 1 ), (!!! x n x n x n
PRÓBKOWANIE GIBBSA GENEROWANIE DANYCH generowanie wartości początkowych x 0, r 0 generowanie wartości r t+1 ~ Beta (x t,n-x t ) generowanie wartości x t+1 ~ Dwum (r t+1,n) t = 10 000 f(x,y): x 1, r 1 x 2, r 2 x 3, r 3... x t, r t
PRÓBKOWANIE GIBBSA NS=10000 # number of generated samples n=20 # total number of individuals sample=matrix(0,nrow=ns,ncol=2) # generate starting values r=runif(1,0,0.5) # wsp. rekombinacji x=rbinom(1,n,r) # liczba remombinantów # generate next NS valuess for (i in 1:NS) { r=rbeta(1,x+1,n-x+1) print(r) while (r>0.5) { r=rbeta(1,x+1,n-x+1) } x=rbinom(1,n,r) sample[i,1]=x sample[i,2]=r sample[1:20,1] hist(sample[,1],main='histogram of generated values',xlab='l.rekombinantow') } # results sample[1:20,1] plot(sample[,1],xlab='sample',ylab='l.rekombinantow') meanx=mean(sample[,1]) sdx=sd(sample[,1]) meanx sdx sample[1:20,2] hist(sample[,2],main='histogram of generated values',xlab='wsp.rekombinacji') plot(sample[,2],xlab='sample',ylab='w.rekombinacji') meanr=mean(sample[,2]) sdr=sd(sample[,2]) meanr sdr Copyright 2009, Joanna Szyda
PRÓBKOWANIE GIBBSA
PRZYKŁAD Z LITERATURY
1. Symulacje komputerowe Idea symulacji Przykład 2. Metody próbkowania Jackknife Bootstrap 3. Łańcuchy Markova 4. Próbkowanie Gibbsa