1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Podobne dokumenty
BIOINFORMATYKA. Copyright 2011, Joanna Szyda

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

METODY STATYSTYCZNE W BIOLOGII

WSTĘP. Copyright 2011, Joanna Szyda

STATYSTYKA MATEMATYCZNA

Oprogramowanie dla GWAS

PAKIETY STATYSTYCZNE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

BIOINFORMATYKA 8. Analiza asocjacyjna - teoria

Monte Carlo, bootstrap, jacknife

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE W BIOLOGII

Wykład 9: Markov Chain Monte Carlo

METODY STATYSTYCZNE W BIOLOGII

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Zadania do cz. II (z frekwencji i prawa Hardy ego-weinberga)

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MATEMATYCZNA

Sterowanie wielkością zamówienia w Excelu - cz. 3

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA MATEMATYCZNA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści 3 SPIS TREŚCI

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

STATYSTYKA MATEMATYCZNA WYKŁAD 1

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

5 Błąd średniokwadratowy i obciążenie

DOKŁADNA METODA BOOTSTRAPOWA NA PRZYKŁADZIE ESTYMACJI ŚREDNIEJ

STATYSTYKA MATEMATYCZNA

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA MATEMATYCZNA

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

STATYSTYKA MATEMATYCZNA

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

EGZAMIN MAGISTERSKI, 18 września 2013 Biomatematyka

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Testowanie hipotez statystycznych.

Dryf genetyczny i jego wpływ na rozkłady próbek z populacji - modele matematyczne. Adam Bobrowski, IM PAN Katowice

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Komputerowa Analiza Danych Doświadczalnych

Wykład 14 Test chi-kwadrat zgodności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekotoksykologia 12/9/2016. Procesy losowe w populacjach a skutki działania substancji toksycznych

Prawdopodobieństwo i statystyka r.

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Algorytmy MCMC i ich zastosowania statystyczne

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

STATYSTYKA MATEMATYCZNA WYKŁAD 5 TEST T

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych.

Kolokwium ze statystyki matematycznej

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Zaliczenie. Ćwiczenia (zaliczenie = min. 15 punktów)

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Testowanie hipotez statystycznych.

Statystyka matematyczna dla leśników

Z poprzedniego wykładu

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Zmienność. środa, 23 listopada 11

Modelowanie danych hodowlanych

ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt

ALHE Z11 Jarosław Arabas wykład 11

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Testowanie hipotez statystycznych.

Genetyka Populacji

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Testowanie hipotez statystycznych

Technologie Informacyjne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WSTĘP Oprogramowanie dla GWAS

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA MATEMATYCZNA

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Analiza danych. TEMATYKA PRZEDMIOTU

Ekologia molekularna. wykład 3

STATYSTYKA MATEMATYCZNA

Transkrypt:

BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji 7. Sekwencjonowanie nowej generacji 8. Funkcjonalna adnotacja polimorfizmów 9. Funkcjonalna adnotacja polimorfizmów 10. Bazy danych 11. Wybrane algorytmy 12. Literatura 2017-2018 13. Literatura 2017-2018 14. Literatura 2017-2018 15. Literatura 2017-2018

WSTĘP 1. Symulacje komputerowe Idea symulacji Przykład 2. Metody próbkowania Jackknife Bootstrap 3. Łańcuchy Markova 4. Próbkowanie Gibbsa

SYMULACJE MONTE CARLO

SYMULACJE MONTE CARLO - historia Enrico Fermi Stanisław Ulam John vonneumann Instytut Los Alamos, USA Monte Carlo

SYMULACJE MONTE CARLO - historia

SYMULACJE MONTE CARLO - zastosowanie ANALIZA SYSTEMÓW ZŁOŻONYCH, WYKORZYSTUJĄCA: prawdopodobieństwo losowość komputer + oprogramowanie

SYMULACJE MONTE CARLO - zastosowanie 1. wnioskowanie o systemach zbyt skomplikowanych do opisu deterministycznego 2. modelowanie systemów złożonych w różnych warunkach 3. np. przewidywanie pogody finanse genetyka modelowanie dynamiki populacji, determinacji cech fenotypowych,... statystyka - testowanie hipotez, określanie dokładności estymatorów, określanie wielkości błędów I-go i II-go rodzaju...

SYMULACJE MONTE CARLO - przebieg symulacji dane wejściowe model 1. Zdefiniowanie modelu i danych wejściowych 2. Wygenerowanie liczb losowych 3. Obliczenie wielkości wynikowych powtórzyć 1.-3. przynajmniej 1 000 razy 4. Podsumowanie wyników 5. Np. aproksymacja liczby p: http://commons.wikimedia.org/wiki/file:pi_30k.gif wynik

SYMULACJE MONTE CARLO - przykład dane wejściowe ANALIZA STRUKTURY GENETYCZNEJ POPULACJI frekwencje alleli przeżywalność płodność podatność na choroby liczba pokoleń struktura populacji w pokoleniu N

SYMULACJE MONTE CARLO - przykład SYMULACJA GENOTYPÓW i WARTOŚCI CECH osobnik liczba losowa1 liczba losowa 2 allel 1 allel 2 wzrost - efekt genetyczny wzrost - efekt środowiskowy obserwowany wzrost 1 0.85 0.37 1 1-10 10 160 2 0.81 0.14 1 2 0-9 151 3 0.39 0.06 1 2 0-1 159 4 0.21 0.16 2 2 10 3 173 5 0.06 0.84 2 1 0-4 156 6 0.24 0.11 2 2 10 7 177 7 0.90 0.96 1 1-10 1 151 8 0.57 0.19 1 2 0-8 152 9 0.83 0.10 1 2 0-4 156 10 0.50 0.63 1 1-10 9 159 frekwencja allelu 2 0.3 frekwencja allelu 1 0.7 efekt allelu 2 na wzrost 10 test t -0.6734445 średni wzrost w populacji 160 alfa max 0.0500000 alfa t 0.5175833 obserwow any średni wzrost 159 hipoteza 0

METODY PRÓBKOWANIA

METODY PRÓBKOWANIA Określenie cech estymatora średnia, wariancja, obciążenie Alternatywa dla podejścia numerycznego Alternatywa dla podejścia empirycznego Wykorzystuje pojedynczą, dostępną próbę danych Jackknife Bootstrap

JACKKNIFE próba danych Jackknife 1: n1 n2 n3 n4 n5 oryginalna próba danych: n1 n2 n3 n4 n5 próba danych Jackknife 2: n1 n2 n3 n4 n5 próba danych Jackknife 5: n1 n2 n3 n4

JACKKNIFE próba danych Jackknife 1: x(1) = 14 oryginalna próba danych: estymator średniej x = 15 próba danych Jackknife 2: x(2) = 18 próba danych Jackknife 5: x(5) = 16

JACKKNIFE średnia wariancja obciążenie

BOOTSTRAP próba danych Bootstrap 2: n2 n3 n4 oryginalna próba danych: n1 n2 n3 n4 n5 próba danych Bootstrap 2: n1 n1 n5 próba danych Bootstrap N: n1 n2 n3

BOOTSTRAP próba danych Bootstrap 1: x(1) = 14 oryginalna próba danych: estymator średniej x = 15 próba danych Bootstrap 2: x(2) = 18 próba danych Bootstrap N: x(n) = 16

BOOTSTRAP średnia wariancja obciążenie x ˆ 1 N B x i N i1 2 J 1 N 1 x x B xi x x x B N i1 2

ŁAŃCUCHY MARKOVA

ŁAŃCUCHY MARKOVA MARKOV CHAIN: modeluje prawdopodobieństwo uzyskania poszczególnych wartości zmiennej

ŁAŃCUCHY MARKOVA wartość zmiennej (X) np. liczba żywych rekombinantów, średnia wartość cechy stan (n) np. struktura populacji, liczebność osobników o danych genotypach, przeżywalność osobników, wsp. rekombinacji prawdop. przejścia z 1 do 2 prawdop. przejścia z n-1 do n wartość zmiennej stan 1 wartość zmiennej stan 2 wartość zmiennej stan n

ŁAŃCUCHY MARKOVA Macierz prawdopodobieństw przejścia pomiędzy poszczególnymi stanami stan 1 2 3 4 5 1 0.40 0.60 0.00 0.00 0.00 2 0.60 0.00 0.50 0.00 0.00 3 0.00 0.30 0.00 0.70 0.00 4 0.00 0.00 0.10 0.30 0.60 5 0.00 0.30 0.00 0.50 0.30

PRÓBKOWANIE GIBBSA

PRÓBKOWANIE GIBBSA GIBBS SAMPLING algorytm oparty o metodę Markov Chain wykorzystują do generowania danych zasadę symulacji Monte Carlo Monte Carlo Markov Chain = MCMC umożliwia generowanie danych pochodzących z rozkładu wielowymiarowego f(x,y,z) trudne Poprzez generowanie danych z rozkładów warunkowych poszczególnych zmiennych generowanie x z rozkładu f(x y, z) generowanie y z rozkładu f(y x, z) generowanie z z rozkładu f(z x, y) łatwiejsze

PRZYKŁAD 1. dane: x - liczba rekombinantów, nieznana r - współczynnik rekombinacji, nieznana n - liczba osobników, znana 2. Estymacja: x i r 3. Prawdopodobieństwo warunkowe P ( r x, n) = Beta (x, n-x) P ( x r, n) = Dwumianowy (r, n) PRÓBKOWANIE GIBBSA 1 1 1 ), ( x n x r r x n x x n x x n x r P x n x r r x n n r x P 1 ), (!!! x n x n x n

PRÓBKOWANIE GIBBSA GENEROWANIE DANYCH generowanie wartości początkowych x 0, r 0 generowanie wartości r t+1 ~ Beta (x t,n-x t ) generowanie wartości x t+1 ~ Dwum (r t+1,n) t = 10 000 f(x,y): x 1, r 1 x 2, r 2 x 3, r 3... x t, r t

PRÓBKOWANIE GIBBSA NS=10000 # number of generated samples n=20 # total number of individuals sample=matrix(0,nrow=ns,ncol=2) # generate starting values r=runif(1,0,0.5) # wsp. rekombinacji x=rbinom(1,n,r) # liczba remombinantów # generate next NS valuess for (i in 1:NS) { r=rbeta(1,x+1,n-x+1) print(r) while (r>0.5) { r=rbeta(1,x+1,n-x+1) } x=rbinom(1,n,r) sample[i,1]=x sample[i,2]=r sample[1:20,1] hist(sample[,1],main='histogram of generated values',xlab='l.rekombinantow') } # results sample[1:20,1] plot(sample[,1],xlab='sample',ylab='l.rekombinantow') meanx=mean(sample[,1]) sdx=sd(sample[,1]) meanx sdx sample[1:20,2] hist(sample[,2],main='histogram of generated values',xlab='wsp.rekombinacji') plot(sample[,2],xlab='sample',ylab='w.rekombinacji') meanr=mean(sample[,2]) sdr=sd(sample[,2]) meanr sdr Copyright 2009, Joanna Szyda

PRÓBKOWANIE GIBBSA

PRZYKŁAD Z LITERATURY

1. Symulacje komputerowe Idea symulacji Przykład 2. Metody próbkowania Jackknife Bootstrap 3. Łańcuchy Markova 4. Próbkowanie Gibbsa