16. kwietnia Znajdowanie sekwencji w bazach danych. Bartek Wilczy«ski. Organizacyjne. Why search for sequences

Podobne dokumenty
Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Revenue Maximization. Sept. 25, 2018

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Tychy, plan miasta: Skala 1: (Polish Edition)

Hard-Margin Support Vector Machines

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

DODATKOWE ĆWICZENIA EGZAMINACYJNE

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

deep learning for NLP (5 lectures)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Jak zasada Pareto może pomóc Ci w nauce języków obcych?

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

OpenPoland.net API Documentation

Presented by. Dr. Morten Middelfart, CTO

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Installation of EuroCert software for qualified electronic signature

Extraclass. Football Men. Season 2009/10 - Autumn round

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

18. Przydatne zwroty podczas egzaminu ustnego. 19. Mo liwe pytania egzaminatora i przyk³adowe odpowiedzi egzaminowanego

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Previously on CSCI 4622

Rachunek lambda, zima

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Ogólnopolski Próbny Egzamin Ósmoklasisty z OPERONEM. Język angielski Kartoteka testu. Wymagania szczegółowe Uczeń: Poprawna odpowiedź 1.1.

Gradient Coding using the Stochastic Block Model

Zdecyduj: Czy to jest rzeczywiście prześladowanie? Czasem coś WYDAJE SIĘ złośliwe, ale wcale takie nie jest.

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Stargard Szczecinski i okolice (Polish Edition)

Hakin9 Spam Kings FREEDOMTECHNOLOGYSERVICES.CO.UK

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

Estimation and planing. Marek Majchrzak, Andrzej Bednarz Wroclaw,

Formularz dla osób planujących ubiegać się o przyjęcie na studia undergraduate (I stopnia) w USA na rok akademicki

HAPPY ANIMALS L01 HAPPY ANIMALS L03 HAPPY ANIMALS L05 HAPPY ANIMALS L07

HAPPY ANIMALS L02 HAPPY ANIMALS L04 HAPPY ANIMALS L06 HAPPY ANIMALS L08

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 4

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

New Roads to Cryptopia. Amit Sahai. An NSF Frontier Center

Electromagnetism Q =) E I =) B E B. ! Q! I B t =) E E t =) B. 05/06/2018 Physics 0

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

Instructions for student teams

Financial support for start-uppres. Where to get money? - Equity. - Credit. - Local Labor Office - Six times the national average wage (22000 zł)

Has the heat wave frequency or intensity changed in Poland since 1950?

The Overview of Civilian Applications of Airborne SAR Systems

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

HOW MASSIVE ARE PROTOPLANETARY/ PLANET HOSTING/PLANET FORMING DISCS?

Załącznik 1. Kwestionariusz rozesłany został również w języku angielskim do spółek zagranicznych.

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

Anything else? Are you all right? Are you drinking milk now? Are you single or married? Are you sure? Can I make a phone call please?

Convolution semigroups with linear Jacobi parameters

Camspot 4.4 Camspot 4.5

No matter how much you have, it matters how much you need

Volley English! Tak więc zapraszamy na lekcję nr 2.

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Patients price acceptance SELECTED FINDINGS

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

Grupa Pancerniki ARMADILLOS

Egzamin maturalny z języka angielskiego na poziomie dwujęzycznym Rozmowa wstępna (wyłącznie dla egzaminującego)

Inverse problems - Introduction - Probabilistic approach

Program doradczy EducationUSA - formularz zgłoszeniowy

EGZAMIN MATURALNY 2012 JĘZYK ANGIELSKI

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

EGZAMIN MATURALNY 2012 JĘZYK ANGIELSKI

Steeple #3: Gödel s Silver Blaze Theorem. Selmer Bringsjord Are Humans Rational? Dec RPI Troy NY USA

photo graphic Jan Witkowski Project for exhibition compositions typography colors : : janwi@janwi.com

tum.de/fall2018/ in2357

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

Język angielski. Poziom rozszerzony Próbna Matura z OPERONEM i Gazetą Wyborczą CZĘŚĆ I KRYTERIA OCENIANIA ODPOWIEDZI POZIOM ROZSZERZONY CZĘŚĆ I

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

Angielski Biznes Ciekawie

Compatible cameras for NVR-5000 series Main Stream Sub stream Support Firmware ver. 0,2-1Mbit yes yes yes n/d

TEORIA CZASU FUTURE SIMPLE, PRESENT SIMPLE I CONTINOUS ODNOSZĄCYCH SIĘ DO PRZYSZŁOŚCI ORAZ WYRAŻEŃ BE GOING TO ORAZ BE TO DO SOMETHING

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

Country fact sheet. Noise in Europe overview of policy-related data. Poland

Website review auto-web.pl

Steps to build a business Examples: Qualix Comergent

TTIC 31190: Natural Language Processing

Relaxation of the Cosmological Constant

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 7

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

g]bbvd`cyw>[ealyb^vwvvzo]^vwp`[[ab]cfwxyzy[v\]^]bvwvazovf

Transkrypt:

16. kwietnia 2019

Materiaªy do dzisiejszego wykªadu: http://www.mimuw.edu.pl/ dojer/wobm/alg-heuryst.pdf

How much similarity is there? Many important genes are conserved between distantly related species image sources biologycorner.org and ilbiologista.blogspot.com

Sequencing eorts are getting cheaper... image source the economist

...and grow exponentially... image source JGI annual report 2010

...and so do the databases of known sequences Genbank non-redundant nucleotide count is now 10 11 and sequence count 10 8. image source NIH NCBI release notes

So what's the problem? Indeed, we can nd similar sequences by comparing them with local sequence alignment methods Such algorithms run in O(n m) time scale How much would a Smith-Waterman analysis of a single new sequence (1000bp) against genbank take? How long for a genome with 10 thousand genes? How long for the JGI annual throughput? Can we wait that long? Can it be done faster? What assumptions do we need to make?

How to dene our problem? We are looking only for similar sequences in the database, so most of our work with S-W algorithm is comparing sequences which will not show up in the result Can we tell if a sequence is not-similar more quickly than S-W? We need to dene a meaningful way of specifying our denition of not-similar We need an algorithm that can reject bad alignments based on a meaningful and computable criteria

First idea: global alignments Good global alignments reside close to the diagonal Restricting to search within xed distance from diagonal brings our computing time to almost linear but not for local alignments image source: pecan algorithm

Second idea: FASTA matching short exact matches image source GJ Barton

Third idea: FASTA merging short matches to nd the right diagonal image source GJ Barton

Fourth idea: BLAST hashing words similar to query

Idea 3': BLAST extending words to segments image source wikipedia

Idea 3: BLAST high scoring segment pairs (HSP) image source wikipedia

Idea 5: BLAST computing signicance of an HSP Assume that you found an HSP, is it worth keeping it in the result? Behave like a collector: it's only worth keeping if it is rare Formally, we want matches which are ulikely to occur by random in similar situations (dened by size and composition of the query and database) In statistics, we are performing hypothesis testing: under null hypothesis, there are no matching sequences in the database We are interested in the probability of observing a given score (or higher) under assumption of the null model

Idea 5: BLAST computing signicance of an HSP We cannot really estimate this probability by Monte-Carlo (data is too large for large-scale sampling) It is assumed, that it should follow the extreme value distribution (Gumbel distribution) p(s x) = 1 exp( e λ(x µ) ), µ = log(km n ) λ parameters K and λ can be estimated from data, then the E-value is computed E = pd, where D is the number of sequences in the database (similar to Bonferroni correction) image source wikipedia

Ψ-BLAST - position-specic-iterative BLAST Since we are using short words that are similar to the query to nd hits, we could use proles (or position-specic score matrices) to generate such words Psi-BLAST (Ψ-BLAST) uses this idea to iteratively search for distant relatives of the query sequence The main idea is that we can create a i-th MSA (multiple sequence alignment) of the BLAST hits of the i-th iteration, and then generate new short words for the (i+1)-th iteration from the prole of this i-th MSA. Additionaly, Ψ-BLAST modies the default signicance thresholds - we are for distant relatives after all Since we use lowered thresholds, we also need to improve the statistics - now K and λ are estimated depending on the local aminoacid frequencies

Ψ-BLAST - position-specic-iterative BLAST image modied from https://www.youtube.com/watch?v=hidcpyx4yzg

BLAST: summary Very fast algorithm Rather complicated heuristic approach Many very specialized variants (blastn,blastp, blastx, etc.) Does not attempt to nd a global alignment, but rather generate a number of signicant predictions Computing e-values and bit-scores (e-value normalized for m and n) is a very important feature