Pomiędzy elementami zbioru danych x (wektor p-cech) wyznaczane są wartości funkcji podobieństw lub niepodobieństwa d (dissimilarity; częściej)

Podobne dokumenty
Macierze substytucji. PAM - Point Accepted Mutations Margaret Dayhoff Macierze substytucji zależna od prawdopodobieństwa mutacji

Wykład 5 Dopasowywanie lokalne

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Macierz. Wyznacznik macierzy. Układ równań liniowych

( ) Lista 2 / Granica i ciągłość funkcji ( z przykładowymi rozwiązaniami)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Realizacje zmiennych są niezależne, co sprawia, że ciąg jest ciągiem niezależnych zmiennych losowych,

WYKŁAD 5. Typy macierzy, działania na macierzach, macierz układu równań. Podstawowe wiadomości o macierzach

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PRÓBNA MATURA Z MATEMATYKI Z OPERONEM LISTOPAD ,0. 3x 6 6 3x 6 6,

O pewnych zgadnieniach optymalizacyjnych O pewnych zgadnieniach optymalizacyjnych

Macierz. Wyznacznik macierzy. Układ równań liniowych

Wspomaganie obliczeń za pomocą programu MathCad

PODSTAWY ALGEBRY MACIERZY. Operacje na macierzach

PRZYRÓWNANIE SEKWENCJI

Wyznacznikiem macierzy kwadratowej A stopnia n nazywamy liczbę det A określoną następująco:

Pojęcia Działania na macierzach Wyznacznik macierzy

Porównywanie i dopasowywanie sekwencji

2. Tensometria mechaniczna

Wykład 2. Granice, ciągłość, pochodna funkcji i jej interpretacja geometryczna

Porównywanie i dopasowywanie sekwencji

INSTRUKCJA. - Jak rozwiązywać zadania wysoko punktowane?

Zadania. I. Podzielność liczb całkowitych

Matematyka stosowana i metody numeryczne

Badanie regularności w słowach

MATEMATYKA Wykład 4 (Funkcje) przyporządkowany został dokładnie jeden element

Metody określania macierzy przemieszczeń w modelowaniu przewozów pasażerskich. mgr inż. Szymon Klemba Warszawa, r.

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

W CZASIE WYKŁADU TELEFONY KOMÓRKOWE POWINNY BYĆ WYŁĄCZONE LUB WYCISZONE MAPY

2. Ciągi liczbowe. Definicja 2.1 Funkcję a : N R nazywamy ciągiem liczbowym. Wartość funkcji a(n) oznaczamy symbolem a

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Zastosowanie multimetrów cyfrowych do pomiaru podstawowych wielkości elektrycznych

Modelowanie 3 D na podstawie fotografii amatorskich

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Wykład 2. Pojęcie całki niewłaściwej do rachunku prawdopodobieństwa

MATURA 2014 z WSiP. Zasady oceniania zadań

Wykład 6 Dyfrakcja Fresnela i Fraunhofera

mgh. Praca ta jest zmagazynowana w postaci energii potencjalnej,

Grażyna Nowicka, Waldemar Nowicki BADANIE RÓWNOWAG KWASOWO-ZASADOWYCH W ROZTWORACH ELEKTROLITÓW AMFOTERYCZNYCH

Przekształcenia automatów skończonych

Maciej Grzesiak. Iloczyn skalarny. 1. Iloczyn skalarny wektorów na płaszczyźnie i w przestrzeni. a b = a b cos ϕ. j) (b x. i + b y

Komisja Egzaminacyjna dla Aktuariuszy LII Egzamin dla Aktuariuszy z 15 marca 2010 r. Część I Matematyka finansowa

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Wektor kolumnowy m wymiarowy macierz prostokątna o wymiarze n=1 Wektor wierszowy n wymiarowy macierz prostokątna o wymiarze m=1

A A -1 A D A A D. ad bc A -1 A -1 A

Fizyka. Kurs przygotowawczy. na studia inżynierskie. mgr Kamila Haule

KONKURS MATEMATYCZNY dla uczniów gimnazjów w roku szkolnym 2012/13. Propozycja punktowania rozwiązań zadań

Ekstrakcja cech. PCA (Principal Component Analysis) Analiza składowych głównych. LDA (Linear Discriminant Analysis) Liniowa analiza dyskryminacyjna

METODYKA OCENY WŁAŚCIWOŚCI SYSTEMU IDENTYFIKACJI PARAMETRYCZNEJ OBIEKTU BALISTYCZNEGO

PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI

usuwa niewymierność z mianownika wyrażenia typu

3. Rozkład macierzy według wartości szczególnych

Dopasowania par sekwencji DNA

Małgorzata Żak. Zapisane w genach. czyli o zastosowaniu matematyki w genetyce

Rachunek prawdopodobieństwa i statystyka matematyczna.

Bioinformatyka Laboratorium, 30h. Michał Bereta

CAŁKOWANIE NUMERYCZNE

Analiza matematyczna i algebra liniowa

ROLE OF CUSTOMER IN BALANCED DEVELOPMENT OF COMPANY

Wyrównanie sieci niwelacyjnej

Wszystkim życzę Wesołych Świąt :-)

Pochodne i całki, macierze i wyznaczniki

Wstęp do Biologii Obliczeniowej

4. RACHUNEK WEKTOROWY

Dopasowanie sekwencji (sequence alignment)

LISTA02: Projektowanie układów drugiego rzędu Przygotowanie: 1. Jakie własności ma równanie 2-ego rzędu & x &+ bx&

( ) Elementy rachunku prawdopodobieństwa. f( x) 1 F (x) f(x) - gęstość rozkładu prawdopodobieństwa X f( x) - dystrybuanta rozkładu.

Technikum Nr 2 im. gen. Mieczysława Smorawińskiego w Zespole Szkół Ekonomicznych w Kaliszu

ZASTOSOWANIE RÓWNANIA NASGRO DO OPISU KRZYWYCH PROPAGACYJI PĘKNIĘĆ ZMĘCZENIOWYCH

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

SZTUCZNA INTELIGENCJA

EGZAMIN MATURALNY OD ROKU SZKOLNEGO 2014/2015 MATEMATYKA POZIOM ROZSZERZONY ROZWIĄZANIA ZADAŃ I SCHEMATY PUNKTOWANIA (A1, A2, A3, A4, A6, A7)

Bioinformatyka Laboratorium, 30h. Michał Bereta

KRYTERIA OCENIANIA ODPOWIEDZI Próbna Matura z OPERONEM. Matematyka. Poziom rozszerzony. Listopad Wskazówki do rozwiązania zadania

2. Na ich rozwiązanie masz 90 minut. Piętnaście minut przed upływem tego czasu zostaniesz o tym poinformowany przez członka Komisji Konkursowej.

Nowy system wsparcia rodzin z dziećmi

Ć W I C Z E N I E N R E-14

Wymagania edukacyjne z matematyki FUNKCJE dopuszczającą dostateczną dobrą bardzo dobrą

MES-1 08 Element 3-węzłowy. Całkowanie numeryczne

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Karta oceny merytorycznej wniosku o dofinansowanie projektu konkursowego PO KL 1

Rozwiązania maj 2017r. Zadania zamknięte

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Podstawy układów logicznych

Wyznacznik macierzy. - wyznacznik macierzy A

KRYTERIA OCENIANIA ODPOWIEDZI Próbna Matura z OPERONEM. Matematyka. Poziom rozszerzony. Listopad Wskazówki do rozwiązania zadania

WYZNACZANIE OGNISKOWEJ SOCZEWEK CIENKICH ZA POMOCĄ ŁAWY OPTYCZNEJ

Jest błędem odwołanie się do zmiennej, której nie przypisano wcześniej żadnej wartości.

3. F jest lewostronnie ciągła

DZIAŁ 2. Figury geometryczne

ZADANIA ZAMKNIĘTE. Zadanie 1 (1p). Ile wynosi 0,5% kwoty 120 mln zł? A. 6 mln zł B. 6 tys. zł C. 600 tys. zł D. 60 tys. zł

WSTĘP DO INFORMATYKI

O RELACJACH MIĘDZY GRUPĄ OBROTÓW, A GRUPĄ PERMUTACJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Podstawy Techniki Cyfrowej Układy komutacyjne

WENTYLACJA PRZESTRZENI POTENCJALNIE ZAGROŻONYCH WYBUCHEM MIESZANIN GAZOWYCH

Transkrypt:

Wykłd 5 Dopsowywnie wielu sekwencji Multiple Sequence Alignment (MSA) Mcierze substytucji zleŝne od pozycji Position Specific Scoring Mtrix (PSSM) Porównnie róŝnych sekwencji T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A ITOTEZJESTSEKWENCJA T O J E S T T A S E K W E N C J A T A M T A J E S T T E Z S E K W E N C J A I T O J E S T S E K W E N C J A 2 Czym się róŝni MSA od PSA MSA dje większą dokłdność w dopsowniu sekwencji niŝ PSA. Rozstrzyg wątpliwości, eliminuje dopsowni przypdkowe MSA umoŝliwi znlezienie obszrów o wysokiej konserwcji przewŝnie o duŝym znczeniu strukturlnym i funkcjonlnym dl biłk DuŜo większ złoŝoność obliczeniow. Często stosowne lgorytmy heurystyczne zmist progrmowni dynmicznego. Metody Progrmownie dynmiczne Dopsownie hierrchiczne (klstrownie) Ukryte modele Mrkow (Hidden Mrkov Models HMM) Metody uczeni mszynowego Algorytmy genetyczne Metody wykorzystujące wiedzę filogenetyczną Dopsownie hierrchiczne Klstering czyli uczenie bez ndzoru Odległość pomiędzy elementmi Pomiędzy elementmi zbioru dnych x (wektor p-cech) wyznczne są wrtości funkcji podobieństw lub niepodobieństw d (dissimilrity; częściej) Njczęściej jest to kwdrt odległości: JeŜeli wpływ cech jest niezrównowŝny to moŝn zstosowć sumę wŝoną z cech (le w j =1 nie ozncz jednkowego wpływu bo zleŝy od rozkłdu pomiędzy cechmi): A.D. Bxevnis, B.F.F Quellette, Bioinformtyk, PWN 1

Z dołu-do-góry ( bottom-up ) Metody sclni w dendrogrmie Sposób wybierni reprezentcji podgrupy Pojedynczego łączeni (single linkge) mksimum podobieństw Metody sclni w dendrogrmie Pełnego łączeni (complete linkge) minimum podobieństw Metody sclni w dendrogrmie Średniego podobieństw w grupie (verge linkge) Porównnie dendrogrmów Drzewo filogenetyczne 2

Mcierze substytucji Mcierze substytucji log z prwdopodobieństw mutcji PAM120 proksym. z globlnego Point Accepted Muttions 120 mutcji/100 długości BLOSUM-62 z loklnego dop. BLOck SUbstitution Mtrix Co njmniej 62% identyczne Jk wyznczmy mcierz substytucji W kŝdej mcierzy substytucji częstotliwość q,b mutcji z do b wyzncz wrtości elementów mcierzy s,b, ; p to prwdopodobieństwo wystąpieni minokwsu w cłej bzie dnych sekwencji ln( q, b / p pb) s, b = λ gdzie λ jest jkimś współczynnikiem, chrkterystycznym dl typu mcierzy 16 Gdy mutcje zleŝą od połoŝeni w sekwencji Potrzeb mcierzy punktcji zleŝnej od pozycji (PSSM) Mcierze substytucji (typu PAM, BLOSUM) mogą być uŝywne do dopsowywni pr sekwencji Oceny odległości ewolucyjnej pomiędzy prą biłek Wyszukni w bzie dnych biłek podobnych do biłek wybrnych Nie są wystrczjące do stwierdzeni, czy dne biłko jest elementem określonej rodziny (zbioru) biłek. 3

Znjdownie biłek z określonej rodziny CEL: znmy zbiór biłek z jednej rodziny i znjdujemy biłk psujące Metody: Dopsownie do sekwencji konsensusowej (uśrednionej) rodziny Dopsownie do profilu rodziny Szuknie odcisku plc rodziny Metody probbilistyczne (np. ukryte modele Mrkow - HMM) Jk wyznczmy mcierz częstości zleŝną od pozycji (PSSM) ZłóŜmy, Ŝe mmy N sekwencji z jednej rodziny. Wyznczmy częstotliwość wystąpieni minokwsu n pozycji u dl tej rodziny sekwencji: q u, = n u, /N log( qu, / p ) m u, = λ p to prwdopodobieństwo wystąpieni minokwsu w cłej bzie dnych sekwencji. Podobnie jk w mcierzy substytucji wyznczmy element mcierzy PSSM (λ moŝn tu pominąć, choć stosowne w Psi-Blst): 20 PSSM Position Specific Scoring Mtrix Etpy konstrukcji: Wybór rodziny do profilu: BLAST n podstwie pojedynczej sekwencji BLAST z kolejnych sekwencji Obliczenie PSSM 21 Entropi W fizyce ENTROPIA jest mirą gęstości stnów. Stnowi mirę kierunku zchodzeni procesów smorzutnych. Ukłd fizyczny zwsze dąŝy do równomiernego rozkłdu (P i ) gęstości stnów (nieporządku): S = kb Pi ln( Pi ) ENTROPIA informcyjn (entropi Shnnon) jest mirą niepewności informcji (w bitch). H = P i log( P i ) i k B - stł Boltzmnn Im brdziej równomierny jest rozkłd jkiejś cechy tym mniej informcji mmy o jej potencjlnym wystąpieniu w określonej sytucji (np. n dnej pozycji w sekwencji) 22 Entropi Istotność informcji w mcierzy PSSM dl kolumny u moŝn ocenić obliczjąc jej ENTROPIĘ po wszystkich minokwsch (w bitch to log 2 ): H u = qu, log 2( qu, ) Przy równomiernym występowniu wszystkich minokwsów entropi jest mksymln. mx(h u ) = -20 * (1/20 * log 2 (1/20))= 20* (1/20 * log 2 (1/20) -1 ))= log 2 (20) 23 Informcj I u zwrt w sekwencji n pozycji u moŝe być obliczon jko: I u = H mx Hu = log 2 20 H gdyŝ mx(h u ) = log 2 20 Pod wrunkiem, Ŝe dysponujemy co njmniej 20 sekwencjmi (mniej np. 3 to Hmx=log 2 (3)). Mksymln wrtość I u ozncz brdzo dobrą konserwcję jkiegoś jednego minokwsu n pozycji u u 4

Logo Rozmir = I u q u, BLAST Bsic Locl Alignment Serch Tool Eugene Myers, Stephen Altschul, Wrren Gish, Dvid J. Lipmn, nd Webb Miller, Journl of Moleculr Biology, 1990. Schneider, Stephens, NAR,1990 Zwycięstwo szybkości nd dokłdnością, uproszczenie lgorytmu Smith & Wtermn S&W zpewnił njlepsze rozwiąznie przy dnym zuŝyciu czsu komputerowego BLAST NIE. Zysk: ok. 50 x 25 BLAST BLAST bzuje n znjdowniu brdzo podobnych krótkich segmentów. Nie stosuje progrmowni dynmicznego. Jk to robi BLAST? Wykonuje dopsownie prmi - pomiędzy sekwencją zpytni i poszczególnymi sekwencjmi ze zbioru przeszukiwnego Porządkuje mlejąco sekwencje ze zbioru, wg. wrtości dopsowni loklnego S w stosunku do sekwencji zpytni Dl kŝdego S, uwzględnijąc długości sekwencji zpytni i wyniku, wylicz E-wrtość. Jest to oczekiwn liczb segmentów sekwencji, które uzyskją wynik dopsowni większy lub równy S. UŜytkownik bierze pod uwgę tylko tkie sekwencje, dl których E<<1. Wtedy nie m sznsy, Ŝe jkikolwiek segment (choćby jeden) wcle nie jest homologiczny, wyłącznie przypdkowo podobny. BLAST - lgorytm Usunąć segmenty o młej róŝnorodności lub powtórzenich w sekwencji zpytni Zbudowć listę słów k-literowych, występujących w sekwencji zpytni (biłk k 3, nukleotydy k 11), dl kolejnych wrtości k. Znleźć wszystkie moŝliwie dokłdnie psujące słow (włsny lgorytm heurystyczny) Zorgnizowć pozostłe, wysoko-punktujące słow w efektywne drzewo przeszukiwni Rozciągnąć dokłdne dopsowni n istotne loklne segmenty (HSP, high-scoring segment pir ) Wypisć wszystkie HSP w bzie dnych, które punktują wystrczjąco wysoko *Wówczs jest więcej niŝ jedno dopsownie loklne i TotlScore=MxScore+Inny_Score+ Sytucj * moŝe oznczc pseudo-gen. 5

Problem: E-wrtość Jk duŝ jest szns, Ŝe 2 sekwencje niehomologiczne zostną przypdkowo wskzne jko dobrze dopsowne przez lgorytm loklnego dopsowni? Inczej mówiąc: Jk wrtościow jest jkś znlezion sekwencj, wskzn (w oprciu o lgorytm dopsowni) jko homologiczn do sekwencji zpytni (query seq.)? Np. Im dłuŝsz sekwencj zpytni tym łtwiej coś loklnie trfić. E-wrtość Przyrównywn jest pr sekwencji, o długościch odpowiednio m i n. Zkłd się, Ŝe przeprowdzone byłoby dopsownie loklne segmentów pomiędzy prą sekwencji, bez przerw (nie m delecji lub insercji). W grnicy (dl duŝych wrtości m i n) liczb segmentów sekwencji, które uzyskją wysoką punktcję lgorytmu dopsowni, równą co njmniej S, wynosi (wrtość oczekiwn): E = K m n e - S gdzie K i są pewnymi prmetrmi, zleŝnymi od rozmiru przeszukiwnej przestrzeni i lgorytmu ocenini. Liczbę E nzywmy E-wrtością dl punktcji (score) S. PSI-BLAST Position-Specific Itertive BLAST Profil PSSM - Position-Specific Scoring Mtrix BLAST drzewo Dokłdność / nrzędzi Metody hierrchiczne nie dją gwrncji znlezieni jednego optymlnego dopsowni dl cłego zestwu sekwencji CLUSTAL 6

EFEKTY Dopsownie wielokrotne poprwi dokłdność dopsowni sekwencji o niskim podobieństwie Biłk o niskiej złoŝoności sekwencji i niejednozncznej strukturze Tkie biłk komplikują wyzncznie homologii Nisk złoŝoność Prion 7

8