Modelowanie motywów łańcuchami Markowa wyższego rzędu

Podobne dokumenty
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Nierówność Krafta-McMillana, Kodowanie Huffmana

Kompresja bezstratna. Entropia. Kod Huffmana

Spacery losowe generowanie realizacji procesu losowego

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Elementy teorii informacji i kodowania

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Statystyczna analiza danych

Matematyka dyskretna - 7.Drzewa

Abstrakcyjne struktury danych - stos, lista, drzewo

Wykład 9: Markov Chain Monte Carlo

Matematyczne Podstawy Informatyki

Kodowanie informacji

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

51. Wykorzystywanie sumy, iloczynu i różnicy zdarzeń do obliczania prawdopodobieństw zdarzeń.

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Seminarium IO. Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem. Michał Okulewicz

Metody probabilistyczne

Minimalne drzewa rozpinające

Algorytmy i Struktury Danych

Wykład X. Programowanie. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2016 Janusz Słupik

Łyżwy - omówienie zadania

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

Algorytmy klasyfikacji

Algorytmiczna teoria grafów

0-0000, , , itd

JAO - Wprowadzenie do Gramatyk bezkontekstowych

Układy stochastyczne

Teoretyczne podstawy informatyki

Matematyczne Podstawy Informatyki

TEORETYCZNE PODSTAWY INFORMATYKI

Rachunek prawdopodobieństwa- wykład 2

Tworzenie gier na urządzenia mobilne

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

9.9 Algorytmy przeglądu

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Algorytm obejścia drzewa poszukiwań i zadanie o hetmanach szachowych

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Algorytmy zachłanne. dr inż. Urszula Gałązka

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Klasyfikacja metodą Bayesa

Wstęp. Jak programować w DNA? Idea oraz przykład. Problem FSAT charakterystyka i rozwiązanie za pomocą DNA. Jak w ogólności rozwiązywać problemy

-termami -wyrażeń pre-termami abstrakcją aplikacją zmiennych wolnych zmienną związaną domknięte

ED Laboratorium 3. Drzewa decyzyjne

Wstęp do Techniki Cyfrowej... Teoria automatów

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Bioinformatyka Laboratorium, 30h. Michał Bereta

TEORIA GRAFÓW I SIECI

Elementy modelowania matematycznego

Kody Tunstalla. Kodowanie arytmetyczne

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Wykład z Technologii Informacyjnych. Piotr Mika

Wstęp Statyczne kody Huffmana Dynamiczne kody Huffmana Praktyka. Kodowanie Huffmana. Dawid Duda. 4 marca 2004

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

Temat: Algorytm kompresji plików metodą Huffmana

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Metody Kompilacji Wykład 3

Rozkład materiału nauczania

Podstawy Informatyki. Metody dostępu do danych

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Instrukcje dla zawodników

Metoda Tablic Semantycznych

Algorytmika dla bioinformatyki

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Definicja pliku kratowego

Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich

Definicja sieci. Sieć Petriego jest czwórką C = ( P, T, I, O ), gdzie: P = { p 1, p 2,, p n } T = { t 1, t 2,, t m }

Struktury Danych i Złożoność Obliczeniowa

Informatyk i matematyk: dwa spojrzenia na jedno zadanie (studium przypadku) Krzysztof Ciebiera, Krzysztof Diks, Paweł Strzelecki

Odkrywanie cis-regulatorowych RNA w prokariotach

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Ciągi liczbowe wykład 3

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

PROBLEMY NIEROZSTRZYGALNE

Matematyczne Podstawy Informatyki

Gry hazardowe, gry ewolucyjne, ekspresja genów, tak czy owak łańcuchy Markowa

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Kodowanie Huffmana. Platforma programistyczna.net; materiały do laboratorium 2014/15 Marcin Wilczewski

Prawa wielkich liczb, centralne twierdzenia graniczne

46 Olimpiada Biologiczna

Informatyka w medycynie Punkt widzenia kardiologa

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Algorytmy aproksymacyjne i parametryzowane

Transkrypt:

Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku

Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 3 4 5

Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 3 4 5

Źródła Paulo G. S. da Fonseca, Katia S. Guimarães, Marie-France Sagot, Efficient representation and P-value computation for high-order Markov motifs, Bioinformatics 24(16): i160-i166 H. Touzet, J.-S. Varre Efficient and accurate P-value computation for position weight matrices, Algorithms Mol. Biol, 2 (2007) : 15

Plan prezentacji Źródła Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 1 Źródła 2 Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 3 4 5

Motywy i ich znaczenie Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu Podobne fragmenty sekwencji kwasów nukleinowych, szeroko rozpowszechnione, mające zbliżone własności i funkcjonalne biologicznie, są nazywane motywami. Mają one istotne znaczenie w mechanizmach regulacyjnych DNA, i są silnie ewolucyjnie zachowywane. Zazwyczaj znajdują się one we fragmentach DNA, które nie kodują białek.

Position Weight Matrix Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu Position Weight Matrices (PWM), zwane również Position-Specific Score Matrices (PSSM) są powszechnie wykorzystywane do modelowania miejsc wiązania czynników transkrypcyjnych. Źródło: http://weblogo.berkeley.edu/

Łańcuchy Markowa wyższego rzędu Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu Łańcuch Markowa: P(X n+1 = x X n = x n,..., X 1 = x 1 ) = P(X n+1 = x X n = x n ) przyszłość zależy od przeszłości tylko przez teraźniejszość Łańcuch Markowa rzędu K: P(X n+1 = x X n = x n,..., X 1 = x 1 ) = = P(X n+1 = x X n = x n,..., X n k+1 = x n k+1 )

Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 3 4 5

Parametry modelu motywu są zazwyczaj ustalane na podstawie pewnego zbioru wystąpień, tak aby podsumowywały informację w tym zbiorze zawartą. Metody maszynowego uczenia się pozwalają dopasować parametry modelu tak, aby zmaksymalizować prawdopodobieństwo zaobserwowania danego zbioru wystąpień. Jak wygodnie reprezentować (duży) zbiór wystąpień motywu?

Drzewa trie Drzewem trie (czyt. traj) nad alfabetem A nazywamy drzewo ukorzenione, takie że (i) każda krawędź jest etykietowana symbolem z A (ii) dla każdego a A, każdy węzeł ma co najwyżej jedną krawędź wychodzącą opatrzoną etykietą a. Istnieje wzajemna odpowiedniość między wierzchołkiem v oraz odpowiadającym mu słowem powstałym z połączenia etykiet krawędzi prowadzących od korzenia do v. Definicję drzewa trie można uogólnić, tak że mogą one reprezentować multizbiory słów. Wystarczy w odpowiednim liściu przechowywać liczbę wystąpień słowa, a w węzłach wewnętrznych sumę etykiet liści z odpowiedniego poddrzewa. Wszystkie te liczby nazywamy licznikami liści.

Przykład drzewa trie Źródło: P. G. S. da Fonseca et al., Efficient representation and P-value computation for high-order Markov motifs

Własności liczników liści Licznik liści wierzchołka v, któremu odpowiada słowo label(v), równy jest ilości słów reprezentowanych w drzewie mających prefiks label(v). Częstość występowania symbolu a na pozycji j można wyznaczyć dzieląc sumę liczników liści w węzłach na poziomie j do których wchodzi krawędź etykietowana przez a przez licznik liści korzenia drzewa. Podążając wzdłuż drzewa można łatwo również wyliczać prawdopodobieństwa warunkowe.

Plan prezentacji Źródła 1 Źródła 2 Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 3 4 5

Ustalmy m model motywu o długości W będący łańcuchem Markowa rzędu K. Logarytm prawdopodobieństwa słowa x względem m definiujemy jako Będziemy pisać krótko l(x). l(x, m) = log P m (x). Gdy mamy także model tła m 0, to P-wartość logarytmu prawdopodobieństwa l definiujemy jako P-value(l, m) = P m0 ({x A W l(x, m) l}).

c.d. Innymi słowy, P-wartość jest prawdopodobieństwem zdarzenia, że losowa sekwencja wygenerowana z modelu tła m 0 będzie miała logarytm prawdopodobieństwa względem m większy lub równy l. P-wartość można liczyć na wiele sposobów, m.in.: bezpośrednio z definicji sprawdzając wszystkie x A W metodą Monte Carlo szybko i całkiem dokładnie sprytnie o tym za chwilę.

wejście i wyjście Wejście: m model motywu o długości W będący łańcuchem Markowa rzędu K m 0 model tła l próg dla logarytmu prawdopodobieństwa y prefiks długości j W, początkowo pusty Wyjście: P m0 ({z A W : z 1...j = y l(z, m) l})

schemat Jeśli y = W, to jeśli l(y, m) l, to zwróć P m0 (y) jeśli l(y, m) < l, to zwróć 0. Jeśli y < W, to oszacuj L min (y) oraz L max (y) takie, że dla każdego z A W takiego, że z 1...j = y, zachodzi L min (y) l(z, m) L max (y) jeśli L min (y) l, to zwróć P m0 ({z A W : z 1...j = y}) jeśli L max (y) < l, to zwróć 0 w przeciwnym przypadku zwróć sumę BranchAndBoundPvalue(m, m 0, l, ya) a A

Znajdowanie mocnych ograniczeń Zauważmy, że l(x, m) = W log P(x j x j K... x j 1 ). j=1 Oznaczmy l j (x, m) = log P(x j x j K... x j 1 ). Mając dany prefiks y słowa x, chcemy znaleźć ograniczenie górne i dolne na l(x, m). Nie jest konieczne rozważanie wszystkich słów x spełniających ten warunek (dlaczego)?

Algorytm max suffix log-score wejście i wyjście Wejście: m model motywu o długości W będący łańcuchem Markowa rzędu K u początkowa pozycja sufiksu (1 u W ) k A min{k,u 1} słowo, które poprzedza sufiks Wyjście: max A W u+1 j=u W l j (k, m)

Algorytm max suffix log-score schemat Inicjacja: S[u 1, k] 0. Dla każdego j = u,..., W : dla każdego y takiego, że S[j 1, y] jest określone, i dla każdego a A: S[j, ya] S[j 1, y] + l j (ya, m) jeśli j K, to skopiuj S na S jeśli j > K, to dla każdego z A K S[j, z] max S[j, az]. a A

W algorytmie podziału i ograniczeń obcinanie kolejnych gałęzi obliczeń byłoby łatwiejsze, gdyby zbiór wartości przyjmowanych przez P-wartość był niewielki. Pomysł: określamy wartość zaokrągloną x przy dokładności ɛ jako gdzie np. ɛ = 10 k dla k 0. [x] ɛ = 1 ɛ x ɛ Modyfikacja algorytmu polega na użyciu l(x, m ɛ ) = W log[p(x j x j K... x j 1 )] ɛ. j=1

Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy Markowa wyższego rzędu 3 4 5

Do testów użyto motywów długości W = 6,..., 12 par zasad zawierających miejsca wiązania czynników transkrypcyjnych z bazy TRANSFAC. Rozważano rząd łańcucha Markowa K = 0, 1, 2. Jak należało się spodziewać, czas działania algorytmu naiwnego niezbyt zależał od rzędu łańcucha Markowa. oraz algorytm iteracyjnego poprawiania modelu działały o rząd wielkości szybciej.