Eksploracja danych mikromacierzowych sieci Bayesa. Inżynieria Danych, 30 listopada 2009, Tomasz Kułaga

Podobne dokumenty
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Wykład 9: Markov Chain Monte Carlo

Procesy stochastyczne

Spacery losowe generowanie realizacji procesu losowego

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

Analiza zmienności czasowej danych mikromacierzowych

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Monte Carlo, bootstrap, jacknife

Testowanie hipotez statystycznych

Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich

Sieci Bayesa mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2011

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Agnieszka Nowak Brzezińska Wykład III

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Hierarchiczna analiza skupień

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Grafy Alberta-Barabasiego

Agnieszka Nowak Brzezińska Wykład III

Prawdopodobieństwo i statystyka

Analiza danych. TEMATYKA PRZEDMIOTU

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Prawdopodobieństwo czerwonych = = 0.33

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Elementy modelowania matematycznego

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Bioinformatyka, edycja 2016/2017, laboratorium

5 Błąd średniokwadratowy i obciążenie

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Algorytm Metropolisa-Hastingsa

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH

Algorytmy zrandomizowane

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metody probabilistyczne klasyfikatory bayesowskie

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Optymalizacja ciągła

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

METODY STATYSTYCZNE W BIOLOGII

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Elementy statystyki wielowymiarowej

Statystyczna analiza danych

Jak zawsze wyjdziemy od terminologii. While oznacza dopóki, podczas gdy. Pętla while jest

Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski

Materiały dla finalistów

Estymacja parametrów, przedziały ufności etc

Maciej Piotr Jankowski

Lista 6. Kamil Matuszewski 13 kwietnia D n =

MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH

METODY STATYSTYCZNE W BIOLOGII

Modelowanie sieci złożonych

PODSTAWY MODELOWANIA UKŁADÓW DYNAMICZNYCH W JĘZYKACH SYMULACYJNYCH

ALHE. prof. Jarosław Arabas semestr 15Z

Znajdowanie wyjścia z labiryntu

Algorytmy klasyfikacji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Algorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Seminarium IO. Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem. Michał Okulewicz

Ekonometryczne modele nieliniowe

Agnieszka Nowak Brzezińska

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

METODY STATYSTYCZNE W BIOLOGII

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek

Podejście memetyczne do problemu DCVRP - wstępne wyniki. Adam Żychowski

Przykładowa analiza danych

Katarzyna Jesionek Zastosowanie symulacji dynamiki cieczy oraz ośrodków sprężystych w symulatorach operacji chirurgicznych.

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Praktyczne aspekty statycznej estymacji stanu pracy elektroenergetycznych sieci dystrybucyjnych w warunkach krajowych

Algorytmy metaheurystyczne Wykład 6. Piotr Syga

KLASYFIKACJA. Słownik języka polskiego

Etapy modelowania ekonometrycznego

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Elementy modelowania matematycznego

Transkrypt:

Eksploracja danych mikromacierzowych sieci Bayesa Inżynieria Danych, 30 listopada 2009,

Plan referatu Mikromacierze Model sieci Bayesa Metody Monte Carlo

Mikromacierz Płytka z naniesionymi fragmentami sekwencji DNA. Fragmenty te są sondami, które wykrywają przez hybrydyzację komplementarne do siebie cząsteczki DNA lub RNA. Kawałki te są znakowane, dzięki temu można później laserem lub mikroskopem uzyskać obraz ekspresji genów.

Mikromacierze Platformy na których przeprowadza się eksperymenty mikromacierzowe mają różne wielkości, od kilku tysięcy do nawet dwóch milionów. Ilość powtórzonych eksperymentów próbek dochodzi w porywach do kilkuset (z reguły nie przekracza 50). Dane te są ogólnodostępne np. przez stronę NCBI http://www.ncbi.nlm.nih.gov/geo/

Mikromacierze wstępna obróbka Zanim zacznie się analizę, dane z mikromacierzy trzeba poddać wstępnej obróbce: Analiza zeskanowanego obrazu obliczenie intensywności sygnału dla każdej sondy. Odjęcie sygnału tła. Normalizacja danych modyfikacja wartości ekspresji w celu dostosowania do całości eksperymentu lub do zamierzonego rozkładu, niezbędna dla porównywania intensywności między macierzami

Mikromacierze Załóżmy, że mamy już przetworzone dane mikromacierzowe dla kilku eksperymentów. I co dalej?... Data table I D_REF VALUE 1 0.0843 2 0.1221 3 0.2185 4 0.1755 5 0.2813 6 0.03873 7 0.1602 8 0.3796 9 0.1773 10 0.1878 11 0.2561 12 0.08678 13 0.2296

Analiza danych mikromacierzowych Metody obliczeniowe stosowane dla mikromacierzy pozwalają na takie analizy, jak: znajdowanie genów, różniących się ekspresją między próbkami (test T, ANOVA) analiza zmian ekspresji w czasie klasyfikacja i grupowanie genów ze względu na profil ekspresji w próbkach (klastrowanie, analiza głównych składowych) model sieci Bayesa dla obrazowania (dynamicznych lub statycznych) zależności między genami

Pojęcie sieci Bayesa Przejrzysty model do obrazowania zależności przyczynowoskutkowych pomiędzy badanymi wielkościami jako (acykliczny) graf skierowany (fakt, że idą czarne chmury ma wpływ na to, czy spadnie deszcz) Idą czarne chmury Pada deszcz Wierzchołki w grafie to zmienne losowe a krawędzie obrazują zależność warunkową. W dalszych rozważaniach zawęzimy się do przypadku, gdzie zmienne losowe są dyskretne.

Pojęcie sieci Bayesa Na pełny opis sieci Bayesa składają się oprócz grafu także rozkłady warunkowe Idą czarne chmury Pada deszcz Jaka jest szansa, że pojawią się czarne chmury? Jakie jest prawdopodobieństwo, że spadnie deszcz, jeśli czarne chmury faktycznie idą lub jeśli ich nie ma? Prawd Idą czarne chmury 0.1 Nie idą 0.9 Prawd Idą czarne chmury Tak Nie Pada deszcz 0.9 0.3 Nie pada 0.1 0.7

Pojęcie sieci Bayesa Rozkłady warunkowe bardziej skomplikowany przykład Idą czarne chmury Jaskółki nisko latają Pada deszcz Prawd Idą czarne chmury 0.1 Nie idą 0.9 Prawd Jaskółki nisko latają 0.05 Nie latają 0.95 Prawd Idą czarne chmury Tak Tak Nie Nie Jaskółki nisko latają Tak Nie Tak Nie Pada deszcz 0.99 0.7 0.8 0.1 Nie pada 0.01 0.3 0.2 0.9

Dynamiczne sieci Bayesa Często zdarza się, że w eksperymentach mikromacierzowych ekspresja genów mierzona jest przez jakiś czas. Np. tuż po podaniu leku jak i 3, 6, 9, 12 i 24 godziny po. Dane tworzą szereg czasowy. Można to przedstawić używając modelu dynamicznej sieci Bayesa. W najprostszym przypadku interesujemy się tylko zależnościami między dwoma sąsiednimi krokami czasowymi. Zaniedbane zostają połączenia pomiędzy bardziej oddalonymi punktami jak i w obrębie jednego kroku czasowego. Idą czarne chmury Idą czarne chmury Pada deszcz Pada deszcz

Dynamiczne sieci Bayesa Aby uprościć ten model wraca się z powrotem do jednego kroku czasowego 'zwijając graf'. Idą czarne chmury Idą czarne chmury Idą czarne chmury Pada deszcz Pada deszcz Pada deszcz Uwaga: powstały graf nie musi być już acykliczny zmienna losowa może wpływać na siebie samą w następnym kroku czasowym (samoregulacja genu).

Dynamiczne sieci Bayesa Trzeba pamiętać o pewnych ograniczeniach: Pomijamy interakcje wewnątrz kroku czasowego jak i pomiędzy tymi bardziej oddalonymi. Takie założenie może być oczywiście błędne. Można tego nie zakładać, ale złożoność zagadnienia bardzo znacząco wzrośnie jeszcze do tego wrócimy. W najprostszym przypadku zakładamy, że dynamiczna sieć jest tak naprawdę stała (tak samo wygląda ona pomiędzy momentem tuż po podaniu leku i 3 godziny później, jak i pomiędzy 3 a 6 godzin później). Znów można tego nie zakładać i modelować każdą z sieci z osobną, ale skutkuje to zubożeniem ilości obserwacji, którymi dysponujemy.

Jaki model? Główny problem, to znalezienie odpowiedniego grafu, który jak najlepiej wyjaśniałby rozpatrywane zjawisko. Jest jeszcze kwestia rozkładów warunkowych, ale to drugorzędna sprawa.?? Idą czarne chmury Pada deszcz Idą czarne chmury Pada deszcz

Jaki model? Szukamy najlepszego (najlepszych) modelu, który wyjaśniałby zgromadzone przez nas dane Idą czarne chmury Pada deszcz tak tak Idą czarne chmury? Pada deszcz tak nie nie tak nie tak nie tak nie nie nie tak nie nie

Jaki model? Ocena modelu Czyniąc pewne założenia (niezależność parametrów modelu, rozkład apriori dla parametrów wybrany jako rozkład Dirichleta) i stosując wnioskowanie Bayesowskie dochodzimy do wzoru na prawdopodobieństwo uzyskania naszych obserwacji przy użyciu naszego modelu. W tym wzorze nieznane parametry już nie występują. P D M = i=1 n i a i a i d i x i a i, x i d i, x i a i, x i gdzie: D zbiór obserwacji, M oceniany model, funkcja Gamma Eulera dość złożona obliczeniowo, a wektor obserwacji apriori, d wektor faktycznie zanotowanych obserwacji.

Jaki model? Wyprowadziliśmy więc wzór na P(D M). Korzystając ze wzoru na prawodopodobieństwo całkowite otrzymujemy P M D = P D M P M m P D m P m Pojawia się pewien problem. Żeby policzyć coś takiego, musimy wcześniej policzyć P(D m) dla wszystkich modeli m. Pytanie do sali: Ile jest wszystkich modeli? Innymi słowy, ile różnych grafów (acyklicznych) można zbudować dla n wierzchołków? (n dla mikromacierzy to przynajmniej kilka tysięcy)

Jaki model? Liczba możliwych modeli, które rozważamy jest super eksponencjalna, tzn. 2 n*n. To co możemy łatwo zrobić, to porównać dwie oceny modeli, która jest większa i o ile (albo ile razy). Dzięki temu można skupić się na heurystycznych algorytmach przeszukujących, np.: greedy search, best fit search albo na metodach Monte Carlo.?? Idą czarne chmury Pada deszcz Idą czarne chmury Pada deszcz

Redukcja złożoności Można próbować redukować złożoność problemu przeprowadzając najpierw np. klasteryzację a dopiero później szukać jakichś zależności między klastrami. Jednak trzeba być ostrożnym budując klaster posługujemy się później tak naprawdę jakimś reprezentantem tego klastra (np, średnia wartość, jakiś środkowy 'osobnik'). Jeśli wykażemy jakąś zależność między tymi reprezentantami wcale nie musimy mieć racji w sensie całego klastra. Część zależności będzie także w oczywisty sposób niedostrzegalna.

Metody Monte Carlo (MCMC) Stosując metody Monte Carlo można m.in. uzyskać próbkę z rozkładu, który znamy tylko z dokładnością do stałej normującej (całka lub suma nie wynosi 1). Idea symulacji: zaczynamy z pewnego, bliżej nieokreślonego modelu (może być wybrany arbitralnie lub losowo), przechodzimy do następnego posługując się macierzą przejścia, po odpowiednio długiej symulacji stwierdzamy, że ostatni uzyskany model (lub wszystkie uzyskane do tej pory modele) pochodzi z naszego prawdziwego rozkładu

Metody Monte Carlo (MCMC) Dwa najpopularniejsze algorytmy (a właściwie jeden): Próbkowanie Gibbs'a Mając ustalony model (graf), wybieramy dwa wierzchołki a i b. Liczymy ocenę dwóch modeli z krawędzią a >b i bez niej. Losujemy, który z tych modeli będzie naszym następnym w symulacji z rozkładu dwupunktowego, proporcjonalnego do ocen. Metropolis Hastings Mając ustalony model, usuwamy lub dodajemy losową krawędź. Akceptujemy tą zmianę z pewnym prawdopodobieństwem, które zależy od ocen modelu obecnego i proponowanego Próbkowanie Gibbs'a jest specjalną odmianą Metropolisa Hastingsa

Czego szukamy? Możliwe faktyczne pytania: czy aktywność genu A reguluje w jakiś sposób ekspresję genu B? jakie geny wpływają na ekspresję genu A? które geny mają wpływ na pojawienie się danego schorzenia? jaka jest ścieżka aktywności genów? itp... Dodatkowe korzyści ze stosowania MCMC: Łatwiej odpowiedzieć na powyższe pytania dysponując próbką z rozkładu modeli Liczymy wartość oczekiwaną odpowiedniej zmiennej losowej (cechy modelu). Np. zliczamy w ilu modelach wystąpiła krawędź od genu A do genu B.

Dodatkowe aspekty dyskretyzacja Surowe dane z eksperymentów z mikromacierzami mają charakter ciągły (ekspresja genów). W prezentowanym podejściu sieci Bayesa zakładają dyskretne wartości węzłów (gen aktywny, nieaktywny, itd... im mniej tym mniejsza złożoność modelu). Pytanie jak to robić? Jak wybierać progowe wartości dla klasyfikowania genu jako aktywny, nieaktywny itp. Różne progi będą prowadzić do innych wniosków.

Dodatkowe aspekty ocena zbieżności algorytmu Pytanie: W którym momencie uznajemy, że algorytm wyprodukował zadowalającą nas próbkę. Możliwe podejście test chi kwadrat na przynależność do danego rozkładu. Polega on na porównaniu otrzymanych rozkładów dla kilku niezależnych przebiegów algorytmu. Istotny problem redukcji złożoności ma to swoje znaczenie dla jakości testu chi kwadrat. Chodzi o to, żeby nie było modeli, które są bardzo rzadko odwiedzane. Im mniejsza przestrzeń modeli, tym lepiej.

Dodatkowe aspekty niezależność Problem zależności wygenerowanej próbki: Metody MCMC generują próbkę, gdzie kolejno wygenerowane modele są w oczywisty sposób zależne. Chcemy tego uniknąć, aby uzyskać lepszą próbkę. Wymagane też do testu chi kwadrat. Można to uzyskać przez branie co k tego modelu z wygenerowanej próbki problem estymacji parametru k (np. szukanie wartości własnych macierzy przejścia > metody numeryczne)

Dodatkowe aspekty niezależność Mając naszą próbkę M 1,...,M n aproksymujemy macierz przejścia (P i,j ) i.j=1,...,n P i, j = c i, j c i, gdzie c i,j ilość przejść wykonanych z modelu i do modelu j, c i,. ilość przejść wykonanych z modelu i do jakiegokolwiek innego. Mając macierz P liczymy dla niej drugą co do wielkości wartość własną (pierwsza odpowiada rozkładowi stacjonarnemu i jest równa 1). Wartość określa prędkość, z jaką znika zaburzenie wektora własnego odpowiadającego rozkładowi stacjonarnemu. Jeśli zadowala nas błąd na poziomie 1% to wybieramy co k ty model, gdzie k spełnia k 1%.

Eksploracja danych mikromacierzowych sieci Bayesa Referencje: Źródła obrazków: Dziękuję za uwagę S. El Adlouni, A. C. Favre and B. Bobée (2005). Comparison of methodologies to assess the convergence of Markov chain Monte Carlo methods. Computational Statistics & Data Analysis 50 (2006), pages 2685 2701. S. P. Brooks, P. Giudici and A. Philippe (2003). Nonparametric Convergence Assessment for MCMC Model Selection. Journal of Computational and Graphical Statistics, volume 12, number 1, pages 1 22. M. K. Cowles and B. P. Carlin (1996). Markov Chain Monte Carlo Convergence Diagnostics: A Comparative Review. Journal of the American Statistical Association, volume 91, number 434, pages 883 904. T. Kułaga (2006). The Markov Blanket Concept in Bayesian Networks and Dynamic Bayesian Networks and Convergence Assessment in Graphical Model Selection Problems. Praca magisterska w IM UJ. C. Riggelsen (2005). MCMC Learning of Bayesian Network Models by Markov Blanket Decomposition. ECML, pages 329 340. http://www.nature.com/nrd/journal/v1/n12/images/nrd961 f1.gif http://en.wikipedia.org/wiki/file:affymetrix microarray.jpg Inżynieria Danych, 30 listopada 2009,