Eksploracja danych mikromacierzowych sieci Bayesa. Inżynieria Danych, 30 listopada 2009, Tomasz Kułaga
|
|
- Halina Góra
- 8 lat temu
- Przeglądów:
Transkrypt
1 Eksploracja danych mikromacierzowych sieci Bayesa Inżynieria Danych, 30 listopada 2009,
2 Plan referatu Mikromacierze Model sieci Bayesa Metody Monte Carlo
3 Mikromacierz Płytka z naniesionymi fragmentami sekwencji DNA. Fragmenty te są sondami, które wykrywają przez hybrydyzację komplementarne do siebie cząsteczki DNA lub RNA. Kawałki te są znakowane, dzięki temu można później laserem lub mikroskopem uzyskać obraz ekspresji genów.
4 Mikromacierze Platformy na których przeprowadza się eksperymenty mikromacierzowe mają różne wielkości, od kilku tysięcy do nawet dwóch milionów. Ilość powtórzonych eksperymentów próbek dochodzi w porywach do kilkuset (z reguły nie przekracza 50). Dane te są ogólnodostępne np. przez stronę NCBI
5 Mikromacierze wstępna obróbka Zanim zacznie się analizę, dane z mikromacierzy trzeba poddać wstępnej obróbce: Analiza zeskanowanego obrazu obliczenie intensywności sygnału dla każdej sondy. Odjęcie sygnału tła. Normalizacja danych modyfikacja wartości ekspresji w celu dostosowania do całości eksperymentu lub do zamierzonego rozkładu, niezbędna dla porównywania intensywności między macierzami
6 Mikromacierze Załóżmy, że mamy już przetworzone dane mikromacierzowe dla kilku eksperymentów. I co dalej?... Data table I D_REF VALUE
7 Analiza danych mikromacierzowych Metody obliczeniowe stosowane dla mikromacierzy pozwalają na takie analizy, jak: znajdowanie genów, różniących się ekspresją między próbkami (test T, ANOVA) analiza zmian ekspresji w czasie klasyfikacja i grupowanie genów ze względu na profil ekspresji w próbkach (klastrowanie, analiza głównych składowych) model sieci Bayesa dla obrazowania (dynamicznych lub statycznych) zależności między genami
8 Pojęcie sieci Bayesa Przejrzysty model do obrazowania zależności przyczynowoskutkowych pomiędzy badanymi wielkościami jako (acykliczny) graf skierowany (fakt, że idą czarne chmury ma wpływ na to, czy spadnie deszcz) Idą czarne chmury Pada deszcz Wierzchołki w grafie to zmienne losowe a krawędzie obrazują zależność warunkową. W dalszych rozważaniach zawęzimy się do przypadku, gdzie zmienne losowe są dyskretne.
9 Pojęcie sieci Bayesa Na pełny opis sieci Bayesa składają się oprócz grafu także rozkłady warunkowe Idą czarne chmury Pada deszcz Jaka jest szansa, że pojawią się czarne chmury? Jakie jest prawdopodobieństwo, że spadnie deszcz, jeśli czarne chmury faktycznie idą lub jeśli ich nie ma? Prawd Idą czarne chmury 0.1 Nie idą 0.9 Prawd Idą czarne chmury Tak Nie Pada deszcz Nie pada
10 Pojęcie sieci Bayesa Rozkłady warunkowe bardziej skomplikowany przykład Idą czarne chmury Jaskółki nisko latają Pada deszcz Prawd Idą czarne chmury 0.1 Nie idą 0.9 Prawd Jaskółki nisko latają 0.05 Nie latają 0.95 Prawd Idą czarne chmury Tak Tak Nie Nie Jaskółki nisko latają Tak Nie Tak Nie Pada deszcz Nie pada
11 Dynamiczne sieci Bayesa Często zdarza się, że w eksperymentach mikromacierzowych ekspresja genów mierzona jest przez jakiś czas. Np. tuż po podaniu leku jak i 3, 6, 9, 12 i 24 godziny po. Dane tworzą szereg czasowy. Można to przedstawić używając modelu dynamicznej sieci Bayesa. W najprostszym przypadku interesujemy się tylko zależnościami między dwoma sąsiednimi krokami czasowymi. Zaniedbane zostają połączenia pomiędzy bardziej oddalonymi punktami jak i w obrębie jednego kroku czasowego. Idą czarne chmury Idą czarne chmury Pada deszcz Pada deszcz
12 Dynamiczne sieci Bayesa Aby uprościć ten model wraca się z powrotem do jednego kroku czasowego 'zwijając graf'. Idą czarne chmury Idą czarne chmury Idą czarne chmury Pada deszcz Pada deszcz Pada deszcz Uwaga: powstały graf nie musi być już acykliczny zmienna losowa może wpływać na siebie samą w następnym kroku czasowym (samoregulacja genu).
13 Dynamiczne sieci Bayesa Trzeba pamiętać o pewnych ograniczeniach: Pomijamy interakcje wewnątrz kroku czasowego jak i pomiędzy tymi bardziej oddalonymi. Takie założenie może być oczywiście błędne. Można tego nie zakładać, ale złożoność zagadnienia bardzo znacząco wzrośnie jeszcze do tego wrócimy. W najprostszym przypadku zakładamy, że dynamiczna sieć jest tak naprawdę stała (tak samo wygląda ona pomiędzy momentem tuż po podaniu leku i 3 godziny później, jak i pomiędzy 3 a 6 godzin później). Znów można tego nie zakładać i modelować każdą z sieci z osobną, ale skutkuje to zubożeniem ilości obserwacji, którymi dysponujemy.
14 Jaki model? Główny problem, to znalezienie odpowiedniego grafu, który jak najlepiej wyjaśniałby rozpatrywane zjawisko. Jest jeszcze kwestia rozkładów warunkowych, ale to drugorzędna sprawa.?? Idą czarne chmury Pada deszcz Idą czarne chmury Pada deszcz
15 Jaki model? Szukamy najlepszego (najlepszych) modelu, który wyjaśniałby zgromadzone przez nas dane Idą czarne chmury Pada deszcz tak tak Idą czarne chmury? Pada deszcz tak nie nie tak nie tak nie tak nie nie nie tak nie nie
16 Jaki model? Ocena modelu Czyniąc pewne założenia (niezależność parametrów modelu, rozkład apriori dla parametrów wybrany jako rozkład Dirichleta) i stosując wnioskowanie Bayesowskie dochodzimy do wzoru na prawdopodobieństwo uzyskania naszych obserwacji przy użyciu naszego modelu. W tym wzorze nieznane parametry już nie występują. P D M = i=1 n i a i a i d i x i a i, x i d i, x i a i, x i gdzie: D zbiór obserwacji, M oceniany model, funkcja Gamma Eulera dość złożona obliczeniowo, a wektor obserwacji apriori, d wektor faktycznie zanotowanych obserwacji.
17 Jaki model? Wyprowadziliśmy więc wzór na P(D M). Korzystając ze wzoru na prawodopodobieństwo całkowite otrzymujemy P M D = P D M P M m P D m P m Pojawia się pewien problem. Żeby policzyć coś takiego, musimy wcześniej policzyć P(D m) dla wszystkich modeli m. Pytanie do sali: Ile jest wszystkich modeli? Innymi słowy, ile różnych grafów (acyklicznych) można zbudować dla n wierzchołków? (n dla mikromacierzy to przynajmniej kilka tysięcy)
18 Jaki model? Liczba możliwych modeli, które rozważamy jest super eksponencjalna, tzn. 2 n*n. To co możemy łatwo zrobić, to porównać dwie oceny modeli, która jest większa i o ile (albo ile razy). Dzięki temu można skupić się na heurystycznych algorytmach przeszukujących, np.: greedy search, best fit search albo na metodach Monte Carlo.?? Idą czarne chmury Pada deszcz Idą czarne chmury Pada deszcz
19 Redukcja złożoności Można próbować redukować złożoność problemu przeprowadzając najpierw np. klasteryzację a dopiero później szukać jakichś zależności między klastrami. Jednak trzeba być ostrożnym budując klaster posługujemy się później tak naprawdę jakimś reprezentantem tego klastra (np, średnia wartość, jakiś środkowy 'osobnik'). Jeśli wykażemy jakąś zależność między tymi reprezentantami wcale nie musimy mieć racji w sensie całego klastra. Część zależności będzie także w oczywisty sposób niedostrzegalna.
20 Metody Monte Carlo (MCMC) Stosując metody Monte Carlo można m.in. uzyskać próbkę z rozkładu, który znamy tylko z dokładnością do stałej normującej (całka lub suma nie wynosi 1). Idea symulacji: zaczynamy z pewnego, bliżej nieokreślonego modelu (może być wybrany arbitralnie lub losowo), przechodzimy do następnego posługując się macierzą przejścia, po odpowiednio długiej symulacji stwierdzamy, że ostatni uzyskany model (lub wszystkie uzyskane do tej pory modele) pochodzi z naszego prawdziwego rozkładu
21 Metody Monte Carlo (MCMC) Dwa najpopularniejsze algorytmy (a właściwie jeden): Próbkowanie Gibbs'a Mając ustalony model (graf), wybieramy dwa wierzchołki a i b. Liczymy ocenę dwóch modeli z krawędzią a >b i bez niej. Losujemy, który z tych modeli będzie naszym następnym w symulacji z rozkładu dwupunktowego, proporcjonalnego do ocen. Metropolis Hastings Mając ustalony model, usuwamy lub dodajemy losową krawędź. Akceptujemy tą zmianę z pewnym prawdopodobieństwem, które zależy od ocen modelu obecnego i proponowanego Próbkowanie Gibbs'a jest specjalną odmianą Metropolisa Hastingsa
22 Czego szukamy? Możliwe faktyczne pytania: czy aktywność genu A reguluje w jakiś sposób ekspresję genu B? jakie geny wpływają na ekspresję genu A? które geny mają wpływ na pojawienie się danego schorzenia? jaka jest ścieżka aktywności genów? itp... Dodatkowe korzyści ze stosowania MCMC: Łatwiej odpowiedzieć na powyższe pytania dysponując próbką z rozkładu modeli Liczymy wartość oczekiwaną odpowiedniej zmiennej losowej (cechy modelu). Np. zliczamy w ilu modelach wystąpiła krawędź od genu A do genu B.
23 Dodatkowe aspekty dyskretyzacja Surowe dane z eksperymentów z mikromacierzami mają charakter ciągły (ekspresja genów). W prezentowanym podejściu sieci Bayesa zakładają dyskretne wartości węzłów (gen aktywny, nieaktywny, itd... im mniej tym mniejsza złożoność modelu). Pytanie jak to robić? Jak wybierać progowe wartości dla klasyfikowania genu jako aktywny, nieaktywny itp. Różne progi będą prowadzić do innych wniosków.
24 Dodatkowe aspekty ocena zbieżności algorytmu Pytanie: W którym momencie uznajemy, że algorytm wyprodukował zadowalającą nas próbkę. Możliwe podejście test chi kwadrat na przynależność do danego rozkładu. Polega on na porównaniu otrzymanych rozkładów dla kilku niezależnych przebiegów algorytmu. Istotny problem redukcji złożoności ma to swoje znaczenie dla jakości testu chi kwadrat. Chodzi o to, żeby nie było modeli, które są bardzo rzadko odwiedzane. Im mniejsza przestrzeń modeli, tym lepiej.
25 Dodatkowe aspekty niezależność Problem zależności wygenerowanej próbki: Metody MCMC generują próbkę, gdzie kolejno wygenerowane modele są w oczywisty sposób zależne. Chcemy tego uniknąć, aby uzyskać lepszą próbkę. Wymagane też do testu chi kwadrat. Można to uzyskać przez branie co k tego modelu z wygenerowanej próbki problem estymacji parametru k (np. szukanie wartości własnych macierzy przejścia > metody numeryczne)
26 Dodatkowe aspekty niezależność Mając naszą próbkę M 1,...,M n aproksymujemy macierz przejścia (P i,j ) i.j=1,...,n P i, j = c i, j c i, gdzie c i,j ilość przejść wykonanych z modelu i do modelu j, c i,. ilość przejść wykonanych z modelu i do jakiegokolwiek innego. Mając macierz P liczymy dla niej drugą co do wielkości wartość własną (pierwsza odpowiada rozkładowi stacjonarnemu i jest równa 1). Wartość określa prędkość, z jaką znika zaburzenie wektora własnego odpowiadającego rozkładowi stacjonarnemu. Jeśli zadowala nas błąd na poziomie 1% to wybieramy co k ty model, gdzie k spełnia k 1%.
27 Eksploracja danych mikromacierzowych sieci Bayesa Referencje: Źródła obrazków: Dziękuję za uwagę S. El Adlouni, A. C. Favre and B. Bobée (2005). Comparison of methodologies to assess the convergence of Markov chain Monte Carlo methods. Computational Statistics & Data Analysis 50 (2006), pages S. P. Brooks, P. Giudici and A. Philippe (2003). Nonparametric Convergence Assessment for MCMC Model Selection. Journal of Computational and Graphical Statistics, volume 12, number 1, pages M. K. Cowles and B. P. Carlin (1996). Markov Chain Monte Carlo Convergence Diagnostics: A Comparative Review. Journal of the American Statistical Association, volume 91, number 434, pages T. Kułaga (2006). The Markov Blanket Concept in Bayesian Networks and Dynamic Bayesian Networks and Convergence Assessment in Graphical Model Selection Problems. Praca magisterska w IM UJ. C. Riggelsen (2005). MCMC Learning of Bayesian Network Models by Markov Blanket Decomposition. ECML, pages f1.gif microarray.jpg Inżynieria Danych, 30 listopada 2009,
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego
Dane mikromacierzowe. Mateusz Markowicz Marta Stańska
Dane mikromacierzowe Mateusz Markowicz Marta Stańska Mikromacierz Mikromacierz DNA (ang. DNA microarray) to szklana lub plastikowa płytka (o maksymalnych wymiarach 2,5 cm x 7,5 cm) z naniesionymi w regularnych
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova M. Czoków, J. Piersa 2010-12-21 1 Definicja Własności Losowanie z rozkładu dyskretnego 2 3 Łańcuch Markova Definicja Własności Losowanie z rozkładu
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa Wojciech Niemiro 1 Uniwersytet Warszawski i UMK Toruń XXX lat IMSM, Warszawa, kwiecień 2017 1 Wspólne prace z Błażejem Miasojedowem,
Wykład 9: Markov Chain Monte Carlo
RAP 412 17.12.2008 Wykład 9: Markov Chain Monte Carlo Wykładowca: Andrzej Ruciński Pisarz: Ewelina Rychlińska i Wojciech Wawrzyniak Wstęp W tej części wykładu zajmiemy się zastosowaniami łańcuchów Markowa
Procesy stochastyczne
Wykład IV: dla łańcuchów Markowa 14 marca 2017 Wykład IV: Klasyfikacja stanów Kiedy rozkład stacjonarny jest jedyny? Przykład Macierz jednostkowa I wymiaru #E jest macierzą stochastyczną. Dla tej macierzy
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.
Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku. Uogólnienie na przeliczalnie nieskończone przestrzenie stanów zostało opracowane
Algorytmy stochastyczne, wykład 08 Sieci bayesowskie
Algorytmy stochastyczne, wykład 08 Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2014-04-10 Prawdopodobieństwo Prawdopodobieństwo Prawdopodobieństwo warunkowe Zmienne
Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)
Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation) Jest to technika probabilistyczna rozwiązywania problemów obliczeniowych, które mogą zostać sprowadzone do problemu znalezienie
Analiza zmienności czasowej danych mikromacierzowych
Systemy Inteligencji Obliczeniowej Analiza zmienności czasowej danych mikromacierzowych Kornel Chromiński Instytut Informatyki Uniwersytet Śląski Plan prezentacji Dane mikromacierzowe Cel badań Prezentacja
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich
Algorytmy stochastyczne Wykład 2, Uczenie parametryczne w sieciach bayesowskich Jarosław Piersa 204-05-22 Zagadnienie uczenia sieci bayesowskich Problem mamy strukturę sieci bayesowskiej węzły, stany i
Sieci Bayesa mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2011
Sieci Bayesa mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2011 Sieć Bayesowska służy do przedstawiania zależności pomiędzy zdarzeniami bazując na rachunku prawdopodobieństwa.
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych
Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych Probabilistic Topic Models Jakub M. TOMCZAK Politechnika Wrocławska, Instytut Informatyki 30.03.2011, Wrocław Plan 1. Wstęp
Algorytmy wyznaczania centralności w sieci Szymon Szylko
Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II
Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Grafy Alberta-Barabasiego
Spis treści 2010-01-18 Spis treści 1 Spis treści 2 Wielkości charakterystyczne 3 Cechy 4 5 6 7 Wielkości charakterystyczne Wielkości charakterystyczne Rozkład stopnie wierzchołków P(deg(x) = k) Graf jest
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Prawdopodobieństwo i statystyka
Wykład XIV: Metody Monte Carlo 19 stycznia 2016 Przybliżone obliczanie całki oznaczonej Rozważmy całkowalną funkcję f : [0, 1] R. Chcemy znaleźć przybliżoną wartość liczbową całki 1 f (x) dx. 0 Jeden ze
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko
MIKROMACIERZE dr inż. Aleksandra Świercz dr Agnieszka Żmieńko Informacje ogólne Wykłady będą częściowo dostępne w formie elektronicznej http://cs.put.poznan.pl/aswiercz aswiercz@cs.put.poznan.pl Godziny
Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).
Algorytm A* Opracowanie: Joanna Raczyńska 1.Wstęp Algorytm A* jest heurystycznym algorytmem służącym do znajdowania najkrótszej ścieżki w grafie. Jest to algorytm zupełny i optymalny, co oznacza, że zawsze
Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych
Gdańsk, Warsztaty pt. Układy Złożone (8 10 maja 2014) Agata Fronczak Zakład Fizyki Układów Złożonych Wydział Fizyki Politechniki Warszawskiej Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań
Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez
REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a
Bioinformatyka, edycja 2016/2017, laboratorium
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: dr Jacek Śmietański Mikromacierze 1. Mikromacierze wprowadzenie Mikromacierze to technologia pozwalająca na pomiar aktywności genów w komórce.
5 Błąd średniokwadratowy i obciążenie
5 Błąd średniokwadratowy i obciążenie Przeprowadziliśmy 200 powtórzeń przebiegu próbnika dla tego samego zestawu parametrów modelowych co w Rozdziale 1, to znaczy µ = 0, s = 10, v = 10, n i = 10 (i = 1,...,
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
Algorytm Metropolisa-Hastingsa
Seminarium szkoleniowe, 25 kwietnia 2006 Plan prezentacji 1 Problem Metoda MCMC 2 Niezależny algorytm Metropolisa-Hastingsa Bła dzenie losowe Zbieżność procedury Metropolisa-Hastingsa Problem Metoda MCMC
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH
POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH Barbara Popowska bpopowsk@math.put.poznan.pl Politechnika Poznańska http://www.put.poznan.pl/ PROGRAM REFERATU 1. WPROWADZENIE 2. GRAF JAKO MODEL
Algorytmy zrandomizowane
Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik
Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze
Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze Small n large p problem Problem w analizie wielu zbiorów danych biologicznych: bardzo mała liczba obserwacji (rekordów, próbek) rzędu
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno
MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA Biomatematyka Dr Wioleta Drobik-Czwarno Polecane Łańcuchy Markowa wizualnie: http://setosa.io/ev/markov-chains/ Procesy stochastyczne Procesem stochastycznym
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego
Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Piotr Rybak Koło naukowe fizyków Migacz, Uniwersytet Wrocławski Piotr Rybak (Migacz UWr) Odkrywanie algorytmów kwantowych 1 / 17 Spis
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Statystyczna analiza danych
Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia
Jak zawsze wyjdziemy od terminologii. While oznacza dopóki, podczas gdy. Pętla while jest
Pętle Pętla to pewien fragment kodu, który jest wykonywany wielokrotnie. Wyobraź sobie taką sytuację. Piszesz program do szyfrowania danych. Dane są szyfrowane kolejno bajt po bajcie. Załóżmy, że plik
Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski
Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski 24.5.2 Pomiar bezpośredni IGF, 24.5.2 IGF - Pomiar pośredni IGF, 24.5.2 IGF - 2 Interpretacja matematyczna m m + dm m d + dd d = G(m)
Materiały dla finalistów
Materiały dla finalistów Malachoviacus Informaticus 2016 11 kwietnia 2016 Wprowadzenie Poniższy dokument zawiera opisy zagadnień, które będą niezbędne do rozwiązania zadań w drugim etapie konkursu. Polecamy
Estymacja parametrów, przedziały ufności etc
Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,
Maciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Lista 6. Kamil Matuszewski 13 kwietnia D n =
Lista 6 Kamil Matuszewski 3 kwietnia 6 3 4 5 6 7 8 9 Zadanie Mamy Pokaż, że det(d n ) = n.... D n =.... Dowód. Okej. Dla n =, n = trywialne. Załóżmy, że dla n jest ok, sprawdzę dla n. Aby to zrobić skorzystam
MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH
Inżynieria Rolnicza 7(105)/2008 MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH Katedra Podstaw Techniki, Uniwersytet Przyrodniczy w Lublinie Streszczenie. Zastosowanie sieci bayesowskiej
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Modelowanie sieci złożonych
Modelowanie sieci złożonych B. Wacław Instytut Fizyki UJ Czym są sieci złożone? wiele układów ma strukturę sieci: Internet, WWW, sieć cytowań, sieci komunikacyjne, społeczne itd. sieć = graf: węzły połączone
PODSTAWY MODELOWANIA UKŁADÓW DYNAMICZNYCH W JĘZYKACH SYMULACYJNYCH
PODSTAWY MODELOWANIA UKŁADÓW DYNAMICZNYCH W JĘZYKACH SYMULACYJNYCH ( Na przykładzie POWERSIM) M. Berndt-Schreiber 1 Plan Zasady modelowania Obiekty symbole graficzne Dyskretyzacja modelowania Predefiniowane
ALHE. prof. Jarosław Arabas semestr 15Z
ALHE prof. Jarosław Arabas semestr 15Z Wykład 5 Błądzenie przypadkowe, Algorytm wspinaczkowy, Przeszukiwanie ze zmiennym sąsiedztwem, Tabu, Symulowane wyżarzanie 1. Błądzenie przypadkowe: Pierwszym krokiem
Znajdowanie wyjścia z labiryntu
Znajdowanie wyjścia z labiryntu Zadanie to wraz z problemem pakowania najcenniejszego plecaka należy do problemów optymalizacji, które dotyczą znajdowania najlepszego rozwiązania wśród wielu możliwych
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Algorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne
Algorytmy mrówkowe H. Bednarz Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne 13 kwietnia 2015 1 2 3 4 Przestrzeń poszukiwań Ograniczenia
Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski
Sieci komputerowe Wykład 8: Wyszukiwarki internetowe Marcin Bieńkowski Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe (II UWr) Wykład 8 1 / 37 czyli jak znaleźć igłę w sieci Sieci komputerowe
Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Seminarium IO. Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem. Michał Okulewicz
Seminarium IO Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem Michał Okulewicz 05.11.2013 Plan prezentacji Przypomnienie Problem DVRP Algorytm UCT Zastosowanie algorytmu UCT/PSO w DVRP Zastosowanie
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe Wykład 10 Modele przełącznikowe Markowa Literatura P.H.Franses, D. van Dijk (2000) Non-linear time series models in empirical finance, Cambridge University Press. R. Breuning,
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek
Janusz Adamowski METODY OBLICZENIOWE FIZYKI 1 Rozdział 20 KWANTOWE METODY MONTE CARLO 20.1 Kwantowa wariacyjna metoda Monte Carlo Problem własny dla stanu podstawowego układu N cząstek (H E 0 )ψ 0 (r)
Podejście memetyczne do problemu DCVRP - wstępne wyniki. Adam Żychowski
Podejście memetyczne do problemu DCVRP - wstępne wyniki Adam Żychowski Na podstawie prac X. S. Chen, L. Feng, Y. S. Ong A Self-Adaptive Memeplexes Robust Search Scheme for solving Stochastic Demands Vehicle
Przykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór
Katarzyna Jesionek Zastosowanie symulacji dynamiki cieczy oraz ośrodków sprężystych w symulatorach operacji chirurgicznych.
Katarzyna Jesionek Zastosowanie symulacji dynamiki cieczy oraz ośrodków sprężystych w symulatorach operacji chirurgicznych. Jedną z metod symulacji dynamiki cieczy jest zastosowanie metody siatkowej Boltzmanna.
BIOINFORMATYKA. Copyright 2011, Joanna Szyda
BIOINFORMATYKA 1. Wykład wstępny 2. Struktury danych w badaniach bioinformatycznych 3. Bazy danych: projektowanie i struktura 4. Bazy danych: projektowanie i struktura 5. Powiązania pomiędzy genami: równ.
Praktyczne aspekty statycznej estymacji stanu pracy elektroenergetycznych sieci dystrybucyjnych w warunkach krajowych
ZARZĄDZANIE ENERGIĄ I TELEINFORMATYKA, ZET 03 Praktyczne aspekty statycznej estymacji stanu pracy elektroenergetycznych sieci dystrybucyjnych w warunkach krajowych Jacek Wasilewski Politechnika Warszawska
Algorytmy metaheurystyczne Wykład 6. Piotr Syga
Algorytmy metaheurystyczne Wykład 6 Piotr Syga 10.04.2017 Wprowadzenie Inspiracje Wprowadzenie ACS idea 1 Zaczynamy z pustym rozwiązaniem początkowym 2 Dzielimy problem na komponenty (przedmiot do zabrania,
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Etapy modelowania ekonometrycznego
Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne
Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Elementy modelowania matematycznego
Elementy modelowania matematycznego Łańcuchy Markowa: zagadnienia graniczne. Ukryte modele Markowa. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ KLASYFIKACJA STANÓW Stan i jest osiągalny